Les arbres de décisions

Un arbre de décision est un algorithme d'apprentissage supervisé non paramétrique utilisé pour les tâches de classification et de régression. Sa structure en forme d'arbre comprend un nœud racine, des branches, des nœuds internes et des nœuds feuilles.

@Le guide en science de données (arbre de classification)

Dans la plupart des algorithmes, ce modèle utilise une des deux mesures suivantes : le coefficient de Gini et l'entropie. Le coefficient de Gini mesure l'impureté d'une division de données à un nœud donné, tandis que l'entropie quantifie l'incertitude ou le désordre dans un ensemble de données. Ces mesures sont utilisées pour déterminer la meilleure séparation des données à chaque nœud de l'arbre, garantissant ainsi des divisions qui maximisent la pureté des sous-groupes résultants. (La base du log ne change rien par convention on prend ln.)

Exemple avec l'algorithme ID3 (Arbres de classifications) :

Puis refaire pour chaque critères (ex : Deuxième : cc, ccc…; …)

Le score le plus faible, gagne pour être le critère du premier nœud. On recommence ensuite en prenant en compte seulement les données pour chaque nouveau nœud et en déterminant le critère du nouveau nœud parmi les critères restants.

Algorithme CART :

CART (Classification And Regression Trees). CART est un algorithme d'apprentissage automatique puissant et largement utilisé pour la classification et la régression. Il est basé sur la construction d'un arbre binaire en partitionnant récursivement les données et en ajustant un modèle simple dans chaque feuille de l'arbre.

Voici un résumé des points clés :

Données d'entrée : Les données d'entrée pour CART sont généralement constituées de n individus avec p variables (Xi, k) pour 1 ≤ i ≤ n et 1 ≤ k ≤ p, ainsi qu'une réponse Yi, qui peut être continue pour une régression ou discrète pour une classification.

Modèle d'arbre binaire : CART est un algorithme de construction d'arbre binaire. Cela signifie qu'à chaque étape, il divise l'ensemble de données en deux sous-ensembles selon une règle de partition basée sur une variable d'entrée. Cela se poursuit de manière récursive jusqu'à ce qu'un critère d'arrêt soit atteint.

Modèle local : Contrairement à certains modèles globaux comme la régression linéaire, CART est un modèle local. Cela signifie qu'il modélise les relations entre les variables indépendamment dans chaque élément de la partition (les feuilles de l'arbre).

Partitionnement récursif : L'algorithme CART effectue un partitionnement récursif des données en choisissant itérativement la variable de partition et le point de coupure qui optimise un critère spécifique. Pour les problèmes de classification, le critère pourrait être l'indice de Gini ou l'entropie, tandis que pour les problèmes de régression, cela pourrait être la réduction de la somme des carrés des résidus (RSS).

Modèle simple dans chaque feuille : Une fois que l'arbre est construit, chaque feuille de l'arbre représente un sous-ensemble homogène des données. Dans chaque feuille, un modèle simple est ajusté pour prédire la réponse. Par exemple, pour la régression, la moyenne des réponses dans la feuille peut être utilisée, tandis que pour la classification, la classe majoritaire peut être attribuée.

Variables d'entrée : Les variables Xj peuvent être de tout type, cependant, CART est particulièrement efficace pour les variables continues ou catégorielles.