15
1 Les Arbres de décision ou régression

Les Arbres de décision ou régression

Embed Size (px)

DESCRIPTION

Les Arbres de décision ou régression. Contexte. Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: Âge, revenu, étudiant ou non,cote de crédit - PowerPoint PPT Presentation

Citation preview

Page 1: Les Arbres de décision ou régression

1

Les Arbres de décision ou régression

Page 2: Les Arbres de décision ou régression

2

Contexte Supposons que nous désirons comprendre

ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: Âge, revenu, étudiant ou non,cote de crédit

Quel raisonnement ou démarche fait-on naturellement pour établir ce profil?

Page 3: Les Arbres de décision ou régression

3

Les arbres de décision Les arbres de décision sont utilisés pour la

prédiction ou l’explication d’une variable cible (Y)(target variable, variable dépendante) à partir d’un ensemble de variable explicatives (X) (input variables, variables indépendantes)

Le principe des arbres de décision est de diviser l’ensemble des données d’apprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.

Page 4: Les Arbres de décision ou régression

4

Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou d’identifier qu’elles sont les variables qui discriminent le plus la variable cible.

Page 5: Les Arbres de décision ou régression

5

Exempleage revenu etudiant credit achat

<=30 eleve non bon non<=30 eleve non excellent non31-40 eleve non bon oui>40 moyen non bon oui>40 faible oui bon oui>40 faible oui excellent non31-40 faible oui excellent oui<=30 moyen non bon non<=30 faible oui bon oui>40 moyen oui bon oui<=30 moyen oui excellent oui31-40 moyen non excellent oui31-40 eleve oui bon oui>40 moyen non excellent non

Page 6: Les Arbres de décision ou régression

6

Exemple d’un arbre de décision

Achat:Non=5 Oui=9

Age:31-40Non=0Oui=4

Age:>40Non=2Oui=3

Age<=30Non=3Oui=2

Page 7: Les Arbres de décision ou régression

7

Achat: Non=5 Oui=9

Age:31-40Non=0Oui=4

Age:>40Non=2Oui=3

Age<=30Non=3Oui=2

Étudiant=nonNon=3Oui=0

Étudiant=ouiNon=0Oui=2

Page 8: Les Arbres de décision ou régression

8

Achat: Non=5 Oui=9

Age:31-40Non=0Oui=4

Age:>40Non=2Oui=3

Age<=30Non=3Oui=2

Étudiant=nonNon=3Oui=0

Étudiant=ouiNon=0Oui=2

Crédit=bon Non=0Oui=3

Crédit=exc. Non=2Oui=0

Page 9: Les Arbres de décision ou régression

9

Algorithmes et logiciels les plus répandus pour construire les arbres de décision:

CHAID Chi-Square Automatic Interaction Detection (1975)

CART Classification And Regression Trees (Breiman et al., 1984)

Knowledge seeker

Page 10: Les Arbres de décision ou régression

10

Algorithme1) Pour chaque nœud de l’arbre:

Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré.

Après le jumelage des modalités pour chaque X,

Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit.

2) Pour chaque nœud fils suivant, reprise des étapes a) et b)

3) Le processus s’arrête lorsque à tous les nœuds de l’arbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value >

Page 11: Les Arbres de décision ou régression

11

Conditions d’arrêt de la croissance de l’arbre Développement de l’arbre complet:

toutes les observations dans le nœud appartiennent à la même classe de la variable cible;

il n’y a plus de variables explicatives X à considérer pour poursuivre la croissance de l’arbre;

trop peu d’observations dans le nœud pour poursuivre.

Page 12: Les Arbres de décision ou régression

12

L’élagage (pruning) L’arbre complet est le meilleur, en terme

de taux d’erreur, pour prédire la variable cible, pour l’ensemble des données d’apprentissage!

Qu’en est-il pour un nouvel ensemble de données? L’arbre complet n’est probablement pas la

meilleure solution! Évaluer les sous-arbres:

Utiliser un échantillon de validation. Utiliser la validation croisé.

Page 13: Les Arbres de décision ou régression

13

Avantages des arbres de décision Règles simples et facilement

interprétables. Traitement des valeurs manquantes. Aucun modèle et aucun présupposé

à satisfaire.

Page 14: Les Arbres de décision ou régression

14

Désavantages Peu performants lorsqu’il y a

beaucoup de classes. Taux d’erreurs élevés lorsqu’il y a

des régions non rectangulaires Peu faire de l‘overfit’ si on ne

contrôle pas le nombre minimum d’observation par nœuds.

Page 15: Les Arbres de décision ou régression

15

Construire un arbre à partir d’excel Nous pouvons générer un arbre

manuellement à partir d’excel: On utiliser la fonction ‘pivot tables’ pour

obtenir nous comptes On utilise les utilitaire graphiques

d’excel. Exemple.