Cours Apprentissage 3 : Arbres de décision

Cours Apprentissage 3 : Arbres de decision

Ludovic DENOYER - [email protected]

30 mars 2012

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Contexte : Classification

Notations

On a N exemples notes xi qui contiennent P attributsqualitatifs ou quantitatifs

On a C categories possibles

On cherche la fonction de classification f (xi )→ y ou yy est l’unedes C categories

Differences

On parle de classification multiclasse (monolabel)

Les donnees d’entree peuvent etre qualitatives (pasuniquement vectorielles)


Donnees


Ensemble d’apprentissage


Arbres de decision : principes

Definition

Un arbre de decision est un classifieur represente sous formed’arbre tel que :

Les noeuds de l’arbre testent les attributs

Il y a une branche pour chaque valeur possible de l’attributteste

Les feuilles specifient les categories (deux ou plus)


Exemple


Exemple


Exemple


Exemple


Exemple


Interet

Interets

Les arbres de decision sont des classifieurs interpretables -contrairement aux perceptrons ou KNN par exemple

Ils fonctionnent facilement sur donnees qualitatives

Ils fonctionnent bien (tant que le nombre de caracteristiquesn’est pas trop grand)

Inconvenients

Ils ne sont pas si interpretables que cela..

Ils sont lents et instables pendant l’apprentissage


Interpretabilite

Avantage

Les Arbres de decisions permettent d’obtenir des fonctions dedecision utilisables ”par un humain”

d’ou utilisation de ces arbres pour la decouvertes de proprietes.


Interpretabilite

Toute fonction booleenne peut se representer comme un arbrede decision

Selon les fonctions a representer les arbres sont plus ou moinsgrands

Un arbre peut se representer par une disjonction de regles

(Si Plumes = non Alors Classe= pas-oiseau)

ou (Si Plumes = oui ET Couleur= brun Alors Classe= pas-oiseau)

ou (Si Plumes = oui ET Couleur= BN Alors Classe=oiseau)

ou (Si Plumes = oui ET Couleur= jaune Alors Classe=oiseau)


Interpretabilite....

Toute fonction booleenne peut se representer comme un arbrede decision

Rappel : avec 6 attributs booleens, on peut definir environ 2milliards de fonctions booleenes..

Selon les fonctions a representer les arbres sont plus ou moinsgrands

La taille de l’arbre peut grandir exponentiellement !

Un arbre peut se representer par une disjonction de regles

Limite a la logique des propositions (on ne represente pas derelations)


Interpretabilite....


Apprentissage

Apprentissage des DTs

A partir d’un jeu de donnees d’apprentissage, comment construireautomatiquement un arbre de decision efficace ?

Il y a le plus souvent de nombreux arbres de decision possiblescorrects.

Enumeration exhaustive impossible (NP-complet)

4 attributs et 3 valeurs = 55 296 arbres possibles


Apprentissage

Soit la basse de donnee suivante :

Quel arbre est la plus approrie ?


Apprentissage

Apprentissage des DTs

A partir d’un jeu de donnees d’apprentissage, comment construireautomatiquement un arbre de decision efficace ?

Enumeration NP-complet

Solution : Construction iterative de l’arbre (methode gloutonne, cfCours de RP)


Apprentissage


Idee

Construction de la racine vers les feuilles

l’attribut le plus informatif est selectionne pour construire unnœud de l’arbre

Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...

Criteres d’une bonne mesure de discrimination :

obtenir des nœuds coherentsminimiser la taille de l’arbrefounir de bons resultats en classification

Role de la mesure de discrimination :

mesure de la predictabilite de la valeur ck de C a partir d’unevaleur vi de Amesure du pouvoir de discrimination de l’attribut A envers laclasse C


Idee

Construction de la racine vers les feuilles

l’attribut le plus informatif est selectionne pour construire unnœud de l’arbre

Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...

Criteres d’une bonne mesure de discrimination :

obtenir des nœuds coherentsminimiser la taille de l’arbrefounir de bons resultats en classification

Role de la mesure de discrimination :

mesure de la predictabilite de la valeur ck de C a partir d’unevaleur vi de Amesure du pouvoir de discrimination de l’attribut A envers laclasse C


Construction d’un arbre


Mesure de discrimination classique

Utilisation de l’entropie de Shannon :

HS(C |A) = −∑i

P(vi )∑k

P(ck |vi ) log(P(ck |vi ))

Mesure issue de la theorie de l’information

initiee par C.E. Shannon en 1948

Mesure un taux de desordre


Mesure de discrimination classique : 2 Classes

Utilisation de l’entropie de Shannon - Si 2 classes :

HS(C |A) = −P+ logP+ − P− logP−


Construction de l’arbre : cas general

Algorithme d’apprentissage

1 Calculer H(C |Aj) pour tous les attributs Aj

2 Choisir l’attribut Aj qui minimise H(C |Aj)

creer un nœud dans l’arbre de decision

3 A l’aide de Aj , partitionner la base d’apprentissage


Exemple


Exemple


Exemple


Exemple


Entrees continues

Problematique

Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?


Discretisation

Problematique


Solution :

On discretise : transformation d’une variable continue en une ouplusieurs variables discrete


Discretisation

Problematique


Solution :

On discretise : transformation d’une variable continue en une ouplusieurs variables discrete


Exemple


Exemple


Algorithme C4.5

Check for base cases

For each attribute a

Find the normalized information gain from splitting on a

Let a best be the attribute with the highest normalizedinformation gain

Create a decision node that splits on a best

Recurse on the sublists obtained by splitting on a best, andadd those nodes as children of node


Sur-Apprentissage

Elagage a posteriori

Idee : Elaguer apres la construction de l’arbre entier, en remplacantles sous-arbres optimisant un critere d’elagage par un noeud.Nombreuses methodes. Encore beaucoup de recherches.

Minimal Cost-Complexity Pruning (MCCP) (Breiman etal.,84)

Reduced Error Pruning (REP) (Quinlan,87,93)

Minimum Error Pruning (MEP) (Niblett & Bratko,86)

Critical Value Pruning (CVP) (Mingers,87)

Pessimistic Error Pruning (PEP) (Quinlan,87)

Error-Based Pruning (EBP) (Quinlan,93) (utilise dans C4.5)

...


Conclusion

Approprie pour :

Classification de formes decrites en attributs-valeurs

Attributs a valeurs discretes

Resistant au bruit

Strategie :

Recherche par construction incrementale d’hypothese

Critere local (gradient) fonde sur critere statistique

Engendre

Arbre de decision interpretable (e.g. regles de production)

Necessite controle de la taille de l’arbre


Documents

Cours Apprentissage 3 : Arbres de décision