Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Cours Apprentissage 3 : Arbres de decision
Ludovic DENOYER - [email protected]
30 mars 2012
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Contexte : Classification
Notations
On a N exemples notes xi qui contiennent P attributsqualitatifs ou quantitatifs
On a C categories possibles
On cherche la fonction de classification f (xi )→ y ou yy est l’unedes C categories
Differences
On parle de classification multiclasse (monolabel)
Les donnees d’entree peuvent etre qualitatives (pasuniquement vectorielles)
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Donnees
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Ensemble d’apprentissage
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Arbres de decision : principes
Definition
Un arbre de decision est un classifieur represente sous formed’arbre tel que :
Les noeuds de l’arbre testent les attributs
Il y a une branche pour chaque valeur possible de l’attributteste
Les feuilles specifient les categories (deux ou plus)
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Interet
Interets
Les arbres de decision sont des classifieurs interpretables -contrairement aux perceptrons ou KNN par exemple
Ils fonctionnent facilement sur donnees qualitatives
Ils fonctionnent bien (tant que le nombre de caracteristiquesn’est pas trop grand)
Inconvenients
Ils ne sont pas si interpretables que cela..
Ils sont lents et instables pendant l’apprentissage
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Interpretabilite
Avantage
Les Arbres de decisions permettent d’obtenir des fonctions dedecision utilisables ”par un humain”
d’ou utilisation de ces arbres pour la decouvertes de proprietes.
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Interpretabilite
Toute fonction booleenne peut se representer comme un arbrede decision
Selon les fonctions a representer les arbres sont plus ou moinsgrands
Un arbre peut se representer par une disjonction de regles
(Si Plumes = non Alors Classe= pas-oiseau)
ou (Si Plumes = oui ET Couleur= brun Alors Classe= pas-oiseau)
ou (Si Plumes = oui ET Couleur= BN Alors Classe=oiseau)
ou (Si Plumes = oui ET Couleur= jaune Alors Classe=oiseau)
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Interpretabilite....
Toute fonction booleenne peut se representer comme un arbrede decision
Rappel : avec 6 attributs booleens, on peut definir environ 2milliards de fonctions booleenes..
Selon les fonctions a representer les arbres sont plus ou moinsgrands
La taille de l’arbre peut grandir exponentiellement !
Un arbre peut se representer par une disjonction de regles
Limite a la logique des propositions (on ne represente pas derelations)
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Interpretabilite....
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Apprentissage
Apprentissage des DTs
A partir d’un jeu de donnees d’apprentissage, comment construireautomatiquement un arbre de decision efficace ?
Il y a le plus souvent de nombreux arbres de decision possiblescorrects.
Enumeration exhaustive impossible (NP-complet)
4 attributs et 3 valeurs = 55 296 arbres possibles
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Apprentissage
Soit la basse de donnee suivante :
Quel arbre est la plus approrie ?
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Apprentissage
Apprentissage des DTs
A partir d’un jeu de donnees d’apprentissage, comment construireautomatiquement un arbre de decision efficace ?
Enumeration NP-complet
Solution : Construction iterative de l’arbre (methode gloutonne, cfCours de RP)
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Apprentissage
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Idee
Construction de la racine vers les feuilles
l’attribut le plus informatif est selectionne pour construire unnœud de l’arbre
Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...
Criteres d’une bonne mesure de discrimination :
obtenir des nœuds coherentsminimiser la taille de l’arbrefounir de bons resultats en classification
Role de la mesure de discrimination :
mesure de la predictabilite de la valeur ck de C a partir d’unevaleur vi de Amesure du pouvoir de discrimination de l’attribut A envers laclasse C
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Idee
Construction de la racine vers les feuilles
l’attribut le plus informatif est selectionne pour construire unnœud de l’arbre
Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...
Criteres d’une bonne mesure de discrimination :
obtenir des nœuds coherentsminimiser la taille de l’arbrefounir de bons resultats en classification
Role de la mesure de discrimination :
mesure de la predictabilite de la valeur ck de C a partir d’unevaleur vi de Amesure du pouvoir de discrimination de l’attribut A envers laclasse C
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Construction d’un arbre
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Mesure de discrimination classique
Utilisation de l’entropie de Shannon :
HS(C |A) = −∑i
P(vi )∑k
P(ck |vi ) log(P(ck |vi ))
Mesure issue de la theorie de l’information
initiee par C.E. Shannon en 1948
Mesure un taux de desordre
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Mesure de discrimination classique : 2 Classes
Utilisation de l’entropie de Shannon - Si 2 classes :
HS(C |A) = −P+ logP+ − P− logP−
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Construction de l’arbre : cas general
Algorithme d’apprentissage
1 Calculer H(C |Aj) pour tous les attributs Aj
2 Choisir l’attribut Aj qui minimise H(C |Aj)
creer un nœud dans l’arbre de decision
3 A l’aide de Aj , partitionner la base d’apprentissage
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Entrees continues
Problematique
Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Discretisation
Problematique
Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?
Solution :
On discretise : transformation d’une variable continue en une ouplusieurs variables discrete
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Discretisation
Problematique
Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?
Solution :
On discretise : transformation d’une variable continue en une ouplusieurs variables discrete
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Exemple
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Algorithme C4.5
Check for base cases
For each attribute a
Find the normalized information gain from splitting on a
Let a best be the attribute with the highest normalizedinformation gain
Create a decision node that splits on a best
Recurse on the sublists obtained by splitting on a best, andadd those nodes as children of node
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Sur-Apprentissage
Elagage a posteriori
Idee : Elaguer apres la construction de l’arbre entier, en remplacantles sous-arbres optimisant un critere d’elagage par un noeud.Nombreuses methodes. Encore beaucoup de recherches.
Minimal Cost-Complexity Pruning (MCCP) (Breiman etal.,84)
Reduced Error Pruning (REP) (Quinlan,87,93)
Minimum Error Pruning (MEP) (Niblett & Bratko,86)
Critical Value Pruning (CVP) (Mingers,87)
Pessimistic Error Pruning (PEP) (Quinlan,87)
Error-Based Pruning (EBP) (Quinlan,93) (utilise dans C4.5)
...
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision
Conclusion
Approprie pour :
Classification de formes decrites en attributs-valeurs
Attributs a valeurs discretes
Resistant au bruit
Strategie :
Recherche par construction incrementale d’hypothese
Critere local (gradient) fonde sur critere statistique
Engendre
Arbre de decision interpretable (e.g. regles de production)
Necessite controle de la taille de l’arbre
Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision