Download ppt - Sélection d’attributs

Transcript
Page 1: Sélection d’attributs

1Cornuéjols Apprentissage et prétraitement

16/01/06

Antoine Cornuéjols

Sélection d’attributsSélection d’attributs

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/

Page 2: Sélection d’attributs

2Cornuéjols Apprentissage et prétraitement

16/01/06

Cours : plan

1- Pourquoi sélectionner les attributs

2- Définition du problème

• Pertinence et sous-ensemble d’attributs pertinents

3- Méthodes de sélection

• Trois familles d’approches

• Mesures de pertinence

• Détermination du seuil

4- Étude de cas

Page 3: Sélection d’attributs

3Cornuéjols Apprentissage et prétraitement

16/01/06

Pourquoi la sélection d’attributs

• Facteurs sans influence ou peu influents

• Facteurs redondants

• Dimension des entrées telle que coût de l’apprentissage trop grand

Page 4: Sélection d’attributs

4Cornuéjols Apprentissage et prétraitement

16/01/06

Pourquoi la sélection d’attributs

• Apprentissage moins coûteux

• Faciliter l’apprentissage Meilleure performance en classification

Meilleure compréhensibilité de l’hypothèse

• Identifier les facteurs pertinents Génomique

Vision

Page 5: Sélection d’attributs

5Cornuéjols Apprentissage et prétraitement

16/01/06

La sélection d’attributs

• Idéalement Identifier le sous-ensemble d’attributs de taille minimale nécessaire et

suffisant pour définir le concept cible

• Classiquement Sélectionner un sous-ensemble d’attributs de taille n < d, tel qu’un critère soit

optimisé par rapport à tous les sous-ensembles de taille n.

• Amélioration de l’erreur en classification Apprentissage supervisé

• Rester proche de la distribution originale des classes Apprentissage non supervisé

Page 6: Sélection d’attributs

6Cornuéjols Apprentissage et prétraitement

16/01/06

Pertinence d’un attribut

• Non pertinent ou redondant

Si sa présence n’améliore pas

– L’erreur en classification (supervisé)

– La proximité à la distribution originale des classes (non supervisé)

Page 7: Sélection d’attributs

7Cornuéjols Apprentissage et prétraitement

16/01/06

Définitions de la « pertinence »

• Pas de définition unique car dépend du domainePas de définition unique car dépend du domaine

Par rapport à la cible

– di est pertinent si une paire d’exemples ne différant qu’en di et de classes différentes

Idem par rapport à la distribution (ou à l’échantillon)

– Idem, sauf que la paire d’exemples peut être tirée avec une probabilité non nulle (ou appartient à l’échantillon)

Faible pertinence

– Si pertinent quand on retire un sous-ensemble des attributs

[Blum & Langley, 97], [Bell & Wang, 00]

Pertinent si Pertinent si permet une meilleure classificationpermet une meilleure classification

… … sisi permet de comprendre mieux permet de comprendre mieux

Page 8: Sélection d’attributs

8Cornuéjols Apprentissage et prétraitement

16/01/06

Le problème de la sélection d’attributs

Recherche parmi tous les sous-ensembles d’attributs

• Pour une taille n

2n sous-ensembles candidats

Généralement prohibitif

Page 9: Sélection d’attributs

9Cornuéjols Apprentissage et prétraitement

16/01/06

Le problème de la sélection d’attributs

• Problème NP-difficile

• Mais a priori plus simple que celui de la classification (apprentissage de la relation de dépendance)

• E.g. Supposons 3 attributs binaires et fonctions booléennes

fonctions possibles

a1 a2 a3 XOR

0 0 0 -

0 0 1 +

0 1 0 +

0 1 1 -

1 0 0 -

1 0 1 +

1 1 0 +

1 1 1 -

Mais seulement : 10 tris possibles sur les attributs(e.g. (a1,a2,a3))

Et 4 seuils

Page 10: Sélection d’attributs

10Cornuéjols Apprentissage et prétraitement

16/01/06

Le problème de la sélection d’attributs (2)

• Pourtant il manque une théorie fournissant des garanties

sur la qualité des classements

(analogue à la théorie statistique de l’apprentissage)

Pas d’équivalent du risque empirique

Tâche non supervisée

Méthodes (essentiellement) de nature heuristique

Page 11: Sélection d’attributs

11Cornuéjols Apprentissage et prétraitement

16/01/06

Procédure générale

[Dash & Liu, 1997]

Page 12: Sélection d’attributs

12Cornuéjols Apprentissage et prétraitement

16/01/06

Procédure générale

• Génération (exploration d’un espace de recherche)

Initialisation : un attribut / tous / un sous-ensemble

Opérateurs de recherche : ajout ou retrait attribut par attribut

• Évaluation

Mesure de la valeur du sous-ensemble d’attributs

• Critère d’arrêt

# d’attributs pré-défini atteint ou # d’itérations atteint

Amélioration insuffisante

Méthode de témoins

• Validation

E.g. par validation croisée

Page 13: Sélection d’attributs

13Cornuéjols Apprentissage et prétraitement

16/01/06

Critères d’arrêt

• Evaluation passe en-dessous d’un certain seuil

• Méthode par « témoin »

Inclure des attributs aléatoires

Ne pas retenir les attributs dont l’évaluation est en-dessous

Page 14: Sélection d’attributs

14Cornuéjols Apprentissage et prétraitement

16/01/06

Les approches

1. Approche intégrée (« embedded »)

2. « Wrapper methods » (approche symbiose)

Utilisent la performance en aval pour sélectionner les attributs

Deux stratégies

– Ascendante (« forward selection »)

• Par ajouts successifs d’attributs

– Descendante (« backward selection »)

• Par retraits successifs d’attributs

3. « Filter methods » (approche par filtre)

Indépendantes des traitements aval

[Blum & Langley, 97][Guyon & Elisseeff, 03]

Apprentissage

Données

Valid. croisée

Apprentissage

Filtrage

Apprentissage

Données

Page 15: Sélection d’attributs

15Cornuéjols Apprentissage et prétraitement

16/01/06

Approche « filter »

Page 16: Sélection d’attributs

16Cornuéjols Apprentissage et prétraitement

16/01/06

Approche « wrapper »

Page 17: Sélection d’attributs

17Cornuéjols Apprentissage et prétraitement

16/01/06

Hypothèse de linéarité

• Chaque attribut est évalué indépendamment des autres

Page 18: Sélection d’attributs

18Cornuéjols Apprentissage et prétraitement

16/01/06

Mesures de pertinence

Exemples

• Mesures d’information

• Mesures de distance

• Mesures de dépendance

• Critère de cohérence

• Mesures de précision

Page 19: Sélection d’attributs

19Cornuéjols Apprentissage et prétraitement

16/01/06

Mesure d’information

• Entropie d’une variable X

• Entropie de X après observation de Y

• Gain d’information

Page 20: Sélection d’attributs

20Cornuéjols Apprentissage et prétraitement

16/01/06

Critère de cohérence

• Chercher un sous-ensemble minimal d’attributs maintenant la

cohérence

• Une incohérence survient lorsque ≥ 2 exemples ont la même

description mais sont de classes différentes

• Remarque :

Valide seulement pour des attributs à domaine fini

Page 21: Sélection d’attributs

21Cornuéjols Apprentissage et prétraitement

16/01/06

Mesures de précision

• Utilisation d’un système de classification pour mesurer la précision

Page 22: Sélection d’attributs

22Cornuéjols Apprentissage et prétraitement

16/01/06

Critères de performance

• Hypothèse de distribution paramétrique N ()

Comparaison à hypothèse nulle locale : ANOVA

Idem (mais différent) : SAM

• Méthodes non paramétriques

Critère heuristique : RELIEF

Page 23: Sélection d’attributs

23Cornuéjols Apprentissage et prétraitement

16/01/06

Utilisation d’ANOVA

• Deux classes (Irradiée / Non Irradiée)

• N(1,) et N (2,)

• Comparaison

Variance intra-classe

Variance inter-classes

• Hypothèse nulle H0 : 1 = 2

• Rejet si

significativement trop grand par rapportaux quantiles de la foi F (k-1,n-k)

Vinterk−1

Vintran −k

Page 24: Sélection d’attributs

24Cornuéjols Apprentissage et prétraitement

16/01/06

SAM (Significance Analysis of Microarrays)

d(i) = xI (i) − xNI (i)

s(i) + s0

Constante > 0déviation standard

• Pour chaque gène :

• Gènes potentiellement significatifsGènes potentiellement significatifs : gènes dont le score d(g) est

supérieur au score moyen du gène obtenu après permutations des

classes, de plus d’un certain seuil

• Calcul du nombre de gènes faussement significatifsfaussement significatifs : nombre moyen de

gènes faussement significatifs pour chaque permutation

• Taux de fausse découverte Taux de fausse découverte (FDR)

Page 25: Sélection d’attributs

25Cornuéjols Apprentissage et prétraitement

16/01/06

RELIEF (1)

• [Kira & Rendell,92], [Kononenko,94]

• Les attributs les plus pertinents sont ceux qui varient plus lorsque

l’exemple (lame) considéré change de classe que lorsqu’il ne change

pas

Complexité faible

Grande résistance au bruit

Page 26: Sélection d’attributs

26Cornuéjols Apprentissage et prétraitement

16/01/06

RELIEF (2)

Gène_1

Gène_2

M

H

L

L1 H1M1

Page 27: Sélection d’attributs

27Cornuéjols Apprentissage et prétraitement

16/01/06

Une lame L est vue comme un point dans un espace à p = 6135 dimensions On cherche ses k plus proches voisins dans la même classe et on note H

(nearest Hit) leur barycentre. On calcule ses k plus proches voisins dans l’autre classe et on note M

(nearest Miss) leur barycentre.

où est la projection selon gène du point x, et m est le nombre total de lames.

Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux probabilités comme suit :

Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente)

- P (gène a une valeur différente / k plus proches voisins dans la même classe)

Algorithme polynomial : (pm2) Rôle de k : prise en compte du bruit

[ ] [ ]{ }∑=

−−−=m

Lgènegènegènegène HLML

mgène

1

)(exp)(exp)(exp)(exp 1

)( rrrrpoids

exp rgène(x)

RELIEF (3)

Page 28: Sélection d’attributs

28Cornuéjols Apprentissage et prétraitement

16/01/06

Comparaison

• « Filter methods »

Hypothèse de linéarité

Peu coûteuses

• « Wrapper methods »

Coûteuses

Plus précises ?

Pas bonnes si m << d

Biaisées ?

Page 29: Sélection d’attributs

29Cornuéjols Apprentissage et prétraitement

16/01/06

Etude de cas : les faibles radiations

Danger indiscutable dans certains cas. En particulier pour les fortes doses

d’irradiation.

Quel impact des faibles doses ?

Biologiquement aucun détecté

Y a-t-il des effets au niveau des

gènes ?

Page 30: Sélection d’attributs

30Cornuéjols Apprentissage et prétraitement

16/01/06

Protocole expérimental

S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de

gènes).

Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h

Douze cultures non exposées (Non Irradiées NI)

Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage

fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés).

Page 31: Sélection d’attributs

31Cornuéjols Apprentissage et prétraitement

16/01/06

Questions des biologistes

• L’irradiation à de faibles doses est-elle détectable ?détectable ?

• Nombre de gènesNombre de gènes impliqués dans la réponse à une irradiation à faible dose ?

• Groupes de gènesGroupes de gènes impliqués dans la réponse à l’irradiation

et de quelle manière ?

• Est-il possible de deviner le traitementdeviner le traitement subi par une levure en regardant l’expression de

son génome ?

• Peut-on généraliser cette approchegénéraliser cette approche à d’autres types de traitements (pollutions, cancer, ...)

Page 32: Sélection d’attributs

32Cornuéjols Apprentissage et prétraitement

16/01/06

« Précarité » des données

• Extrêmement peu de données / dimension

(12 - (non irradiées) & 6 + (irradiées) vs. 6135 gènes)

• Données imparfaites

Bruit expérimental

– Irradiation

– Puces à ADN

Prétraitement et normalisation

• Pas idéales :

Déséquilibre des classes + et -

Absence d’indépendance conditionnelle entre les gènes

Page 33: Sélection d’attributs

33Cornuéjols Apprentissage et prétraitement

16/01/06

Sélection des attributs

• Y a-t-il vraiment de l’information dans les données ?

• Quels gènes retenir ?

• Avec quelle confiance ?

Page 34: Sélection d’attributs

34Cornuéjols Apprentissage et prétraitement

16/01/06

Hypothèse nulle globale

Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires

Page 35: Sélection d’attributs

35Cornuéjols Apprentissage et prétraitement

16/01/06

Hypothèse nulle globale

Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires

Page 36: Sélection d’attributs

36Cornuéjols Apprentissage et prétraitement

16/01/06

Précision ou rappel : choix d’un seuil

Il faut choisir entre :

Une liste contenant presque tous les gènes impliqués mais comportant des faux-positifs

Une liste de gènes impliquées de manière quasi-certaine dans la réponse à l’Irradiation (quitte à ne pas avoir tous les gènes impliqués)

Problème du seuil

Page 37: Sélection d’attributs

37Cornuéjols Apprentissage et prétraitement

16/01/06

Combinaison de méthodes ?

• Peut-on faire mieux avec deux méthodes ?Peut-on faire mieux avec deux méthodes ?

Est-ce mieux de prendre l’intersection de leurs sélections ?

Doit-on avoir plus de confiance dans la valeur du résultat ainsi obtenu ?

Page 38: Sélection d’attributs

38Cornuéjols Apprentissage et prétraitement

16/01/06

Intersections (1)

Pour les 500 meilleurs gènes de chaque technique (poids 0.2) :

SAMANOVA

409

Pour les 35 meilleurs (poids 0.5) :

RELIEF ANOVA278

RELIEF

SAM ANOVA

80 0

Page 39: Sélection d’attributs

39Cornuéjols Apprentissage et prétraitement

16/01/06

Intersections (2)

Est-ce que ces intersections sont significatives ?

• Problème :

Étant données 2 méthodes sélectionnant au hasard chacune n gènes parmi N

gènes, quelle est la probabilité que ces deux paquets de n gènes aient une

intersection de cardinal supérieur ou égal à k ?

= = > loi hypergéométriqueloi hypergéométrique H(n, N-n, k)

avec N = 6157 :

n = 500 : P (taille intersection 257 ) = 10-169

n = 35 : P (taille intersection 8 ) = 10-12

Le biologiste est satisfait !

Page 40: Sélection d’attributs

40Cornuéjols Apprentissage et prétraitement

16/01/06

Répartition des meilleurs gènes

function of 91 induced genes/171 number of ORFs % in this list % total ORFS (6158)sur-repunknown 38 41,8 50,4 0,8

oxidative stress response 4 4,4 0,3 14,3oxidative phosphorylation 9 9,9 0,3 30,5

transport 4 4,4 2,2 2,0gluconeogenesis 1 1,1 0,1 16,9

protein processing & synthesis 3 3,3 2,0 1,6ATP synthesis 7 7,7 0,4 20,6

glucose repression 1 1,1 0,2 4,8respiration 2 2,2 0,1 22,0

function of 80 repressed genes/171 number of ORFs % in this list % total ORFS sur-repunknown 45 56,3 50,4 1,1

stress response (putative) 1 1,3 0,2 7,0glycerol metabolism 2 2,5 0,1 30,8

protein processing & synthesis 3 3,8 2,0 1,9secretion 2 2,5 2,0 1,3transport 4 5,0 2,2 2,3glycolysis 2 2,5 1,0 2,5

Page 41: Sélection d’attributs

41Cornuéjols Apprentissage et prétraitement

16/01/06

Interprétation biologique

Cytochrome bc1Cyt1

QCR7QCR10

Cytochrome c oxidaseCOX5ACOX6COX4

COX 13COX12COX7COX8COX20

ATP synthaseATP3ATP5ATP16ATP15ATP7ATP17ATP18ATP19ATP20TIM11

ε

δ

γ

VIb

VIIbVbVa

VIIIc

VbVa

δ

b b

1Cytc

107

20cox

VIaIV

j fd

ε

gk11Tim

Page 42: Sélection d’attributs

42Cornuéjols Apprentissage et prétraitement

16/01/06

Problèmes

• Attributs corrélés

• Quasi absence de fondements théoriques

• Tri plutôt que sélection

Boosting de tris ?

Nouveau domaine de recherche

Page 43: Sélection d’attributs

43Cornuéjols Apprentissage et prétraitement

16/01/06

Bibliographie

• Blum, A. and Langley, P. (1997) Selection of relevant features and examples in machine learning. Artificial Intelligence journal (97). 245-271.

• Dash, M. and Liu, H. (1997) Feature selection for classification. Intelligent Data Analysis, 1. 131-156.

• Guyon, I. and Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3. 1157-1182.