Sélection d’attributs

Preview:

DESCRIPTION

Sélection d’attributs. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/. Cours : plan. 1- Pourquoi sélectionner les attributs 2- Définition du problème • Pertinence et sous-ensemble d’attributs pertinents - PowerPoint PPT Presentation

Citation preview

1Cornuéjols Apprentissage et prétraitement

16/01/06

Antoine Cornuéjols

Sélection d’attributsSélection d’attributs

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

antoine@lri.fr

http://www.lri.fr/~antoine/

2Cornuéjols Apprentissage et prétraitement

16/01/06

Cours : plan

1- Pourquoi sélectionner les attributs

2- Définition du problème

• Pertinence et sous-ensemble d’attributs pertinents

3- Méthodes de sélection

• Trois familles d’approches

• Mesures de pertinence

• Détermination du seuil

4- Étude de cas

3Cornuéjols Apprentissage et prétraitement

16/01/06

Pourquoi la sélection d’attributs

• Facteurs sans influence ou peu influents

• Facteurs redondants

• Dimension des entrées telle que coût de l’apprentissage trop grand

4Cornuéjols Apprentissage et prétraitement

16/01/06

Pourquoi la sélection d’attributs

• Apprentissage moins coûteux

• Faciliter l’apprentissage Meilleure performance en classification

Meilleure compréhensibilité de l’hypothèse

• Identifier les facteurs pertinents Génomique

Vision

5Cornuéjols Apprentissage et prétraitement

16/01/06

La sélection d’attributs

• Idéalement Identifier le sous-ensemble d’attributs de taille minimale nécessaire et

suffisant pour définir le concept cible

• Classiquement Sélectionner un sous-ensemble d’attributs de taille n < d, tel qu’un critère soit

optimisé par rapport à tous les sous-ensembles de taille n.

• Amélioration de l’erreur en classification Apprentissage supervisé

• Rester proche de la distribution originale des classes Apprentissage non supervisé

6Cornuéjols Apprentissage et prétraitement

16/01/06

Pertinence d’un attribut

• Non pertinent ou redondant

Si sa présence n’améliore pas

– L’erreur en classification (supervisé)

– La proximité à la distribution originale des classes (non supervisé)

7Cornuéjols Apprentissage et prétraitement

16/01/06

Définitions de la « pertinence »

• Pas de définition unique car dépend du domainePas de définition unique car dépend du domaine

Par rapport à la cible

– di est pertinent si une paire d’exemples ne différant qu’en di et de classes différentes

Idem par rapport à la distribution (ou à l’échantillon)

– Idem, sauf que la paire d’exemples peut être tirée avec une probabilité non nulle (ou appartient à l’échantillon)

Faible pertinence

– Si pertinent quand on retire un sous-ensemble des attributs

[Blum & Langley, 97], [Bell & Wang, 00]

Pertinent si Pertinent si permet une meilleure classificationpermet une meilleure classification

… … sisi permet de comprendre mieux permet de comprendre mieux

8Cornuéjols Apprentissage et prétraitement

16/01/06

Le problème de la sélection d’attributs

Recherche parmi tous les sous-ensembles d’attributs

• Pour une taille n

2n sous-ensembles candidats

Généralement prohibitif

9Cornuéjols Apprentissage et prétraitement

16/01/06

Le problème de la sélection d’attributs

• Problème NP-difficile

• Mais a priori plus simple que celui de la classification (apprentissage de la relation de dépendance)

• E.g. Supposons 3 attributs binaires et fonctions booléennes

fonctions possibles

a1 a2 a3 XOR

0 0 0 -

0 0 1 +

0 1 0 +

0 1 1 -

1 0 0 -

1 0 1 +

1 1 0 +

1 1 1 -

Mais seulement : 10 tris possibles sur les attributs(e.g. (a1,a2,a3))

Et 4 seuils

10Cornuéjols Apprentissage et prétraitement

16/01/06

Le problème de la sélection d’attributs (2)

• Pourtant il manque une théorie fournissant des garanties

sur la qualité des classements

(analogue à la théorie statistique de l’apprentissage)

Pas d’équivalent du risque empirique

Tâche non supervisée

Méthodes (essentiellement) de nature heuristique

11Cornuéjols Apprentissage et prétraitement

16/01/06

Procédure générale

[Dash & Liu, 1997]

12Cornuéjols Apprentissage et prétraitement

16/01/06

Procédure générale

• Génération (exploration d’un espace de recherche)

Initialisation : un attribut / tous / un sous-ensemble

Opérateurs de recherche : ajout ou retrait attribut par attribut

• Évaluation

Mesure de la valeur du sous-ensemble d’attributs

• Critère d’arrêt

# d’attributs pré-défini atteint ou # d’itérations atteint

Amélioration insuffisante

Méthode de témoins

• Validation

E.g. par validation croisée

13Cornuéjols Apprentissage et prétraitement

16/01/06

Critères d’arrêt

• Evaluation passe en-dessous d’un certain seuil

• Méthode par « témoin »

Inclure des attributs aléatoires

Ne pas retenir les attributs dont l’évaluation est en-dessous

14Cornuéjols Apprentissage et prétraitement

16/01/06

Les approches

1. Approche intégrée (« embedded »)

2. « Wrapper methods » (approche symbiose)

Utilisent la performance en aval pour sélectionner les attributs

Deux stratégies

– Ascendante (« forward selection »)

• Par ajouts successifs d’attributs

– Descendante (« backward selection »)

• Par retraits successifs d’attributs

3. « Filter methods » (approche par filtre)

Indépendantes des traitements aval

[Blum & Langley, 97][Guyon & Elisseeff, 03]

Apprentissage

Données

Valid. croisée

Apprentissage

Filtrage

Apprentissage

Données

15Cornuéjols Apprentissage et prétraitement

16/01/06

Approche « filter »

16Cornuéjols Apprentissage et prétraitement

16/01/06

Approche « wrapper »

17Cornuéjols Apprentissage et prétraitement

16/01/06

Hypothèse de linéarité

• Chaque attribut est évalué indépendamment des autres

18Cornuéjols Apprentissage et prétraitement

16/01/06

Mesures de pertinence

Exemples

• Mesures d’information

• Mesures de distance

• Mesures de dépendance

• Critère de cohérence

• Mesures de précision

19Cornuéjols Apprentissage et prétraitement

16/01/06

Mesure d’information

• Entropie d’une variable X

• Entropie de X après observation de Y

• Gain d’information

20Cornuéjols Apprentissage et prétraitement

16/01/06

Critère de cohérence

• Chercher un sous-ensemble minimal d’attributs maintenant la

cohérence

• Une incohérence survient lorsque ≥ 2 exemples ont la même

description mais sont de classes différentes

• Remarque :

Valide seulement pour des attributs à domaine fini

21Cornuéjols Apprentissage et prétraitement

16/01/06

Mesures de précision

• Utilisation d’un système de classification pour mesurer la précision

22Cornuéjols Apprentissage et prétraitement

16/01/06

Critères de performance

• Hypothèse de distribution paramétrique N ()

Comparaison à hypothèse nulle locale : ANOVA

Idem (mais différent) : SAM

• Méthodes non paramétriques

Critère heuristique : RELIEF

23Cornuéjols Apprentissage et prétraitement

16/01/06

Utilisation d’ANOVA

• Deux classes (Irradiée / Non Irradiée)

• N(1,) et N (2,)

• Comparaison

Variance intra-classe

Variance inter-classes

• Hypothèse nulle H0 : 1 = 2

• Rejet si

significativement trop grand par rapportaux quantiles de la foi F (k-1,n-k)

Vinterk−1

Vintran −k

24Cornuéjols Apprentissage et prétraitement

16/01/06

SAM (Significance Analysis of Microarrays)

d(i) = xI (i) − xNI (i)

s(i) + s0

Constante > 0déviation standard

• Pour chaque gène :

• Gènes potentiellement significatifsGènes potentiellement significatifs : gènes dont le score d(g) est

supérieur au score moyen du gène obtenu après permutations des

classes, de plus d’un certain seuil

• Calcul du nombre de gènes faussement significatifsfaussement significatifs : nombre moyen de

gènes faussement significatifs pour chaque permutation

• Taux de fausse découverte Taux de fausse découverte (FDR)

25Cornuéjols Apprentissage et prétraitement

16/01/06

RELIEF (1)

• [Kira & Rendell,92], [Kononenko,94]

• Les attributs les plus pertinents sont ceux qui varient plus lorsque

l’exemple (lame) considéré change de classe que lorsqu’il ne change

pas

Complexité faible

Grande résistance au bruit

26Cornuéjols Apprentissage et prétraitement

16/01/06

RELIEF (2)

Gène_1

Gène_2

M

H

L

L1 H1M1

27Cornuéjols Apprentissage et prétraitement

16/01/06

Une lame L est vue comme un point dans un espace à p = 6135 dimensions On cherche ses k plus proches voisins dans la même classe et on note H

(nearest Hit) leur barycentre. On calcule ses k plus proches voisins dans l’autre classe et on note M

(nearest Miss) leur barycentre.

où est la projection selon gène du point x, et m est le nombre total de lames.

Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux probabilités comme suit :

Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente)

- P (gène a une valeur différente / k plus proches voisins dans la même classe)

Algorithme polynomial : (pm2) Rôle de k : prise en compte du bruit

[ ] [ ]{ }∑=

−−−=m

Lgènegènegènegène HLML

mgène

1

)(exp)(exp)(exp)(exp 1

)( rrrrpoids

exp rgène(x)

RELIEF (3)

28Cornuéjols Apprentissage et prétraitement

16/01/06

Comparaison

• « Filter methods »

Hypothèse de linéarité

Peu coûteuses

• « Wrapper methods »

Coûteuses

Plus précises ?

Pas bonnes si m << d

Biaisées ?

29Cornuéjols Apprentissage et prétraitement

16/01/06

Etude de cas : les faibles radiations

Danger indiscutable dans certains cas. En particulier pour les fortes doses

d’irradiation.

Quel impact des faibles doses ?

Biologiquement aucun détecté

Y a-t-il des effets au niveau des

gènes ?

30Cornuéjols Apprentissage et prétraitement

16/01/06

Protocole expérimental

S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de

gènes).

Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h

Douze cultures non exposées (Non Irradiées NI)

Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage

fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés).

31Cornuéjols Apprentissage et prétraitement

16/01/06

Questions des biologistes

• L’irradiation à de faibles doses est-elle détectable ?détectable ?

• Nombre de gènesNombre de gènes impliqués dans la réponse à une irradiation à faible dose ?

• Groupes de gènesGroupes de gènes impliqués dans la réponse à l’irradiation

et de quelle manière ?

• Est-il possible de deviner le traitementdeviner le traitement subi par une levure en regardant l’expression de

son génome ?

• Peut-on généraliser cette approchegénéraliser cette approche à d’autres types de traitements (pollutions, cancer, ...)

32Cornuéjols Apprentissage et prétraitement

16/01/06

« Précarité » des données

• Extrêmement peu de données / dimension

(12 - (non irradiées) & 6 + (irradiées) vs. 6135 gènes)

• Données imparfaites

Bruit expérimental

– Irradiation

– Puces à ADN

Prétraitement et normalisation

• Pas idéales :

Déséquilibre des classes + et -

Absence d’indépendance conditionnelle entre les gènes

33Cornuéjols Apprentissage et prétraitement

16/01/06

Sélection des attributs

• Y a-t-il vraiment de l’information dans les données ?

• Quels gènes retenir ?

• Avec quelle confiance ?

34Cornuéjols Apprentissage et prétraitement

16/01/06

Hypothèse nulle globale

Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires

35Cornuéjols Apprentissage et prétraitement

16/01/06

Hypothèse nulle globale

Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires

36Cornuéjols Apprentissage et prétraitement

16/01/06

Précision ou rappel : choix d’un seuil

Il faut choisir entre :

Une liste contenant presque tous les gènes impliqués mais comportant des faux-positifs

Une liste de gènes impliquées de manière quasi-certaine dans la réponse à l’Irradiation (quitte à ne pas avoir tous les gènes impliqués)

Problème du seuil

37Cornuéjols Apprentissage et prétraitement

16/01/06

Combinaison de méthodes ?

• Peut-on faire mieux avec deux méthodes ?Peut-on faire mieux avec deux méthodes ?

Est-ce mieux de prendre l’intersection de leurs sélections ?

Doit-on avoir plus de confiance dans la valeur du résultat ainsi obtenu ?

38Cornuéjols Apprentissage et prétraitement

16/01/06

Intersections (1)

Pour les 500 meilleurs gènes de chaque technique (poids 0.2) :

SAMANOVA

409

Pour les 35 meilleurs (poids 0.5) :

RELIEF ANOVA278

RELIEF

SAM ANOVA

80 0

39Cornuéjols Apprentissage et prétraitement

16/01/06

Intersections (2)

Est-ce que ces intersections sont significatives ?

• Problème :

Étant données 2 méthodes sélectionnant au hasard chacune n gènes parmi N

gènes, quelle est la probabilité que ces deux paquets de n gènes aient une

intersection de cardinal supérieur ou égal à k ?

= = > loi hypergéométriqueloi hypergéométrique H(n, N-n, k)

avec N = 6157 :

n = 500 : P (taille intersection 257 ) = 10-169

n = 35 : P (taille intersection 8 ) = 10-12

Le biologiste est satisfait !

40Cornuéjols Apprentissage et prétraitement

16/01/06

Répartition des meilleurs gènes

function of 91 induced genes/171 number of ORFs % in this list % total ORFS (6158)sur-repunknown 38 41,8 50,4 0,8

oxidative stress response 4 4,4 0,3 14,3oxidative phosphorylation 9 9,9 0,3 30,5

transport 4 4,4 2,2 2,0gluconeogenesis 1 1,1 0,1 16,9

protein processing & synthesis 3 3,3 2,0 1,6ATP synthesis 7 7,7 0,4 20,6

glucose repression 1 1,1 0,2 4,8respiration 2 2,2 0,1 22,0

function of 80 repressed genes/171 number of ORFs % in this list % total ORFS sur-repunknown 45 56,3 50,4 1,1

stress response (putative) 1 1,3 0,2 7,0glycerol metabolism 2 2,5 0,1 30,8

protein processing & synthesis 3 3,8 2,0 1,9secretion 2 2,5 2,0 1,3transport 4 5,0 2,2 2,3glycolysis 2 2,5 1,0 2,5

41Cornuéjols Apprentissage et prétraitement

16/01/06

Interprétation biologique

Cytochrome bc1Cyt1

QCR7QCR10

Cytochrome c oxidaseCOX5ACOX6COX4

COX 13COX12COX7COX8COX20

ATP synthaseATP3ATP5ATP16ATP15ATP7ATP17ATP18ATP19ATP20TIM11

ε

δ

γ

VIb

VIIbVbVa

VIIIc

VbVa

δ

b b

1Cytc

107

20cox

VIaIV

j fd

ε

gk11Tim

42Cornuéjols Apprentissage et prétraitement

16/01/06

Problèmes

• Attributs corrélés

• Quasi absence de fondements théoriques

• Tri plutôt que sélection

Boosting de tris ?

Nouveau domaine de recherche

43Cornuéjols Apprentissage et prétraitement

16/01/06

Bibliographie

• Blum, A. and Langley, P. (1997) Selection of relevant features and examples in machine learning. Artificial Intelligence journal (97). 245-271.

• Dash, M. and Liu, H. (1997) Feature selection for classification. Intelligent Data Analysis, 1. 131-156.

• Guyon, I. and Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3. 1157-1182.