View
51
Download
0
Category
Preview:
DESCRIPTION
Sélection d’attributs. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/. Cours : plan. 1- Pourquoi sélectionner les attributs 2- Définition du problème • Pertinence et sous-ensemble d’attributs pertinents - PowerPoint PPT Presentation
Citation preview
1Cornuéjols Apprentissage et prétraitement
16/01/06
Antoine Cornuéjols
Sélection d’attributsSélection d’attributs
CNAM-IIE
et L.R.I., Université de Paris-Sud, Orsay (France)
antoine@lri.fr
http://www.lri.fr/~antoine/
2Cornuéjols Apprentissage et prétraitement
16/01/06
Cours : plan
1- Pourquoi sélectionner les attributs
2- Définition du problème
• Pertinence et sous-ensemble d’attributs pertinents
3- Méthodes de sélection
• Trois familles d’approches
• Mesures de pertinence
• Détermination du seuil
4- Étude de cas
3Cornuéjols Apprentissage et prétraitement
16/01/06
Pourquoi la sélection d’attributs
• Facteurs sans influence ou peu influents
• Facteurs redondants
• Dimension des entrées telle que coût de l’apprentissage trop grand
4Cornuéjols Apprentissage et prétraitement
16/01/06
Pourquoi la sélection d’attributs
• Apprentissage moins coûteux
• Faciliter l’apprentissage Meilleure performance en classification
Meilleure compréhensibilité de l’hypothèse
• Identifier les facteurs pertinents Génomique
Vision
5Cornuéjols Apprentissage et prétraitement
16/01/06
La sélection d’attributs
• Idéalement Identifier le sous-ensemble d’attributs de taille minimale nécessaire et
suffisant pour définir le concept cible
• Classiquement Sélectionner un sous-ensemble d’attributs de taille n < d, tel qu’un critère soit
optimisé par rapport à tous les sous-ensembles de taille n.
• Amélioration de l’erreur en classification Apprentissage supervisé
• Rester proche de la distribution originale des classes Apprentissage non supervisé
6Cornuéjols Apprentissage et prétraitement
16/01/06
Pertinence d’un attribut
• Non pertinent ou redondant
Si sa présence n’améliore pas
– L’erreur en classification (supervisé)
– La proximité à la distribution originale des classes (non supervisé)
7Cornuéjols Apprentissage et prétraitement
16/01/06
Définitions de la « pertinence »
• Pas de définition unique car dépend du domainePas de définition unique car dépend du domaine
Par rapport à la cible
– di est pertinent si une paire d’exemples ne différant qu’en di et de classes différentes
Idem par rapport à la distribution (ou à l’échantillon)
– Idem, sauf que la paire d’exemples peut être tirée avec une probabilité non nulle (ou appartient à l’échantillon)
Faible pertinence
– Si pertinent quand on retire un sous-ensemble des attributs
…
[Blum & Langley, 97], [Bell & Wang, 00]
Pertinent si Pertinent si permet une meilleure classificationpermet une meilleure classification
… … sisi permet de comprendre mieux permet de comprendre mieux
8Cornuéjols Apprentissage et prétraitement
16/01/06
Le problème de la sélection d’attributs
Recherche parmi tous les sous-ensembles d’attributs
• Pour une taille n
2n sous-ensembles candidats
Généralement prohibitif
9Cornuéjols Apprentissage et prétraitement
16/01/06
Le problème de la sélection d’attributs
• Problème NP-difficile
• Mais a priori plus simple que celui de la classification (apprentissage de la relation de dépendance)
• E.g. Supposons 3 attributs binaires et fonctions booléennes
fonctions possibles
a1 a2 a3 XOR
0 0 0 -
0 0 1 +
0 1 0 +
0 1 1 -
1 0 0 -
1 0 1 +
1 1 0 +
1 1 1 -
Mais seulement : 10 tris possibles sur les attributs(e.g. (a1,a2,a3))
Et 4 seuils
10Cornuéjols Apprentissage et prétraitement
16/01/06
Le problème de la sélection d’attributs (2)
• Pourtant il manque une théorie fournissant des garanties
sur la qualité des classements
(analogue à la théorie statistique de l’apprentissage)
Pas d’équivalent du risque empirique
Tâche non supervisée
Méthodes (essentiellement) de nature heuristique
11Cornuéjols Apprentissage et prétraitement
16/01/06
Procédure générale
[Dash & Liu, 1997]
12Cornuéjols Apprentissage et prétraitement
16/01/06
Procédure générale
• Génération (exploration d’un espace de recherche)
Initialisation : un attribut / tous / un sous-ensemble
Opérateurs de recherche : ajout ou retrait attribut par attribut
• Évaluation
Mesure de la valeur du sous-ensemble d’attributs
• Critère d’arrêt
# d’attributs pré-défini atteint ou # d’itérations atteint
Amélioration insuffisante
Méthode de témoins
• Validation
E.g. par validation croisée
13Cornuéjols Apprentissage et prétraitement
16/01/06
Critères d’arrêt
• Evaluation passe en-dessous d’un certain seuil
• Méthode par « témoin »
Inclure des attributs aléatoires
Ne pas retenir les attributs dont l’évaluation est en-dessous
14Cornuéjols Apprentissage et prétraitement
16/01/06
Les approches
1. Approche intégrée (« embedded »)
2. « Wrapper methods » (approche symbiose)
Utilisent la performance en aval pour sélectionner les attributs
Deux stratégies
– Ascendante (« forward selection »)
• Par ajouts successifs d’attributs
– Descendante (« backward selection »)
• Par retraits successifs d’attributs
3. « Filter methods » (approche par filtre)
Indépendantes des traitements aval
[Blum & Langley, 97][Guyon & Elisseeff, 03]
Apprentissage
Données
Valid. croisée
Apprentissage
Filtrage
Apprentissage
Données
15Cornuéjols Apprentissage et prétraitement
16/01/06
Approche « filter »
16Cornuéjols Apprentissage et prétraitement
16/01/06
Approche « wrapper »
17Cornuéjols Apprentissage et prétraitement
16/01/06
Hypothèse de linéarité
• Chaque attribut est évalué indépendamment des autres
18Cornuéjols Apprentissage et prétraitement
16/01/06
Mesures de pertinence
Exemples
• Mesures d’information
• Mesures de distance
• Mesures de dépendance
• Critère de cohérence
• Mesures de précision
19Cornuéjols Apprentissage et prétraitement
16/01/06
Mesure d’information
• Entropie d’une variable X
• Entropie de X après observation de Y
• Gain d’information
20Cornuéjols Apprentissage et prétraitement
16/01/06
Critère de cohérence
• Chercher un sous-ensemble minimal d’attributs maintenant la
cohérence
• Une incohérence survient lorsque ≥ 2 exemples ont la même
description mais sont de classes différentes
• Remarque :
Valide seulement pour des attributs à domaine fini
21Cornuéjols Apprentissage et prétraitement
16/01/06
Mesures de précision
• Utilisation d’un système de classification pour mesurer la précision
22Cornuéjols Apprentissage et prétraitement
16/01/06
Critères de performance
• Hypothèse de distribution paramétrique N ()
Comparaison à hypothèse nulle locale : ANOVA
Idem (mais différent) : SAM
• Méthodes non paramétriques
Critère heuristique : RELIEF
23Cornuéjols Apprentissage et prétraitement
16/01/06
Utilisation d’ANOVA
• Deux classes (Irradiée / Non Irradiée)
• N(1,) et N (2,)
• Comparaison
Variance intra-classe
Variance inter-classes
• Hypothèse nulle H0 : 1 = 2
• Rejet si
significativement trop grand par rapportaux quantiles de la foi F (k-1,n-k)
Vinterk−1
Vintran −k
24Cornuéjols Apprentissage et prétraitement
16/01/06
SAM (Significance Analysis of Microarrays)
d(i) = xI (i) − xNI (i)
s(i) + s0
Constante > 0déviation standard
• Pour chaque gène :
• Gènes potentiellement significatifsGènes potentiellement significatifs : gènes dont le score d(g) est
supérieur au score moyen du gène obtenu après permutations des
classes, de plus d’un certain seuil
• Calcul du nombre de gènes faussement significatifsfaussement significatifs : nombre moyen de
gènes faussement significatifs pour chaque permutation
• Taux de fausse découverte Taux de fausse découverte (FDR)
25Cornuéjols Apprentissage et prétraitement
16/01/06
RELIEF (1)
• [Kira & Rendell,92], [Kononenko,94]
• Les attributs les plus pertinents sont ceux qui varient plus lorsque
l’exemple (lame) considéré change de classe que lorsqu’il ne change
pas
Complexité faible
Grande résistance au bruit
26Cornuéjols Apprentissage et prétraitement
16/01/06
RELIEF (2)
Gène_1
Gène_2
M
H
L
L1 H1M1
27Cornuéjols Apprentissage et prétraitement
16/01/06
Une lame L est vue comme un point dans un espace à p = 6135 dimensions On cherche ses k plus proches voisins dans la même classe et on note H
(nearest Hit) leur barycentre. On calcule ses k plus proches voisins dans l’autre classe et on note M
(nearest Miss) leur barycentre.
où est la projection selon gène du point x, et m est le nombre total de lames.
Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux probabilités comme suit :
Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente)
- P (gène a une valeur différente / k plus proches voisins dans la même classe)
Algorithme polynomial : (pm2) Rôle de k : prise en compte du bruit
[ ] [ ]{ }∑=
−−−=m
Lgènegènegènegène HLML
mgène
1
)(exp)(exp)(exp)(exp 1
)( rrrrpoids
exp rgène(x)
RELIEF (3)
28Cornuéjols Apprentissage et prétraitement
16/01/06
Comparaison
• « Filter methods »
Hypothèse de linéarité
Peu coûteuses
• « Wrapper methods »
Coûteuses
Plus précises ?
Pas bonnes si m << d
Biaisées ?
29Cornuéjols Apprentissage et prétraitement
16/01/06
Etude de cas : les faibles radiations
Danger indiscutable dans certains cas. En particulier pour les fortes doses
d’irradiation.
Quel impact des faibles doses ?
Biologiquement aucun détecté
Y a-t-il des effets au niveau des
gènes ?
30Cornuéjols Apprentissage et prétraitement
16/01/06
Protocole expérimental
S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de
gènes).
Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h
Douze cultures non exposées (Non Irradiées NI)
Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage
fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés).
31Cornuéjols Apprentissage et prétraitement
16/01/06
Questions des biologistes
• L’irradiation à de faibles doses est-elle détectable ?détectable ?
• Nombre de gènesNombre de gènes impliqués dans la réponse à une irradiation à faible dose ?
• Groupes de gènesGroupes de gènes impliqués dans la réponse à l’irradiation
et de quelle manière ?
• Est-il possible de deviner le traitementdeviner le traitement subi par une levure en regardant l’expression de
son génome ?
• Peut-on généraliser cette approchegénéraliser cette approche à d’autres types de traitements (pollutions, cancer, ...)
32Cornuéjols Apprentissage et prétraitement
16/01/06
« Précarité » des données
• Extrêmement peu de données / dimension
(12 - (non irradiées) & 6 + (irradiées) vs. 6135 gènes)
• Données imparfaites
Bruit expérimental
– Irradiation
– Puces à ADN
Prétraitement et normalisation
• Pas idéales :
Déséquilibre des classes + et -
Absence d’indépendance conditionnelle entre les gènes
33Cornuéjols Apprentissage et prétraitement
16/01/06
Sélection des attributs
• Y a-t-il vraiment de l’information dans les données ?
• Quels gènes retenir ?
• Avec quelle confiance ?
34Cornuéjols Apprentissage et prétraitement
16/01/06
Hypothèse nulle globale
Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires
35Cornuéjols Apprentissage et prétraitement
16/01/06
Hypothèse nulle globale
Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires
36Cornuéjols Apprentissage et prétraitement
16/01/06
Précision ou rappel : choix d’un seuil
Il faut choisir entre :
Une liste contenant presque tous les gènes impliqués mais comportant des faux-positifs
Une liste de gènes impliquées de manière quasi-certaine dans la réponse à l’Irradiation (quitte à ne pas avoir tous les gènes impliqués)
Problème du seuil
37Cornuéjols Apprentissage et prétraitement
16/01/06
Combinaison de méthodes ?
• Peut-on faire mieux avec deux méthodes ?Peut-on faire mieux avec deux méthodes ?
Est-ce mieux de prendre l’intersection de leurs sélections ?
Doit-on avoir plus de confiance dans la valeur du résultat ainsi obtenu ?
38Cornuéjols Apprentissage et prétraitement
16/01/06
Intersections (1)
Pour les 500 meilleurs gènes de chaque technique (poids 0.2) :
SAMANOVA
409
Pour les 35 meilleurs (poids 0.5) :
RELIEF ANOVA278
RELIEF
SAM ANOVA
80 0
39Cornuéjols Apprentissage et prétraitement
16/01/06
Intersections (2)
Est-ce que ces intersections sont significatives ?
• Problème :
Étant données 2 méthodes sélectionnant au hasard chacune n gènes parmi N
gènes, quelle est la probabilité que ces deux paquets de n gènes aient une
intersection de cardinal supérieur ou égal à k ?
= = > loi hypergéométriqueloi hypergéométrique H(n, N-n, k)
avec N = 6157 :
n = 500 : P (taille intersection 257 ) = 10-169
n = 35 : P (taille intersection 8 ) = 10-12
Le biologiste est satisfait !
40Cornuéjols Apprentissage et prétraitement
16/01/06
Répartition des meilleurs gènes
function of 91 induced genes/171 number of ORFs % in this list % total ORFS (6158)sur-repunknown 38 41,8 50,4 0,8
oxidative stress response 4 4,4 0,3 14,3oxidative phosphorylation 9 9,9 0,3 30,5
transport 4 4,4 2,2 2,0gluconeogenesis 1 1,1 0,1 16,9
protein processing & synthesis 3 3,3 2,0 1,6ATP synthesis 7 7,7 0,4 20,6
glucose repression 1 1,1 0,2 4,8respiration 2 2,2 0,1 22,0
function of 80 repressed genes/171 number of ORFs % in this list % total ORFS sur-repunknown 45 56,3 50,4 1,1
stress response (putative) 1 1,3 0,2 7,0glycerol metabolism 2 2,5 0,1 30,8
protein processing & synthesis 3 3,8 2,0 1,9secretion 2 2,5 2,0 1,3transport 4 5,0 2,2 2,3glycolysis 2 2,5 1,0 2,5
41Cornuéjols Apprentissage et prétraitement
16/01/06
Interprétation biologique
Cytochrome bc1Cyt1
QCR7QCR10
Cytochrome c oxidaseCOX5ACOX6COX4
COX 13COX12COX7COX8COX20
ATP synthaseATP3ATP5ATP16ATP15ATP7ATP17ATP18ATP19ATP20TIM11
ε
δ
γ
VIb
VIIbVbVa
VIIIc
VbVa
δ
b b
1Cytc
107
20cox
VIaIV
j fd
ε
gk11Tim
42Cornuéjols Apprentissage et prétraitement
16/01/06
Problèmes
• Attributs corrélés
• Quasi absence de fondements théoriques
• Tri plutôt que sélection
Boosting de tris ?
Nouveau domaine de recherche
43Cornuéjols Apprentissage et prétraitement
16/01/06
Bibliographie
• Blum, A. and Langley, P. (1997) Selection of relevant features and examples in machine learning. Artificial Intelligence journal (97). 245-271.
• Dash, M. and Liu, H. (1997) Feature selection for classification. Intelligent Data Analysis, 1. 131-156.
• Guyon, I. and Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3. 1157-1182.
Recommended