Sélection d’attributs

1Cornuéjols Apprentissage et prétraitement

16/01/06

Antoine Cornuéjols

Sélection d’attributsSélection d’attributs

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

antoine@lri.fr

http://www.lri.fr/~antoine/

16/01/06

Cours : plan

1- Pourquoi sélectionner les attributs

2- Définition du problème

• Pertinence et sous-ensemble d’attributs pertinents

3- Méthodes de sélection

• Trois familles d’approches

• Mesures de pertinence

• Détermination du seuil

4- Étude de cas

16/01/06

Pourquoi la sélection d’attributs

• Facteurs sans influence ou peu influents

• Facteurs redondants

• Dimension des entrées telle que coût de l’apprentissage trop grand

16/01/06

Pourquoi la sélection d’attributs

• Apprentissage moins coûteux

• Faciliter l’apprentissage Meilleure performance en classification

Meilleure compréhensibilité de l’hypothèse

• Identifier les facteurs pertinents Génomique

Vision

16/01/06

La sélection d’attributs

• Idéalement Identifier le sous-ensemble d’attributs de taille minimale nécessaire et

suffisant pour définir le concept cible

• Classiquement Sélectionner un sous-ensemble d’attributs de taille n < d, tel qu’un critère soit

optimisé par rapport à tous les sous-ensembles de taille n.

• Amélioration de l’erreur en classification Apprentissage supervisé

• Rester proche de la distribution originale des classes Apprentissage non supervisé

16/01/06

Pertinence d’un attribut

• Non pertinent ou redondant

Si sa présence n’améliore pas

– L’erreur en classification (supervisé)

– La proximité à la distribution originale des classes (non supervisé)

16/01/06

Définitions de la « pertinence »

• Pas de définition unique car dépend du domainePas de définition unique car dépend du domaine

Par rapport à la cible

– di est pertinent si une paire d’exemples ne différant qu’en di et de classes différentes

Idem par rapport à la distribution (ou à l’échantillon)

– Idem, sauf que la paire d’exemples peut être tirée avec une probabilité non nulle (ou appartient à l’échantillon)

Faible pertinence

– Si pertinent quand on retire un sous-ensemble des attributs

[Blum & Langley, 97], [Bell & Wang, 00]

Pertinent si Pertinent si permet une meilleure classificationpermet une meilleure classification

… … sisi permet de comprendre mieux permet de comprendre mieux

16/01/06

Le problème de la sélection d’attributs

Recherche parmi tous les sous-ensembles d’attributs

• Pour une taille n

2n sous-ensembles candidats

Généralement prohibitif

16/01/06

Le problème de la sélection d’attributs

• Problème NP-difficile

• Mais a priori plus simple que celui de la classification (apprentissage de la relation de dépendance)

• E.g. Supposons 3 attributs binaires et fonctions booléennes

fonctions possibles

a1 a2 a3 XOR

0 0 0 -

0 0 1 +

0 1 0 +

0 1 1 -

1 0 0 -

1 0 1 +

1 1 0 +

1 1 1 -

Mais seulement : 10 tris possibles sur les attributs(e.g. (a1,a2,a3))

Et 4 seuils

16/01/06

Le problème de la sélection d’attributs (2)

• Pourtant il manque une théorie fournissant des garanties

sur la qualité des classements

(analogue à la théorie statistique de l’apprentissage)

Pas d’équivalent du risque empirique

Tâche non supervisée

Méthodes (essentiellement) de nature heuristique

16/01/06

Procédure générale

[Dash & Liu, 1997]

16/01/06

Procédure générale

• Génération (exploration d’un espace de recherche)

Initialisation : un attribut / tous / un sous-ensemble

Opérateurs de recherche : ajout ou retrait attribut par attribut

• Évaluation

Mesure de la valeur du sous-ensemble d’attributs

• Critère d’arrêt

# d’attributs pré-défini atteint ou # d’itérations atteint

Amélioration insuffisante

Méthode de témoins

• Validation

E.g. par validation croisée

16/01/06

Critères d’arrêt

• Evaluation passe en-dessous d’un certain seuil

• Méthode par « témoin »

Inclure des attributs aléatoires

Ne pas retenir les attributs dont l’évaluation est en-dessous

16/01/06

Les approches

1. Approche intégrée (« embedded »)

2. « Wrapper methods » (approche symbiose)

Utilisent la performance en aval pour sélectionner les attributs

Deux stratégies

– Ascendante (« forward selection »)

• Par ajouts successifs d’attributs

– Descendante (« backward selection »)

• Par retraits successifs d’attributs

3. « Filter methods » (approche par filtre)

Indépendantes des traitements aval

[Blum & Langley, 97][Guyon & Elisseeff, 03]

Apprentissage

Données

Valid. croisée

Apprentissage

Filtrage

Apprentissage

Données

16/01/06

Approche « filter »

16/01/06

Approche « wrapper »

16/01/06

Hypothèse de linéarité

• Chaque attribut est évalué indépendamment des autres

16/01/06

Mesures de pertinence

Exemples

• Mesures d’information

• Mesures de distance

• Mesures de dépendance

• Critère de cohérence

• Mesures de précision

16/01/06

Mesure d’information

• Entropie d’une variable X

• Entropie de X après observation de Y

• Gain d’information

16/01/06

Critère de cohérence

• Chercher un sous-ensemble minimal d’attributs maintenant la

cohérence

• Une incohérence survient lorsque ≥ 2 exemples ont la même

description mais sont de classes différentes

• Remarque :

Valide seulement pour des attributs à domaine fini

16/01/06

Mesures de précision

• Utilisation d’un système de classification pour mesurer la précision

16/01/06

Critères de performance

• Hypothèse de distribution paramétrique N ()

Comparaison à hypothèse nulle locale : ANOVA

Idem (mais différent) : SAM

• Méthodes non paramétriques

Critère heuristique : RELIEF

16/01/06

Utilisation d’ANOVA

• Deux classes (Irradiée / Non Irradiée)

• N(1,) et N (2,)

• Comparaison

Variance intra-classe

Variance inter-classes

• Hypothèse nulle H0 : 1 = 2

• Rejet si

significativement trop grand par rapportaux quantiles de la foi F (k-1,n-k)

Vinterk−1

Vintran −k

16/01/06

SAM (Significance Analysis of Microarrays)

d(i) = xI (i) − xNI (i)

s(i) + s0

Constante > 0déviation standard

• Pour chaque gène :

• Gènes potentiellement significatifsGènes potentiellement significatifs : gènes dont le score d(g) est

supérieur au score moyen du gène obtenu après permutations des

classes, de plus d’un certain seuil

• Calcul du nombre de gènes faussement significatifsfaussement significatifs : nombre moyen de

gènes faussement significatifs pour chaque permutation

• Taux de fausse découverte Taux de fausse découverte (FDR)

16/01/06

RELIEF (1)

• [Kira & Rendell,92], [Kononenko,94]

• Les attributs les plus pertinents sont ceux qui varient plus lorsque

l’exemple (lame) considéré change de classe que lorsqu’il ne change

Complexité faible

Grande résistance au bruit

16/01/06

RELIEF (2)

Gène_1

Gène_2

L1 H1M1

16/01/06

Une lame L est vue comme un point dans un espace à p = 6135 dimensions On cherche ses k plus proches voisins dans la même classe et on note H

(nearest Hit) leur barycentre. On calcule ses k plus proches voisins dans l’autre classe et on note M

(nearest Miss) leur barycentre.

où est la projection selon gène du point x, et m est le nombre total de lames.

Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux probabilités comme suit :

Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente)

- P (gène a une valeur différente / k plus proches voisins dans la même classe)

Algorithme polynomial : (pm2) Rôle de k : prise en compte du bruit

[ ] [ ]{ }∑=

−−−=m

Lgènegènegènegène HLML

mgène

)(exp)(exp)(exp)(exp 1

)( rrrrpoids

exp rgène(x)

RELIEF (3)

16/01/06

Comparaison

• « Filter methods »

Hypothèse de linéarité

Peu coûteuses

• « Wrapper methods »

Coûteuses

Plus précises ?

Pas bonnes si m << d

Biaisées ?

16/01/06

Etude de cas : les faibles radiations

Danger indiscutable dans certains cas. En particulier pour les fortes doses

d’irradiation.

Quel impact des faibles doses ?

Biologiquement aucun détecté

Y a-t-il des effets au niveau des

gènes ?

16/01/06

Protocole expérimental

S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de

gènes).

Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h

Douze cultures non exposées (Non Irradiées NI)

Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage

fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés).

16/01/06

Questions des biologistes

• L’irradiation à de faibles doses est-elle détectable ?détectable ?

• Nombre de gènesNombre de gènes impliqués dans la réponse à une irradiation à faible dose ?

• Groupes de gènesGroupes de gènes impliqués dans la réponse à l’irradiation

et de quelle manière ?

• Est-il possible de deviner le traitementdeviner le traitement subi par une levure en regardant l’expression de

son génome ?

• Peut-on généraliser cette approchegénéraliser cette approche à d’autres types de traitements (pollutions, cancer, ...)

16/01/06

« Précarité » des données

• Extrêmement peu de données / dimension

(12 - (non irradiées) & 6 + (irradiées) vs. 6135 gènes)

• Données imparfaites

Bruit expérimental

– Irradiation

– Puces à ADN

Prétraitement et normalisation

• Pas idéales :

Déséquilibre des classes + et -

Absence d’indépendance conditionnelle entre les gènes

16/01/06

Sélection des attributs

• Y a-t-il vraiment de l’information dans les données ?

• Quels gènes retenir ?

• Avec quelle confiance ?

16/01/06

Hypothèse nulle globale

Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires

16/01/06

Hypothèse nulle globale

Nombre de gènes dont le poids dépasse la valeur repérée en abscisserouge : Avec les classes réelles ;bleu : Courbe moyenne obtenue avec des classes aléatoires

16/01/06

Précision ou rappel : choix d’un seuil

Il faut choisir entre :

Une liste contenant presque tous les gènes impliqués mais comportant des faux-positifs

Une liste de gènes impliquées de manière quasi-certaine dans la réponse à l’Irradiation (quitte à ne pas avoir tous les gènes impliqués)

Problème du seuil

16/01/06

Combinaison de méthodes ?

• Peut-on faire mieux avec deux méthodes ?Peut-on faire mieux avec deux méthodes ?

Est-ce mieux de prendre l’intersection de leurs sélections ?

Doit-on avoir plus de confiance dans la valeur du résultat ainsi obtenu ?

16/01/06

Intersections (1)

Pour les 500 meilleurs gènes de chaque technique (poids 0.2) :

SAMANOVA

Pour les 35 meilleurs (poids 0.5) :

RELIEF ANOVA278

RELIEF

SAM ANOVA

16/01/06

Intersections (2)

Est-ce que ces intersections sont significatives ?

• Problème :

Étant données 2 méthodes sélectionnant au hasard chacune n gènes parmi N

gènes, quelle est la probabilité que ces deux paquets de n gènes aient une

intersection de cardinal supérieur ou égal à k ?

= = > loi hypergéométriqueloi hypergéométrique H(n, N-n, k)

avec N = 6157 :

n = 500 : P (taille intersection 257 ) = 10-169

n = 35 : P (taille intersection 8 ) = 10-12

Le biologiste est satisfait !

16/01/06

Répartition des meilleurs gènes

function of 91 induced genes/171 number of ORFs % in this list % total ORFS (6158)sur-repunknown 38 41,8 50,4 0,8

oxidative stress response 4 4,4 0,3 14,3oxidative phosphorylation 9 9,9 0,3 30,5

transport 4 4,4 2,2 2,0gluconeogenesis 1 1,1 0,1 16,9

protein processing & synthesis 3 3,3 2,0 1,6ATP synthesis 7 7,7 0,4 20,6

glucose repression 1 1,1 0,2 4,8respiration 2 2,2 0,1 22,0

function of 80 repressed genes/171 number of ORFs % in this list % total ORFS sur-repunknown 45 56,3 50,4 1,1

stress response (putative) 1 1,3 0,2 7,0glycerol metabolism 2 2,5 0,1 30,8

protein processing & synthesis 3 3,8 2,0 1,9secretion 2 2,5 2,0 1,3transport 4 5,0 2,2 2,3glycolysis 2 2,5 1,0 2,5

16/01/06

Interprétation biologique

Cytochrome bc1Cyt1

QCR7QCR10

Cytochrome c oxidaseCOX5ACOX6COX4

COX 13COX12COX7COX8COX20

ATP synthaseATP3ATP5ATP16ATP15ATP7ATP17ATP18ATP19ATP20TIM11

VIIbVbVa

gk11Tim

16/01/06

Problèmes

• Attributs corrélés

• Quasi absence de fondements théoriques

• Tri plutôt que sélection

Boosting de tris ?

Nouveau domaine de recherche

16/01/06

Bibliographie

• Blum, A. and Langley, P. (1997) Selection of relevant features and examples in machine learning. Artificial Intelligence journal (97). 245-271.

• Dash, M. and Liu, H. (1997) Feature selection for classification. Intelligent Data Analysis, 1. 131-156.

• Guyon, I. and Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3. 1157-1182.

Sélection d’attributs

Documents

Sélection Officielle

Sélection cadeauw Hôtesses

SÉLECTION GROUPES

Hiestand Sélection

Sélection été 2013

Sélection Marazzi Design

Sélection janvier 2011

Sélection Printemps

Vente de Sélection

Sélection Petite

Sélection été 2012

Sélection d'un prestataire

Sélection Noël

Sélection d'été 2011

Sélection rapide

Sélection d'été 2010

Sélection Noël 2010

Sélection hiver 2011

Sélection - Sotexpro

La Sélection Immostreet