Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont

Sélection de variables : quelle(s) méthode(s) ?

Anne Viallefont

Pourquoi la sélection de variables pose-t-elle problème en écologie ?

Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents

Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat.

La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006)

De très nombreux articles récents…

Méthode de l’étude bibliographique : Thèmes retenus : sélection de modèles, de

variables, model averaging, tests multiples d’hypothèses nulles

tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003

toutes les références dans les articles disponibles (ESA + Biometrics +…)

Thèmes non retenus : modèles de mélange

Fréquence des articles consacrés à la sélection de modèles

0

1

2

3

4

5

6

7

année

nom

bre

d'a

rtic

les

publié

s

articles dans des revues de statistique

Articles dans des revues d'écologie

Articles dans des revues éducation/psycho

Autres

livres "AIC Statistics" (Sakamoto et al.) et "Model selection" (Linhart & Zucchini)

2 éditions du livre de Burnham et Anderson

AIC

Notions de base

Maximum de vraisemblance

C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé

Distance de Kullback - Leibler

C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle

Problème : pour la connaître il faut connaître explicitement la « vérité » (p)

Pour une distribution discrète :

i i

ii

pLnppI

),(

)/( ),( YPYL

Notions de base

Principe de parcimonie

Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité)

« rasoir d’Occam »

L’explication la plus simple est la plus probable…

Différentes méthodes possibles…

Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT

« cross-validation » AIC Autres critères avec terme de pénalité Approche « bayésienne »

La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés

Références : Voir par exemple Stephens et al. 2005 – JAE 42:4-12.

Avantages : Pertinence des questions / contrôle de ce qu’on fait

Inconvénients : Encouragerait (?) les questions « triviales », et les hypothèses

nulles « silly » test de nombreux facteurs Le modèle final choisi dépend du « chemin » pris

Précautions d’emploi Contrôle de Choix d’une procédure « step-down » après VALIDATION du

modèle initial (test d’ajustement)

Le Critère d’Information d’Akaike (AIC) - 1973

Estime la valeur attendue de la distance de Kullback – Leibler Avantages :

Simplicité d’utilisation Interprétation : Sélectionne le modèle le plus proche possible de la

« vérité » Inconvénients :

A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données

Précautions d’emploi : S’assurer que le modèle le plus complexe est ajusté aux données,

sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)

L

k 2 /Y)LLn( 2- AIC

De quoi se perdre…

AIC 1973 TIC 1976 BIC Schwarz 1978 AICC Hurvich et Tsai 1989

NIC Murata et al. 1994 QAIC, QAICC Burnham et Anderson 1998

RIC Basu et al. 1998 DIC Spiegelhalter et al. 2002 FIC et FRIC (!) Claeskens et Hjort 2003

+ Cp, CVL, FPE, PredSS…

AICC – QAIC - QAICC

Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons.

QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données

1

)1(2

Kn

KKAICAICC

k 2 c

/Y)LLn( 2- QAIC

L’approche bayésienne

On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles

On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :

jjj

iii MYP

MYPYM

)/(

)/()/Pr(


On utilise le critère BIC :

Si l’a priori est « plat », alors

On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.

)(.),ˆ/((.2 nLnkMYfLnBIC iii

)(.)/ˆ(.2 nLnKYLLnBIC


Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) :

Si on utilise comme « a priori » :

alors AIC = BIC

Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres

R

rrr

iii

knk

knk

1

)2/)ln(exp(

)2/)ln(exp(


Avantages : On peut intégrer de l’information provenant d’autres sources

ou d’études antérieures Si le « vrai modèle » se trouve parmi les modèles testés,

c’est celui-ci qui est choisi par BIC Le modèle choisi a peu de paramètres facilement

interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données

Inconvénients : Manque de « puissance statistique » Comportement imprévisible si le « vrai modèle » n’est pas

parmi ceux testés

Le débat en écologie… Où en sommes-nous ?

Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde…

« In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate »

Guthery et al. JWM 2005

Le débat en écologie… 1. arguments pro-AIC

« all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)

AIC

ce qui n’interdit pas le « model averaging »AIC weights :

Burnham et Anderson préconise de moyenner sur les modèles avec i

« some value that is roughly 4 to 7 »

R

r

ir

i

e

ew

12

1

2

1

Le débat en écologie… 2. arguments pro-BIC

Le « model averaging » n’a pas de sens hors du contexte bayésien

Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)

choisir les proba a priori adéquates et utiliser BICLink et Barker proposent 4 calculs de proba a priori :Equiproba, AIC, proportionnel à Exp(k) et « Occam »

(proportionnel à Exp(-k))

Le débat en écologie… 3. Autres arguments

Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme

une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester une analyse de sensibilité sur les variables du modèle le plus complexe

La sélection parmi de mauvais modèles ne peut donner un bon modèle Il peut y avoir des « silly » modèles, comme des « silly hypotheses »

Eléments de conclusion…

Avoir de bonnes données ! (« garbage in, garbage out »)

Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…)

Utiliser le bon outil L’utilisation de multiples tests successifs sur modèles emboîtés

est à éviter L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3

modèles Voir les cas où TIC/DIC sont préférables dans Burnham et

Anderson 2002 : 268-351

Eléments de conclusion…

« Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science.

Statistics are messy tools we use because time and money constraints force insufficient sampling »

Guthery et al. 2005

Documents

Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont