Upload
lionel-bourguignon
View
104
Download
0
Embed Size (px)
Citation preview
Sélection de variables : quelle(s) méthode(s) ?
Anne Viallefont
Pourquoi la sélection de variables pose-t-elle problème en écologie ?
Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents
Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat.
La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006)
De très nombreux articles récents…
Méthode de l’étude bibliographique : Thèmes retenus : sélection de modèles, de
variables, model averaging, tests multiples d’hypothèses nulles
tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003
toutes les références dans les articles disponibles (ESA + Biometrics +…)
Thèmes non retenus : modèles de mélange
Fréquence des articles consacrés à la sélection de modèles
0
1
2
3
4
5
6
7
année
nom
bre
d'a
rtic
les
publié
s
articles dans des revues de statistique
Articles dans des revues d'écologie
Articles dans des revues éducation/psycho
Autres
livres "AIC Statistics" (Sakamoto et al.) et "Model selection" (Linhart & Zucchini)
2 éditions du livre de Burnham et Anderson
AIC
Notions de base
Maximum de vraisemblance
C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé
Distance de Kullback - Leibler
C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle
Problème : pour la connaître il faut connaître explicitement la « vérité » (p)
Pour une distribution discrète :
i i
ii
pLnppI
),(
)/( ),( YPYL
Notions de base
Principe de parcimonie
Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité)
« rasoir d’Occam »
L’explication la plus simple est la plus probable…
Différentes méthodes possibles…
Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT
« cross-validation » AIC Autres critères avec terme de pénalité Approche « bayésienne »
La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés
Références : Voir par exemple Stephens et al. 2005 – JAE 42:4-12.
Avantages : Pertinence des questions / contrôle de ce qu’on fait
Inconvénients : Encouragerait (?) les questions « triviales », et les hypothèses
nulles « silly » test de nombreux facteurs Le modèle final choisi dépend du « chemin » pris
Précautions d’emploi Contrôle de Choix d’une procédure « step-down » après VALIDATION du
modèle initial (test d’ajustement)
Le Critère d’Information d’Akaike (AIC) - 1973
Estime la valeur attendue de la distance de Kullback – Leibler Avantages :
Simplicité d’utilisation Interprétation : Sélectionne le modèle le plus proche possible de la
« vérité » Inconvénients :
A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données
Précautions d’emploi : S’assurer que le modèle le plus complexe est ajusté aux données,
sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)
L
k 2 /Y)LLn( 2- AIC
De quoi se perdre…
AIC 1973 TIC 1976 BIC Schwarz 1978 AICC Hurvich et Tsai 1989
NIC Murata et al. 1994 QAIC, QAICC Burnham et Anderson 1998
RIC Basu et al. 1998 DIC Spiegelhalter et al. 2002 FIC et FRIC (!) Claeskens et Hjort 2003
+ Cp, CVL, FPE, PredSS…
AICC – QAIC - QAICC
Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons.
QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données
1
)1(2
Kn
KKAICAICC
k 2 c
/Y)LLn( 2- QAIC
L’approche bayésienne
On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles
On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :
jjj
iii MYP
MYPYM
)/(
)/()/Pr(
L’approche bayésienne
On utilise le critère BIC :
Si l’a priori est « plat », alors
On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.
)(.),ˆ/((.2 nLnkMYfLnBIC iii
)(.)/ˆ(.2 nLnKYLLnBIC
L’approche bayésienne
Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) :
Si on utilise comme « a priori » :
alors AIC = BIC
Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres
R
rrr
iii
knk
knk
1
)2/)ln(exp(
)2/)ln(exp(
L’approche bayésienne
Avantages : On peut intégrer de l’information provenant d’autres sources
ou d’études antérieures Si le « vrai modèle » se trouve parmi les modèles testés,
c’est celui-ci qui est choisi par BIC Le modèle choisi a peu de paramètres facilement
interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données
Inconvénients : Manque de « puissance statistique » Comportement imprévisible si le « vrai modèle » n’est pas
parmi ceux testés
Le débat en écologie… Où en sommes-nous ?
Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde…
« In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate »
Guthery et al. JWM 2005
Le débat en écologie… 1. arguments pro-AIC
« all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)
AIC
ce qui n’interdit pas le « model averaging »AIC weights :
Burnham et Anderson préconise de moyenner sur les modèles avec i
« some value that is roughly 4 to 7 »
R
r
ir
i
e
ew
12
1
2
1
Le débat en écologie… 2. arguments pro-BIC
Le « model averaging » n’a pas de sens hors du contexte bayésien
Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)
choisir les proba a priori adéquates et utiliser BICLink et Barker proposent 4 calculs de proba a priori :Equiproba, AIC, proportionnel à Exp(k) et « Occam »
(proportionnel à Exp(-k))
Le débat en écologie… 3. Autres arguments
Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme
une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester une analyse de sensibilité sur les variables du modèle le plus complexe
La sélection parmi de mauvais modèles ne peut donner un bon modèle Il peut y avoir des « silly » modèles, comme des « silly hypotheses »
Eléments de conclusion…
Avoir de bonnes données ! (« garbage in, garbage out »)
Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…)
Utiliser le bon outil L’utilisation de multiples tests successifs sur modèles emboîtés
est à éviter L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3
modèles Voir les cas où TIC/DIC sont préférables dans Burnham et
Anderson 2002 : 268-351
Eléments de conclusion…
« Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science.
Statistics are messy tools we use because time and money constraints force insufficient sampling »
Guthery et al. 2005