Upload
francesco-cabiddu
View
418
Download
0
Embed Size (px)
DESCRIPTION
Slides settimo intervento giornata 24 Maggio 2013 : "Una Statistica più consapevole per decisioni migliori. Giornata di Metodologia e Statistica per le Scienze Umane." Pomeriggio: La Statistica nelle Ricerche in Psicologia. Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia. Università di Cagliari. TITOLO: Molti p-value nella stessa analisi: necessità e metodi di correzione. (L. Finos) Università di Padova ABSTRACT: Durante l'analisi di un dataset è uso comune postulare molteplici ipotesi sperimentali. Per rispondere a tali ipotesi si fa uso di altrettanti test e p-value ad essi associati. Questo è il caso tipico, ad esempio, di due gruppi sperimentali che vengano confrontati su più di scale o il caso di più di due gruppi confrontati a due a due su una medesima scala. In questi casi risulta necessario estendere il concetto di errore di primo tipo al caso multidimensionale. Le definizioni largamente più accettate sono il FamilyWise Error Rate e il False Discovery Rate. Le ultime tre decadi hanno visto il fiorire di un gran numero di metodi per il controllo di questi due errori di primo tipo (in ambito multidimensionale). In questo seminario verranno presentati e discussi in modo critico i metodi sopracitati e presentati i principali metodi per il controllo della molteplicità. Si faranno anche alcuni brevi accenni alle prospettive future.
Citation preview
Molti p-value nella stessa analisi:
necessita e metodi di correzione
Livio Finos
Una statistica piu consapevole per decisioni migliori
Dipartimento di Pedagogia, Psicologia e Filosofia
–
Universita degli Studi di Cagliari
24 Maggio 2013
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Santona et al. (2010)
Ad un campione di 221 coppie sono stati somministrati i seguenti
questionari self-report
• Experiences in Close Relationships Scale (ECRR) (Brennan e
Shaver, 1998)
• Dyadic Adjustment Scale (DAS) (Spanier, 1976, 2000)
76 di queste coppie si sono rese disponibili ad effettuare due
interviste semistrutturate:
• Adult Attachment Interview (AAI) (George, Kaplan e Main,
1985)
• Current Relationship Interview (CRI) (Treboux, Crowell,
Waters, 2003)
Experiences in Close Relationships Scale
(ECRR) 1
• Indaga i sentimenti e i comportamenti correlati
all’attaccamento
• 36 item su scala likert 1-5.
• suddivisi in 2 dimensioni:
• ansia: (18 item) Fattore correlato ad intensa preoccupazione
per le relazioni sentimentali, timore di essere abbandonati e
frequenti richieste al partner di maggior coinvolgimento.
• evitamento: (18 item) Fattore collegato a difficolta e disagio
ad avvicinarsi emotivamente e ad affidarsi al partner.
1Brennan e Shaver (1998), Fraley, Waller e Brennan (2000)
Dyadic Adjustment Scale (DAS) 2
• valuta l’adattamento di coppia sulla base della
rappresentazione che ciascun membro ha del proprio
rapporto, 42 item su scala likert 1-6.
• 4 dimensioni:
• consenso diadico: (13 item) grado di accordo dei partner su:
finanze, tempo libero, religione, amicizie, gestione della casa,
gestione del tempo condiviso.
• soddisfazione diadica: (10 item) felicita percepite dai
coniugi nel rapporto. Valutati la frequenza delle liti, il piacere
provato nello stare insieme, l’aver considerato o meno il
divorzio e/o la separazione.
• coesione diadica: (5 item) quantita di tempo che i partner
dedicano ad attivita comuni di piacere, quali interessi sociali,
dialogo, lavoro condiviso su un obiettivo comune.
• espressione affettiva: (4 item) modalita in cui i partner
comunicano i propri sentimenti, l’amore e la sessualita.
2Spanier (1976, 2000)
Adult Attachment Interview (AAI) 4
• Intervista semi-strutturata, valuta lo stato della mente
attuale rispetto alle esperienze di attaccamento.
• scale a 9 punti, articolate in due gruppi 3:
• 5 scale dell’esperienza soggettiva
• 11 scale dello stato della mente
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classificazioni
3Simonelli, Calvo (2005)4George, Kaplan e Main (1985)
Current Relationship Interview (CRI) 6
• Intervista semi-strutturata che consta di 15 domande, valuta
lo stato della mente adulto rispetto alle esperienze
sentimentali.
• 18 scale di valutazione (punteggi 1-9), che sono utilizzateper definire 5:
• il comportamento del partecipante ed i suoi pensieri nei
confronti di argomenti correlati con l’attaccamento,
• il comportamento del partner,
• lo stile narrativo del soggetto.
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classificazioni
5Santona, Zavattini (2007)6Treboux, Crowell, Waters (2003)
La domanda scientifica
La domanda: Donne e Uomini rispondono in modo differente?
Il metodo statistico: Confrontiamo i due generi su tutte le scale
e le classificazioni dello strumento
(test sui ranghi e dei segni, campioni appaiati).
• ipotesi nulla H0: i due generi sono UGUALI rispetto alla
specifica scala/classificazione
• ipotesi alternativa H1: i due generi sono DIVERSI rispetto
alla specifica scala/classificazione
• avremo quindi 2 (scale dell ECRR) + 4 (scale del DAS) + 3
(classificazioni del AAI) + 3 (classificazioni del CRI) =
=12 test complessivi.
Dubbio: necessario controllo della molteplicita?
Ulteriore Esempio: studi fMRI
Una mappa di attivita per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output e solitamente una lista
dei voxel piu attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicita?
Ulteriore Esempio: studi fMRI
Una mappa di attivita per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output e solitamente una lista
dei voxel piu attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicita?
Ulteriore Esempio: studi fMRI
Una mappa di attivita per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output e solitamente una lista
dei voxel piu attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicita?
Altri esempi
Cinematica
un Test per Ogni Parametro
Modelli di Regressione (LM e GLM)
Un t-test per ogni Coefficiente di Regressione
Anova
Tutti i Confronti a Coppie (post-hoc)
Ogni volta in cui l’analisi produce piu di un p-value
Dubbio: necessario controllo della molteplicita?
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Verifica di Ipotesi, Un solo test
Due Ipotesi a confronto
• H0: due gruppi sono Uguali, nessuna relazione tra X e Y ,
nulla da pubblicare :(
• H1: due gruppi sono Diversi, c’e relazione tra X e Y ,
pubblicabile :)
Ogni test produce un p-value p,
se p ≤ .05 (α = .05) rifiuto H0 (e propendo per H1)
Errori
• Tipo I (falso positivo): Rifiuto H0 quando e Vera
P(Errore Tipo I ) = P(p ≤ .05|H0) = .05
• Tipo II (falso negativo): Non Rifiuto H0 quando e Falsa
P(Errore Tipo II ) = P(p > .05|H1)Potenza:
P(p ≤ .05|H1) = 1− P(p > .05|H1)= 1− P(Errore tipo II )
Importanza asimmetrica degli errori
Controlliamo la P(Errore tipo I ) (es ≤ .05)
e cerchiamo il test con massima Potenza (minimo Errore tipo II )
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) = 0.05
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
x x xxxx
t= 0.573 , p= 0.597
xxxxx x
t= 0.341 , p= 0.75
xxx xxx
t= −0.306 , p= 0.775
xxx xxx
t= −0.42 , p= 0.696
x x xx xx
t= 1.07 , p= 0.345
x x x xxx
t= −0.794 , p= 0.472
x xxx xx
t= 0.057 , p= 0.957
xx xx x x
t= 0.985 , p= 0.38
x xxx xx
t= 0.239 , p= 0.823
xx x xxx
t= 0.607 , p= 0.577
x xxxx x
t= −1.558 , p= 0.194
x xxx x x
t= −0.052 , p= 0.961
xx xxx x
t= −0.043 , p= 0.968
x xx xxx
t= −0.643 , p= 0.555
xxxx x x
t= 0.18 , p= 0.866
xx xx xx
t= 1.905 , p= 0.13
x xxx xx
t= 1.417 , p= 0.229
x xx xx x
t= −1.393 , p= 0.236
xx x xx x
t= −1.066 , p= 0.347
xx xxx x
t= 0.602 , p= 0.579
xxxx xx
t= 1.132 , p= 0.321
x xx xx x
t= −2.357 , p= 0.078
x xx xxx
t= −1.673 , p= 0.17
xxxx x x
t= 0.313 , p= 0.77
x xx xxx
t= 0.144 , p= 0.893
xx xxxx
t= 0.883 , p= 0.427
xx xx xx
t= 1.78 , p= 0.15
x xx x xx
t= −0.483 , p= 0.654
xx x xx x
t= −0.797 , p= 0.47
x x xxxx
t= 0.184 , p= 0.863
xxx xx x
t= −1.624 , p= 0.18
xx x xx x
t= −0.582 , p= 0.592
xxxx xx
t= 1.92 , p= 0.127
xxx x xx
t= 0.251 , p= 0.814
x xxxxx
t= 0.139 , p= 0.896
xxx xx x
t= −0.536 , p= 0.62
x xx x x x
t= −1.815 , p= 0.144
xxxx x x
t= 0.109 , p= 0.918
x xx xxx
t= −1.402 , p= 0.234
x xx xx x
t= −1.666 , p= 0.171
xxx xx x
t= −0.706 , p= 0.519
xx xxxx
t= 1.189 , p= 0.3
xxx x x x
t= −0.323 , p= 0.763
x xxxxx
t= −1.387 , p= 0.238
xx x x xx
t= 1.368 , p= 0.243
x x xxx x
t= −1.059 , p= 0.349
xx xx x x
t= 0.858 , p= 0.439
x xxxx x
t= −1.914 , p= 0.128
x x xx xx
t= 0.088 , p= 0.934
x xx xx x
t= −3.713 , p= 0.021
xx x x xx
t= 1.724 , p= 0.16
xxxxx x
t= 0.334 , p= 0.755
xx x xx x
t= −0.392 , p= 0.715
xxx xx x
t= −0.55 , p= 0.612
xxxx x x
t= 0.205 , p= 0.848
xx xx xx
t= 2.356 , p= 0.078
xx xx xx
t= 0.125 , p= 0.906
xxx xx x
t= −1.519 , p= 0.203
x x xx xx
t= 1.213 , p= 0.292
xx xxx x
t= 0.248 , p= 0.816
x xx x xx
t= 0.16 , p= 0.881
x xx xx x
t= −1.477 , p= 0.214
x xx xx x
t= −3.643 , p= 0.022
x xxx x x
t= −0.295 , p= 0.783
xxx xxx
t= −0.592 , p= 0.586
xx x xxx
t= 1.052 , p= 0.352
x xxx xx
t= 0.711 , p= 0.516
x xx xxx
t= −1.272 , p= 0.272
x x xxx x
t= −0.423 , p= 0.694
xxx x xx
t= 0.06 , p= 0.955
x xxxx x
t= −2.702 , p= 0.054
x xxx xx
t= −0.309 , p= 0.773
x xx xx x
t= −1.051 , p= 0.352
xxx xx x
t= −0.592 , p= 0.585
xx xx xx
t= 2.035 , p= 0.112
x xx x xx
t= −0.537 , p= 0.62
x xxxxx
t= −0.351 , p= 0.743
x x xxxx
t= 0.11 , p= 0.918
xx xxxx
t= 1.722 , p= 0.16
xxxx xx
t= 0.42 , p= 0.696
xx xxx x
t= 0.446 , p= 0.679
x xx xx x
t= −2.388 , p= 0.075
xxx xx x
t= −1.18 , p= 0.303
xx xx xx
t= 4.126 , p= 0.015
xx xx xx
t= 1.824 , p= 0.142
xx x xx x
t= 0.239 , p= 0.823
x xxxx x
t= −0.785 , p= 0.476
x xx xx x
t= −3.455 , p= 0.026
xx xx x x
t= 1.628 , p= 0.179
xx xx xx
t= 2.338 , p= 0.08
x xx x xx
t= 0.114 , p= 0.915
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)ad es: Potenza : P(p ≤ 0.05|H1) = 0.75
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
x xx xx x
t= −6.88 , p= 0.002
xxxxx x
t= −1.508 , p= 0.206
x xx xx x
t= −5.796 , p= 0.004
x x xxx x
t= −1.097 , p= 0.334
x xx xx x
t= −2.721 , p= 0.053
x xx xx x
t= −2.199 , p= 0.093
x xx xx x
t= −2.119 , p= 0.101
x xxxx x
t= −1.623 , p= 0.18
x xx xx x
t= −3.488 , p= 0.025
x xx xx x
t= −2.188 , p= 0.094
xxx xx x
t= −1.767 , p= 0.152
x xx x xx
t= −1.713 , p= 0.162
x xx xxx
t= −1.937 , p= 0.125
x xx xx x
t= −3.362 , p= 0.028
x xx x x x
t= −2.168 , p= 0.096
x xx xx x
t= −2.533 , p= 0.064
x xx xx x
t= −2.597 , p= 0.06
x xxx x x
t= −1.544 , p= 0.197
x xx x x x
t= −2.053 , p= 0.109
x xx xxx
t= −0.742 , p= 0.499
x xx xx x
t= −6.18 , p= 0.003
x xx xx x
t= −3.035 , p= 0.039
x xx xx x
t= −3.018 , p= 0.039
x xx xx x
t= −1.272 , p= 0.272
x xx xx x
t= −5.114 , p= 0.007
x xx xx x
t= −3.923 , p= 0.017
xxx xx x
t= −1.94 , p= 0.124
x xx xx x
t= −2.453 , p= 0.07
x xx xx x
t= −2.216 , p= 0.091
xx xxx x
t= −0.627 , p= 0.565
x xx xx x
t= −3.747 , p= 0.02
x xx xx x
t= −4.571 , p= 0.01
x xx xxx
t= −1.381 , p= 0.239
x xx xx x
t= −6.397 , p= 0.003
x xx xx x
t= −2.826 , p= 0.048
x xx xxx
t= −2.022 , p= 0.113
x xx x x x
t= −1.664 , p= 0.171
x xx xx x
t= −2.793 , p= 0.049
x xx xx x
t= −2.364 , p= 0.077
x xx xx x
t= −4.04 , p= 0.016
x xx xx x
t= −2.682 , p= 0.055
x xx xx x
t= −6.533 , p= 0.003
x xx xx x
t= −4.637 , p= 0.01
x xx xx x
t= −2.505 , p= 0.066
x xx xx x
t= −1.902 , p= 0.13
x xx xx x
t= −2.594 , p= 0.06
x xx xx x
t= −27.1 , p= 0
xxx xxx
t= −1.372 , p= 0.242
x xx xx x
t= −3.249 , p= 0.031
xxx x x x
t= −0.982 , p= 0.382
x xx xx x
t= −5.34 , p= 0.006
x xx xx x
t= −2.526 , p= 0.065
x xx xx x
t= −8.81 , p= 0.001
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
= .10 + .10− (.10 ∗ .10) = 1− (1− .10)2 = .19 = 1− (1− α)2
densità congiunta
p−values test 1
p−va
lues
test
2
0.2
0.6
11.
4
Probabilita di falsi rifiuti
m p-value indipendenti
Se rifiuto l’ipotesi quando p ≤ α
Probabilita ALMENO un falso rifiuto
P = 1− (1− α)m
Nel nostro caso (se i p-value fossero indipendenti!)
P = 1− (1− α)12 = 0.4596
Errori di Tipo I per numero di test
0 20 40 60 80 100
0.0
0.2
0.4
0.6
0.8
1.0
number of hypothesis tests at level 0.05
prob
abili
ty o
f a fa
lse
reje
ctio
n
P-values Dipendenti
Quasi sempre nei dati reali
densità congiunta
p−values test 1
p−va
lues
test
2
0.2
0.6
11.
4
P-values DipendentiQuasi sempre nei dati reali
P(Almeno un Falso Rifiuto)> (!)1− (1− α)2
densità congiunta
p−values test 1
p−va
lues
test
2
0.2
0.6
11.
4
Type I errors
Come definire l’errore di tipo I quando ci sono molte ipotesi?
Quali procedure controllano questo errore?
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
FamilyWise Error Rate (FWER)
Probabilita di fare ALMENO un falso rifiuto
Diseguaglianza di Bonferroni
Riduce α
Rifiuta Hi se pi ≤ α/m (m = numero di ipotesi)
Controllo del FWER
FWER = P(
pi ≤ α/m per almeno una ipotesi i nulla vera)
≤∑
i∈{ipotesi nulle vere}
P(pi ≤ α/m)
≤ #{ipotesi nulle vere}α
m≤ α
Procedura di Bonferroni
Adjusted p-value = p-value· · · (# ipotesi nulle vere)
Rifiuta se adjusted p-value ≤ α
Vantaggi
• Molto facile
• Controlla il FWER sotto ogni dipendenza
Svantaggi
Conservativo (Adj. p-value molto alti, pochi rifiuti)
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Bonferroni
H \R :
R :
Adj. p-value: ≤?αpA5 pB 5 pC 5 pD5 pE 5
A B C D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Supponiamo pA e pC significativi
H \R :
R :
Adj. p-value: ≤?αpA5 pB 5 pC 5 pD5 pE 5
A B C D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Adjusted p-value: p · 3
H \R :
R :
Adj. p-value: ≤?α- pB 3 - pD3 pE 3
A
B
C
D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Supponamo pD significativo
H \R :
R :
Adj. p-value: ≤?α- pB 3 - pD3 pE 3
A
B
C
D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Adjusted p-value: p · 2
H \R :
R :
Adj. p-value: ≤?α- pB 2 - - pE 2
A
B
C D
E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Nessun rifuto. Stop
H \R :
R :
Adj. p-value: ≤?α- pB 2 - - pE 2
A
B
C D
E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Risultati Holm
p-value Adjusted p-value
ECRR: Ansia .217 1.000
ECRR: Evitamento .0015 .0165 *
DAS: Consenso .0072 .0648
DAS: Soddisfazione .0001 .0012 *
DAS: Coesione .0415 .2905
DAS: Espr.Affetti .0025 .0250 *
AAI: Sicuro .3545 1.000
AAI: Distanziante .0189 .1512
AAI: Preoccupato .1264 .7584
CRI: Sicuro .5856 1.000
CRI: Distanziante .5536 1.000
CRI: Preoccupato 1.000 1.000
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Closed Testing
Insieme Chiusura delle ipotesi (tutte le possibili intersezioni)
Ipotesi iniziali
A
A B C
Closed Testing
Test nodo superiore (es MANOVA)
Insieme chiusura
ABC
AB AC BC
A B C
Closed Testing
Test il nodo principale a livello α
αABC
AB AC BC
A B C
Closed Testing
Supponiamo sia significativo
-ABC
AB AC BC
A B C
Closed Testing
Avanti
-
αα α
ABC
AB AC BC
A B C
Closed Testing
Verifica i successivi a livello α
-
α- -
ABC
AB AC BC
A B C
Closed Testing
Avanti
-
α- -
α
ABC
AB AC BC
A B C
Closed Testing
Identifica i significativi
-
α- -
-
ABC
AB AC BC
A B C
Closed Testing
Svantaggio: ipotesi testate diventano sono spesso troppe:
= 2#ipotesi − 1
Identifica i significativi
-
α- -
-
ABC
AB AC BC
A B C
Inheritance Procedure per ipotesi
strutturate (Goeman & Finos, 2012)
ECRR
[.0011]
AN
SIA
[1.0
00
]E
VIT
AM
EN
TO
[.0
18
0]
DAS
[.0003]
CO
NS
EN
SO
[.0
43
2]
SO
DD
ISF
AZ
ION
E[.
00
09
]C
OE
SIO
NE
[.1
24
5]
ES
PR
.A
FF
ET
TO
[.0
22
5]
AAI
[.0696]
Sic
uro
[1.0
00
]D
ista
nzi
an
te[.
07
56
]P
reo
ccu
pa
to[.
50
56
]
CRI
[1.000]
Sic
uro
[1.0
00
]D
ista
nzi
an
te[1
.00
0]
Pre
occ
up
ato
[1.0
00
]
global
[.0001]
Permutazioni
Westfall & Young min-P: simile a Holm, ma via permutazione
Vantaggi dei test di permutazione
• Meno assunzioni sulla distribuzione dei dati
• Gestisce le dipendenze tra test (e quindi p-values)
Svantaggi
Meno flessibile (applicabile) dei metodi di Massima
Verosimiglianza.
Gestire le dipendenze:
adjusted p-value piu bassi (piu rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . .
Permutare (spesso) Conviene
Gestire le dipendenze:
adjusted p-value piu bassi (piu rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . . Permutare (spesso) Conviene
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
False Discovery Rate 8
# Non Rifiutate # Rifiutate Totale
# H0 A0 R0 m0# H1 A1 R1 m1
A R m
Controllare il False Discovery Rate (FDR)
significa definire una procedura:
Media(#Falsi Rifiuti
#Rifiuti) = Media(
R0R
) ≤ q
solitamente q = .05 (analogo α)
8Benjamini and Hochberg (1995). Journal of the Royal Statistical Society,
Series B (Methodological) 57 (1): 289–300.
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Benjamini and Hochberg (BH)
p(10) m
10 = 0.753 1010 = 0.753
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(9) m
9 = 0.731 109 = 0.812
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(8) m
8 = 0.503 108 = 0.629
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(7) m
7 = 0.314 107 = 0.449
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(6) m
6 = 0.153 106 = 0.255
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
ecc.
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(1) m
2 = 0.016 102 = 0.080
?≤ q = .10 : sı, STOP
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Altro
Dipendenza
BH e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH map(i) m
i L =?≤ q = .10
con L =∑i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
Altro
Dipendenza
BH e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH map(i) m
i L =?≤ q = .10
con L =∑i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
Altro
Dipendenza
BH e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH map(i) m
i L =?≤ q = .10
con L =∑i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
Risultati (BH & BY)
p-value BH BY
ECRR: Ansia .2165 .325 1.000
ECRR: Evitamento .0015 .009 * .028 *
DAS: Consenso .0072 .022 * .067
DAS: Soddisfazione .0001 .001 * .004 *
DAS: Coesione .0415 .083 .258
DAS: Espr.Affetti .0025 .010 .031
AAI: Sicuro .3545 .473 1.000
AAI: Distanziante .0189 .045 * .141
AAI: Preoccupato .1264 .217 .673
CRI: Sicuro .5856 .639 1.000
CRI: Distanziante .5536 .639 1.000
CRI: Preoccupato 1.000 1.000 1.000
FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi piu falsi rifiuti.
Subsets
Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi
es: Correggo tutti i test, ma discuto solo quelli che so spiegare
meglio o piu interessanti.
Finner and Roters10
• FDR control on all subsets = FWER control
• FWER control on all subsets = FWER control
10Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005
Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi piu falsi rifiuti.
Subsets
Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi
es: Correggo tutti i test, ma discuto solo quelli che so spiegare
meglio o piu interessanti.
Finner and Roters10
• FDR control on all subsets = FWER control
• FWER control on all subsets = FWER control
10Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005
Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
Take-home message
• Spesso necessario e spesso non sentito
• FWER controllo della probabilita di errore
• FDR controllo della proporzione MEDIA di falsi rifiuti
• FWER e
• un controllo piu forte
• generalmente preferibile
• e con piu possibili estensioni (e piu flessibile)
• (FWER e FDR) facile in R