Upload
eulalio-rocca
View
215
Download
1
Embed Size (px)
Citation preview
Biostatistica(SECS-S/02 )
STATISTICA PER LA RICERCA SPERIMENTALE E
TECNOLOGICAIncontro 14
24 Novembre 2011
Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12
Confronti multipli non prestabiliti• La definizione a priori dei contrasti ortogonali consente
grandi vantaggi di semplicità e correttezza nei test statistici relativi , ma nella pratica sperimentale non è sempre possibile pianificare a priori i confronti ,soprattutto se questi sono equivalenti o suggeriti dai risultati dell’esperimento.
• Esempio:In agronomia un esperimento di confronto tra varietà non permette di pianificare in anticipo dei contrasti tra le medie campionarie:è più conveniente basarsi su quanto suggeriscono i dati sperimentali e verificare se la varietà che risulta più produttiva è significativamente migliore di quella che la segue nella scala di produttività. In altri casi può essere opportuno effettuare tutti i confronti possibili tra i livelli del fattore sperimentale .
Test di Tukey (Metodo T)Confronti a coppie
• I contrasti vengono scelti sulla base dei risultati dell’esperimento(non sono quindi prestabiliti).
• Si escludono i contrasti complessi.• Si utilizzano i valori critici della
distribuzione q (‘Intervallo di variazione studentizzato’ o ‘studentized range’): in realtà la distribuzione q è una famiglia di distribuzioni identificate dal numero dei trattamenti(p) e dai gradi di libertà(nT-p) della devianza dell’errore.
• Sia p il numero di trattamenti ,l’intervallo di confidenza tra 2 medie sulla base della distribuzione q è definito come :
Test di Tukey (Metodo T)Confronti a coppie
Intervallo di Confidenza
pneQMGLconeQMs
doven
sql
T
pnpkk T
))(()(
1)(,;
Test di Tukey (Metodo T)-Confronti a coppieTest d’ipotesi
• Si definisce una DMS(Differenza Minima Significativa) protetta (se il test ANOVA è risultato significativo)T che dipende dal livello di significatività prescelto α e si dichiarano significative le differenze tra medie che superano tale soglia in valore assoluto:
'
')(,;
)2(;2/)2(,2;
)(,;
2
:
2
1
ii
iipnp
nn
pnp
nn
nnsqT
zioneApprossimabilanciatononoEsperiment
DMSTtq
pSen
sqT
T
TT
T
• Un’esperimento bilanciato di confronto tra 5 diete ha fornito i seguenti risultati espressi come incrementi del peso dei conigli(n=5 ripetizioni per dieta vengono omesse per brevità):
Medie:6.49 ,6.07 , 6.02 , 6.17 , 5.62 QM(a)=0.5806 con GL(QM(a))=4
QM(e)=0.1468 con GL(QM(e))=20.• L’ipotesi complessiva
H0:μ1=μ2=μ3=μ4=μ5 viene respinta sulla base dei test
F4,20=0.5806/0.1468=3.96 che risulta significativo al livello di α=0.05. • Naturalmente è lecito chiedersi quale differenza tra i valori
medi delle singole varietà sia responsabile del rifiuto dell’ipotesi complessiva.
Esempio:Test di Tukey
• Le differenze tra le medie campionarie possono essere riportate nella seguente tabella:
Esempio:Test di Tukey
Dieta 1 Dieta 2 Dieta 3 Dieta 4 Dieta 5
Media: 6.49 6.07 6.02 6.17 5.62
Dieta 2 0.42 …….
Dieta 3 0.47 0.05 ……..
Dieta 4 0.32 -0.10 -0.15 ……….
Dieta 5 0.87 0.45 0.40 0.55 ……….
102
4*5
!3!2
!5
2
5
Numero dei contrasti a coppia possibili
È opportuno formulare delle ipotesi nulle per il confronto tra le medie dei trattamenti ,indicate generalmente come:
H0:λ(k)=0 ,corrispondenti , alla formulazione:
H0:μi- μi’=0 con i,i’=1,2,….5.Per α=0.05 la variabile q assume il valore:
q0.05;5,20 =4.24da cui:
Esempio:Test di Tukey
723.05/1468.024.42
20,5;05.0 nsqT
Dalla tabella si può verificare che solo il confronto tra μ1 e μ5 risulta significativo.
Verifica delle assunzioni dell’ANOVA
1) Normalità degli Errori
2) Uguaglianza della varianza degli errori (entro trattamento) o omogeneità delle varianze.
3) Indipendenza statistica degli errori
Nella pratica sperimentale non sempre tutte le assunzioni sono rispettate!
Non Normalità degli Errori
• La non normalità degli errori rende approssimate le stime delle componenti della varianza : se la curtosi è diversa da zero le varianze degli effetti che nel modello ad effetti random seguono una distribuzione χ 2 sono una cattiva approssimazione.
Se l’esperimento è bilanciato le conseguenze della non normalità degli errori sono meno gravi.
Non omogeneità delle varianze
• Le varianze campionarie stimano tutte la stessa varianza,comune a tutte le popolazioni
• La non uguaglianza delle varianze entro gruppi fa in modo che il vero valore di α superi il suo valore nominale(anche per 2 soli trattamenti):tale effetto sul livello di significatività si accentua quando l’esperimento è sbilanciato .
Test di Cochran
• Se l’esperimento è bilanciato ,l’ipotesi di omogeneità tra
le varianze entro-trattamento
H0:σ1=σ2=σ3=….=σp
viene saggiata tramite la statistica-test :
223
22
21
2max
, ....... ppn ssss
sR
Si utilizzano apposite tavole per confrontare il valore della statistica-test con i valori critici,fissato il livello di significatività. Se il valore è significativo(maggiore del valore della tabella) rifiuto l’ipotesi di omogeneità tra le varianze.
Analisi della varianza non parametrica
• Se le assunzioni dell’analisi della varianza vengono seriamente violate ,cioè quando i campioni sono estratti da popolazioni non normalmente distribuiti e con varianze disuguali si può ricorrere a procedure alternative non parametriche :– Test sulla mediana per p campioni – Test H di Kraskal-Wallis
Test sulla mediana per p campioni
• È un estensione del test sulla mediana e richiede la determinazione della mediana di tutte le osservazioni dei p campioni considerati congiuntamente .
• Si costruisce una tabella in cui per ogni campione sono riportati il numero di osservazioni al di sopra della mediana e il numero di quelle non al di sopra.
• L’ipotesi nulla che le popolazioni hanno la stessa mediana ,può essere verificata con test χ2 ,applicato alla tabella 2xp.
• Il test può essere applicato quando il valore atteso per ogni gruppo è di almeno 5 .
Test H di Kruskal-Wallis• Il test H richiede che le osservazioni siano trasformate in
ranghi , come indicato per il test U su due campioni ,e può essere applicato nel caso di un esperimento completamente randomizzato .
• L’ipotesi nulla non comprende relazioni riguardanti i parametri delle popolazioni e non vengono utilizzate statistiche campionarie per la verifica delle ipotesi stesse.
• L’ipotesi nulla infatti comprende solo l’appartenenza dei p campioni alla stessa popolazione ,mentre l’ipotesi alternativa dice che almeno uno dei campioni non appartiene a tale popolazione .
• Una volta trasformati ,i dati in ranghi ,indipendentemente dall’appartenenza ai singoli trattamenti , si calcola per ogni trattamento la somma dei ranghi relativi :
Test H di Kruskal-Wallis
)1(3)1(
12
2
)1(
1
2
1
1
T
p
i i
i
TT
p
ii
n
jiji
nn
R
nnH
TestStatistica
nnR
RRi
La statistica H segue la distribuzione di un χ2 con p-1 gradi di libertà ,a patto che il numero di ripetizioni per gruppo sia almeno 5 .Se l’adattamento alla distribuzione del χ2 non è valido,è possibile ricorrere ad apposite tavole di valori critici di H .
Il rapporto SS(a)/QM(y) corrisponde ad H:ciò può essere utile in esperimenti più complessi (ANOVA a più criteri di classificazione),per i quali sia opportuno l’approccio non paramentrico.
Esempio(ANOVA non parametrica)
• L’efficacia di 3 acaricidi viene saggiata contando il numero di acari presenti su una foglia di 5 piante diverse scelte a caso e trattate con ciascun acaricida .
Acaricida A Acaricida B Acaricida C
25(4) 110(15) 39(8)
21(2) 66(12) 43(9)
33(6) 91(14) 28(5)
36(7) 52(10) 11(1)
54(11) 72(13) 24(3)
R1=30 R2=64 R3=26
n1=5 n2=5 n3=5 nT=15
• L’ipotesi nulla può essere formulata come segue :H0:il numero di acari per foglia è uguale nelle piante trattate con i 3 acaricidi.
L’ipotesi è verificata con la statistica-test:
Esempio(ANOVA non parametrica)
72.8)16(35
266430
)16(15
12
)1(3)1(
12
1
2
T
p
i i
i
TT
nn
R
nnH
Il valore critico di χ2 con 2 gradi di libertà per α=0.05 è 5.99 : l’ipotesi nulla può quindi essere rifiutata.
Esercizio(Anova)
• E' stato condotto un esperimento per confrontare il raccolto di 4 varietà di riso. Ognuno dei 16 appezzamenti della fattoria sottoposta al test è stato trattato in modo simile per quanto concerne l'acqua e il fertilizzante. Quattro appezzamenti sono stati assegnati casualmente ad ognuna delle 4 varietà di riso. Il raccolto di ogni appezzamento è stato annotato in libbre per acro nella seguente tabella:
Varietà Raccolti
1 934 1041 1028 935
2 880 963 924 946
3 987 951 976 840
4 992 1143 1140 1191
I dati della tabella indicano una differenza nel raccolto medio delle 4varietà? Usare un'analisi della varianza con α = 0.05.
Esercizio 2 • L'assorbimento da parte del suolo dei metalli che
fuoriescono nell'aria durante alcuni processi industriali produce gravi danni ambientali. Per accertarsi se le percentuali di assorbimento variano tra i tipi di terreno,sono stati casualmente scelti 6 campioni di terre coltivate, aventi 5 tipi di suolo differenti (1, 2, 3, 4, 5) in un'area nota per avere un'esposizione relativamente uniforme ai metalli osservati. I 30 campioni di terreno sono stati analizzati per contenuto di cadmio (Cd). I risultati sono presentati nella seguente tabella. Eseguire un'analisi della varianza per determinare se vi siano differenze nel contenuto di cadmio tra i terreni.
Esercizio 2
Esercizio 3
Grazie per l’attenzione