Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 14 24 Novembre 2011 Università degli Studi di Pisa Facoltà di

Biostatistica(SECS-S/02 )

STATISTICA PER LA RICERCA SPERIMENTALE E

TECNOLOGICAIncontro 14

24 Novembre 2011

Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12

Confronti multipli non prestabiliti• La definizione a priori dei contrasti ortogonali consente

grandi vantaggi di semplicità e correttezza nei test statistici relativi , ma nella pratica sperimentale non è sempre possibile pianificare a priori i confronti ,soprattutto se questi sono equivalenti o suggeriti dai risultati dell’esperimento.

• Esempio:In agronomia un esperimento di confronto tra varietà non permette di pianificare in anticipo dei contrasti tra le medie campionarie:è più conveniente basarsi su quanto suggeriscono i dati sperimentali e verificare se la varietà che risulta più produttiva è significativamente migliore di quella che la segue nella scala di produttività. In altri casi può essere opportuno effettuare tutti i confronti possibili tra i livelli del fattore sperimentale .

Test di Tukey (Metodo T)Confronti a coppie

• I contrasti vengono scelti sulla base dei risultati dell’esperimento(non sono quindi prestabiliti).

• Si escludono i contrasti complessi.• Si utilizzano i valori critici della

distribuzione q (‘Intervallo di variazione studentizzato’ o ‘studentized range’): in realtà la distribuzione q è una famiglia di distribuzioni identificate dal numero dei trattamenti(p) e dai gradi di libertà(nT-p) della devianza dell’errore.

• Sia p il numero di trattamenti ,l’intervallo di confidenza tra 2 medie sulla base della distribuzione q è definito come :

Test di Tukey (Metodo T)Confronti a coppie

Intervallo di Confidenza

pneQMGLconeQMs

doven

sql

T

pnpkk T

))(()(

1)(,;

Test di Tukey (Metodo T)-Confronti a coppieTest d’ipotesi

• Si definisce una DMS(Differenza Minima Significativa) protetta (se il test ANOVA è risultato significativo)T che dipende dal livello di significatività prescelto α e si dichiarano significative le differenze tra medie che superano tale soglia in valore assoluto:

'

')(,;

)2(;2/)2(,2;

)(,;

2

:

2

1

ii

iipnp

nn

pnp

nn

nnsqT

zioneApprossimabilanciatononoEsperiment

DMSTtq

pSen

sqT

T

TT

T

• Un’esperimento bilanciato di confronto tra 5 diete ha fornito i seguenti risultati espressi come incrementi del peso dei conigli(n=5 ripetizioni per dieta vengono omesse per brevità):

Medie:6.49 ,6.07 , 6.02 , 6.17 , 5.62 QM(a)=0.5806 con GL(QM(a))=4

QM(e)=0.1468 con GL(QM(e))=20.• L’ipotesi complessiva

H0:μ1=μ2=μ3=μ4=μ5 viene respinta sulla base dei test

F4,20=0.5806/0.1468=3.96 che risulta significativo al livello di α=0.05. • Naturalmente è lecito chiedersi quale differenza tra i valori

medi delle singole varietà sia responsabile del rifiuto dell’ipotesi complessiva.

Esempio:Test di Tukey

• Le differenze tra le medie campionarie possono essere riportate nella seguente tabella:


Dieta 1 Dieta 2 Dieta 3 Dieta 4 Dieta 5

Media: 6.49 6.07 6.02 6.17 5.62

Dieta 2 0.42 …….

Dieta 3 0.47 0.05 ……..

Dieta 4 0.32 -0.10 -0.15 ……….

Dieta 5 0.87 0.45 0.40 0.55 ……….

102

4*5

!3!2

!5

2

5

Numero dei contrasti a coppia possibili

È opportuno formulare delle ipotesi nulle per il confronto tra le medie dei trattamenti ,indicate generalmente come:

H0:λ(k)=0 ,corrispondenti , alla formulazione:

H0:μi- μi’=0 con i,i’=1,2,….5.Per α=0.05 la variabile q assume il valore:

q0.05;5,20 =4.24da cui:


723.05/1468.024.42

20,5;05.0 nsqT

Dalla tabella si può verificare che solo il confronto tra μ1 e μ5 risulta significativo.

Verifica delle assunzioni dell’ANOVA

1) Normalità degli Errori

2) Uguaglianza della varianza degli errori (entro trattamento) o omogeneità delle varianze.

3) Indipendenza statistica degli errori

Nella pratica sperimentale non sempre tutte le assunzioni sono rispettate!

Non Normalità degli Errori

• La non normalità degli errori rende approssimate le stime delle componenti della varianza : se la curtosi è diversa da zero le varianze degli effetti che nel modello ad effetti random seguono una distribuzione χ 2 sono una cattiva approssimazione.

Se l’esperimento è bilanciato le conseguenze della non normalità degli errori sono meno gravi.

Non omogeneità delle varianze

• Le varianze campionarie stimano tutte la stessa varianza,comune a tutte le popolazioni

• La non uguaglianza delle varianze entro gruppi fa in modo che il vero valore di α superi il suo valore nominale(anche per 2 soli trattamenti):tale effetto sul livello di significatività si accentua quando l’esperimento è sbilanciato .

Test di Cochran

• Se l’esperimento è bilanciato ,l’ipotesi di omogeneità tra

le varianze entro-trattamento

H0:σ1=σ2=σ3=….=σp

viene saggiata tramite la statistica-test :

223

22

21

2max

, ....... ppn ssss

sR

Si utilizzano apposite tavole per confrontare il valore della statistica-test con i valori critici,fissato il livello di significatività. Se il valore è significativo(maggiore del valore della tabella) rifiuto l’ipotesi di omogeneità tra le varianze.

Analisi della varianza non parametrica

• Se le assunzioni dell’analisi della varianza vengono seriamente violate ,cioè quando i campioni sono estratti da popolazioni non normalmente distribuiti e con varianze disuguali si può ricorrere a procedure alternative non parametriche :– Test sulla mediana per p campioni – Test H di Kraskal-Wallis

Test sulla mediana per p campioni

• È un estensione del test sulla mediana e richiede la determinazione della mediana di tutte le osservazioni dei p campioni considerati congiuntamente .

• Si costruisce una tabella in cui per ogni campione sono riportati il numero di osservazioni al di sopra della mediana e il numero di quelle non al di sopra.

• L’ipotesi nulla che le popolazioni hanno la stessa mediana ,può essere verificata con test χ2 ,applicato alla tabella 2xp.

• Il test può essere applicato quando il valore atteso per ogni gruppo è di almeno 5 .

Test H di Kruskal-Wallis• Il test H richiede che le osservazioni siano trasformate in

ranghi , come indicato per il test U su due campioni ,e può essere applicato nel caso di un esperimento completamente randomizzato .

• L’ipotesi nulla non comprende relazioni riguardanti i parametri delle popolazioni e non vengono utilizzate statistiche campionarie per la verifica delle ipotesi stesse.

• L’ipotesi nulla infatti comprende solo l’appartenenza dei p campioni alla stessa popolazione ,mentre l’ipotesi alternativa dice che almeno uno dei campioni non appartiene a tale popolazione .

• Una volta trasformati ,i dati in ranghi ,indipendentemente dall’appartenenza ai singoli trattamenti , si calcola per ogni trattamento la somma dei ranghi relativi :

Test H di Kruskal-Wallis

)1(3)1(

12

2

)1(

1

2

1

1

T

p

i i

i

TT

p

ii

n

jiji

nn

R

nnH

TestStatistica

nnR

RRi

La statistica H segue la distribuzione di un χ2 con p-1 gradi di libertà ,a patto che il numero di ripetizioni per gruppo sia almeno 5 .Se l’adattamento alla distribuzione del χ2 non è valido,è possibile ricorrere ad apposite tavole di valori critici di H .

Il rapporto SS(a)/QM(y) corrisponde ad H:ciò può essere utile in esperimenti più complessi (ANOVA a più criteri di classificazione),per i quali sia opportuno l’approccio non paramentrico.

Esempio(ANOVA non parametrica)

• L’efficacia di 3 acaricidi viene saggiata contando il numero di acari presenti su una foglia di 5 piante diverse scelte a caso e trattate con ciascun acaricida .

Acaricida A Acaricida B Acaricida C

25(4) 110(15) 39(8)

21(2) 66(12) 43(9)

33(6) 91(14) 28(5)

36(7) 52(10) 11(1)

54(11) 72(13) 24(3)

R1=30 R2=64 R3=26

n1=5 n2=5 n3=5 nT=15

• L’ipotesi nulla può essere formulata come segue :H0:il numero di acari per foglia è uguale nelle piante trattate con i 3 acaricidi.

L’ipotesi è verificata con la statistica-test:

Esempio(ANOVA non parametrica)

72.8)16(35

266430

)16(15

12

)1(3)1(

12

1

2

T

p

i i

i

TT

nn

R

nnH

Il valore critico di χ2 con 2 gradi di libertà per α=0.05 è 5.99 : l’ipotesi nulla può quindi essere rifiutata.

Esercizio(Anova)

• E' stato condotto un esperimento per confrontare il raccolto di 4 varietà di riso. Ognuno dei 16 appezzamenti della fattoria sottoposta al test è stato trattato in modo simile per quanto concerne l'acqua e il fertilizzante. Quattro appezzamenti sono stati assegnati casualmente ad ognuna delle 4 varietà di riso. Il raccolto di ogni appezzamento è stato annotato in libbre per acro nella seguente tabella:

Varietà Raccolti

1 934 1041 1028 935

2 880 963 924 946

3 987 951 976 840

4 992 1143 1140 1191

I dati della tabella indicano una differenza nel raccolto medio delle 4varietà? Usare un'analisi della varianza con α = 0.05.

Esercizio 2 • L'assorbimento da parte del suolo dei metalli che

fuoriescono nell'aria durante alcuni processi industriali produce gravi danni ambientali. Per accertarsi se le percentuali di assorbimento variano tra i tipi di terreno,sono stati casualmente scelti 6 campioni di terre coltivate, aventi 5 tipi di suolo differenti (1, 2, 3, 4, 5) in un'area nota per avere un'esposizione relativamente uniforme ai metalli osservati. I 30 campioni di terreno sono stati analizzati per contenuto di cadmio (Cd). I risultati sono presentati nella seguente tabella. Eseguire un'analisi della varianza per determinare se vi siano differenze nel contenuto di cadmio tra i terreni.

Esercizio 2

Esercizio 3

Grazie per l’attenzione

Documents

Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 14 24 Novembre 2011 Università degli Studi di Pisa Facoltà di