Upload
trinhnguyet
View
219
Download
0
Embed Size (px)
Citation preview
Slide Set #5Tests delle Ipotesi
Pietro [email protected]
Universita degli Studi di Salerno
Corso di Statistica (0212700010)CDL in Economia e Management
Curriculum in Management e Informaticaa.a. 2018/2019
Versione: 19 novembre 2018 (h16:38)
P. Coretto // Statistica Tests delle Ipotesi 1 / 68
Esempio: scritture contabili
La GGK e un colosso della distribuzione. Ogni giorno si effettuanonumerose scritture contabili soggette ad arrotondamenti. Le procedurecontabili prevedono che il volume medio giornaliero degli arrotondamentinon puo superare 0.5e. Allo scopo di tenere sotto controllo l’effettocumulato giornaliero, ogni trimestre si estraggono 15 giorni a caso sui qualisi rileva l’arrotondamento complessivo. La media campionaria nell’ultimotrimestre e 0.49e.
Il sistema contabile funziona se la media degli arrotondamentigiornalieri µ ≤ 0.5. Purtroppo µ non e noto.
x = 0.49 non puo essere l’elemento decisivo. Perche?
Per prendere decisioni e necessario:
una regola di decisione che tenga conto dell’incertezza circa (X − µ)una valutazione oggettiva del rischio di commettere errori
P. Coretto // Statistica Tests delle Ipotesi 2 / 68
Notes
Notes
Test delle ipotesi (parametrici)
Abbiamo un fenomeno X ∼ f (θ), θ e un parametro (non noto) di f .
θ ∈ Θ, e consideriamo la partizione Θ = Θ0 ∪Θ1, con Θ0 ∩Θ1 = ∅
Ipotesi nulla H0 : θ ∈ Θ0
Ipotesi alternativa H1 : θ ∈ Θ1
Esempio: scritture contabili X =arrotondamento giornaliero ∼ f , e E[X ] = µ
Ipotesi nulla H0 : µ ≤ 0.5
Ipotesi alternativa H1 : µ > 0.5
θ = µ, Θ = R, Θ0 = (−∞, 0.5], Θ1 = (0.5,+∞)
Perche l’ipotesi nulla e µ ≤ 0.5?... dopo.P. Coretto // Statistica Tests delle Ipotesi 3 / 68
Regione critica e regola di decisione
Sia C l’insieme di tutti i possibili campioni di dimensione n.Consideriamo la partizione C = C1 ∪ C0, con C0 ∩ C1 = ∅.
C0 = insieme di tutti i campioni coerenti con H0.Sono i campioni generati da f quando θ ∈ Θ0
C1 = insieme di tutti i campioni coerenti con H1.Sono i campioni generati da f quando θ ∈ Θ1
P. Coretto // Statistica Tests delle Ipotesi 4 / 68
Notes
Notes
Il test consiste nell’applicare una regola di decisione che stabilisce laprovenienza del campione osservato
campione osservato assegnato a C1 =⇒ RIFIUTO H0
Per questo motivo C1=regione critica di rifiuto.
campione osservato assegnato a C0 =⇒ NON RIFIUTO H0
Vogliamo regole di decisione ottimali. Per definire l’ottimo dobbiamofissare i riferimenti:
definizione del ruolo di H0 vs H1
definizione del rischio di decisioni sbagliate
P. Coretto // Statistica Tests delle Ipotesi 5 / 68
Tests Neyman-Pearson ottimali
Jerzy Neyman(1894–1981)
Egon S. Pearson(1895–1980)
P. Coretto // Statistica Tests delle Ipotesi 6 / 68
Notes
Notes
Ruolo di H0 vs H1 nel test a la Neyman-Pearson
H0 e l’ipotesi che non vogliamo assolutamente rifiutare a favore di H1
fino a quando e empiricamente sostenibile. H0 e lo status quo,ovvero, l’ipotesi considerata vera fino a prova contraria (asimmetria)
H1 concettualizza la violazione di H0 che l’osservatore si aspetta neidati
Esempio: scritture contabili
H0: arrotondamenti correttiH1: arrotondamenti superiori al massimo consentito
Processo penaleH0: l’imputato non e colpevoleH1: l’imputato e colpevole
Test diagnostico medicoH0: funzioni biologiche normali (esito negativo)H1: alterazioni delle funzioni biologiche (esito positivo)
P. Coretto // Statistica Tests delle Ipotesi 7 / 68
Rischio di decisioni sbagliate
TUNATURA
H0 e vera H1 e vera
Rifiuto H0 E1 OK
Non rifiuto H0 OK E2
E1: errore del primo tipo (falso positivo)
Pr{E1} = Pr{Rifiuto H0 |H0 e vera}= Pr{Campione assegnato aC1 | θ ∈ Θ0}= α
E2: errore del secondo tipo (falso negativo)
Pr{E2} = Pr{Non rifiuto H0 |H1 e vera}= Pr{Campione assegnato aC0 | θ ∈ Θ1}= β
P. Coretto // Statistica Tests delle Ipotesi 8 / 68
Notes
Notes
H0: l’imputato non e colpevoleH1: l’imputato e colpevole
E1
Giudice: “Andy Dufresne e un marito
assassino”
E2
Giudice: “Aaron Stampler e assolto
perche affetto da disturbo dissociativo
dell’identita”
P. Coretto // Statistica Tests delle Ipotesi 9 / 68
Relazione tra α e β, e regione critica ottimale
Il sogno: α = β = 0
Brutte notizie (1): non e possibile azzerare il rischio di commettereerrori
Brutte notizie (2): α aumenta =⇒ β diminuisce, e viceversa. Allimite: α→ 0 =⇒ β → 1, e viceversa.
Soluzione ottimale di Neyman-Pearson:
1 in considerazione del ruolo svolto da H0 vs H1, fisso α al livellomassimo sopportabile. Pr{E1} = α e detto livello di significativita deltest. Solitamente α = {10%, 5%, 2%,%1}.
2 tra tutte le regioni critiche che danno α = Pr{E1}, prendo quella checomporta il minimo β = Pr{E2}
P. Coretto // Statistica Tests delle Ipotesi 10 / 68
Notes
Notes
Potenza del test
TUNATURA
H0 e vera H1 e vera
Rifiuto H0 α π = (1− β)
Non rifiuto H0 (1− α) β
Pr{Corretto rifiuto} = Pr{Rifiuto H0 |H1e vera}= (1− β) = π = potenza del test
α si controlla direttamente (viene fissato)
π, in generale, non e direttamente controllabile. Per i testNeyman-Pearson ottimali sappiamo solo che π e massimo (β eminimo) per il fissato livello α
TUTTI i test che vedremo in questo corso sono Neyman-Pearsonottimali
P. Coretto // Statistica Tests delle Ipotesi 11 / 68
ATTENZIONE:
Spesso si e ossessivi nel proteggersi rispetto ai falsi positivi (αpiccolo), ma questo crea il rischio di falsi negativi (β grande).
Se aumento α =⇒ β diminuisce =⇒ π aumenta.
Quale e un valore ragionevole per α? La pratica “standard” diconsiderare α = 1%, 5% in alcuni casi potrebbe essere devastante.
α dovrebbe essere fissato dopo un’attenta valutazione delle implicazioni(pratiche) dei due errori. Si, ma quali sono le implicazioni pratiche?
nella maggior parte dei casi, estraggo un campione ed effettuo la miadecisione.
α, β, π sono probabilita
come per gli intervalli di confidenza, e bene pensare a queste quantitanell’ottica del campionamento ripetuto
P. Coretto // Statistica Tests delle Ipotesi 12 / 68
Notes
Notes
Interpretazione “pratica” di α
Supponiamo di poter estrarre K campioni indipendenti di dimensione ndalla popolazione X ∼ f (θ). K e “sufficientemente” grande
Campione 1 −→ decisione 1Campione 2 −→ decisione 2
. . .Campione K −→ decisione K
Ogni volta che θ ∈ Θ0 e quindi θ /∈ Θ1 (H0 vera, H1 falsa):
(1− α)% decisioni saranno corrette
α% decisioni saranno sbagliate
P. Coretto // Statistica Tests delle Ipotesi 13 / 68
Cercare di interpretare β (e quindi π) dal punto di vista pratico non hamolto senso. Infatti, tranne che in casi didattici, non li possiamoquantificare. Sappiamo solo che β e al minimo possibile.
Per un singolo campione? Quale e l’interpretazione di α per la decisionepresa sul nostro singolo campione osservato?
α e una misura di rischio. Possiamo interpretare α come il livello diinaffidabilita del test che siamo disposti a sopportare nel caso in cui H0
fosse vera
P. Coretto // Statistica Tests delle Ipotesi 14 / 68
Notes
Notes
Costruzione di un test
Esempio: media di una popolazione normale a varianza nota
Supponiamo X ∼ Normale(µ, 64), consideriamo il test:
H0 : µ = 100
H1 : µ > 100
In un campione di n = 16 osservazioni risulta x = 103. Trovare una regoladi decisione al livello α = 5%
Potrei rifiutare H0 perche x > 100. Tuttavia, se H0 e vera, allora
XH0∼ Normale
(100,
64
n
)Quindi X “varia casualmente” intorno a 100. Consideriamo
U =√nX − 100
8
H0∼ Normale(0, 1)
P. Coretto // Statistica Tests delle Ipotesi 15 / 68
Valori osservati di U positivi ci fanno pensare che H0 e falsa. Si, maquanto dovrebbe essere piu grande di zero?
Pr{E1} = α (e fissato)
= Pr{Rifiuto H0 |H0 e vera}= Pr{U > u |µ = 100}
Quando H0 e vera U ha distribuzione Normale Standard, quindi u = zα,ovvero z0.05 = 1.64
Ho trovato una regione critica ed una regola di decisione con il livello disignificativita fissato:
Regione critica C1: sono i campioni tali che U > zα = 1.64
Regola di decisione: rifiuto H0 se√n(x − 100)/8 > 1.64
Il valore osservato di U e√
16(103− 100)/8 = 1.5 < 1.64 =⇒ nonrifiuto H0 al livello del 5%.
P. Coretto // Statistica Tests delle Ipotesi 16 / 68
Notes
Notes
Quanto vale π = 1− β? Il calcolo di β richiede H1 vera. H1 e vera per unnumero infinito di possibili valori di µ
Questa regola e Neyman-Pearson ottimale: per qualunque valore di µ,ceteris paribus, ottengo il miglior π possibile. Questo basterebbe, mavoglio capire in quale ordine di grandezza ci muoviamo.
Supponiamo che H1 e vera perche µ = 104.
β = Pr{Non rifiuto H0 |H1 e vera}= Pr{U < 1.64 | µ = 104}
U =√nX − 100
8=
−100√n
8+
√n
8X
E[U |H1 vera] =−100
√n
8+
√n
8104 =
√n
2Var[U |H1 vera] = 1
P. Coretto // Statistica Tests delle Ipotesi 17 / 68
U =√nX − 100
8
H1∼ Normale
(√n
2, 1
)Quindi
β = Pr{U < 1.64 | µ = 104} = Pr
{Z < 1.64−
√16
2
}= Pr{Z < −0.36} = Φ(−0.36) = 1− Φ(0.36) = 0.36
Da cui π = 1− β = 0.64
Interpretazione: se potessi ripetere il test un gran numero di volte,π = 64% =⇒ 64/100 decisioni corrette quando µ = 104.
Vediamo cosa succede alla distribuzione di U sotto le due ipotesi
P. Coretto // Statistica Tests delle Ipotesi 18 / 68
Notes
Notes
Distribuzione di U sotto le due ipotesi
H0
α=0.05
P. Coretto // Statistica Tests delle Ipotesi 19 / 68
Distribuzione di U sotto le due ipotesi
H0 H1
α=0.05
P. Coretto // Statistica Tests delle Ipotesi 20 / 68
Notes
Notes
Distribuzione di U sotto le due ipotesi
H0 H1
β
α=0.05
P. Coretto // Statistica Tests delle Ipotesi 21 / 68
Distribuzione di U sotto le due ipotesi
H0 H1
β
α=0.05
π
P. Coretto // Statistica Tests delle Ipotesi 22 / 68
Notes
Notes
al variare di µ > 100 avro diversi valori di β e π
se cambio α,n, σ avro diversi valori di β e π
Sebbene β e π non sono direttamente controllabili, spesso sarebbe utilefare un’analisi di “sensitivita” rispetto alle quantita controllabili. Unostatistico puo controllare:
α, a livello di procedura di test
n, a livello di disegno di campionamento (non sempre)
Nell’ Esempio: media di normale vediamo come variano β e π in funzione di µ sottoH1
P. Coretto // Statistica Tests delle Ipotesi 23 / 68
100 102 104 106 108 110
0.2
0.4
0.6
0.8
1.0
Potenza del test con α = 5%
µ
π=
(1−β)
n = 16n = 50n = 250
100 102 104 106 108 110
0.0
0.2
0.4
0.6
0.8
1.0
Potenza del test con α = 0.5%
µ
π=
(1−β)
n = 16n = 50n = 250
P. Coretto // Statistica Tests delle Ipotesi 24 / 68
Notes
Notes
100 102 104 106 108 110
0.0
0.2
0.4
0.6
0.8
Errore del II tipo con α = 5%
µ
β
n = 16n = 50n = 250
100 102 104 106 108 110
0.0
0.2
0.4
0.6
0.8
1.0
Errore del II tipo con α = 0.5%
µ
β
n = 16n = 50n = 250
P. Coretto // Statistica Tests delle Ipotesi 25 / 68
Procedura di testing: routine
Definizione: (Funzione test/statistica test)
Sia {X1,X2, . . . ,Xn} un campione. Una funzione test, anche dettastatistica test, e una funzione T (X1,X2, . . . ,Xn , θ0) che misuracontemporaneamente la coerenza del campione all’ipotesi nulla, e la noncoerenza rispetto all’ipotesi alternativa. La statistica test non dipende daaltri parametri incogniti.
Si noti che
T dipende da H0, ma non da H1
T e una variabile casuale: popolazione + effetto del campionamento
EsempiEsempio: media di normale : U e una statistica testEsempio: errori contabili : T1 = (X − 0.5) potrebbe essere una funzione test.
Tuttavia, non sarebbe molto utile.Esempio: errori contabili : T2 = (X − 0.5)2 non e una buona funzione test,
perche?P. Coretto // Statistica Tests delle Ipotesi 26 / 68
Notes
Notes
Steps :
1 Parto dalla distribuzione della funzione test sotto H0Esempio: media di normale :
U =√nX − 100
8
H0∼ Normale(0, 1)
2 dato α, calcolo qualche valore di coda della distribuzione dellafunzione test sotto H0
Esempio: media di normale : α = 5%, zα = 1.64
3 determino la regione di rifiutoEsempio: media di normale : tutti i campioni per cui U > zα = 1.64
4 calcolo il valore osservato della funzione testEsempio: media di normale :
√16(103− 100)/8 = 1.5
5 decisione: rifiuto H0 se il valore osservato delle funzione test eassegnato alla regione critica di rifiuto
Esempio: media di normale : 1.5 < z0.05 = 1.64 =⇒ “non rifiuto H0”
P. Coretto // Statistica Tests delle Ipotesi 27 / 68
Media di una popolazione Normale con varianza nota
Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Normale(µ, σ2),dove σ2 e noto
Ipotesi nulla: H0 : µ = µ0
Funzione test
Z =√nX − µ0σ
H0∼ Normale(0, 1)
Valore osservato della funzione test
z =√nx − µ0σ
Coda zα: Pr{Z ≥ zα} = α
P. Coretto // Statistica Tests delle Ipotesi 28 / 68
Notes
Notes
Ipotesi alternativa unilaterale a destra{H0 : µ = µ0
H1 : µ > µ0≡
{H0 : µ ≤ µ0H1 : µ > µ0
Regione critica di rifiuto{campioni : Z > zα}
Regola di decisionerifiuto H0 se z > zα
Distribuzione della funzione test sotto H0
zα
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 29 / 68
Ipotesi alternativa unilaterale a sinistra{H0 : µ = µ0
H1 : µ < µ0≡
{H0 : µ ≥ µ0H1 : µ < µ0
Regione critica di rifiuto{campioni : Z < −zα}
Regola di decisionerifiuto H0 se z < −zα
Distribuzione della funzione test sotto H0
−zα
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 30 / 68
Notes
Notes
Ipotesi alternativa bilaterale{H0 : µ = µ0
H1 : µ 6= µ0
Regione critica di rifiuto{campioni: Z < −zα
2oppure Z > zα
2
}
Regola di decisionerifiuto H0 se z < −zα
2oppure z > zα
2
Distribuzione della funzione test sotto H0
−zα2
zα2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 31 / 68
Media di una popolazione Normale con varianza non nota
Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Normale(µ, σ2),dove σ2 non e noto
Ipotesi nulla: H0 : µ = µ0
Funzione test
T =√nX − µ0
S
H0∼ tn−1
Valore osservato della funzione test
t =√nx − µ0
s
Coda tn−1, α: Pr{T ≥ tn−1, α} = α
P. Coretto // Statistica Tests delle Ipotesi 32 / 68
Notes
Notes
Ipotesi alternativa unilaterale a destra{H0 : µ = µ0
H1 : µ > µ0≡
{H0 : µ ≤ µ0H1 : µ > µ0
Regione critica di rifiuto{campioni : T > tn−1, α}
Regola di decisionerifiuto H0 se t > tn−1, α
Distribuzione della funzione test sotto H0
tn−1, α
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 33 / 68
Ipotesi alternativa unilaterale a sinistra{H0 : µ = µ0
H1 : µ < µ0≡
{H0 : µ ≥ µ0H1 : µ < µ0
Regione critica di rifiuto{campioni : T < −tn−1, α}
Regola di decisionerifiuto H0 se t < −tn−1, α
Distribuzione della funzione test sotto H0
−tn−1, α
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 34 / 68
Notes
Notes
Ipotesi alternativa bilaterale{H0 : µ = µ0
H1 : µ 6= µ0
Regione critica di rifiuto{campioni: T < −tn−1, α
2oppure T > tn−1, α
2
}
Regola di decisionerifiuto H0 se t < −tn−1, α
2oppure t > tn−1, α
2
Distribuzione della funzione test sotto H0
−tn−1, α2
tn−1, α2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 35 / 68
Esercizio: 10.17
P. Coretto // Statistica Tests delle Ipotesi 36 / 68
Notes
Notes
Proporzione di una popolazione (grandi campioni)
Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Bernoulli(p), inoltren e sufficientemente grande e np(1− p) > 9
Ipotesi nulla: H0 : p = p0
Funzione test
Z =P − p0√p0(1−p0)
n
H0∼ Normale(0, 1)
Valore osservato della funzione test
z =p − p0√p0(1−p0)
n
Coda zα: Pr{Z ≥ zα} = αP. Coretto // Statistica Tests delle Ipotesi 37 / 68
Ipotesi alternativa unilaterale a destra{H0 : p = p0
H1 : p > p0≡
{H0 : p ≤ p0
H1 : p > p0
Regione critica di rifiuto{campioni : Z > zα}
Regola di decisionerifiuto H0 se z > zα
Distribuzione della funzione test sotto H0
zα
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 38 / 68
Notes
Notes
Ipotesi alternativa unilaterale a sinistra{H0 : p = p0
H1 : p < p0≡
{H0 : p ≥ p0
H1 : p < p0
Regione critica di rifiuto{campioni : Z < −zα}
Regola di decisionerifiuto H0 se z < −zα
Distribuzione della funzione test sotto H0
−zα
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 39 / 68
Ipotesi alternativa bilaterale{H0 : p = p0
H1 : p 6= p0
Regione critica di rifiuto{campioni: Z < −zα
2oppure Z > zα
2
}
Regola di decisionerifiuto H0 se z < −zα
2oppure z > zα
2
Distribuzione della funzione test sotto H0
−zα2
zα2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 40 / 68
Notes
Notes
Esercizio: 10.31
P. Coretto // Statistica Tests delle Ipotesi 41 / 68
Differenza tra medie di popolazioni normali dipendenti
Assumo:{(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)} e un CCS da una popolazionecongiuntamente normale dove X e Y sono dipendenti (correlate)
Sia di = xi − yi , siano D e S 2d media e varianza campionaria di d
Ipotesi nulla: H0 : µX − µY = d0
Funzione test
T =√n
(X −Y )− d0Sd
H0∼ tn−1
Valore osservato della funzione test
t =√nd − d0sd
Coda tn−1, α: Pr{T ≥ tn−1, α} = αP. Coretto // Statistica Tests delle Ipotesi 42 / 68
Notes
Notes
Ipotesi alternativa unilaterale a destra{H0 : µX − µY = d0
H1 : µX − µY > d0≡
{H0 : µX − µY ≤ d0
H1 : µX − µY > d0
Regione critica di rifiuto{campioni : T > tn−1, α}
Regola di decisionerifiuto H0 se t > tn−1, α
Distribuzione della funzione test sotto H0
tn−1, α
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 43 / 68
Ipotesi alternativa unilaterale a sinistra{H0 : µX − µY = d0
H1 : µX − µY < d0≡
{H0 : µX − µY ≥ d0
H1 : µX − µY < d0
Regione critica di rifiuto{campioni : T < −tn−1, α}
Regola di decisionerifiuto H0 se t < −tn−1, α
Distribuzione della funzione test sotto H0
−tn−1, α
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 44 / 68
Notes
Notes
Ipotesi alternativa bilaterale{H0 : µX − µY = d0
H1 : µX − µY 6= d0
Regione critica di rifiuto{campioni: T < −tn−1, α
2oppure T > tn−1, α
2
}
Regola di decisionerifiuto H0 se t < −tn−1, α
2oppure t > tn−1, α
2
Distribuzione della funzione test sotto H0
−tn−1, α2
tn−1, α2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 45 / 68
Esercizio: 11.3
P. Coretto // Statistica Tests delle Ipotesi 46 / 68
Notes
Notes
Pooling della devianza
Siano X ∼ f e Y ∼ g due popolazioni. Siano {X1,X2, . . . ,XnX} e
{Y1,Y2, . . . ,YnY} due CCS indipendenti.
Omoschedasticita: assumiamo Var[X ] = Var[Y ] = σ2
X e Y hanno la stessa varianza, ma non necessariamente la stessamedia. Quale statistica di varianza userebbe tutta l’informazionecampionaria?
Varianza campionaria pooled
S 2p =
∑nXi=1(Xi −X )2 +
∑nYi=1(Yi −Y )2
nX + nY − 2
=(nX − 1)S 2
X + (nY − 1)S 2Y
nX + nY − 2
P. Coretto // Statistica Tests delle Ipotesi 47 / 68
Differenza tra medie di popolazioni normali indipendenti
Assumo:{X1,X2, . . . ,XnX
} e {Y1,Y2, . . . ,YnY} sono due CCS indipendenti da
popolazioni normali omoschedastiche, ovvero X ∼ Normale(µX , σ2) e
Y ∼ Normale(µY , σ2), dove σ2 non e noto.
Ipotesi nulla: H0 : µX − µY = d0
Funzione test
T =(X −Y )− d0√
S2p
nX+
S2p
nY
H0∼ tnX+nY−2
Valore osservato della funzione test
t =(x − y)− d0√
s2pnX
+s2pnY
Coda tnX+nY−2, α: Pr{T ≥ tnX+nY−2, α} = αP. Coretto // Statistica Tests delle Ipotesi 48 / 68
Notes
Notes
Ipotesi alternativa unilaterale a destra{H0 : µX − µY = d0
H1 : µX − µY > d0≡
{H0 : µX − µY ≤ d0
H1 : µX − µY > d0
Regione critica di rifiuto{campioni : T > tnX+nY−2, α}
Regola di decisionerifiuto H0 se t > tnX+nY−2, α
Distribuzione della funzione test sotto H0
tnX+nY −2, α
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 49 / 68
Ipotesi alternativa unilaterale a sinistra{H0 : µX − µY = d0
H1 : µX − µY < d0≡
{H0 : µX − µY ≥ d0
H1 : µX − µY < d0
Regione critica di rifiuto{campioni : T < −tnX+nY−2, α}
Regola di decisionerifiuto H0 se t <−tnX+nY−2, α
Distribuzione della funzione test sotto H0
−tnX+nY −2, α
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 50 / 68
Notes
Notes
Ipotesi alternativa bilaterale{H0 : µX − µY = d0
H1 : µX − µY 6= d0
Regione critica di rifiuto{campioni: T < −tnX+nY−2, α
2oppure T > tnX+nY−2, α
2
}
Regola di decisionerifiuto H0 se t < −tnX+nY−2, α
2oppure t > tnX+nY−2, α
2
Distribuzione della funzione test sotto H0
−tnX+nY −2, α2
tnX+nY −2, α2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 51 / 68
Esercizio: 11.5
P. Coretto // Statistica Tests delle Ipotesi 52 / 68
Notes
Notes
Pooling di popolazioni Bernoulliane indipendenti
Siano X ∼ Bernoulli(pX ) e Y ∼ Bernoulli(pY ) due popolazioniBernoulliane. Siano {X1,X2, . . . ,XnX
}, e {Y1,Y2, . . . ,YnY} due
campioni indipendenti. Le proporzioni campionarie saranno
PX =1
nX
nX∑i=1
Xi e PY =1
nY
nY∑i=1
Yi
Assumiamo H0 : pX = pY . Quale statistica userebbe tutta l’informazionecampionaria?
Proporzione campionaria pooled
P0 =
∑nXi=1Xi +
∑nYi=1Yi
nX + nY
=nX PX + nY PY
nX + nY
P. Coretto // Statistica Tests delle Ipotesi 53 / 68
Differenza tra proporzioni (grandi campioni)
Assumo:{X1,X2, . . . ,XnX
} e {Y1,Y2, . . . ,YnY} sono due CCS indipendenti da
X ∼ Bernoulli(pX ), e Y ∼ Bernoulli(pY ). n e sufficientemente grande.
Ipotesi nulla: H0 : pX − pY = 0
Funzione test
Z =PX − PY√
P0(1−P0)nX
+ P0(1−P0)nY
H0∼ Normale(0, 1)
Valore osservato della funzione test
z =pX − pY√
p0(1−p0)nX
+ p0(1−p0)nY
Coda zα: Pr{Z ≥ zα} = αP. Coretto // Statistica Tests delle Ipotesi 54 / 68
Notes
Notes
Ipotesi alternativa unilaterale a destra{H0 : pX − pY = 0
H1 : pX − pY > 0≡
{H0 : pX − pY ≤ 0
H1 : pX − pY > 0
Regione critica di rifiuto{campioni : Z > zα}
Regola di decisionerifiuto H0 se z > zα
Distribuzione della funzione test sotto H0
zα
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 55 / 68
Ipotesi alternativa unilaterale a sinistra{H0 : pX − pY = 0
H1 : pX − pY < 0≡
{H0 : pX − pY ≥ 0
H1 : pX − pY < 0
Regione critica di rifiuto{campioni : Z < −zα}
Regola di decisionerifiuto H0 se z < −zα
Distribuzione della funzione test sotto H0
−zα
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 56 / 68
Notes
Notes
Ipotesi alternativa bilaterale{H0 : pX − pY = 0
H1 : pX − pY 6= 0
Regione critica di rifiuto{campioni: Z < −zα
2oppure Z > zα
2
}
Regola di decisionerifiuto H0 se z < −zα
2oppure z > zα
2
Distribuzione della funzione test sotto H0
−zα2
zα2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 57 / 68
Esercizio: 11.15
P. Coretto // Statistica Tests delle Ipotesi 58 / 68
Notes
Notes
Varianza di una popolazione normale
Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Normale(µ, σ2)
Ipotesi nulla: H0 : σ2 = σ20
Funzione test
χ =(n − 1)S 2
σ20
H0∼ χ2n−1
Valore osservato della funzione test
c =(n − 1)s2
σ20
Coda χ2n−1, α: Pr
{χ ≥ χ2
n−1, α
}= α
P. Coretto // Statistica Tests delle Ipotesi 59 / 68
Ipotesi alternativa unilaterale a destra{H0 : σ2 = σ20H1 : σ2 > σ20
≡{
H0 : σ2 ≤ σ20H1 : σ2 > σ20
Regione critica di rifiuto{campioni : χ > χ2
n−1, α
}
Regola di decisionerifiuto H0 se c > χ2
n−1, α
Distribuzione della funzione test sotto H0
χ2n−1, α
Non rifiuto H0 Rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 60 / 68
Notes
Notes
Ipotesi alternativa unilaterale a sinistra{H0 : σ2 = σ20H1 : σ2 < σ20
≡{
H0 : σ2 ≥ σ20H1 : σ2 < σ20
Regione critica di rifiuto{campioni : χ < χ2
n−1, 1−α}
Regola di decisionerifiuto H0 se c < χ2
n−1, 1−α
Distribuzione della funzione test sotto H0
χ2n−1, 1−α
Rifiuto H0 Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 61 / 68
Ipotesi alternativa bilaterale{H0 : σ2 = σ20H1 : σ2 6= σ20
Regione critica di rifiuto{campioni: χ < χ2
n−1, 1−α2
oppure χ > χ2n−1, α
2
}
Regola di decisionerifiuto H0 se c < χ2
n−1, 1−α2
oppure c > χ2n−1, α
2
Distribuzione della funzione test sotto H0
χ2n−1, 1− α
2χ2n−1, α
2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Tests delle Ipotesi 62 / 68
Notes
Notes
Esercizio: 11.21
P. Coretto // Statistica Tests delle Ipotesi 63 / 68
p-value
Sia U la funzione test, e u il suo valore osservato. Il p-value si calcola:
p-value = Pr{U e uguale o piu estrema di u |H0 e vera}
Si noti che il p-value ∈ [0, 1].
Questo e il calcolo. La sua interpretazione? Il p-value e una misura dellaplausibilita di H0 per il campione osservato:
p-value grande: il campione osservato mostra forte evidenza empiricaa favore di H0.
p-value piccolo: il campione osservato mostra debole/nessunaevidenza empirica a favore di H0.
in questo senso il p-value e anche definito come “livello disignificativita osservato”.
P. Coretto // Statistica Tests delle Ipotesi 64 / 68
Notes
Notes
L’interpretazione non puo prescindere da α e H1. Nell’otticaNeyman-Pearson l’uso del p-value deve dipendere dalla nozione diottimalita sottostante.
Definizione: (p-value nei tests Neyman-Pearson)
Il p-value calcolato coincide il livello minimo di α al quale si rifiuta H0
sulla base del campione osservato.
Da questo punto di vista il p-value e uno strumento operativo per definirela regione critica senza usare alla funzione test:
Rifiuto H0 se p-value < α
P. Coretto // Statistica Tests delle Ipotesi 65 / 68
0 1α
Rifiuto H0 Non rifiuto H0
Regione critica di rifiuto in termini di p-value
P. Coretto // Statistica Tests delle Ipotesi 66 / 68
Notes
Notes
Uso del p-value
Esempio: (Spray per insetti)
Si usano sei diversi sprays (A,B ,C ,D ,E ,F ) in 12 diverse posizioni, e sirileva il numero di insetti presenti nel raggio di azione in ogni posizione. Leprove sono indipendenti. Ecco i dati campionari
A B C D E F
05
1015
2025
Spray
NumerodiInsetti
P. Coretto // Statistica Tests delle Ipotesi 67 / 68
Con riferimento ai dati dell’ Esempio 67 vogliamo testare{H0 : i sei gruppi sono omoschedastici
H1 : almeno un gruppo differisce per varianza
Si tratta di effettuare un test di confronto delle varianze. Una possibilita eil test di confronto delle varianze per popolazioni Normali.
Tuttavia, sostenere la normalita e assai dubbio. Una scelta appropriata inquesto caso e il test di Bartlett. Fissiamo α = 5%
p-value = 9.085×10−5 = 0.00009085 < α =⇒ Rifiuto H0
P. Coretto // Statistica Tests delle Ipotesi 68 / 68
Notes
Notes