Upload
orazio-di-maio
View
220
Download
0
Embed Size (px)
Citation preview
Infe 01 - 1 / 71
Lezione 6Inferenzastatistica
Infe 01 - 2 / 71
parte 1Stime per punti e per intervalli della media
Infe 01 - 3 / 71
la media campionariacome strumento di inferenza
• Si definiscono “stimatori” quelle statistiche che vengono usate per stimare un parametro o una sua funzione.– I valori ottenuti mediante gli stimatori si dicono “stime” del parametro.
• La media campionaria può essere usata come stimatore
della media dell’intera popolazione essendo uno stimatore corretto e consistente.
nX
Infe 01 - 4 / 71
• il valore ottenuto viene indicato come “stima puntuale di ”
• estraendo da una popolazione per cui è definita la variabile
casuale X avente densità f (x) qualsiasi con media e
varianza 2 un campione di n elementi a cui corrisponde
l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la
media campionaria per stimare il valore del parametro relativo all’intera popolazione.
n
j
jn Xn
X1
1
media campionaria e stima puntuale di
Infe 01 - 5 / 71
Strumenti di misura e strumenti di inferenza
n
j
jn Xn
X1
1
Infe 01 - 6 / 71
n
j
jn Xn
X1
1• come tutti gli strumenti di misura, anche gli stimatori
sono imperfetti e la loro stima del parametro presenta un’incertezza che deve essere quantificata.
• estraendo da una popolazione per cui è definita la variabile
casuale X avente densità f (x) qualsiasi con media e
varianza 2 un campione di n elementi a cui corrisponde
l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la
media campionaria per stimare il valore del parametro relativo all’intera popolazione.
incertezza dello stimatore campionario
m
n
jjX
n
1
1 VVV indicatox
Infe 01 - 7 / 71
VVVVV indindx ,
VVVVV indxind
incertezza dello strumento di misura
VVV indicatox
Fascia di valore (a meno di 60 ppm)
Infe 01 - 8 / 71
VVVVV indindx ,
incertezza dello strumento di misura
Infe 01 - 9 / 71
VVVVV indxind
incertezza dello strumento di misura
VVV indicatox
VVV indx
VVV indx
Infe 01 - 10 / 71
• Qual è la probabilità che, estraendo a caso un campione
di n elementi dalla popolazione, il valore della media della variabile X per
la intera popolazione sia compreso nell’intervallo
mnmn XX ε,ε
mnmn XX εμε P
incertezza dello stimatore campionario
m
n
jjX
n
1
1
Infe 01 - 11 / 71
• Qual è la probabilità che, estraendo a caso un campione
di n elementi dalla popolazione, l’intervallo casuale
contenga il valore della media della variabile X per la intera
popolazione?
mnmn XX ε,ε
incertezza dello stimatore campionario
m
n
jjX
n
1
1
Infe 01 - 12 / 71
• Con quale “confidenza”, dopo aver estratto a caso un campione
di n elementi dalla popolazione e calcolato il valore della corrispondente media campionaria, si può affermare che il valore della media della variabile X per la intera popolazione è compreso
nell’intervallo
incertezza dello stimatore campionario
mnmn XX ε,ε
mnmn XX εμε P mnm X εμεμ P
mnX εμ
Infe 01 - 13 / 71
• La “probabilità” dell’evento:
è uguale alla “confidenza” con cui posso affermare:
incertezza dello stimatore campionario
mnmn XX ε,εμ
mnm X εμεμ P
“ Intervallo di confidenza ”
Infe 01 - 14 / 71
incertezza dello stimatore campionario
mnm X εμεμ P• La determinazione dell’incertezza degli stimatori campionari si
conduce tramite lo studio della distribuzione di probabilità della
variabile casuale costituita dallo stimatore.
Infe 01 - 15 / 71
Distribuzione della media campionaria
n
j
jn Xn
X1
1
Infe 01 - 16 / 71
• estraendo da una popolazione per cui è definita la
variabile casuale X avente densità f (x) qualsiasi,
media e varianza 2,
un campione di n elementi a cui corrisponde l’insieme di variabili
casuali { X1, X2, …, Xn },
se n è sufficientemente grande la media campionaria
fornisce una variabile casuale distribuita in modo normale,
con media e varianza 2 / n
n
jjn X
nX
1
1
distribuzione della media campionaria
Infe 01 - 17 / 71
• Avendo una popolazione per cui è definita la variabile casuale X
con densità f (x) qualsiasi, media e varianza 2 ed estraendo
da essa un campione di n elementi a cui corrisponde l’insieme di
vc. { X1, X2, …, Xn }, qual è la probabilità che la media
campionaria
differisca da per una quantità minore di ?
n
jjn X
nX
1
1
n
distribuzione della media campionaria
Infe 01 - 18 / 71
• La risposta al quesito si ottiene individuando la probabilità dell’evento:
nX
nn
distribuzione della media campionaria
• Tale probabilità è rappresentata dall’area della regione evidenziata in verde nel grafico sopra riportato.
Infe 01 - 19 / 71
• il valore ricercato si ottiene da:
in cui:
nb
na
XXfbXa n
b
a nn
;
dP
distribuzione della media campionaria
Infe 01 - 20 / 71
distribuzione della media campionaria
• il valore ricercato si ottiene da:
in cui:
nb
na
XXfbXa n
b
a nn
;
dP
2
2
1exp
2
1
n
X
n
Xf nn
Infe 01 - 21 / 71
• sviluppando i calcoli si ottiene:
con:
nb
na
bXa n
;
68,06826,0P
distribuzione della media campionaria
2
2
1exp
2
1
n
X
n
Xf nn
Infe 01 - 22 / 71
• esplicitando l’espressione dell’evento si ottiene:
68,0
n
Xn
nP
• è quindi possibile fare la seguente affermazione:
distribuzione della media campionaria
Infe 01 - 23 / 71
estraendo a caso un campione con n sufficientemente elevato
da una popolazione per cui è definita una variabile casuale X
con densità f (x) qualsiasi, media e varianza 2, c’è una probabilità pari a 0,68 che la media campionaria
appartenga all’intervallo
n
jjn X
nX
1
1
nn
,
distribuzione della media campionaria
Infe 01 - 24 / 71
distribuzione della media campionaria
• Ricordiamo che: la “probabilità” dell’evento:
è uguale alla “confidenza” con cui posso affermare:
n
Xn
X nn
σ,
σμ
68,0
n
Xn
nP
Infe 01 - 25 / 71
che può essere tradotta nelle seguenti affermazioni:
• estraendo a caso un campione con n sufficientemente elevato
da una popolazione per cui è definita una variabile casuale X
con distribuzione qualsiasi, media e varianza 2, c’è una probabilità pari a 0,68 che un intervallo di ampiezza
centrato sul valore della variabile casuale “media campionaria”
contenga il valore della media della popolazione.
n
jjn X
nX
1
1
n
distribuzione della media campionaria
Infe 01 - 26 / 71
intervallo di confidenza per la media
• estraendo a caso un campione con n sufficientemente elevato
da una popolazione per cui è definita una variabile casuale X con distribuzione qualsiasi, media e varianza 2, c’è una probabilità pari a 0,68 che l’intervallo casuale
contenga il valore della media .
• questo intervallo viene chiamato:intervallo di confidenza allo 0,68 per la media
n
Xn
Xn
XI nnn
,
Infe 01 - 27 / 71
α1d n
b
a nn XXfbXaP
intervallo di confidenza allo ( 1 – ) per la media
2
α12
α;
nn xbxain generale, se
sono i quantili /2 e 1 – /2 per la media campionaria
Infe 01 - 28 / 71
intervallo di confidenza allo ( 1 – ) per la media
2
12
,μ nn xxI
con una confidenza pari a 1 – possiamo affermare che
Infe 01 - 29 / 71
Proprietà della media campionaria
teorema 4.4:• dato un campione di n elementi prelevato senza ripetizione da
una popolazione composta da N elementi per cui è deifinita la
variabile casuale X, posto :
• si ha:
1
var2
N
nN
nX n
n
j
jn Xn
X1
1
80,01100
500;99,0
1100
10000
N
nNn
N
N
nNn
N
Infe 01 - 30 / 71
1;
1
68,0d
N
nN
nb
N
nN
na
XXfbXa n
b
a nn
P
se il numero n degli elementi del campione non è molto minore della numerosità N (finita) della popolazione.
Distribuzione della media campionaria se n ≈ N
Infe 01 - 31 / 71
Attenzione alla numerosità
del campione
!!!
Infe 01 - 32 / 71
Dalla lezione 4:Distribuzione della media campionaria
Infe 01 - 33 / 71
Dalla lezione 4:Distribuzione della media campionaria
teorema 4.3:• Sia data una popolazione su cui è definita una variabile causale
X con densità f (x) ed avente media e varianza 2 finite.
• Detta: la media campionaria di un campione casuale di
dimensione n estratto da essa,
• allora, al tendere di n ad infinito,
la media campionaria
- segue una distribuzione normale
- con media e varianza 2 / n - qualunque sia la distribuzione della
popolazione
nX
n
j
jn Xn
X1
1
Infe 01 - 34 / 71
Dalla lezione 4:Distribuzione della media campionaria
• La possibilità di costruire un campione di dimensione n che tende all’infinito è ovviamente solo teorica, ma l’enunciato del teorema deve essere inteso nel senso che:– quanto più il campione è numeroso,
– tanto meglio la distribuzione della media campionaria
approssima una distribuzione normale con media e con
varianza 2 / n– in pratica si può ritenere che un valore di n non inferiore a
30 sia già sufficiente per approssimare la distribuzione della
media campionaria con quella normale con media e con
varianza 2 / n.
Infe 01 - 36 / 71
la caratteristica comune di una popolazionee il suo modello probabilistico:
la distribuzione “normale”
Infe 01 - 37 / 71
la caratteristica comune di una popolazionee il suo modello probabilistico:
la distribuzione “normale”
• Il modello basato sulla distribuzione “normale” può essere usato per descrivere l’andamento della caratteristica comune di una
popolazione quando i valori assunti da tale caratteristica sono determinati dalla azione
di molteplici cause che agiscono indipendentemente le une dalle altre
Infe 01 - 38 / 71
Distribuzione della media campionaria
• Sia data una popolazione su cui è definita una variabile causale X con distribuzione normale, media e varianza 2 finite.
• Detta: la media campionaria di un campione casuale di
dimensione n estratto da essa,
• allora, per qualsiasi n,
la media campionaria
- segue una distribuzione normale
- con media e varianza 2 / n
nX
n
j
jn Xn
X1
1
Infe 01 - 39 / 71
dalla media campionaria
allamedia campionaria standardizzata
Infe 01 - 40 / 71
intervallo di confidenza per la media
• Ricordiamo che: la “probabilità” dell’evento:
è uguale alla “confidenza” con cui posso affermare:
α1d n
b
a nn XXfbXaP
baI ,μ
Infe 01 - 41 / 71
Dalla media campionaria alla media campionaria standardizzata
nota:• La determinazione del valore della probabilità di un evento
analogo a quelli studiati richiede il calcolo di un integrale definito in cui figurano, oltre agli estremi di integrazione, tre parametri variabili in funzione della popolazione e del campione che ne
viene estratto: i valori della media e della varianza 2 della
popolazione e la numerosità n del campione estratto.
• Ciò rende di fatto impossibile fornire in forma tabulare i valori di probabilità degli eventi.
• Per questi motivi si introduce la versione standardizzata della media campionaria.
Infe 01 - 43 / 71
• Considerazioni già fatte ci permettono di affermare che la media campionaria, sotto determinate ipotesi, segue una
distribuzione normale con media e varianza 2 / n
Dalla media campionaria alla media campionaria standardizzata
n
XZ n
• è quindi facile costruire una variabile casuale
con distribuzione normale standard, cioè con media nulla e varianza unitaria.
Infe 01 - 44 / 71
Dalla media campionaria alla media campionaria standardizzata
• La probabilità che il valore della variabile Z sia compreso fra gli estremi a e b:
si può facilmente ricavare dalle tabelle che ogni libro di probabilità e statistica riporta.
ZZfbZab
adP
Infe 01 - 45 / 71
Intervallo di confidenza a (1 – ) : media campionaria standardizzata
• se indichiamo con z1- il quantile 1 - /2 della variabile Z :
2
α12/α1 zZP
pertanto :
2
α2/α1 zZP
Infe 01 - 46 / 71
2/α12/α12/α1 21 zZzZz PP
Intervallo di confidenza a (1 – ) : media campionaria standardizzata
da cui :
• Per la simmetria della distribuzione della variabile Z :
α12/α12/α1 zZzP
Infe 01 - 47 / 71
Intervalli di confidenza a (1 – ) : media campionaria standardizzata
• se esplicitiamo la variabile Z:
α12/α12/α1 zZzP
α12/α12/α1
z
n
Xz n
P
Infe 01 - 48 / 71
Intervalli di confidenza a (1 – ) : media campionaria standardizzata
• da cui:
α12/α12/α1
z
n
Xz n
P
α1μμ 2/α12/α1
zn
Xzn
nP
Infe 01 - 49 / 71
Intervalli di confidenza a (1 – ) : media campionaria standardizzata
• Esaminiamo l’evento di cui abbiamo determinato la probabilità:
α1μμ 2/α12/α1
zn
Xzn
nP
2/α12/α1 μμ zn
Xzn
n
Infe 01 - 50 / 71
Intervalli di confidenza a (1 – ) : media campionaria standardizzata
• da cui, con passaggi algebrici:
2/α12/α1 μμ zn
Xzn
n
2/α12/α1 μ zn
Xzn
X nn
Infe 01 - 51 / 71
Intervalli di confidenza a (1 – ) : media campionaria standardizzata
• è uguale alla confidenza con cui possiamo affermare che:
2/α12/α1 μ zn
Xzn
X nn
• La probabilità:
12/12/1 ana z
nXz
nP
Infe 01 - 52 / 71
possiamo quindi sostenere che:
estraendo a caso un campione di n elementi da una popolazione
per cui è definita una variabile casuale X con distribuzione
qualsiasi, media e varianza 2, c’è una
probabilità pari a 1 - che l’intervallo casuale
con Z variabile normale standard
e con z1-/2 il valore del suo quantile (1 - /2)contenga il valore della media per l’intera popolazione.
I1- è l’intervallo di confidenza allo 1 - per la media
Intervalli di confidenza a (1 – ) : media campionaria standardizzata
2/12/11 , anan zn
Xzn
XI
Infe 01 - 57 / 71
W.S.Gosset – “ Student ”
Campioni con bassa numerosità
n < 30
Infe 01 - 58 / 71
Distribuzione t di Student con n-1 g.d.l.
• La variabile casuale
• in cui:
– Z è una variabile casuale normale standardizzata,
– 2 è una variabile chi-quadro con n-1 gradi di libertà,
– Z e 2 sono indipendenti l’una dall’altra,
• segue una distribuzione t di Student con n-1 gradi di libertà
1
2
n
ZT
Infe 01 - 59 / 71
Distribuzione t di Student con n-1 g.d.l.
n
XZ n
2σ
μ
2
2
σ)1( nS
nV 1
2
n
ZT
1σ
)1(
σ
μ
2
2
2
n
Sn
n
X
Tn
n
Infe 01 - 60 / 71
Distribuzione t di Student con n-1 g.d.l.
n
S
X
S
n
X
S
n
X
n
Sn
n
X
Tn
n
n
n
n
n
n
n
2
2
22
2
2
2
2
2
2
μ
σσ
μ
σ
σ
μ
1σ
)1(
σ
μ
Infe 01 - 61 / 71
Distribuzione t di Student con n-1 g.d.l.
n
S
XT
n
n
2
μ
segue una distribuzione t di Student con n-1 gradi di libertà
Infe 01 - 62 / 71
Distribuzione t di Student con n g.d.l.
Infe 01 - 63 / 71
Distribuzione della media campionaria standardizzata per n finito
teorema 5.1:
• estraendo a caso un campione di numerosità n finita
da una popolazione su cui è definita una variabile casuale X
con distribuzione normale e media ,
la variabile casuale
segue una distribuzione t di Student con n-1 gradi di libertà
n
SX
Tn
n
Infe 01 - 64 / 71
Intervalli di confidenza: media campionaria standardizzata con n finito
• La distribuzione t di Student è simmetrica rispetto allo 0, pertanto gli intervalli di confidenza sono centrati sul valore dello stimatore
Infe 01 - 65 / 71
Intervalli di confidenza: media campionaria standardizzata con n finito
• se indichiamo con t1- il quantile 1-/2 della variabile T :
α12/α12/α1 tTtP
2
α
2
α1 2/α12/α1 tTtT PP
Infe 01 - 66 / 71
Intervalli di confidenza: media campionaria standardizzata con n finito
• se esplicitiamo la variabile T:
α12/α12/α1
t
n
SX
tn
n P
α12/α12/α1 tTtP
Infe 01 - 67 / 71
Intervalli di confidenza: media campionaria standardizzata con n finito
• da cui:
α1μμ 2/α12/α1
tn
SXt
n
S nn
nP
α12/α12/α1
t
n
SX
tn
n P
Infe 01 - 68 / 71
Intervalli di confidenza: media campionaria standardizzata con n finito
• dall’evento sopra riportato, con passaggi algebrici, si ricava:
α1μμ 2/α12/α1
tn
SXt
n
S nn
nP
2/α12/α1 μ tn
SXt
n
SX n
nn
n
Infe 01 - 69 / 71
Intervalli di confidenza: media campionaria standardizzata con n finito
α1μμ 2/α12/α1
tn
SXt
n
S nn
nP
2/α12/α1α1 ;μ tn
SXt
n
SXI n
nn
n
• è uguale alla confidenza con cui possiamo affermare che:
• La probabilità:
Infe 01 - 70 / 71
possiamo quindi sostenere che:
estraendo a caso un campione con n finito da una popolazione
per cui è definita una variabile casuale X con distribuzione
normale c’è una probabilità pari a 1 - che l’intervallo casuale
in cui t1-/2 è il valore del quantile (1 - /2) di una variabile T
distribuita secondo la t di Student con n -1 g.d.l
contenga il valore della media della popolazione.
Intervalli di confidenza: media campionaria standardizzata con n finito
2/11 an
n tn
SXI
Infe 01 - 71 / 71
è l’intervallo di confidenza allo 1 - per la media nel caso di
campioni di ridotta numerosità estratti da popolazioni con
distribuzione normale!
Intervalli di confidenza: media campionaria standardizzata con n finito
2/11 an
n tn
SXI
Infe 01 - 72 / 71
Distribuzione t di Student con n-1 g.d.l.
• La variabile casuale
• in cui:
– Z è una variabile casuale normale standardizzata,
– 2 è una variabile chi-quadro con n-1 gradi di libertà,
– Z e 2 sono indipendenti l’una dall’altra,
• segue una distribuzione t di Student con n-1 gradi di libertà
1
2
n
ZT
Infe 01 - 73 / 71
La prossima puntata…
Stime per punti e per intervalli della varianza