Infe 01 - 1 / 71 Lezione 6 Inferenza statistica. Infe 01 - 2 / 71 parte 1 Stime per punti e per intervalli della media

Infe 01 - 1 / 71

Lezione 6Inferenzastatistica

Infe 01 - 2 / 71

parte 1Stime per punti e per intervalli della media

Infe 01 - 3 / 71

la media campionariacome strumento di inferenza

• Si definiscono “stimatori” quelle statistiche che vengono usate per stimare un parametro o una sua funzione.– I valori ottenuti mediante gli stimatori si dicono “stime” del parametro.

• La media campionaria può essere usata come stimatore

della media dell’intera popolazione essendo uno stimatore corretto e consistente.

nX

Infe 01 - 4 / 71

• il valore ottenuto viene indicato come “stima puntuale di ”

• estraendo da una popolazione per cui è definita la variabile

casuale X avente densità f (x) qualsiasi con media e

varianza 2 un campione di n elementi a cui corrisponde

l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la

media campionaria per stimare il valore del parametro relativo all’intera popolazione.

n

j

jn Xn

X1

1

media campionaria e stima puntuale di

Infe 01 - 5 / 71

Strumenti di misura e strumenti di inferenza

n

j

jn Xn

X1

1

Infe 01 - 6 / 71

n

j

jn Xn

X1

1• come tutti gli strumenti di misura, anche gli stimatori

sono imperfetti e la loro stima del parametro presenta un’incertezza che deve essere quantificata.

• estraendo da una popolazione per cui è definita la variabile

casuale X avente densità f (x) qualsiasi con media e

varianza 2 un campione di n elementi a cui corrisponde

l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la

media campionaria per stimare il valore del parametro relativo all’intera popolazione.

incertezza dello stimatore campionario

m

n

jjX

n

1

1 VVV indicatox

Infe 01 - 7 / 71

VVVVV indindx ,

VVVVV indxind

incertezza dello strumento di misura

VVV indicatox

Fascia di valore (a meno di 60 ppm)

Infe 01 - 8 / 71

VVVVV indindx ,


Infe 01 - 9 / 71

VVVVV indxind


VVV indicatox

VVV indx

VVV indx

Infe 01 - 10 / 71

• Qual è la probabilità che, estraendo a caso un campione

di n elementi dalla popolazione, il valore della media della variabile X per

la intera popolazione sia compreso nell’intervallo

mnmn XX ε,ε

mnmn XX εμε P


m

n

jjX

n

1

1

Infe 01 - 11 / 71

• Qual è la probabilità che, estraendo a caso un campione

di n elementi dalla popolazione, l’intervallo casuale

contenga il valore della media della variabile X per la intera

popolazione?

mnmn XX ε,ε


m

n

jjX

n

1

1

Infe 01 - 12 / 71

• Con quale “confidenza”, dopo aver estratto a caso un campione

di n elementi dalla popolazione e calcolato il valore della corrispondente media campionaria, si può affermare che il valore della media della variabile X per la intera popolazione è compreso

nell’intervallo


mnmn XX ε,ε

mnmn XX εμε P mnm X εμεμ P

mnX εμ

Infe 01 - 13 / 71

• La “probabilità” dell’evento:

è uguale alla “confidenza” con cui posso affermare:


mnmn XX ε,εμ

mnm X εμεμ P

“ Intervallo di confidenza ”

Infe 01 - 14 / 71


mnm X εμεμ P• La determinazione dell’incertezza degli stimatori campionari si

conduce tramite lo studio della distribuzione di probabilità della

variabile casuale costituita dallo stimatore.

Infe 01 - 15 / 71

Distribuzione della media campionaria

n

j

jn Xn

X1

1

Infe 01 - 16 / 71

• estraendo da una popolazione per cui è definita la

variabile casuale X avente densità f (x) qualsiasi,

media e varianza 2,

un campione di n elementi a cui corrisponde l’insieme di variabili

casuali { X1, X2, …, Xn },

se n è sufficientemente grande la media campionaria

fornisce una variabile casuale distribuita in modo normale,

con media e varianza 2 / n

n

jjn X

nX

1

1

distribuzione della media campionaria

Infe 01 - 17 / 71

• Avendo una popolazione per cui è definita la variabile casuale X

con densità f (x) qualsiasi, media e varianza 2 ed estraendo

da essa un campione di n elementi a cui corrisponde l’insieme di

vc. { X1, X2, …, Xn }, qual è la probabilità che la media

campionaria

differisca da per una quantità minore di ?

n

jjn X

nX

1

1

n


Infe 01 - 18 / 71

• La risposta al quesito si ottiene individuando la probabilità dell’evento:

nX

nn


• Tale probabilità è rappresentata dall’area della regione evidenziata in verde nel grafico sopra riportato.

Infe 01 - 19 / 71

• il valore ricercato si ottiene da:

in cui:

nb

na

XXfbXa n

b

a nn

;

dP


Infe 01 - 20 / 71


• il valore ricercato si ottiene da:

in cui:

nb

na

XXfbXa n

b

a nn

;

dP

2

2

1exp

2

1

n

X

n

Xf nn

Infe 01 - 21 / 71

• sviluppando i calcoli si ottiene:

con:

nb

na

bXa n

;

68,06826,0P


2

2

1exp

2

1

n

X

n

Xf nn

Infe 01 - 22 / 71

• esplicitando l’espressione dell’evento si ottiene:

68,0

n

Xn

nP

• è quindi possibile fare la seguente affermazione:


Infe 01 - 23 / 71

estraendo a caso un campione con n sufficientemente elevato

da una popolazione per cui è definita una variabile casuale X

con densità f (x) qualsiasi, media e varianza 2, c’è una probabilità pari a 0,68 che la media campionaria

appartenga all’intervallo

n

jjn X

nX

1

1

nn

,


Infe 01 - 24 / 71


• Ricordiamo che: la “probabilità” dell’evento:


n

Xn

X nn

σ,

σμ

68,0

n

Xn

nP

Infe 01 - 25 / 71

che può essere tradotta nelle seguenti affermazioni:

• estraendo a caso un campione con n sufficientemente elevato

da una popolazione per cui è definita una variabile casuale X

con distribuzione qualsiasi, media e varianza 2, c’è una probabilità pari a 0,68 che un intervallo di ampiezza

centrato sul valore della variabile casuale “media campionaria”

contenga il valore della media della popolazione.

n

jjn X

nX

1

1

n


Infe 01 - 26 / 71

intervallo di confidenza per la media

• estraendo a caso un campione con n sufficientemente elevato

da una popolazione per cui è definita una variabile casuale X con distribuzione qualsiasi, media e varianza 2, c’è una probabilità pari a 0,68 che l’intervallo casuale

contenga il valore della media .

• questo intervallo viene chiamato:intervallo di confidenza allo 0,68 per la media

n

Xn

Xn

XI nnn

,

Infe 01 - 27 / 71

α1d n

b

a nn XXfbXaP

intervallo di confidenza allo ( 1 – ) per la media

2

α12

α;

nn xbxain generale, se

sono i quantili /2 e 1 – /2 per la media campionaria

Infe 01 - 28 / 71

intervallo di confidenza allo ( 1 – ) per la media

2

12

,μ nn xxI

con una confidenza pari a 1 – possiamo affermare che

Infe 01 - 29 / 71

Proprietà della media campionaria

teorema 4.4:• dato un campione di n elementi prelevato senza ripetizione da

una popolazione composta da N elementi per cui è deifinita la

variabile casuale X, posto :

• si ha:

1

var2

N

nN

nX n

n

j

jn Xn

X1

1

80,01100

500;99,0

1100

10000

N

nNn

N

N

nNn

N

Infe 01 - 30 / 71

1;

1

68,0d

N

nN

nb

N

nN

na

XXfbXa n

b

a nn

P

se il numero n degli elementi del campione non è molto minore della numerosità N (finita) della popolazione.

Distribuzione della media campionaria se n ≈ N

Infe 01 - 31 / 71

Attenzione alla numerosità

del campione

!!!

Infe 01 - 32 / 71

Dalla lezione 4:Distribuzione della media campionaria

Infe 01 - 33 / 71


teorema 4.3:• Sia data una popolazione su cui è definita una variabile causale

X con densità f (x) ed avente media e varianza 2 finite.

• Detta: la media campionaria di un campione casuale di

dimensione n estratto da essa,

• allora, al tendere di n ad infinito,

la media campionaria

- segue una distribuzione normale

- con media e varianza 2 / n - qualunque sia la distribuzione della

popolazione

nX

n

j

jn Xn

X1

1

Infe 01 - 34 / 71


• La possibilità di costruire un campione di dimensione n che tende all’infinito è ovviamente solo teorica, ma l’enunciato del teorema deve essere inteso nel senso che:– quanto più il campione è numeroso,

– tanto meglio la distribuzione della media campionaria

approssima una distribuzione normale con media e con

varianza 2 / n– in pratica si può ritenere che un valore di n non inferiore a

30 sia già sufficiente per approssimare la distribuzione della

media campionaria con quella normale con media e con

varianza 2 / n.

Infe 01 - 36 / 71

la caratteristica comune di una popolazionee il suo modello probabilistico:

la distribuzione “normale”

Infe 01 - 37 / 71

la caratteristica comune di una popolazionee il suo modello probabilistico:

la distribuzione “normale”

• Il modello basato sulla distribuzione “normale” può essere usato per descrivere l’andamento della caratteristica comune di una

popolazione quando i valori assunti da tale caratteristica sono determinati dalla azione

di molteplici cause che agiscono indipendentemente le une dalle altre

Infe 01 - 38 / 71

Distribuzione della media campionaria

• Sia data una popolazione su cui è definita una variabile causale X con distribuzione normale, media e varianza 2 finite.

• Detta: la media campionaria di un campione casuale di

dimensione n estratto da essa,

• allora, per qualsiasi n,

la media campionaria

- segue una distribuzione normale

- con media e varianza 2 / n

nX

n

j

jn Xn

X1

1

Infe 01 - 39 / 71

dalla media campionaria

allamedia campionaria standardizzata

Infe 01 - 40 / 71

intervallo di confidenza per la media

• Ricordiamo che: la “probabilità” dell’evento:


α1d n

b

a nn XXfbXaP

baI ,μ

Infe 01 - 41 / 71

Dalla media campionaria alla media campionaria standardizzata

nota:• La determinazione del valore della probabilità di un evento

analogo a quelli studiati richiede il calcolo di un integrale definito in cui figurano, oltre agli estremi di integrazione, tre parametri variabili in funzione della popolazione e del campione che ne

viene estratto: i valori della media e della varianza 2 della

popolazione e la numerosità n del campione estratto.

• Ciò rende di fatto impossibile fornire in forma tabulare i valori di probabilità degli eventi.

• Per questi motivi si introduce la versione standardizzata della media campionaria.

Infe 01 - 43 / 71

• Considerazioni già fatte ci permettono di affermare che la media campionaria, sotto determinate ipotesi, segue una

distribuzione normale con media e varianza 2 / n


n

XZ n

• è quindi facile costruire una variabile casuale

con distribuzione normale standard, cioè con media nulla e varianza unitaria.

Infe 01 - 44 / 71


• La probabilità che il valore della variabile Z sia compreso fra gli estremi a e b:

si può facilmente ricavare dalle tabelle che ogni libro di probabilità e statistica riporta.

ZZfbZab

adP

Infe 01 - 45 / 71

Intervallo di confidenza a (1 – ) : media campionaria standardizzata

• se indichiamo con z1- il quantile 1 - /2 della variabile Z :

2

α12/α1 zZP

pertanto :

2

α2/α1 zZP

Infe 01 - 46 / 71

2/α12/α12/α1 21 zZzZz PP

Intervallo di confidenza a (1 – ) : media campionaria standardizzata

da cui :

• Per la simmetria della distribuzione della variabile Z :

α12/α12/α1 zZzP

Infe 01 - 47 / 71

Intervalli di confidenza a (1 – ) : media campionaria standardizzata

• se esplicitiamo la variabile Z:

α12/α12/α1 zZzP

α12/α12/α1

z

n

Xz n

P

Infe 01 - 48 / 71


• da cui:

α12/α12/α1

z

n

Xz n

P

α1μμ 2/α12/α1

zn

Xzn

nP

Infe 01 - 49 / 71


• Esaminiamo l’evento di cui abbiamo determinato la probabilità:

α1μμ 2/α12/α1

zn

Xzn

nP

2/α12/α1 μμ zn

Xzn

n

Infe 01 - 50 / 71


• da cui, con passaggi algebrici:

2/α12/α1 μμ zn

Xzn

n

2/α12/α1 μ zn

Xzn

X nn

Infe 01 - 51 / 71


• è uguale alla confidenza con cui possiamo affermare che:

2/α12/α1 μ zn

Xzn

X nn

• La probabilità:

12/12/1 ana z

nXz

nP

Infe 01 - 52 / 71

possiamo quindi sostenere che:

estraendo a caso un campione di n elementi da una popolazione

per cui è definita una variabile casuale X con distribuzione

qualsiasi, media e varianza 2, c’è una

probabilità pari a 1 - che l’intervallo casuale

con Z variabile normale standard

e con z1-/2 il valore del suo quantile (1 - /2)contenga il valore della media per l’intera popolazione.

I1- è l’intervallo di confidenza allo 1 - per la media


2/12/11 , anan zn

Xzn

XI

Infe 01 - 57 / 71

W.S.Gosset – “ Student ”

Campioni con bassa numerosità

n < 30

Infe 01 - 58 / 71

Distribuzione t di Student con n-1 g.d.l.

• La variabile casuale

• in cui:

– Z è una variabile casuale normale standardizzata,

– 2 è una variabile chi-quadro con n-1 gradi di libertà,

– Z e 2 sono indipendenti l’una dall’altra,

• segue una distribuzione t di Student con n-1 gradi di libertà

1

2

n

ZT

Infe 01 - 59 / 71


n

XZ n

2σ

μ

2

2

σ)1( nS

nV 1

2

n

ZT

1σ

)1(

σ

μ

2

2

2

n

Sn

n

X

Tn

n

Infe 01 - 60 / 71


n

S

X

S

n

X

S

n

X

n

Sn

n

X

Tn

n

n

n

n

n

n

n

2

2

22

2

2

2

2

2

2

μ

σσ

μ

σ

σ

μ

1σ

)1(

σ

μ

Infe 01 - 61 / 71


n

S

XT

n

n

2

μ

segue una distribuzione t di Student con n-1 gradi di libertà

Infe 01 - 62 / 71

Distribuzione t di Student con n g.d.l.

Infe 01 - 63 / 71

Distribuzione della media campionaria standardizzata per n finito

teorema 5.1:

• estraendo a caso un campione di numerosità n finita

da una popolazione su cui è definita una variabile casuale X

con distribuzione normale e media ,

la variabile casuale

segue una distribuzione t di Student con n-1 gradi di libertà

n

SX

Tn

n

Infe 01 - 64 / 71

Intervalli di confidenza: media campionaria standardizzata con n finito

• La distribuzione t di Student è simmetrica rispetto allo 0, pertanto gli intervalli di confidenza sono centrati sul valore dello stimatore

Infe 01 - 65 / 71


• se indichiamo con t1- il quantile 1-/2 della variabile T :

α12/α12/α1 tTtP

2

α

2

α1 2/α12/α1 tTtT PP

Infe 01 - 66 / 71


• se esplicitiamo la variabile T:

α12/α12/α1

t

n

SX

tn

n P

α12/α12/α1 tTtP

Infe 01 - 67 / 71


• da cui:

α1μμ 2/α12/α1

tn

SXt

n

S nn

nP

α12/α12/α1

t

n

SX

tn

n P

Infe 01 - 68 / 71


• dall’evento sopra riportato, con passaggi algebrici, si ricava:

α1μμ 2/α12/α1

tn

SXt

n

S nn

nP

2/α12/α1 μ tn

SXt

n

SX n

nn

n

Infe 01 - 69 / 71


α1μμ 2/α12/α1

tn

SXt

n

S nn

nP

2/α12/α1α1 ;μ tn

SXt

n

SXI n

nn

n

• è uguale alla confidenza con cui possiamo affermare che:

• La probabilità:

Infe 01 - 70 / 71

possiamo quindi sostenere che:

estraendo a caso un campione con n finito da una popolazione

per cui è definita una variabile casuale X con distribuzione

normale c’è una probabilità pari a 1 - che l’intervallo casuale

in cui t1-/2 è il valore del quantile (1 - /2) di una variabile T

distribuita secondo la t di Student con n -1 g.d.l

contenga il valore della media della popolazione.


2/11 an

n tn

SXI

Infe 01 - 71 / 71

è l’intervallo di confidenza allo 1 - per la media nel caso di

campioni di ridotta numerosità estratti da popolazioni con

distribuzione normale!


2/11 an

n tn

SXI

Infe 01 - 72 / 71


• La variabile casuale

• in cui:

– Z è una variabile casuale normale standardizzata,

– 2 è una variabile chi-quadro con n-1 gradi di libertà,

– Z e 2 sono indipendenti l’una dall’altra,

• segue una distribuzione t di Student con n-1 gradi di libertà

1

2

n

ZT

Infe 01 - 73 / 71

La prossima puntata…

Stime per punti e per intervalli della varianza

Documents

Infe 01 - 1 / 71 Lezione 6 Inferenza statistica. Infe 01 - 2 / 71 parte 1 Stime per punti e per intervalli della media