α.α. 2002-2003 1
Modelli di probabilità
Statistica 1 Prof. Roberta Siciliano
Corso di STATISTICA Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano Statistica
Obiettivo dell’unità didattica
n Definire i concetti di base sull’inferenza statistica
Contenuti n L’induzione statistica n Definizione di statistica campionaria e
distribuzione campionaria n Stima puntuale e per intervalli n Il test statistico
2
α.α. 2002-2003 2
Prof. Roberta Siciliano Statistica 3
Inferenza statistica
Il problema di risalire alla struttura non nota delle popolazioni (e delle v.c.) viene affrontato teoricamente dalla inferenza statistica.
Prof. Roberta Siciliano Statistica 4
Problema inverso
Si passa dalla Deduzione alla Induzione, dal Problema diretto al Problema Inverso. L‘Inferenza statistica è lo strumento metodologico utile ad affrontare e a risolvere il problema inverso.
α.α. 2002-2003 3
Prof. Roberta Siciliano Statistica 5
Le informazioni sulla struttura della popolazione sono fornite da un campione casuale.
Il problema inverso
Prof. Roberta Siciliano Statistica 6
Problema inverso
I risultati e le decisioni comportano un rischio, dovuto alla limitatezza delle informazioni usate. Il rischio può essere valutato e controllato in termini probabilistici con gli strumenti della inferenza statistica.
α.α. 2002-2003 4
Prof. Roberta Siciliano Statistica 7
La Procedura Inferenziale
Popolazione Collettivo oggetto di inferenza
Campione Parte delle unità statistiche nella popolazione sottoposta alla osservazione
Nota: L‘osservazione di un fenomeno è vista come la realizzazione di un modello di probabilità teorico.
Prof. Roberta Siciliano Statistica 8
La Procedura inferenziale
Parametri Valori caratteristici della popolazione
Assunzioni
Informazioni a priori sulla popo-lazione che consentono di scegliere un modello piuttosto che un altro.
Incertezza
Ritenere più probabile che una data osservazione sia stata generata da alcune distribuzioni di probabilità che da altre appartenenti al modello.
α.α. 2002-2003 5
Prof. Roberta Siciliano Statistica 9
La Procedura inferenziale
Inferenza
Essere indotti a ritenere piu‘ probabile che la popolazione appartenga ad un certo sottoinsieme del modello che ad un altro.
Modello
L‘insieme delle distribuzioni di probabilità definite su un opportuno spazio campionario e caratterizzato da uno o più parametri.
Prof. Roberta Siciliano Statistica 10
Stima
Teoria della stima Conoscere il valore numerico o un intervallo di valori di uno o più parametri incogniti del modello di probabilità teorico (ovvero della popolazione) a partire dai dati campionari.
α.α. 2002-2003 6
Prof. Roberta Siciliano Statistica 11
Test
Teoria della verifica delle ipotesi Verificare con una regola di decisione una certa affermazione fatta relativamente alla popolazione, ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal campione.
Prof. Roberta Siciliano Statistica 12
Campionamento
Campione casuale o probabilistico: ogni elemento della popolazione ha una probabilità non nulla di entrare a far parte del campione. Estrazione con ripetizione: la struttura della probabilità non si modifica ad ogni estrazione perché ciascuna unità estratta è inserita nuovamente nella popolazione. Estrazione senza ripetizione: si estraggono n unità in blocco dalla popolazione e la struttura di probabilità si modifica ad ogni estrazione.
α.α. 2002-2003 7
Prof. Roberta Siciliano Statistica 13
Statistica campionaria
La statistica campionaria e la sua distribuzione
Realtà operativa Si avrà a disposizione un solo campione o comunque un numero limitato di campioni.
In teoria Se si avessero un numero elevato di campioni o tutti i campioni possibili, cioè un universo campionario.
Prof. Roberta Siciliano Statistica 14
Concetti teorici
Statistica campionaria: Una v.c. definita quale funzione di un campione casuale ovvero una qualunque trasformazione dei valori osservati che consente di inferire sui parametri non noti della popolazione.
( )nXXX ,..., 21
Distribuzione campionaria: É la distribuzione delle stime al variare del campione. Estraendo tutti i possibili campioni di numerosità n dalla popolazione si ottengono tutti i possibili valori che la statistica campionaria può assumere, ovvero l’insieme delle possibili stime del parametro incognito della popolazione.
α.α. 2002-2003 8
Prof. Roberta Siciliano Statistica 15
campione
2x1x
Hx
nNH =
H21 x...xx ≤≤
Prof. Roberta Siciliano Statistica 16
v.c. media campionaria
Consideriamo una popolazione di quattro unità statistiche, e proviamo ad estrarre tutti i possibili campioni di ampiezza 2, generando quindi Nn possibili campioni, cioè 42=16..
Calcoliamo poi la media di ogni campione e costruiamo la distribuzione di frequenza di tutte le medie.
Universo di campioni
α.α. 2002-2003 9
Prof. Roberta Siciliano Statistica 17
4321 UUUU1 1 4 6
campioni possibili 24
nNnN=
= 44342414
43332313
42322212
41312111
UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU
66461616644414146141111161411111
tutti i possibili campioni
Prof. Roberta Siciliano Statistica 18
=X
=if 161
81
161
41
41
41
6545.35.21
( ) ( ) ( ) ( )
( ) ( ) ( ) 25.216136
8135
16134
4135.3
4135.2
4131
222
222
=⎟⎠
⎞⎜⎝
⎛−+⎟⎠
⎞⎜⎝
⎛−+⎟⎠
⎞⎜⎝
⎛−+
+⎟⎠
⎞⎜⎝
⎛−+⎟⎠
⎞⎜⎝
⎛−+⎟⎠
⎞⎜⎝
⎛−=XVAR
( ) 31616
815
1614
415.3
415.2
411 =⎟
⎠
⎞⎜⎝
⎛+⎟⎠
⎞⎜⎝
⎛+⎟⎠
⎞⎜⎝
⎛+⎟⎠
⎞⎜⎝
⎛+⎟⎠
⎞⎜⎝
⎛+⎟⎠
⎞⎜⎝
⎛=XE
α.α. 2002-2003 10
Prof. Roberta Siciliano Statistica 19
Nella popolazione si ha:
( ) 5.44
91441
3412
464111
22 =+++
=−=
==+++
==
∑
∑
µσ
µ
i
i
xn
xn
v.c Media Campionaria
( )
( ) 25.225.4
32
===
==
nXVAR
XEσ
µ
Prof. Roberta Siciliano Statistica 20
v.c. media campionaria (senza reintroduzione)
Consideriamo una popolazione di quattro unità statistiche, e proviamo ad estrarre tutti i possibili campioni di ampiezza 2 (senza reintroduzione), generando quindi 12 possibili campioni.
Calcoliamo poi la media di ogni campione e costruiamo la distribuzione di frequenza di tutte le medie.
α.α. 2002-2003 11
Prof. Roberta Siciliano Statistica 21
342414
432313
423212
413121
UUUUUUUUUUUUUUUUUUUUUUUU
461616641414614111614111
55.35.355.25.25.35.215.35.21
Senza ripetizione
Medie di tutti i campioni
tutti i possibili campioni
Prof. Roberta Siciliano Statistica 22
=X
=if
v.c Media Campionaria
( )
( ) 5.11
32
=−
−=
=
NnN
nXVAR
XEσ
6
1
3
1
3
1
6
1
5 5 . 3 5 . 2 1
α.α. 2002-2003 12
Prof. Roberta Siciliano Statistica 23
Concetti teorici
Supponiamo di avere una popolazione che segue un modello noto a meno di uno o più parametri. Ciò implica ad es.che: - la v.c. X (associata alla popolazione) ha una distribuzione di probabilità (v.c. discreta) o una funzione di densità di probabilità (v.c.continua), indicata con f(x;θ), in cui il parametro θ è incognito.
Il problema che si pone è quello di stimare θ .
Prof. Roberta Siciliano Statistica 24
Concetti teorici
Estraiamo con ripetizione un campione casuale di n unità:
• Prima che l’operazione di estrazione sia effettuata le n estrazioni campionarie generano n v.c. campionarie indipendenti
• Dopo che l’estrazione campionaria è avvenuta, si otterranno solo n osservazioni campionarie
cioè n numeri.
( )nXXX ,..., 21
( )nxxx ,..., 21
α.α. 2002-2003 13
Prof. Roberta Siciliano Statistica 25
Concetti teorici
stima
La stima di θ é il valore assunto dallo stimatore assunto in corrispondenza di un particolare campione.
stimatore
Lo stimatore di θ è la v.c. definita quale funzione nota del campione.
Funzione di stima
É la particolare funzione (t.) che lega le v.c. del campione.
),.....,,()( 21 nXXXtXT =
Prof. Roberta Siciliano Statistica 26
Concetti teorici
Correttezza
Uno stimatore T(X) di θ, è corretto se, in media, fornisce stime non distorte del parametro incognito.
Efficienza relativa
Uno stimatore corretto di θ è più efficiente di un altro stimatore corretto di θ se ha varianza più piccola.
Alcune proprietà degli stimatori
Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire
( )XT1
( )XT2
α.α. 2002-2003 14
Prof. Roberta Siciliano Statistica 27
Concetti teorici
Efficienza assoluta
Esiste un limite inferiore alla varianza di uno stimatore di θ che può essere raggiunto dallo stimatore più efficiente in senso assoluto, sebbene non si può escludere, che uno stimatore la cui varianza non raggiunge tale limite non sia il più efficiente.
Coerenza
Uno stimatore T(X) di θ è coerente se contemporaneamente la sua distorsione e la sua varianza tendono a zero al crescere della numerosità campionaria.
Prof. Roberta Siciliano Statistica 28
Stima per intervalli
La Teoria della Stima precisa delle proprietà ottimali per uno stimatore e costruisce degli stimatori i quali, una volta ottenuto il campione, forniscono – mediante semplice sostituzione – il valore numerico della stima. Per un altro campione, generalmente, lo stesso stimatore condurrà ad una stima differente.
Il valore numerico della singola stima non informa sul probabile campo di variazione delle stime del parametro.
α.α. 2002-2003 15
Prof. Roberta Siciliano Statistica 29
In presenza di campioni di numerosità limitata questi problemi divengono particolarmente gravi in quanto il semplice "affidamento" al valore numerico trovato può essere inopportuno per l'elevata variabilità delle osservazioni.
Vi è pertanto l'esigenza di costruire un intervallo, anziché un punto, che con probabilità fissata includa il parametro da stimare.
Prof. Roberta Siciliano Statistica 30
Intervalli di stima
Dato un campione casuale con estrazioni con ripetizione da una popolazione X con nota la f(x; θ).
L’intervallo di confidenza: É un intervallo casuale che contiene il parametro incognito θ con una probabilità nota (ciò prima di estrarre il campione)
( ) ( )α−=≤θ≤ 1LLP 21
dove ed sono funzione dello stimatore puntuale di θ. 1L 2L
( )nXXX ,..., 21
α.α. 2002-2003 16
Prof. Roberta Siciliano Statistica 31
Intervalli di stima
Non è corretto affermare :
( , ) contiene con probabilità (1–α) il vero valore di θ.
Ma si è confidenti al 100(1–α)% che l'intervallo
[ , ] includa il vero valore di θ.
Per un ipotetico processo di estrazioni campionarie l'intervallo osservato – non casuale – conterrebbe θ nel 100(1-α)% dei casi mentre lo escluderebbe nel 100α%. Tanto minore è il livello fissato di α tanto più ampio risulta l'intervallo di confidenza.
1L 2L
2L1L
Prof. Roberta Siciliano Statistica 32
Elementi chiave n La variabilità del fenomeno n La numerosità campionaria n L’ampiezza dell’intervallo n Il livello di confidenza
α.α. 2002-2003 17
Prof. Roberta Siciliano Statistica 33
2σvariabilità εampiezza
intervallo
n dimensione del campione
nzx
2
σ± α
Grado di fiducia campione
Variabilità nella
popolazione
0,99
0,95
0,90
α−1
Metafora
Prof. Roberta Siciliano Statistica 34
2σvariabilità εampiezza
intervallo
n dimensione del campione
A parità di , ε minore è n
maggiore
2σ
α−1
…(minore è la distanza dal bersaglio)
α.α. 2002-2003 18
Prof. Roberta Siciliano Statistica 35
2σvariabilità
εampiezza intervallo
n dimensione del campione
A parità di , n piú grande è ε maggiore è
2σ
α−1(il bersaglio)
… (più grande è il bersaglio)
Prof. Roberta Siciliano Statistica 36
A parità di n, ε,
minore è (varianza)
maggiore è (grado di fiducia)
2σα−1
n Dimensione del campione
εampiezza intervallo 2σ
variabilità
… (più preciso è lo strumento di tiro)
α.α. 2002-2003 19
Prof. Roberta Siciliano Statistica 37
Test statistico
n ipotesi statistiche n tavola delle decisioni n variabili test n regole di decisione ���
Prof. Roberta Siciliano Statistica 38
Il Test Statistico
Il Test Statistico è un giudizio di conformità probabilistica fra campione e popolazione e serve per decidere se alcune situazioni ipotetiche concernenti la popolazione appaiono ragionevoli o meno alla luce dell'evidenza empirica. Ipotesi Statistica: è un'affermazione riguardante i parametri della f(x; θ) o il processo cha ha generato le osservazioni campionarie.
Ipotesi nulla vs. Ipotesi alternativa
α.α. 2002-2003 20
Prof. Roberta Siciliano Statistica 39
Tavola delle decisioni
A-posteriori, ovvero dopo aver estratto il campione e presa una decisione con la statistica test, non ha senso parlare di probabilità di decisioni giuste o errate, in quanto non essendo nota l'ipotesi vera sulla popolazione si è già commesso di fatto un errore o si è già presa di fatto una decisione giusta.
DECISIONE
REALTA‘
Decisione giusta Errore del I tipo
Errore del II tipo Decisione giusta
1H
0H
1H
αα−1
β−1β
0H
Prof. Roberta Siciliano Statistica 40
Variabile test
Statistica Test: è una funzione d(X) che fa corrispondere ad ogni campione casuale un valore numerico che può essere classificato come coerente o meno con l'ipotesi specificata dalla H0. Il test statistico conduce ad una partizione dell'universo dei campioni in due sottoinsiemi complementari: la regione di accettazione, ovvero i campioni per i quali la statistica test assume valori compatibili con H0 , la regione critica o di rifiuto, ovvero i campioni per i quali la statistica test assume valori compatibili con H1.
α.α. 2002-2003 21
Prof. Roberta Siciliano Statistica 41
Nella costruzione del test si pone come ipotesi nulla quella per la quale si ritengono più gravi le conseguenze derivanti dal commettere un errore del primo tipo, così che si sceglie un opportuno valore α del livello di significatività. Qualora si desideri controllare, oltre alla probabilità dell'errore del primo tipo, anche quella dell'errore del secondo tipo, occorre determinare la numerosità campionaria in modo tale che il test garantisca, oltre al livello di significatività a, anche una potenza del test 1- β prefissata.
Numerosità Campionaria e Potenza del Test
Prof. Roberta Siciliano Statistica 42
Lo Schema per l'Applicazione
1. Considerazioni generali: scelta del modello di probabilità, campionamento, assunzioni;
2. Ipotesi statistiche da verificare: definizione dell'ipotesi nulla e dell'ipotesi alternativa;
3. Statistica Test: si definisce la funzione dello stimatore, la sua distribuzione (con eventuale stima di parametri incogniti non sottoposti a test), e si determina il valore osservato della statistica test;
α.α. 2002-2003 22
Prof. Roberta Siciliano Statistica 43
Lo Schema per l'Applicazione
4. Regione critica di ampiezza : sulla base della distribuzione nota della statistica test e quindi della corrispondente tavola statistica, si determina il valore critico (test unidirezionale) o i valori critici (test bidirezionale) per distinguere la regione critica dalla regione di accettazione;
5. Commenti e generalizzazioni: Si conclude il test accettando l'ipotesi nulla o rifiutandola, e si commentano i risultati.
α
Prof. Roberta Siciliano Statistica 44
Regione di accettazione
Regione di accettazione
Regione di accettazione
Regione critica
Regione critica
Valori di statistica test d*
d*
d1 d2
d(X) valore osservato da confrontare con il valore critico di d* Regioni critiche e di accettazione per test uni- e bidirezionali
α.α. 2002-2003 23
Prof. Roberta Siciliano Statistica 45
Consideriamo una variabile casuale distribuita come una Normale:
Si estrae un campione di ampiezza n
Si fissa il livello di significatività
( ) nota con , ~ 2 2 = σ σ µ N X
α
Prof. Roberta Siciliano Statistica 46
Abbiamo tre possibili situazioni:
Test sul valore medio con varianza nota:
( ) n
z X H
H σ µ α
µ µ
µ µ α + ≥
>
= 0
0 1
0 0 : RCO : :
1)
( ) n
z X H
H σ µ α
µ µ
µ µ α - ≤
<
= 0
0 1
0 0 : RCO : :
2)
( )
⎪ ⎪ ⎩
⎪ ⎪ ⎨
⎧
- ≤
+ ≥
≠
=
n z X
n z X
H
H σ
µ
σ µ
α µ µ
µ µ
α
α
2 0
2 0
0 1
0 0
: RC : :
3)
α.α. 2002-2003 24
Prof. Roberta Siciliano Statistica 47
Test sul valore medio con varianza nota:
0µ
0H
Regione di accettazione
Regione di rifiuto
: :
1) 0 1
0 0 µ µ
µ µ
>
=
H
H α - 1 α
α z
Prof. Roberta Siciliano Statistica 48
Test sul valore medio con varianza nota:
0µ
0H
Regione di accettazione
Regione di rifiuto
: :
2) 0 1
0 0 µ µ
µ µ
<
=
H
H α - 1
α z -
α
α.α. 2002-2003 25
Prof. Roberta Siciliano Statistica 49
Test sul valore medio con varianza nota:
0µ
0H
Regione di accettazione
Regione di rifiuto Regione di
rifiuto
: :
3) 0 1
0 0 µ µ
µ µ
≠
=
H
H α - 1
2 α
2 α z
2 α z -
2 α
Prof. Roberta Siciliano Statistica 50
Test e intervalli di stima n Si costruisce l’intervallo di stima e si
verifica se esso è coerente con l’ipotesi nulla
nzx
2
σ± α
0,99
0,95
0,90
α−1
Comprende µ0 ?
test sulla media
α.α. 2002-2003 26
Prof. Roberta Siciliano Statistica 51
Caso particolare n Popolazioni descritte da una v.c.
dicotomica (0,1) in corrispondenza di insuccesso e successo con probabilità di successo π
n La media campionaria di 0 e 1 corrisponde al conteggio dei successi sul totale delle osservazioni campionarie (proporzione campionaria p)
Prof. Roberta Siciliano Statistica 52
Inferenza sulla probabilità di successo
n La variabile test è
n L’intervallo di confidenza è:
( )( )1;0 ~
0100 — P
= N
n
Z πππ−
( )⎥⎦
⎤⎢⎣
⎡±
np-1p p
2zα
α.α. 2002-2003 27
Prof. Roberta Siciliano Statistica 53
Decisione Se < si accetta Ho
c1,...,=j ;r 1,...,=i con
),(coppia una almenoper : 1
),(coppia ogniper :
jijiijH
jijiijoH
++≠
++=
πππ
πππ
( )oHcr
r
i
c
j njninnjninijn vera è se
2)1)(1(~
1 1
2
−−= = ++
++−∑ ∑ χ
Test di indipendenza
n Data una tabella di contingenza di dimensioni r x c
Statistica test
2ossχ
2criticoχ
Valori tabulati