Download pdf - Modelli di probabilità · Estrazione senza ripetizione: si estraggono n unità in blocco dalla popolazione e la struttura di ... contiene il parametro incognito

α.α. 2002-2003 1

Modelli di probabilità

Statistica 1 Prof. Roberta Siciliano

Corso di STATISTICA Prof. Roberta Siciliano

Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata

a.a. 2011/2012

Prof. Roberta Siciliano Statistica

Obiettivo dell’unità didattica

n  Definire i concetti di base sull’inferenza statistica

Contenuti n  L’induzione statistica n  Definizione di statistica campionaria e

distribuzione campionaria n  Stima puntuale e per intervalli n  Il test statistico

2

α.α. 2002-2003 2

Prof. Roberta Siciliano Statistica 3

Inferenza statistica

Il problema di risalire alla struttura non nota delle popolazioni (e delle v.c.) viene affrontato teoricamente dalla inferenza statistica.


Problema inverso

Si passa dalla Deduzione alla Induzione, dal Problema diretto al Problema Inverso. L‘Inferenza statistica è lo strumento metodologico utile ad affrontare e a risolvere il problema inverso.

α.α. 2002-2003 3


Le informazioni sulla struttura della popolazione sono fornite da un campione casuale.

Il problema inverso


Problema inverso

I risultati e le decisioni comportano un rischio, dovuto alla limitatezza delle informazioni usate. Il rischio può essere valutato e controllato in termini probabilistici con gli strumenti della inferenza statistica.

α.α. 2002-2003 4


La Procedura Inferenziale

Popolazione Collettivo oggetto di inferenza

Campione Parte delle unità statistiche nella popolazione sottoposta alla osservazione

Nota: L‘osservazione di un fenomeno è vista come la realizzazione di un modello di probabilità teorico.


La Procedura inferenziale

Parametri Valori caratteristici della popolazione

Assunzioni

Informazioni a priori sulla popo-lazione che consentono di scegliere un modello piuttosto che un altro.

Incertezza

Ritenere più probabile che una data osservazione sia stata generata da alcune distribuzioni di probabilità che da altre appartenenti al modello.

α.α. 2002-2003 5


La Procedura inferenziale

Inferenza

Essere indotti a ritenere piu‘ probabile che la popolazione appartenga ad un certo sottoinsieme del modello che ad un altro.

Modello

L‘insieme delle distribuzioni di probabilità definite su un opportuno spazio campionario e caratterizzato da uno o più parametri.


Stima

Teoria della stima Conoscere il valore numerico o un intervallo di valori di uno o più parametri incogniti del modello di probabilità teorico (ovvero della popolazione) a partire dai dati campionari.

α.α. 2002-2003 6


Test

Teoria della verifica delle ipotesi Verificare con una regola di decisione una certa affermazione fatta relativamente alla popolazione, ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal campione.


Campionamento

Campione casuale o probabilistico: ogni elemento della popolazione ha una probabilità non nulla di entrare a far parte del campione. Estrazione con ripetizione: la struttura della probabilità non si modifica ad ogni estrazione perché ciascuna unità estratta è inserita nuovamente nella popolazione. Estrazione senza ripetizione: si estraggono n unità in blocco dalla popolazione e la struttura di probabilità si modifica ad ogni estrazione.

α.α. 2002-2003 7


Statistica campionaria

La statistica campionaria e la sua distribuzione

Realtà operativa Si avrà a disposizione un solo campione o comunque un numero limitato di campioni.

In teoria Se si avessero un numero elevato di campioni o tutti i campioni possibili, cioè un universo campionario.


Concetti teorici

Statistica campionaria: Una v.c. definita quale funzione di un campione casuale ovvero una qualunque trasformazione dei valori osservati che consente di inferire sui parametri non noti della popolazione.

( )nXXX ,..., 21

Distribuzione campionaria: É la distribuzione delle stime al variare del campione. Estraendo tutti i possibili campioni di numerosità n dalla popolazione si ottengono tutti i possibili valori che la statistica campionaria può assumere, ovvero l’insieme delle possibili stime del parametro incognito della popolazione.

α.α. 2002-2003 8


campione

2x1x

Hx

nNH =

H21 x...xx ≤≤


v.c. media campionaria

Consideriamo una popolazione di quattro unità statistiche, e proviamo ad estrarre tutti i possibili campioni di ampiezza 2, generando quindi Nn possibili campioni, cioè 42=16..

Calcoliamo poi la media di ogni campione e costruiamo la distribuzione di frequenza di tutte le medie.

Universo di campioni

α.α. 2002-2003 9


4321 UUUU1 1 4 6

campioni possibili 24

nNnN=

= 44342414

43332313

42322212

41312111

UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU

66461616644414146141111161411111

tutti i possibili campioni


=X

=if 161

81

161

41

41

41

6545.35.21

( ) ( ) ( ) ( )

( ) ( ) ( ) 25.216136

8135

16134

4135.3

4135.2

4131

222

222

=⎟⎠

⎞⎜⎝

⎛−+⎟⎠

⎞⎜⎝

⎛−+⎟⎠

⎞⎜⎝

⎛−+

+⎟⎠

⎞⎜⎝

⎛−+⎟⎠

⎞⎜⎝

⎛−+⎟⎠

⎞⎜⎝

⎛−=XVAR

( ) 31616

815

1614

415.3

415.2

411 =⎟

⎠

⎞⎜⎝

⎛+⎟⎠

⎞⎜⎝

⎛+⎟⎠

⎞⎜⎝

⎛+⎟⎠

⎞⎜⎝

⎛+⎟⎠

⎞⎜⎝

⎛+⎟⎠

⎞⎜⎝

⎛=XE

α.α. 2002-2003 10


Nella popolazione si ha:

( ) 5.44

91441

3412

464111

22 =+++

=−=

==+++

==

∑

∑

µσ

µ

i

i

xn

xn

v.c Media Campionaria

( )

( ) 25.225.4

32

===

==

nXVAR

XEσ

µ


v.c. media campionaria (senza reintroduzione)

Consideriamo una popolazione di quattro unità statistiche, e proviamo ad estrarre tutti i possibili campioni di ampiezza 2 (senza reintroduzione), generando quindi 12 possibili campioni.

Calcoliamo poi la media di ogni campione e costruiamo la distribuzione di frequenza di tutte le medie.

α.α. 2002-2003 11


342414

432313

423212

413121

UUUUUUUUUUUUUUUUUUUUUUUU

461616641414614111614111

55.35.355.25.25.35.215.35.21

Senza ripetizione

Medie di tutti i campioni

tutti i possibili campioni


=X

=if

v.c Media Campionaria

( )

( ) 5.11

32

=−

−=

=

NnN

nXVAR

XEσ

6

1

3

1

3

1

6

1

5 5 . 3 5 . 2 1

α.α. 2002-2003 12


Concetti teorici

Supponiamo di avere una popolazione che segue un modello noto a meno di uno o più parametri. Ciò implica ad es.che: -  la v.c. X (associata alla popolazione) ha una distribuzione di probabilità (v.c. discreta) o una funzione di densità di probabilità (v.c.continua), indicata con f(x;θ), in cui il parametro θ è incognito.

Il problema che si pone è quello di stimare θ .


Concetti teorici

Estraiamo con ripetizione un campione casuale di n unità:

•  Prima che l’operazione di estrazione sia effettuata le n estrazioni campionarie generano n v.c. campionarie indipendenti

•  Dopo che l’estrazione campionaria è avvenuta, si otterranno solo n osservazioni campionarie

cioè n numeri.

( )nXXX ,..., 21

( )nxxx ,..., 21

α.α. 2002-2003 13


Concetti teorici

stima

La stima di θ é il valore assunto dallo stimatore assunto in corrispondenza di un particolare campione.

stimatore

Lo stimatore di θ è la v.c. definita quale funzione nota del campione.

Funzione di stima

É la particolare funzione (t.) che lega le v.c. del campione.

),.....,,()( 21 nXXXtXT =


Concetti teorici

Correttezza

Uno stimatore T(X) di θ, è corretto se, in media, fornisce stime non distorte del parametro incognito.

Efficienza relativa

Uno stimatore corretto di θ è più efficiente di un altro stimatore corretto di θ se ha varianza più piccola.

Alcune proprietà degli stimatori

Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire

( )XT1

( )XT2

α.α. 2002-2003 14


Concetti teorici

Efficienza assoluta

Esiste un limite inferiore alla varianza di uno stimatore di θ che può essere raggiunto dallo stimatore più efficiente in senso assoluto, sebbene non si può escludere, che uno stimatore la cui varianza non raggiunge tale limite non sia il più efficiente.

Coerenza

Uno stimatore T(X) di θ è coerente se contemporaneamente la sua distorsione e la sua varianza tendono a zero al crescere della numerosità campionaria.


Stima per intervalli

La Teoria della Stima precisa delle proprietà ottimali per uno stimatore e costruisce degli stimatori i quali, una volta ottenuto il campione, forniscono – mediante semplice sostituzione – il valore numerico della stima. Per un altro campione, generalmente, lo stesso stimatore condurrà ad una stima differente.

Il valore numerico della singola stima non informa sul probabile campo di variazione delle stime del parametro.

α.α. 2002-2003 15


In presenza di campioni di numerosità limitata questi problemi divengono particolarmente gravi in quanto il semplice "affidamento" al valore numerico trovato può essere inopportuno per l'elevata variabilità delle osservazioni.

Vi è pertanto l'esigenza di costruire un intervallo, anziché un punto, che con probabilità fissata includa il parametro da stimare.


Intervalli di stima

Dato un campione casuale con estrazioni con ripetizione da una popolazione X con nota la f(x; θ).

L’intervallo di confidenza: É un intervallo casuale che contiene il parametro incognito θ con una probabilità nota (ciò prima di estrarre il campione)

( ) ( )α−=≤θ≤ 1LLP 21

dove ed sono funzione dello stimatore puntuale di θ. 1L 2L

( )nXXX ,..., 21

α.α. 2002-2003 16


Intervalli di stima

Non è corretto affermare :

( , ) contiene con probabilità (1–α) il vero valore di θ.

Ma si è confidenti al 100(1–α)% che l'intervallo

[ , ] includa il vero valore di θ.

Per un ipotetico processo di estrazioni campionarie l'intervallo osservato – non casuale – conterrebbe θ nel 100(1-α)% dei casi mentre lo escluderebbe nel 100α%. Tanto minore è il livello fissato di α tanto più ampio risulta l'intervallo di confidenza.

1L 2L

2L1L


Elementi chiave n  La variabilità del fenomeno n  La numerosità campionaria n  L’ampiezza dell’intervallo n  Il livello di confidenza

α.α. 2002-2003 17


2σvariabilità εampiezza

intervallo

n dimensione del campione

nzx

2

σ± α

Grado di fiducia campione

Variabilità nella

popolazione

0,99

0,95

0,90

α−1

Metafora


2σvariabilità εampiezza

intervallo


A parità di , ε minore è n

maggiore

2σ

α−1

…(minore è la distanza dal bersaglio)

α.α. 2002-2003 18


2σvariabilità

εampiezza intervallo


A parità di , n piú grande è ε maggiore è

2σ

α−1(il bersaglio)

… (più grande è il bersaglio)


A parità di n, ε,

minore è (varianza)

maggiore è (grado di fiducia)

2σα−1

n Dimensione del campione

εampiezza intervallo 2σ

variabilità

… (più preciso è lo strumento di tiro)

α.α. 2002-2003 19


Test statistico

n  ipotesi statistiche n  tavola delle decisioni n  variabili test n  regole di decisione ��


Il Test Statistico

Il Test Statistico è un giudizio di conformità probabilistica fra campione e popolazione e serve per decidere se alcune situazioni ipotetiche concernenti la popolazione appaiono ragionevoli o meno alla luce dell'evidenza empirica. Ipotesi Statistica: è un'affermazione riguardante i parametri della f(x; θ) o il processo cha ha generato le osservazioni campionarie.

Ipotesi nulla vs. Ipotesi alternativa

α.α. 2002-2003 20


Tavola delle decisioni

A-posteriori, ovvero dopo aver estratto il campione e presa una decisione con la statistica test, non ha senso parlare di probabilità di decisioni giuste o errate, in quanto non essendo nota l'ipotesi vera sulla popolazione si è già commesso di fatto un errore o si è già presa di fatto una decisione giusta.

DECISIONE

REALTA‘

Decisione giusta Errore del I tipo

Errore del II tipo Decisione giusta

1H

0H

1H

αα−1

β−1β

0H


Variabile test

Statistica Test: è una funzione d(X) che fa corrispondere ad ogni campione casuale un valore numerico che può essere classificato come coerente o meno con l'ipotesi specificata dalla H0. Il test statistico conduce ad una partizione dell'universo dei campioni in due sottoinsiemi complementari: la regione di accettazione, ovvero i campioni per i quali la statistica test assume valori compatibili con H0 , la regione critica o di rifiuto, ovvero i campioni per i quali la statistica test assume valori compatibili con H1.

α.α. 2002-2003 21


Nella costruzione del test si pone come ipotesi nulla quella per la quale si ritengono più gravi le conseguenze derivanti dal commettere un errore del primo tipo, così che si sceglie un opportuno valore α del livello di significatività. Qualora si desideri controllare, oltre alla probabilità dell'errore del primo tipo, anche quella dell'errore del secondo tipo, occorre determinare la numerosità campionaria in modo tale che il test garantisca, oltre al livello di significatività a, anche una potenza del test 1- β prefissata.

Numerosità Campionaria e Potenza del Test


Lo Schema per l'Applicazione

1.   Considerazioni generali: scelta del modello di probabilità, campionamento, assunzioni;

2.   Ipotesi statistiche da verificare: definizione dell'ipotesi nulla e dell'ipotesi alternativa;

3.   Statistica Test: si definisce la funzione dello stimatore, la sua distribuzione (con eventuale stima di parametri incogniti non sottoposti a test), e si determina il valore osservato della statistica test;

α.α. 2002-2003 22


Lo Schema per l'Applicazione

4.   Regione critica di ampiezza : sulla base della distribuzione nota della statistica test e quindi della corrispondente tavola statistica, si determina il valore critico (test unidirezionale) o i valori critici (test bidirezionale) per distinguere la regione critica dalla regione di accettazione;

5.   Commenti e generalizzazioni: Si conclude il test accettando l'ipotesi nulla o rifiutandola, e si commentano i risultati.

α


Regione di accettazione



Regione critica

Regione critica

Valori di statistica test d*

d*

d1 d2

d(X) valore osservato da confrontare con il valore critico di d* Regioni critiche e di accettazione per test uni- e bidirezionali

α.α. 2002-2003 23


Consideriamo una variabile casuale distribuita come una Normale:

Si estrae un campione di ampiezza n

Si fissa il livello di significatività

( ) nota con , ~ 2 2 = σ σ µ N X

α


Abbiamo tre possibili situazioni:

Test sul valore medio con varianza nota:

( ) n

z X H

H σ µ α

µ µ

µ µ α + ≥

>

= 0

0 1

0 0 : RCO : :

1)

( ) n

z X H

H σ µ α

µ µ

µ µ α - ≤

<

= 0

0 1

0 0 : RCO : :

2)

( )

⎪ ⎪ ⎩

⎪ ⎪ ⎨

⎧

- ≤

+ ≥

≠

=

n z X

n z X

H

H σ

µ

σ µ

α µ µ

µ µ

α

α

2 0

2 0

0 1

0 0

: RC : :

3)

α.α. 2002-2003 24



0µ

0H


Regione di rifiuto

: :

1) 0 1

0 0 µ µ

µ µ

>

=

H

H α - 1 α

α z



0µ

0H


Regione di rifiuto

: :

2) 0 1

0 0 µ µ

µ µ

<

=

H

H α - 1

α z -

α

α.α. 2002-2003 25



0µ

0H


Regione di rifiuto Regione di

rifiuto

: :

3) 0 1

0 0 µ µ

µ µ

≠

=

H

H α - 1

2 α

2 α z

2 α z -

2 α


Test e intervalli di stima n Si costruisce l’intervallo di stima e si

verifica se esso è coerente con l’ipotesi nulla

nzx

2

σ± α

0,99

0,95

0,90

α−1

Comprende µ0 ?

test sulla media

α.α. 2002-2003 26


Caso particolare n  Popolazioni descritte da una v.c.

dicotomica (0,1) in corrispondenza di insuccesso e successo con probabilità di successo π

n  La media campionaria di 0 e 1 corrisponde al conteggio dei successi sul totale delle osservazioni campionarie (proporzione campionaria p)


Inferenza sulla probabilità di successo

n  La variabile test è

n  L’intervallo di confidenza è:

( )( )1;0 ~

0100 — P

= N

n

Z πππ−

( )⎥⎦

⎤⎢⎣

⎡±

np-1p p

2zα

α.α. 2002-2003 27


Decisione Se < si accetta Ho

c1,...,=j ;r 1,...,=i con

),(coppia una almenoper : 1

),(coppia ogniper :

jijiijH

jijiijoH

++≠

++=

πππ

πππ

( )oHcr

r

i

c

j njninnjninijn vera è se

2)1)(1(~

1 1

2

−−= = ++

++−∑ ∑ χ

Test di indipendenza

n  Data una tabella di contingenza di dimensioni r x c

Statistica test

2ossχ

2criticoχ

Valori tabulati