Upload
chesmu
View
81
Download
0
Embed Size (px)
DESCRIPTION
TEORIA DELLA PROBABILIT Á E DELL’INFERENZA STATISTICA. CALCOLO DELLE PROBABILITA’. - PowerPoint PPT Presentation
Citation preview
TEORIA DELLA TEORIA DELLA PROBABILITPROBABILITÁÁ E E
DELL’INFERENZA DELL’INFERENZA STATISTICASTATISTICA
CALCOLO DELLE PROBABILITA’
Esperimento casuale: una generica operazione la cui esecuzione, detta prova, è suscettibile di fornire un risultato – compreso in un insieme di risultati necessari ed incompatibili – che non può essere previsto con certezza.
Esempio: Lancio di un dado (prova)
• necessarietà: si presenterà almeno uno dei possibili risultati
• incompatibilità: si presenterà solo uno dei possibili risultati.
Gli esperimenti casuali riguardano quindi tutti i casi in cui bisogna effettuare una previsione in condizioni di incertezza.
Nel formulare tali previsioni, si esprime il “grado di incertezza” relativo al presentarsi di un certo risultato con una valutazione numerica che prende il nome di PROBABILITA’.
CONCEZIONI ALTERNATIVE DELLA PROBABILITA’
1.1. Impostazione classicaImpostazione classica: la probabilità del verificarsi di un certo risultato è data dal rapporto tra numero di casi favorevoli al verificarsi di quel risultato ed il numero totale di casi possibili, ammesso che questi possano essere considerati tutti ugualmente possibili.
Critica: Non applicabile agli esperimenti i cui risultati non possono ritenersi tutti ugualmente possibili
2.2. Impostazione frequentistaImpostazione frequentista: all’aumentare del numero delle prove (per n) la probabilità del verificarsi di un certo risultato coincide con la frequenza relativa di tale risultato.
Pr lim i
n
nn
a condizione che le prove si svolgano tutte nelle medesime condizioni.
Critica: Non sempre tutte le prove si svolgono nelle stesse condizioni.
4.4. Impostazione assiomaticaImpostazione assiomatica
a) Concetti primitivi
“La prova genera l’evento con una certa probabilità”
i. Prova: esperimento il cui risultato non è prevedibile con certezza
ii. Evento: possibile risultato di una prova
iii. Probabilita: numero associato al presentarsi di un evento
b) Assiomi: regole formali a cui deve sottostare una valutazione di probabilità.
3.3. Impostazione soggettivaImpostazione soggettiva: la probabilità è l’espressione del grado di fiducia che un individuo ripone nel verificarsi di un certo evento.
Critica: Le valutazioni della probabilità possono variare da individuo ad individuo
A partire dagli assiomi è possibile costruire tutta la teoria della probabilità.
SPAZIO CAMPIONARIO
s Insieme dei possibili risultati ottenibili da una prova.
Esempi:
1. Lancio di una moneta:
2. Lancio di un dado:
3. Numero di minuti in cui una lampadina resta accesa prima di bruciarsi:
,S T C
1,2,3, 4,5,6S
: 0S x x
N.B. Nei primi due esempi S ha cardinalità finita, nel terzo esempio S ha cardinalità nel continuo.
EVENTO
Un qualunque sottoinsieme dello spazio campionario S.
A S Si realizza il risultato della prova appartenente ad A.
Tipi di Eventi (es: lancio di un dado):
Eventi Elementari 1 , 2 , 3 , 4 , 5 , 6
Eventi Composti
1,3 , 1,2,6 , , 1,2,3, 4,5,6
Evento Certo SEvento Impossibile
Esempio: sottoinsiemi dell’evento “durata di una lampadina” : 0S x x
: 500 ; : 600 700 ; .........x x x x
OPERAZIONI SUGLI EVENTI
a) Unione o Somma Logica fra due eventi A e B è quell'evento C che si verifica quando si verifica A oppure B oppure A e B contemporaneamente:
C A B
A B S
b) Intersezione o Prodotto Logico fra due eventi A e B è quell'evento D che si verifica quando si verificano sia A che B contemporaneamente:
D A B
A B S
c) Complementazione o Negazione di un evento A è quell'evento E che si verifica allorquando A non si verifica:
A AS
Esempio: lancio di un dado
1,2, 4 ; B= 1,2,6 ;
1,2, 4,6
1,2
3,5,6 3, 4,5
A
A B A B
A B A B
A B
Eventi Incompatibili: non contengono elementi comuni e quindi la loro intersezione da luogo all’evento impossibile.
In pratica, il verificarsi dell’uno implica il non verificarsi dell’altro in una prova.
3,5 ; B= 1,2, 4 ; incompatibili
3,5 ; B= 1,3,6 ; compatibili
A B
A
A B
A
Rappresentazioni Grafiche
S
A B
S
A B
A B A B
S S
Eventi Compatibili
Unione Intersezione
Unione Intersezione
Eventi Incompatibili
SPAZIO DEGLI EVENTI (Z)
Una classe di eventi ai quali si vuole assegnare una probabilità. Questa classe deve essere un'algebra, ovvero deve contenere lo spazio campionario S e come elementi
Quando S è costituito da un numero finito k di elementi, lo spazio degli eventi può essere rappresentato dall'insieme di tutti i possibili sottoinsiemi di S ed ha cardinalità 2k.
Esempio: lancio di un dado
1,2,3, 4,5,6 ,S
6
Sottoinsiemi di S (e di Z) di eventi
1
1 , 2 , 3 ...... 6
1,2 , 1,3 , 1, 4 ...... 15
1,2,3 , 1,2, 4 , 1,2,5 ...... 20
1,2,3, 4 , 1,3, 4,5 , 1, 4,5,6 ...... 15
1,2,3, 4,5 , 1,3, 4,5,6 , 2,3, 4,5,6 ...... 6
1,2,3, 4,5,6 1
64 ( 2 )
numero
S
totale
k = 6
In alcuni casi interessano solo alcuni eventi di un esperimento.Esempio: Costruire lo spazio degli eventi relativo all’alternativa tra punteggio pari e punteggio dispari nel lancio di un dado.
, 1,3,5 , 2, 4,6 , 1,2,3, 4,5,6Z S
ASSIOMI
:
) 0 ( ) 1
) P(S)=1
iii) P(A+B)=P(A)+P(B) se A B=
A Z P
i P A
ii
:
) 0 ( ) 1
) P(S)=1
iii) P(A+B)=P(A)+P(B) se A B=
A Z P
i P A
ii
P(·): funzione di probabilità
Le impostazioni classica e frequentista soddisfano gli assiomi. Solitamente, nel misurare la probabilità si fa sempre riferimento alla definizione classica.
L’assioma iii) permette di definire una misura della probabilità per tutti gli eventi (elementari e composti) inclusi nello spazio degli eventi Z.
TEOREMI0)OP(
P(A)-1)AP( B)P(A-P(B)P(A)B)P(A
1)
2)
3)
S
BA
BA
Teorema delle Probabilità TotaliTeorema delle Probabilità Totali
S
CBA
C)BP(A
-B)P(A-P(C)P(B)P(A)
C)BP(AC)P(BC)P(A
A
B
C CB
Generalizzazione al caso di 3 eventi
PROBABILITA’ DI EVENTI SUBORDINATI.INDIPENDENZA STOCASTICA
Tra 2 eventi A e B può sussistere una relazione per la quale, sapendo che una prova ha generato un risultato che appartiene a B, si è indotti a modificare la valutazione del verificarsi di A.Esempio: probabilità che una certa squadra vince una partita dopo che alla fine del primo tempo è in svantaggio di 3 reti a zero.
PROBABILITA’ SUBORDINATA
La probabilità dell'evento B, dato che si è verificato l'evento A, è il rapporto fra la probabilità del contemporaneo verificarsi di A e B e la probabilità di A, se questa è diversa da zero:
| ; 0
| ; 0
P A BP A B P B
P B
P B AP B A P A
P A
| ; 0
| ; 0
P A BP A B P B
P B
P B AP B A P A
P A
Teorema delle Probabilità ComposteTeorema delle Probabilità Composte
Dati 2 eventi A e B per i quali P(A)>0 e P(B)>0,se i due eventi sono stocasticamente dipendenti risulta:
P(A B) P(A|B) P(B) P(A) P(B|A)
A B S
• si verifica B
• B nuovo S
• la probabilità subordinata è data dall’area dell’intersezione rispetto all’area di B
Se risulta:
| ;
| .
P A B P A
P B A P B
allora A e B sono stocasticamente indipendenti.
In questo caso: P A B P A P B P A B P A P B
ProblemaProblema
La produzione di pneumatici in una fabbrica avviene in tre turni: il 50% di giorno – il 30% di sera – il 20% di notte. Il controllo della conformità dei pneumatici prodotti si basa su un campione di 200 pezzi, ripartiti secondo le proporzioni dei 3 turni di produzione, che ha rivelato ciò che segue:
TURNO DI PRODUZIONE
ESITO Giorno Sera Notte totale
Conformità 97 54 33 184
Non conformità 3 6 7 16
totale 100 60 40 200
1) Calcolare la probabilità che un pneumatico scelto a caso:a) sia difettoso;b) sia difettoso e prodotto in ciascuno dei 3 turni;c) sia difettoso essendo stato prodotto in ciascuno dei 3 turni;d) essendo difettoso sia stato prodotto in ciascuno dei 3 turni.
2) È lecito sostenere che la qualità del prodotto è influenzata dal turno di produzione?
Le probabilità cercate possono essere ottenute dalla tabella delle frequenze relative:
TURNO DI PRODUZIONE
ESITO Giorno (G) Sera (S) Notte (N) totale
Conformità (C) 0,485 0,27 0,165 0,92
Non conformità (D) 0,015 0,03 0,035 0,08
totale 0,5 0,3 0,2 1
a) P(D) = 0,08
b) b.1 P(D G) = 0,015b.2 P(D S) = 0,03b.3 P(D N) = 0,035
,,
,
P(D G) 0 0150 03
P(G) 0 5
,,
,
P(D S) 0 030 1
P(S) 0 3
,,
,
P(D N) 0 0350 175
P(N) 0 2
c)c.1 P(D|G) =
c.2 P(D|S) =
c.3 P(D|N) =
,,
,
P(D G) 0 0150 1875
P(D) 0 08
,,
,
P(D S) 0 030 375
P(D) 0 08
,,
,
P(D N) 0 0350 4375
P(D) 0 08
d) d.1 P(G|D) =
d.2 P(S|D) =
d.3 P(N|D) =
2)Se la qualità del prodotto non fosse influenzata dal turno di produzione, si dovrebbe avere:
P(D|G) = P(D|S) = P(D|N) = P(D)
ma evidentemente così non è.
1) PRINCIPALI DISTRIBUZIONI DI PROBABILITA’ Binomiale, Poisson
Normale o Gaussiana
Chi – quadrato
t di Student
F di Fisher-Snedecor
2) UNIVERSO E CAMPIONE Campionamento non probabilistico Campionamento probabilistico
3) DISTRIBUZIONI CAMPIONARIE E PROPRIETA’ DEGLI STIMATORI
4) METODI DI STIMA PUNTUALE ED INTERVALLARE
5) TEST PER LA VERIFICA DI IPOTESI
INTRODUZIONE ALL’INFERENZA INTRODUZIONE ALL’INFERENZA STATISTICASTATISTICA
VARIABILE CASUALEUna Variabile CasualeVariabile Casuale X è una regolaregola (funzione reale) che associa ad EE (evento elementare di S) uno ed un solo numero numero realereale.
Notazione:X: variabile casualex: realizzazione di una variabile casuale
1E
6E4E
2E
3E
5E
S 1x 2x 3x
R
N.B.: la precedente corrispondenza è UNIVOCA.
E’ possibile associare una misura di probabilità allo spazio numerico della v.c. utilizzando la misura di probabilità definita sui sottoinsiemi dello spazio campionario S.
"Si verifica l'evento E con probabilità P(E)“
"La v.c. X assume il valore x con probabilità P(x)"
Una v.c. X è una variabile che assume valori nello spazio dei numeri reali secondo una funzione di probabilità P(X).
Una Variabile Casuale è nota se è nota la sua distribuzione di probabilità
E
0
1
X(E)
P[X(E)]
Rappresentazione grafica dello schema di costruzione di una v.c. discreta
S
1E
6E 5E
2E
4E
3E
S 1x 2x 3x 0R 1p
2p
3p1
ESEMPI
1. Consideriamo una famiglia con 3 figli
E1 E2 E3 E4 E5 E6 E7 E8
S={MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
Variabile casuale X=“numero dei figli maschi”X=“numero dei figli maschi”
1432
765
8
E
EEE
EEE
E
1/833/823/811/80pi
X
X Px0 0.1251 0.3752 0.3753 0.125
P =
1
VARIABILI CASUALI DISCRETE
Assumono valori discreti (solitamente sono ottenute come risultato di un conteggio).
Per ogni realizzazione xi risulta:
i i
i
p 0 1, ,k
p 1
x1 x2 x3 xi
pi
i iE X xp
2i iVar X x p
ppii = p(xp(xii)) = probabilità che X assuma il valore xii
Esempio: si lanciano simultaneamente 2 monete.
Eventi elementari di S:
E1=TT E2=TC E3=CT E4=CC
Variabile casuale “X=numero di croci”
Ei
TT TC CT CCxi
0 1 1 2
pi
1/4 1/4 1/4 1/4
Ad ogni xi associamo una probabilità pari alla somma delle probabilità degli eventi corrispondenti.
Le xi sono le realizzazione della v.c., mentre le pi identificano la distribuzione di probabilità della v.c. in questione
xi pi
0 1/4
1 2/4
2 1/4
VARIABILI CASUALI CONTINUE
Ammettono infiniti valori, quindi non è possibile attribuire le singole probabilità ad ogni realizzazione xi.
Si associa ad ogni intervallo una funzione f(x) detta funzione di funzione di densità di probabilitàdensità di probabilità.
f(x)
x
N.B.: f(x) NON è la probabilità che X assuma il valore x!
f(x) è la probabilità che X sia compresa in un intervallo infinitesimale intorno dx ad x .
f x p x dx X x dx
La funzione di densità f(x) è nulla per quei valori compresi in intervalli esterni al campo di definizione
Condizione necessaria affinché una funzione di densità f(x) individui una v.c. X continua è :
f x 0
f x dx 1
x : X
0
0
x
0x
P X x f x dx 0 N.B.:
E X xf x dx
22Var X E x
FUNZIONE DI RIPARTIZIONEOrdinando le realizzazioni della v.c.:
0 0F x P X x
i 0i
x xp
0x
f x dx
v.c. discrete
v.c. continue
,x
Proprietà:
0 F(x) 1
1) è non decrescente i j i jx x F x F x
2)
xlim F x 1
xlim F x 0
3)
v.c. discretev.c. discrete
X: “Punteggio ottenuto nel lancio di un dado”
1/661/651/641/631/621/61P(x)X
2 4 6
1/6
1pi
xi531
1
01/6
1 2 3 4 x
2/63/64/65/6
5 6
F(x)
v.c. continuev.c. continue
x1x0
x
)( xF
)( 1xF)( 0xF
1x0x
0x
0F(x ) f x dx
d
F(x) f(x)dx
Relazione importante:
f(x)
x
1x
1F x f(x)dx
0 1P(x X x ) 1 0P(X x ) P(X x )
1 0F(x ) F(x ) 1
0
x
x
f(x)dx
Variabile Casuale di Bernoulli
Regola i casi riconducibili ad una prova prova che si può concludere con 2 possibili risultati:
X ~ Ber p X ~ Ber p
SUCCESSOE INSUCCESSOE
0 insuccesso EX :
1 successo E
P X 1 p
P X 0 1 p q
Esempi: lancio di una moneta, Espressione di un voto referendario, Lancio di un dado (pari-dispari)
MODELLI PER VARIABILI CASUALI DISCRETE
p = probabilità di successop = probabilità di successo
i iE X xp 0(1 p) 1(p) p
2i i
2 2
Var X x p
0 p 1 p 1 p p
p 1 p p 1 p p(1 p)
N.B.: la varianza è massima se p = 0,5
Media e varianzaMedia e varianza
Distribuzione di probabilitàDistribuzione di probabilità
1 xxP X x p 1 p
1 xx
x 0,1
1 0 1 10 1
p 1 p
p 1 p p 1 p
1 p p 1
ProblemaProblema
Una macchina di precisione produce pezzi di ricambio per macchine agricole con una percentuale pari al 10% di pezzi difettosi. Su una produzione oraria di 5 pezzi, si richiede:
a) qual e’ la probabilità di avere meno di 3 pezzi difettosi?b) qual e’ la probabilità di avere tra 2 e 4 pezzi difettosi?c) qual e’ la probabilità di avere al più 2 pezzi difettosi?d) qual e’ la probabilità di avere almeno 4 pezzi difettosi?
disegnare la funzione di probabilità e di ripartizione della v.c. che descrive i risultati dell’esperimento
calcolare la media e la varianza della distribuzione.
Variabile Casuale Binomiale
X ~ Bin n,p X ~ Bin n,p
Regola la probabilità in tutti i casi riconducibili ad una
estrazioneestrazione con reimmissionecon reimmissione
di n palline da un’urna.
Probabilità che in n prove non si verifichi alcun successo
Probabilità che in n prove si verifichi 1 successo
In ognuna delle n prove p è la probabilità di successo ed è costante.
p(x) = probabilità di x successi in n provep(x) = probabilità di x successi in n prove
p(0) = p(X = 0) =
p(1) = p(X = 1) =
Probabilità che in n prove si verifichino n successi
p(n) = p(X = n) =
Quindi:n = numero di prove
x = numero di successi in n prove
n – x = numero di insuccessi in n proveLa funzione di probabilità deve tener conto di tutte le possibili sequenze di successi ed insuccessi (principio della probabilità totale per eventi incompatibili).
Numero di possibili sequenze di successi ed insuccessi (corrispondente al numero di elementi dello spazio degli eventi)
n2
nn!
x! n x ! x
n elementi presi x ad x
Qual è la probabilità di
ognuna delle
sequenze?
n
x
n xxp 1 p
Quanti sono i modi di combinarsi di una specifica sequenza?
n xxnP X x p 1 p
x
La funzione di probabilità della v.c. binomiale è quindi:
Media Media
VarianzaVarianza
1 2 3 nE X E X X X ... X
1 2 nE X E X ... E X p p .. p np
1 2 3 nVAR X VAR X X X ... X
p 1 p p 1 p ... p 1 p
np 1 p npq
590490590490119010!5!0
!5p1p
0
50p 5050 ,,,,
328050656101059010!4!1
!5p1p
1
51p 4141 ,,,,,
072907290010109010!3!2
!5p1p
2
52p 3232 ,,,,,
008108100010109010!2!3
!5p1p
3
53p 2323 ,,,,,
000450900001059010!1!4
!5p1p
4
54p 1414 ,,,,,
000010100001019010!0!5
!5p1p
5
55p 0505 ,,,,
xnx p1px
nxp
0 x 5
n!n
x x! n x !
con
La variabile casuale “numero di pezzi difettosi (successo) su 5 pezzi prodotti (prove)” segue la distribuzione Binomiale, con parametri
n = 5 e p = 0,1 (10%)
= np = 5 0,1 = 0,5
2 = np(1-p) = 5 0,1 0,9 = 0,45
Le probabilità elementari possono essere determinate per mezzo della funzione:
quindi:
a)P(X < 3) = P(0) + P(1) + P(2) = = 0,59049 + 0,32805 + 0,0729 = 0,99144
b)P(2 X 4) = P(2) + P(3) + P(4) = = 0,0729 + 0,0081 + 0,00045 = 0,08145
c)P(X 2) = P(0) + P(1) + P(2) = = 0,59049 + 0,32805 + 0,0729 = 0,99144d)P(X 4) = P(4) + P(5) == 0,00045 + 0,00001 = 0,00046
Dati n = 5 e p = 0,1, la v.c. X = “numero di pezzi difettosi su 5 prodotti” è definita come segue:
x f(x) F(x)
0 0,59049 0,59049
1 0,32805 0,91854
2 0,07290 0,99144
3 0,00810 0,99954
4 0,00045 0,99999
5 0,00001 1
Totale 1
Variabile Casuale di Poisson
LA VC NORMALE O GAUSSIANA
Una vc si dice normale o gaussiana (da Gauss che la propose
come modello descrittivo degli errori di misura) se la sua fd è la
seguente:
dove rispettivamente rappresentano il valor medio e la varianza di X;
è una vc continua; (base dei logaritmi neperiani) sono note
costanti matematiche.
2x
2
1
2 e2
1,;xNXf
2xx e
X
7183,2eed1415,3
La sua rappresentazione grafica è la seguente:
ed ovviamente la probabilità dell’evento certo sarà data da
Oltre ai due valori caratteristici appena esaminati se ne possono definire altri; tra essi una certa importanza ha la media quadratica:
1dxxfXpb
a
b
a
22 dxxfxXE
0
0,1
0,2
0,3
0,4
0,5
-4 -3 -2 -1 0 1 2 3 4
È facile dimostrare che:
Per la dimostrazione basta svolgere il quadrato dell’altra
formulazione di , semplificare ed ottenere la seconda
formulazione che è di maggiore praticità a fini computazionali.
22 XEXEXV
XV
Lo studio analitico della funzione evidenzia:
1) la curva è simmetrica rispetto all’ordinata del punto di massimo;
2) quest’ultimo si trova in corrispondenza del valore ; segue
che la mediana (MED , valore che divide una distribuzione di
frequenze in due parti esattamente uguali) e la moda (MOD , valore
cui corrisponde il massimo valore di una distribuzione di
frequenze) coincidono, nella normale, con la media aritmetica;
3) la curva è definita tra meno infinito e più infinito;
4) La curva presenta due punti di flesso (cambiamento di
concavità) in corrispondenza con i valori
x
x
L’assetto grafico della curva è determinato dai parametri
µ e σ , il primo determina il posizionamento della
curva sull’asse delle ascisse; per questo µ si definisce
come un parametro di posizione.
Il secondo, essendo una misura di variabilità con
riferimento alla media, mostra quanto siano più o meno
dispersi i valori della distribuzione intorno al valore medio.
Allora, bassi valori di σ indicano valori della distribuzione
(probabilità) poco dispersi o anche, come si dice, molto
concentrati, intorno a µ , al contrario alti valori di σ
indicano valori della distribuzione molto dispersi rispetto
alla media. Pertanto il parametro σ è detto parametro di
forma della distribuzione.
Se una vc ha una distribuzione normale la probabilità che x
assuma un certo valore in un certo intervallo, poniamo a-b, si
ottiene da:
che in termini grafici altro non è se non la superficie delimitata a
sinistra dall’ordinata nel punto a, a destra dall’ordinata del punto
b, inferiormente dall’asse delle ascisse e superiormente dalla curva
normale tra a e b. Ovviamente, la probabilità dell’evento certo,
cioè
b
a
x
2
1b
a
dxe2
1dxxf)bXa(p
2
1dxe2
1
dxxf)X(p
2x
2
1
da cui si ha anche che:
Esempio, se una vc normale ha media pari a 3,6 e varianza pari a
81, la probabilità che x sia compreso tra -4,2 e 7,5 si ha
risolvendo l’integrale
2
1dxe
2
1dxxf
)X(p2
x
2
1
dxe29
1dxxf
)5.7X2.4(p
5.7
2.4
)81(4
6.3x5.7
2.4
2
Per fortuna esiste la possibilità di operare in modo
estremamente più semplice, ma a tale fine occorre definire una
particolare vc normale, detta vc normale standardizzata, la cui
caratteristica è quella di avere media pari a zero e varianza
unitaria, cioè:
Si può dimostrare che data una normale
si può sempre passare ad una
semplicemente trasformando le x in z con la relazione
1,0;ZNe2
1Zf
2z2
1
2,;XN
1,0;ZN
x
Z
Siccome per la normale standardizzata esistono tavole che
contengono la determinazione degli integrali coinvolti con il
calcolo di
allora basta passare da X a Z, risolvere il nostro problema su Z ed
averlo risolto per X senza dover calcolare alcun integrale.
Tutto questo sarà molto più chiaro con alcuni esempi numerici;
prima vediamo più da vicino come sono costruite le tavole per la
normale standardizzata.
2
1
z
z
21 dzZf)zZz(p
In primo luogo: la tabulazione avviene solo per la parte positiva
della distribuzione, dal momento che essendo la media della
standardizzata uguale a zero basta avere
per avere
Poi, le tavole forniscono l’area sotto la normale standardizzata
secondo il seguente schema:
aZ0prob
0Zaprob
L’immissione rappresenta l’area sottostante la distribuzione standardizzata dalla media aritmetica a ZZ .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.9
.0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
.0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
.0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
.1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
.1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
.1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
.2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
.2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
.2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
.3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
.3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
.3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
.3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
.4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
.4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
.4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
.4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
.4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
.4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
.4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
.4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
.4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
.4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
.4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
.4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
.4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
.4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
.4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
.4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
.4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
.49865 .49869 .49874 .49878 .49882 .49886 .49889 .49893 .49897 .49900
.49903 .49906 .49910 .49913 .49916 .49918 .49921 .49924 .49926 .49929
.49931 .49934 .49936 .49938 .49940 .49942 .49944 .49946 .49948 .49950
.49952 .49953 .49955 .49957 .49958 .49960 .49961 .49962 .49964 .49965
.49966 .49968 .49969 .49970 .49971 .49972 .49973 .49974 .49975 .49976
.49977 .49978 .49978 .49979 .49980 .49981 .49981 .49982 .49983 .49983
.49984 .49985 .49985 .49986 .49986 .49987 .49987 .49988 .49988 .49989
.49989 .49990 .49990 .49990 .49991 .49991 .49992 .49992 .49992 .49992
.49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995
.49995 .49995 .49996 .49996 .49996 .49996 .49996 .49997 .49997 .49997
Allora se z = 0.22 la superficie al di sotto della
standardizzata (tra 0 e z) è pari a 0.0871, cioè è circa il 9%
dell’intera distribuzione, se invece è pari a 0.30 la superficie
è 0.1179, cioè circa il 12% della distribuzione, e così via.
Le tavole della normale standardizzata sono riportate in
appendice ad ogni testo di statistica.
Vediamo allora un po’ di esempi numerici e la soluzione di
alcuni problemi.
Esempi:
Si calcoli usando la tavola della normale standardizzata la
probabilità che: 96.1Z96.1
Data la simmetria su 0 della distribuzione, basta
moltiplicare per 2 il valore che si trova sulla tavola in
corrispondenza di 0.96, cioè 0.4750.
Questo valore indica la probabilità tra 0 e 1.96, quindi
0.4750 x 2 = 0.95 dice che la probabilità richiesta, in
termini percentuali, è il 95%.
Si calcoli ora la probabilità che in una normale con media
pari a 10 e varianza pari a 4, X assuma un valore
compreso tra 8 e 12.
Per usare la standardizzata si devono determinare su
quest’ultima distribuzione quei valori che corrispondono a 8
e a 12;
essi sono:
Allora dalle tavole della normale standardizzata:
e pertanto la probabilità richiesta per X è
approssimativamente del 68%.
12
1012Xz
12
108Xz
22
11
6826.03413.02zZzprob
3413.0zZ0prob
21
2
Sia X una vc normale con media 16000 e scarto quadratico
medio pari a 2000.
Calcolare la probabilità che X sia compreso tra 15000 e
18000.
Allora:
allora la probabilità richiesta per X è di circa il 53%.
12000
1600018000z
5.02000
1600015000z
2
1
5328.03413.01915.01Z5.0prob
3413.01Z0prob
1915.05,0Z0prob1Z5.0prob
Variabile Casuale Normale
MODELLI PER VARIABILI CASUALI CONTINUE
2X ~ N , 2X ~ N ,
E’ funzione di due parametri 2,
21 x
2
2
1f x e
2
f x dx 1
Se x x f x 0
- +
o
f(x) è simmetrica rispetto a x f x f x
E X 2VAR X Media e varianzaMedia e varianza
V.C. Normale Standardizzata
2 2Se 0 e 1 N , Z 0,1
21
z2
1f z e
2
z
XZ
X Z
2N , Relazione tra Z 0,1e
1 2 1 2P x X x P z Z z
11
xz
22
xz
0z
0 0P Z z F z f z dz
Dalle tavole:
F z 1 F z F z 1 F z
F 0 0.5
P X x P Z z
x xP Z F
0 z1 z2 z
F 0 0.5 2 1F z F z
ProblemaProblemaUn meteorologo ritiene che la probabilità che a Napoli piova durante un giorno del mese di dicembre è uguale a 0,2.
a) Calcolare il numero di giorni di pioggia previsti dal meteorologo durante tutto il mese.
b) Determinare inoltre la probabilità che nel mese di dicembre vi siano al massimo 3 giorni di pioggia.
n = 30; p = 0,2B (30, 0,2)
a) La previsione può essere fatta in termini di valore atteso, ossia:
E(X) = n p = 31 0,2 = 6,2.
3 6,23
4,8
1, 46
1 1, 46
1 0,9279 0,0721
P X P Z
P Z
P Z
b) Essendo n sufficientemente elevato, le probabilità cercate possono essere approssimate dalla distribuzione Normale standardizzata:
Soluzione
DISTRIBUZIONI DI PROBABILITA’ “SPECIALI” DISTRIBUZIONI DI PROBABILITA’ “SPECIALI” DERIVATE DALLA NORMALE DERIVATE DALLA NORMALE
STANDARDIZZATASTANDARDIZZATADistribuzione CHI-QUADRATO (2
La somma dei quadrati di variabili casuali indipendenti Normali standardizzate si distribuisce come una v.c. 2 con gradi di libertà (g.l.).
Al crescere di la 2 tende alla distribuzione Normale.
Distribuzione t di Student ( t)Sia X una v.c. Normale standardizzata e sia Z una v.c. 2indipendente da X
Il rapporto: si distribuisce come una v.c. t di Student
con gradi di libertà (t ) .
La tè simile alla Normale ma ha code più alte.
Al crescere di la t tende alla Normale
/ZX
Distribuzione F di Fisher ( F 1,2 )
Siano Z1 e Z2 due v.c. indipendenti 2 con 1 e 2 rispettivi
g.l.;
Il rapporto :
Si distribuisce come una v.c. F di Fisher-Snedecor con 1 e 2
g.l.
2211 ZZ
TEOREMA DI BAYES
Per introdurre il problema si partirà da un esempio. Si abbiano due
urne: la prima, U1, contenente 4 palline bianche e 6 nere, la seconda, U2,
contenente 3 palline bianche e 5 nere..
Si estragga a sorte un' urna e si estragga poi dall’urna prescelta una
pallina.
Ammesso che la pallina estratta sia di colore bianco, ci si chiede: qual è
la probabilità che essa provenga dall'urna U1 se la probabilità di
selezionare ciascuna delle due urne è 0,50?
Si noti la particolarità del problema: finora le probabilità degli eventi
sono state sempre determinate prima dell'esecuzione
dell'esperimento; qui la situazione è, in un certo senso, opposta: si
conosce il risulta to dell'esperimento e si vuole calcolare la probabilità
che esso sia dovuto ad una certa "causa", nell'esempio che la pallina
provenga dall'urna U1.
Simili problemi si presentano ogni volta che un evento A può essere
visto come risultato ("effetto") di uno tra k possibili eventi ("cause"),
C1, C2, .... Ck, incompatibili e tali che uno di essi si deve verificare, e
inte ressa valutare la probabilità che, avveratosi A, sia Ci la causa che
l'ha prodotto. Conviene perciò introdurre una formula generale che
consenta il calcolo della probabilità in questione.
A questo fine si considerino innanzitutto gli eventi incompatibili C1,
C2, .... Ck, e si ammetta che essi costituiscano una partizione dello spazio
campionario Ω, ossia che Ω= C1 C2 .... Ck
Allora l’evento A può essere espresso nel modo seguente
A = A Ω =A ( C1 C2 .... Ck) = (A C1 ) (A C2 ).... (A Ck)
(1.7) P(B/A) =
(1.8) P(A B)=P(A)-P(B/A)
Si osservi che l'evento A è espresso come unione degli eventi incompatibili
A Ci i = 1,2,. , n ; ne segue, per il terzo assioma della probabi lità, che
P(A)=P(A C1)+P(A C2)+...+P(A Ck).
Dalla (1.7) si ottiene P(Ci | A)=
P(A)
B)P(A
)(AP
A)P(Ci
Applicando la (1.8) ad ogni elemento al secondo membro dell'equazione
precedente, si può anche scrivere
P(A) = P(C1)P(A|C1)+ P(C2)P(A|C2)+ ... + P(Ck)F(A| Ck) (1.10)
Il problema è ora quello di calcolare la probabilità condizionata P(C1|A).
che, considerando la (1.8) e la (1.10), può essere posta nella forma
P(C1|A)= (1.11)
k
jj
ii
CAPCP
CAPCP
1
)|()(
)|()(
La formula (1.11) va sotto il nome di formula di Bayes (dal nome
dell'ecclesiastico Thomas Bayes, 1702-1761, che la introdusse). È
opportuno ribadire che P(C1|A) è la probabilità che l'evento A, già
realizzatosi, sia dovuto alla causa Ci ; tale probabilità è nota come
probabilità a posterio ri, mentre P(Ci) è chiamata probabilità a priori della
causa C1.
Esempio1
Si riprenda l'esempio introduttivo. Dunque, ammesso che la pallina estratta
sia bianca, si vuole calcolare la probabilità che essa provenga dal l’urna U1.
Se si indica con A l'evento in oggetto, con C1 l'urna U1 e con C2 l'urna U2,
la probabilità cercata è data da
P(C1|A) = 52,0
8
3
2
1
10
4
2
1
10
4
2
1
)|()()|()(
)|()(
2211
11
CAPCPCAPCP
CAPCP
Esempio2
È noto che in una data popolazione la percentuale dei fumatori è pari al
35%. Si sa anche che il 20% dei fumatori ed il 6% dei non fumatori sono
affetti da una malattia respiratoria cronica. Si vuole determinare la
probabilità che un indivi duo affetto dalla malattia sia fumatore. Definiti gli
eventi: F: "fumatore",: "non fumatore", M: "malato", le informazioni
disponibili consentono di scrivere
P(F) =0,35; P ( ) = 0,65; P(M| F) =0,20; P(M | )= 0,06.F F
PARTIZIONI E TEOREMA DI BAYES
Pertanto
PARTIZIONI E TEOREMA DI BAYES
Supponiamo che gli eventi A1, A2, . .. , An formino una partizione di uno
spazio campionario S; e cioè, che gli eventi Ai siano incompatibili e la loro
unione sia S. Ora, sia B un qualsiasi altro evento.
Allora B = S B = (A1 A2... An) B = (A1 B) (A2 B) ... (An B)
dove gli AiB sono incompatibili.
Di conseguenza,
P(B) = P(A1 B) + P(A2 B) +...+ P(An B)
Quindi, per il teorema di moltiplicazione,
P(B)= P(A1)P(B|A1)+ P(A2)P(B|A2)+...+ P(An)P(B|An) (1)
D'altra parte, per ogni valore di i, la probabilità condizionata di Ai dato B
è definita da
P(Ai|B) =
)(
)(
BP
BAP i
Impiegando la (1) per sostituire P(B) e impiegando P(Ai B) = P(Ai)P(B|
Ai) per sostituire P(Ai B), otteniamo da questa equazione il seguente
teorema.
Teorema di Bayes :
Supponiamo che A1, A2,... , An, sia una partizione di S e che B sia un
evento qualsiasi. Allora per ogni valore di i,
P(Ai|B) = )|()(...)|()()|()(
)|()(
2211 nn
ii
ABPAPABPAPABPAP
ABPAP
Esempio3:
Tre macchine A, B e C producono rispettivamente il 50%, il 30% e il
20% del numero to tale dei pezzi prodotti da una fabbrica. Le
percentuali di pezzi difettosi di queste macchine sono ,
rispettivamente, il 3%, il 4% e il 5%. Viene estratto un pezzo a caso:
determinare la probabilità che esso sia difettoso.
Sia X l'evento “un pezzo è difettoso".
Allora per la (1) precedente
P(X) = P(A)P(X|A)+P(B)P(X|B)+P(C)P(X|C)=(.50)(.03)+(.30)(.04)+(.20)(.05)= .037
Si noti che si può anche considerare questo problema come un processo
stocastico rappresentato dal diagram ma ad albero adiacente.
Esempio4 :
Si consideri la fabbrica dell'esempio precedente. Supponiamo che si
estragga un pezzo a caso e che esso sia difettoso. Si determini la
probabilità che quel pezzo sia stato prodotto dalla macchina A; ossia, si
determini P(A| X).
Per il teorema di Bayes,
P(A|X) =
In altri termini, dividiamo la probabilità del cammino in questione per la
probabilità dello spazio campionario ridotto, ossia di quei cammini che
conducono ad un elemento difettoso.
)|()()|()()|()(
)|()(
CXPCPBXPBPAXPAP
AXPAP
37
15
)05)(.20(.)04)(.30(.)03)(.50(.
)03)(.50(.
ESERCIZI SUL TEOREMA DI BAYES
Determinare P(B|A) se (i) A è un sottoinsieme B, (ii) A e B sono
incompatibili.
(i) Se A è un sottoinsieme di B, allora ogniqualvolta si verifica A deve
verificarsi B ; quindi P(B|A)=1 Alternativamente, se A è un sottoinsieme di
B, allora AB = A; quindi
P(B|A)= 1)(
)(
)(
)(
AP
AP
AP
BAP
(ii) Se A e B sono incompatibili, e cioè disgiunti, allora ogniqualvolta si
verifica A non può verificarsi B; quindi P(B |A) = 0.
Alternativamente, se A e B sono incompatibili, allora A B =Ø
quindi
P(B/A)= P(A B) / P(A) = P(Ø) / P(A) = 0 / P(A) = 0
· Tre macchine, A, B e C, producono rispettivamente il 60%, il 30% e il
10% del numero totale dei pezzi prodotti da una fabbrica. Le percentuali di
produzione difettosa di que ste macchine sono rispettivamente del 2%, 3% e
4%. Viene estratto a caso un pezzo che risulta difettoso. Determinare la
probabilità che questo pezzo sia stato prodotto dalla macchina C.
Sia X= {pezzi difettosi}. Vogliamo determinare P(C|X), la probabilità che un
pezzo sia stato prodotto dalla macchina C se si sa che quel pezzo è
difettoso. Per il teorema di Bayes,
ESERCIZIO .
Una scatola contiene tre monete, delle quali due non sono truccate mentre
l'altra ha due teste. Scegliendo casualmente una delle tre monete e
lanciandola,
(a) qual è la probabilità che risulti testa?
(b) qual è la probabilità di aver scelto la moneta truccata sapendo che
il risultato del lancio è testa?
Soluzione:
Indichiamo con T e C, rispettivamente, gli eventi “uscita di testa" e "uscita
di croce", con M1 e M2 la scelta della prima e seconda moneta; entrambe
non truccate, e con M3 la scelta della moneta truccata.
Per il quesito (a) si ha
P(T) = P[(TM1)+(TM2)+(TM3)] = P(TM1)+P(TM2)+P(TM3)]
= P(T|M1 )P(M1 )+P(T|M2)P(M2)+P(T|M3 )P(M3)=
=
Per il quesito (b) si ha (teorema di Bayes)
P(M3|T)=
3
2
3
1)1(
3
1
2
1
3
1
2
1
2
1
)3/2(
)3/1)(1(
)()|(
)()|( 33 i ii MPMTP
MPMTP
Teorema di Tchebycheff
Finora si sono considerate media, varianza e deviazione standard di un esperimento in modo separato per ana1izzare alcune caratteristiche di una v.c. e della sua distribuzione di probabilità. Si consideri ora un’utilizzazione congiunta di questi indici al fine di fornire informazioni circa il modo in cui le probabilità si addensano in intervalli centrati sulla media e di ampiezza proporzionale alla deviazione standard della variabile. Intuitivamente si può pensare che a valori bassi della deviazione standard corrisponda una massa di probabilità molto concentrata intorno alla media, mentre a valori elevati della deviazione standard la probabilità sia più diffusa attorno alla media.
Si cercherà di quantificare tale idea intuitiva.
EsempioSi consideri la variabile X= numero di teste uscite dal lancio di 5 monete.μ=E[X]=2,5, Σ ( X – μ)2f(x) = 40/32 , σ2=Var(X)=1,25 , σ=1,12 Nella figura 3.20 è rappresentata la distribuzione di probabilità della v.c X
unitamente alla probabilità compresa negli intervalli μ±σ e μ±2σ Teorema: Se la v.c. X ha media finita μ e deviazione standard finita σ, e k è un numero positivo qualunque, allora la massa di probabilità che si trova al di fuori dell’intervallo chiuso [( μ- kσ) ,( μ + kσ)] è inferiore a 1/k2. In simboli: o, equivalentemente, la probabilità sull’intervallo complemento è superiore a (1- 1/k2 ),cioè:
2
11) |)(|
kkXP
Infatti, si supponga che la variabile casuale X abbia media μ e deviazione standard σ. Tra tutti i valori possibili di X si scelgano quelli che distano da μ in valore assoluto, più della quantità kσ , dove k è un numero reale positivo.
I valori di X vengono cosi di visi in due sottoinsiemi: i valori compresi nell’intervallo [(μ- kσ), ( μ+ kσ)] e quelli invece che si collocano al di fuori di tale inter vallo. Per comodità si indichino con xi* i valori esterniall’intervallo che soddisfano cioè la relazione | xi*- μ| ≥ kσ .
Dalla definizione di σ si avrà:Poiché i valori xi* un sottoinsieme di tutti i pos sibili valori di X, e più precisamente :
i
ii kxxf )|Pr(|*)(
Detta relazione potrà allora scriversi:
da cui segue:
)|Pr(|222 kxk i
2
1)|Pr(|
kkxi
Questo teorema è molto importante perchè permette di asso ciare un livello di probabilità a degli intervalli senza conoscere la forma della distribuzione della funzione di probabilità f(x). Ma chiedendo solamente che la v.c. X abbia media e varianze finite. È quindi un teorema che vale sotto condizioni assolutamente ge nerali.
Togliendo il valore assoluto nell'espressione del teorema., si può scrivere:
2
11)Pr(
kkXk
e quindi:2
11)Pr(
kkXk
La rappresentazione grafica del teorema di Tchebycheff equi vale a suddividere l’insieme possibile della v.c. X nei seguenti sottoinsiemi:
Nota: Per valori di σ>0 la probabilità espressa dal teorema di Tchebycheff è una funzione decrescente di σ, nel senso che a valori via via più elevati di σ vengono associati livelli di probabilità sempre più bassi per un valore di k costan te. Infatti, quanto più σ è piccolo tanto più piccolo è l'intervallo intorno a μ entro il quale cade una stessa percentuale di valori della v.c X, cioè quanto più σ è piccolo, tanto più la media è rappresentativa dell’intera distribuzione dei valori della variabile X
Dalle Figure si vede che σ1 >σ2 > σ3
Esercizio sul teorema di Tchebycheff
Le confezioni di pasta alimentare di una certa linea di produzione hanno un peso che può essere assimilato ad una variabile aleatoria X avente media μ = 0,5 Kg e deviazione standard σ = 0.003 kg. Si determini:a) il limite inferiore della probabilità che, estraendo a sorte una confezione, ilpeso della confezione sia compreso nell'intervallo di estremi 0,5 ± 2 × 0,003b) il limite superiore della probabilità che X sia esterna all'intervallo (0.491; 0.509)c) il limite inferiore per P(0.495 < X < 0.505)d) l'intervallo intorno alla media in cui è compresa la variabile aleatoria X con probabilità almeno uguale al 95%
Soluzione
a) Si tratta di una applicazione diretta della formula: dalla quale risulta evidente che k = 2; pertanto l'estremo inferiore cercato è dato
da: b) Per utilizzare ancora la precedente formula, dobbiamo prima ricavare k. Dalla relazione 0.5 - k(0.03) = 0.491 otteniamo k = 3. Pertanto l'estremo
superiore cercato è dato da: c) Dalla relazione 0.5 - k(0.03) = 0.495 si trova k = 1,7. Ne consegue che il limite inferiore cercato é 0,65 d) anche qui si tratta di trovare k; si ha allora Pertanto l'intervallo richiesto è: (μ – 4,47σ ; μ + 4,47σ) ovvero (0,487; 0,513)
2
11) |)(|
kkXP
22
11)006,0 |)5,0(| XP
11,03
1)]509,0()491,0[(
2 XXP
47,495,01
1
k
Semplici teoremi sui valori caratteristici di una variabile Semplici teoremi sui valori caratteristici di una variabile casualecasuale..
Siano : X una v.c. ; a , b due costanti
1.
2.
3.
Valore caratteristico incrociato per una distribuzione congiunta di variabili casuali
(covarianza)
Siano X , Y due v.c. con funzione di densità congiunta pij ; il valore caratteristico cov(XY) detto covarianza è fornito dalla relazione:
Tale valore è di notevole rilievo perché è una misura del legame lineare tra X e Y.
222 XEaXaE
bXEabXaE
XvarabXavar 2
YEYXEXEXYcov
Ancora due semplici teoremiAncora due semplici teoremi
Se X , Y sono due v.c.
Indipendenza e covarianza
Siano X Y due v.c.
Esse sono indipendenti se e solo se
Se tale condizione si verifica allora ovviamente cov (XY) = 0
perché l’indipendenza esclude la possibilità di legami.
ATTENZIONE! Non è vero in genere il contrario,
cioè la covarianza nulla non
implica indipendenza.
XYcov2YvarXvarYXvar
YEXEYXE
YPXPXYP
Si può dimostrare però che se X , Y sono v.c. Normali la covarianza nulla è condizione necessaria e sufficiente per l’indipendenza.Un ultimo teorema: se X , Y sono v.c. indipendenti
YEXEXYE
Le fasi Le fasi dell’indagine dell’indagine
statisticastatistica
Il campionamentoIl campionamento
Le fasi Le fasi dell’indagine dell’indagine
statisticastatistica
Il campionamentoIl campionamento
Le fasi di un’indagine sono:
La progettazione dell’indagine- come si acquisiscono i dati?- indagine censuaria o campionaria?- quanto tempo?- quali risorse?
La rilevazione dei dati
L’elaborazione dei dati
La pubblicazione dei risultati
Le fasi dell’indagine
La precisione e la qualità dei dati influiscono sulla validità dei risultati
La precisione e la qualità dei dati dipendono dal tipo di metodo scelto per l’acquisizione dei dati
I dati statistici possono provenire da: – Data base statistici (dati pubblici)– Dalla propria rilevazione – Da Esperimenti
Le fonti dei dati
Questo metodo è solitamente preferito per la velocità di acquisizione e bassi costi
I dati possono essere su supporto cartaceo, magnetico o possono essere acquisiti in linea (Internet)
I dati forniti da Enti riconosciuti sono chiamati dati primari o dati di fonti ufficiali
Ad esempio:I dati pubblicati dall’ISTAT, dalla Banca d’Italia
Ad esempio:I dati pubblicati dall’ISTAT, dalla Banca d’Italia
I dati forniti da Enti non ufficiali sono chiamati dati secondari o dati di fonti non ufficiali
Ad esempio:•I dati di famose società statistiche private• I dati finanziari forniti dagli uffici studi delle banche o assicurazioni
Ad esempio:•I dati di famose società statistiche private• I dati finanziari forniti dagli uffici studi delle banche o assicurazioni
Data base statistici
Attraverso la rilevazione dei dati le variabili che caratterizzano il fenomeno sono osservate e registrate senza controllare la presenza di fattori che possano influire sul loro valore
Attraverso gli esperimenti le variabili che caratterizzano il fenomeno sono osservate e registrate controllando l’influenza di alcuni fattori sul loro valore
Quando i dati pubblicati non sono sufficienti a colmare il proprio bisogno di informazioni, vengono effettuati degli studi in proprio per ottenere i dati necessari:
La rilevazione propria e la conduzione di esperimenti
– Con l’indagine statistica le informazioni vengono raccolte dalle persone
– L’indagine statistica può essere realizzata attraverso intervista personale (face to face) intervista telefonica intervista auto-amministrata
Un buon questionario deve essere costruito:
• Rendendo il questionario quanto più breve possibile• Inserendo domande breve, semplici e chiare • Partendo da domande generiche per poi entrare nello specifico (tecnica ad imbuto)• Utilizzando domande chiuse a scelta dicotomica o multipla• Utilizzando domande aperte solo quando è necessario• Inserendo domande di controllo• Strutturando il questionario a seconda del tipo di intervista
Un buon questionario deve essere costruito:
• Rendendo il questionario quanto più breve possibile• Inserendo domande breve, semplici e chiare • Partendo da domande generiche per poi entrare nello specifico (tecnica ad imbuto)• Utilizzando domande chiuse a scelta dicotomica o multipla• Utilizzando domande aperte solo quando è necessario• Inserendo domande di controllo• Strutturando il questionario a seconda del tipo di intervista
L’indagine statistica
Perché si ricorre ad un’indagine campionaria:–Per i costi–Per la numerosità elevata della Popolazione–Per la possibilità di distruggere le unità della popolazione quando si raccolgono i dati
Il campione deve essere rappresentativo della popolazione e non distorto
Il campionamento
Insieme finito o infinito, di UNITA' statistiche definito:
nei contenuti nello spazio nel tempo
Insieme delle n UNITA' statistiche selezionate tra le N che compongono la popolazione :
il fine è rappresentare la popolazione le n unità che costituiscono il campione
sono le unità campionarie
EsempioEsempio popolazione Italiana:
residente in Italia sul territorio Italiano al censimento del 2001
La Popolazione (“universo”)
Il Campione Il Campione
si attribuisce ad ogni unità statistica della una probabilità positiva di essere estratta si utilizzano in modo appropriato le
tecniche per la selezione casuale (Tavole di generazione dei numeri casuali, software)
Un campione può essere:Un campione può essere:Un campione può essere:Un campione può essere:
Casuale o probabilistico
Non probabilistico o a scelta ragionata
•Le unità campionarie sono scelte sulla base di informazioni a priori in modo da somigliare per alcuni caratteri strutturali alla popolazione da cui sono tratte
Differenti tipi di campione
Campione probabilistico Campione probabilistico
Campionamento
Campionamento
Campionamento
Campionamento
Campionamento
Campionamento
CASUALE SEMPLICE
STRATIFICATO
SU PIU' STADI
DI AREE
RUOTATO
IN DUE FASI
La struttura del campione è data dall'insieme di LISTE che si adoperano per formarlo. Se la lista della popolazione è unica il campione ha una struttura semplice; se sono necessarie più liste la struttura è complessa
Campione non probabilistico
Campionamento
Campionamento
Campionamento
PER QUOTE
UNITA’ TIPO
ELEMENTI ANOMALI
E’ il campione della teoria statistica Il campionamento casuale semplice si realizza
semplicemente scegliendo a caso dalla popolazione n elementi dall’universo N , in modo tale che ogni unità abbia la stessa probabilità di essere estratta
POPOLAZIONE N unità
CAMPIONE n unità
PROBABILITA' DI INCLUSIONE di i
FRAZIONE di CAMPIONAMENTO f= n/N
Campione casuale semplice
N
ni
– Si vogliono controllare, in un elenco provinciale di 1.000 aziende, 50 bilanci
– Dall’elenco si estraggono casualmente 50 aziende
– Usare il generatore di numeri casuali in Excel
SoluzioneSi generano 50 numeri tra 1 e1000
• Esempio
0.3820002 382.00018 3830.1006806 100.68056 1010.5964843 596.48427 5970.8991058 899.10581 9000.8846095 884.60952 8850.9584643 958.46431 9590.0144963 14.496292 150.4074221 407.4221 4080.8632466 863.24656 8640.1385846 138.58455 1390.2450331 245.03311 246
. . .
. . .
0.3820002 382.00018 3830.1006806 100.68056 1010.5964843 596.48427 5970.8991058 899.10581 9000.8846095 884.60952 8850.9584643 958.46431 9590.0144963 14.496292 150.4074221 407.4221 4080.8632466 863.24656 8640.1385846 138.58455 1390.2450331 245.03311 246
. . .
. . .
50 numeri uniformemente distribuiti tra 0 e 1
X(100) Approssimando
50 Numeri casualitra 0 e 1000,ognuno ha probabilità1/1000 di essere estratto
50 numeri casuali interi tra 1 e 1000uniformemente distribuiti
38310159790088595915408864139246..
Saranno selezionate le aziende con i numeri identificativi 383, 101, ...
STRATIFICARE significa ripartire, cioè individuare nella popolazione Sottopopolazioni al massimo omogenee rispetto alla variabile o alle variabili da rilevare
da ogni Strato viene estratto un campione casuale semplice
– Con questo campione è possibile ottenere informazioni circa:• l’intera popolazione• ogni strato• le relazioni tra gli strati
Campione stratificato
A pari numerosità, le STIME sono più Efficienti di quelle ottenibili con un Campionamento Casuale
Semplice
Sesso• Maschio• Femmina
Età• sotto 20• 20-30• 31-40• 41-50
Professione• dipendente• autonomo• lib.prof.
Ci sono più modi per costruire un campione casuale stratificato. Ad esempio, nel campione si può rispettare proporzionalmente la numerosità degli strati della popolazione (selezione proporzionale)
Un campione di numerosità 1.000 deve essere estratto
Altri modi sono: Selezione uniforme Selezione Ottimale Selezione Ottima di NEYMAN-TCHUPROW
Sono legati alla varianza tra gli strati e all’interno
degli strati
Totale 1.000
Strato Reddito Proporzione popolaz.
1 sotto E. 15.000 25% 2502 15.000-29.999 40% 4003 30.000-50.000 30% 3004 oltre E. 50.000 5% 50
n. Strato
Il campionamento a grappoli è un campionamento casuale in cui le unità da estrarre sono gruppi di elementi contigui detti Grappoli (cluster)
E' particolarmente utile quando: non è disponibile un elenco dei singoli
elementi della popolazione i costi di rilevazione aumentano
notevolmente al crescere della distanza tra gli elementi
Gli elementi che fanno parte di uno stesso grappolo sono fisicamente vicini, comportando che abbiano caratteri simili, ossia che le misure del carattere da rilevare siano più o meno tra loro correlate
Campione a grappoli
Esempio: indagini su vaste aree territoriali (Regioni, Città ecc.); in tali casi i grappoli vengono solitamente definiti in termini di sub-aree (Comuni, Quartieri, ecc.).
Il campione deve essere formato da un numero elevato di grappoli di piccole dimensioni
Pochi grappoli di grande dimensione possono essere giustificati solo se eterogenei nel loro interno, ossia se è molto elevata la varianza NEI gruppi e invece bassa quella TRA i gruppi
Svolgendo un’indagine statistica possono essere commessi due tipi di errori:
L’errore campionario
L’errore campionario
Tale tipo di errore si riferisce alla differenza tra il campione e la popolazione, ovvero tra la stima ottenuta dal campione ed il parametro della popolazione.
Diminuisce all’aumentare della numerosità campionaria
L’errore extra campionario
L’errore extra campionario Tale tipo di errore si ha se si commettono degli sbagli
durante il processo di rilevazione dei dati
Non diminuisce all’aumentare della numerosità campionaria
E’ di tre tipi:
Errore nell’acquisizione dei dati (es: codifica sbagliata)
Errore di non risposta
Errore di selezione
Calcolare i parametri di una popolazione è quasi sempre proibitivo per la numerosità della stessa
Per questo, per conoscere le caratteristiche della popolazione viene considerato un campione, e facendo inferenza, si calcola una statistica relativamente ai parametri di interesse
La distribuzione campionaria della statistica è lo strumento che ci dice come si distribuisce la statistica attorno al parametro
La distribuzione campionariaLa distribuzione campionaria
– Un dado è lanciato un numero infinite di volte
– Sia X la variabile che rappresenta il numero di punti in ogni faccia del dado
– La distribuzione di probabilità di X è:
x 1 2 3 4 5 6p(x) 1/6 1/6 1/6 1/6 1/6 1/6
E(X) = 1(1/6) +2(1/6) + 3(1/6)+………= 3.5
V(X) = (1-3.5)2 (1/6 +(2-3.5)2 (1/6 + ……… ………. = 2.92
La distribuzione campionaria della media• Esempio
Supponiamo di voler stimare m dalla media di un campione di numerosità n = 2
Qual è la distribuzione di ?
x
x
Campione Media Campione Media Campione Media1 1,1 1 13 3,1 2 25 5,1 32 1,2 1,5 14 3,2 2,5 26 5,2 3,53 1,3 2 15 3,3 3 27 5,3 44 1,4 2,5 16 3,4 3,5 28 5,4 4,55 1,5 3 17 3,5 4 29 5,5 56 1,6 3,5 18 3,6 4,5 30 5,6 5,57 2,1 1,5 19 4,1 2,5 31 6,1 3,58 2,2 2 20 4,2 3 32 6,2 49 2,3 2,5 21 4,3 3,5 33 6,3 4,5
10 2,4 3 22 4,4 4 34 6,4 511 2,5 3,5 23 4,5 4,5 35 6,5 5,512 2,6 4 24 4,6 5 36 6,6 6
Campione Media Campione Media Campione Media1 1,1 1 13 3,1 2 25 5,1 32 1,2 1,5 14 3,2 2,5 26 5,2 3,53 1,3 2 15 3,3 3 27 5,3 44 1,4 2,5 16 3,4 3,5 28 5,4 4,55 1,5 3 17 3,5 4 29 5,5 56 1,6 3,5 18 3,6 4,5 30 5,6 5,57 2,1 1,5 19 4,1 2,5 31 6,1 3,58 2,2 2 20 4,2 3 32 6,2 49 2,3 2,5 21 4,3 3,5 33 6,3 4,5
10 2,4 3 22 4,4 4 34 6,4 511 2,5 3,5 23 4,5 4,5 35 6,5 5,512 2,6 4 24 4,6 5 36 6,6 6
Campione Media Campione Media Campione Media1 1,1 1 13 3,1 2 25 5,1 32 1,2 1,5 14 3,2 2,5 26 5,2 3,53 1,3 2 15 3,3 3 27 5,3 44 1,4 2,5 16 3,4 3,5 28 5,4 4,55 1,5 3 17 3,5 4 29 5,5 56 1,6 3,5 18 3,6 4,5 30 5,6 5,57 2,1 1,5 19 4,1 2,5 31 6,1 3,58 2,2 2 20 4,2 3 32 6,2 49 2,3 2,5 21 4,3 3,5 33 6,3 4,5
10 2,4 3 22 4,4 4 34 6,4 511 2,5 3,5 23 4,5 4,5 35 6,5 5,512 2,6 4 24 4,6 5 36 6,6 6
Campione Media Campione Media Campione Media1 1,1 1 13 3,1 2 25 5,1 32 1,2 1,5 14 3,2 2,5 26 5,2 3,53 1,3 2 15 3,3 3 27 5,3 44 1,4 2,5 16 3,4 3,5 28 5,4 4,55 1,5 3 17 3,5 4 29 5,5 56 1,6 3,5 18 3,6 4,5 30 5,6 5,57 2,1 1,5 19 4,1 2,5 31 6,1 3,58 2,2 2 20 4,2 3 32 6,2 49 2,3 2,5 21 4,3 3,5 33 6,3 4,5
10 2,4 3 22 4,4 4 34 6,4 511 2,5 3,5 23 4,5 4,5 35 6,5 5,512 2,6 4 24 4,6 5 36 6,6 6
1 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
6/365/36
4/36
3/36
2/36
1/36 x
E( ) =1.0(1/36)+1.5(2/36)+….=3.5
V(X) = (1.0-3.5)2(1/36)+(1.5-3.5)2(2/36)... = 1.46
x
2
22 xxxx e
1
1
1
6
6
6
)5
(5833.
5.35n
2x2
x
x
)10
(2917.
5.310n
2x2
x
x
)25
(1167.
5.325n
2x2
x
x
E’ da notare che è più piccolo di x. Al più grande campione corrisponde il più piccolo. Inoltre tende a cadere sempre più vicino a , quanto più cresce la numerosità del campione
2x
2xx
– Da qualsiasi popolazione si estragga un campione, la distribuzione della media campionaria si approssima ad una Normale per campioni sufficientemente grandi
– Quanto è più grande il campione tanto più la distribuzione campionaria di si approssima ad una Normale
x
Teorema del Limite Centrale
grandi
ementesufficient campioniper normale una come tivamenteapprossima
cedistribuis si x normale ènon x Se normale. è x normale, .3
.2
.12
2
èxSen
xx
xx
4.3.1 La distribuzione campionaria della 4.3.1 La distribuzione campionaria della media campionariamedia campionaria
La quantità di soda pop contenuta ogni bottiglia si distribuisce in modo normale con media 32.2 ml. E deviazione standard di 0.3 ml..
– Trovare la probabilità che una bottiglia, acquistata da un consumatore, contenga più di 32 ml.
Soluzione La variabile casuale X è la quantità di soda pop nella
bottiglia
7486.0)67.z(P
)3.
2.3232x(P)32x(P
x
= 32.2
0.7486
x = 32
• Esempio
= 32.2
0.7486
x = 32
– Trovare la probabilità associata alla possibilità di avere in 4 bottiglie una quantità media maggiore di 32 ml.
SoluzioneLa variabile casuale X è l’ammontare medio di
soda pop per bottiglia
9082.0)33.1z(P
)43.
2.3232x(P)32x(P
x
32x
0.9082
2.32x
0062.0)5.2z(P
)25100
600550x(P)550x(P
x
Lo stipendio medio settimanale dei laureati un anno dopo la laurea è di 600 Euro.Supponiamo che tale variabile si distribuisca in modo normale con una deviazione standard di 100 Euro.– Trovare la probabilità che 25 laureati, estratti casualmente,
abbiano uno stipendio settimanale inferiore a 550 Euro.
Soluzione
• Esempio
– Se in un campione di 25 laureati, estratto casualmente, lo stipendio medio settimanale è di 550 Euro, cosa si può commentare sulla media della popolazione pari a 600?
SoluzioneCon = 600 la probabilità di avere un
campione con media pari a 550 è molto bassa (0.0062). L’affermazione che i laureati hanno uno stipendio medio settimanale pari a 600 è, molto probabilmente, ingiustificata.
E’ molto più realistico assumere che sia più piccola di 600, perché così, sarebbe molto più probabile una media nel campione pari a 550.
95.)96.196.1(
:
95.)96.196.1(
:
95.)96.196.1(,95.)96.196.1(
nx
nP
diventachen
xn
P
comescrittoesserePuò
n
xPorzP
Per fare inferenza sui parametri della popolazione è necessario utilizzare la distribuzione campionaria (esempio )Utilizzando la distribuzione normale standardizzata i valori sono tabulati:
- Z.025 Z.025
La distribuzione normale standardizzata
-1.96 -1.960
n96.1
n
96.1
.025 .025
.025 .025
La distribuzione normale standardizzata Z
Distribuzione normale of x
Conclusione– C’è il 95% delle possibilità che la medi
campionaria sia compresa nell’intervallo [560.8, 639.2] se la media della popolazione è 600.
– Se la media del campione fosse 550, la media della popolazione probabilmente non sarebbe 600.
95.)2.6398.560(
95.)25
10096.1600
25
10096.1600(
5.2 esempioall' 25n e 100, 600, oSostituend
xP
Con
xP
In generale
1)n
zxn
z(P 22
Riproducendo un data sets di numeri casuali che provengono da una data distribuzione, si possono verificare le caratteristiche della distribuzione.
Si simula un esperimento del lancio del dadi (la creazione della distribuzione della media).
Sono mostrati di seguito gli effetti dell’aumento della numerosità campionaria.
Creazione della distribuzione campionaria attraverso una simulazione al computer
Simulazione del lancio del dadi
11.5 2
2.5 33.5 4
4.5 55.5 6
More 1
1.5 2
2.5 3
3.5 4
4.5 5
5.5 6
More
11.
5 22.
5 33.
5 44.
5 55.
5 6Mor
e
n = 2 n = 5
n = 10
Media = 3.494Stand. Dev. = 0.544
Media = 3.486Stand. Dev. = 1.215
Media = 3.495Stand. Dev. = 0.749
1 0.16666672 0.16666673 0.16666674 0.16666675 0.16666676 0.1666667
Osservazione 1 Osservazione 2 Media Camp Bin4 6 5 16 6 6 1,51 3 2 26 1 3,5 2,52 1 1,5 31 1 1 3,52 1 1,5 42 3 2,5 4,54 3 3,5 53 3 3 5,56 3 4,5 63 2 2,56 5 5,56 2 46 1 3,55 5 5
valori Frequenza1 28
1,5 652 90
2,5 983 121
3,5 1774 152
4,5 1075 81
5,5 556 26
More 0
Valori della variabile …e probabilità associate
Creare un istogramma per la distribuzione della media
campionaria
Valori
ExcelCreazione di una distribuzione della media simulata
Calcolare la media
Campione di taglia 2
Il parametro di interesse per i dati qualitativi è il numero di volte che un particolare risultato si verifica (numeri di successi)
Per stimare la proporzione (frequenza) p della popolazione si utilizza la frequenza del campione
La distribuzione campionaria è una binomiale
Si preferisce utilizzare, per fare inferenza, l’approssimazione normale della distribuzione binomiale
p̂
p̂
La distribuzione campionaria della proporzione
– L’approssimazione è migliore quando:
La dimensione del campione è grandeLa probabilità di successo p, è prossima
a 0.5.
– Per ottenere buoni risultati:
np > 5; n(1 - p) > 5
Approssimazione della Binomiale ad una Distribuzione Normale
– Approssimare la probabilità binomiale P(x=10) quando
n = 20 e p = .5
– I parametri per l’approssimazione sono:
= np; = np(1 - p)
• Esempio
Costruiamo una distribuzione normale per approssimare la
binomiale P(X = 10)
= np = 20(.5) = 10; 2 = np(1 - p) = 20(.5)(1 - .5) = 5
La probabilità esatta è P(X = 10) = .176
P(9.5<YNormale<10.5)L’ approssimazione
P(XBinomiale = 10) = P(9.5<Y<10.5)~1742.)
24.2105.10
Z24.2
105.9(P
109.5 10.5
Altri esercizi di approssimazione
P(X<=8) = P(Y< 8.5)
88.5
1413.5
Per grandi campioni l’effetto del fattore di correzione del continuo è veramente molto piccolo e può essere trascurato
P(X>= 14) = P(Y > 13.5)
– Si può dimostrare che E( ) = p e
– V( ) = p(1-p)/n
Se sia np > 5 e np(1-p) > 5, allora
si distribuisce approssimativamente come una variabile normale standardizzata
p̂
n)p1(p
pp̂z
n)p1(p
pp̂z
Approssimazione della distribuzione campionaria della proporzione
p̂
Esempio – Un’Azienda ha una quota di mercato del 30%. In
un’indagine campionaria di 1.000 consumatori è stato chiesto quale marca preferiscono.
– Quale è la probabilità che più del 32% di tutti i rispondenti dicano di preferire quella marca?
Soluzione La variabile “numero di rispondenti che preferiscono la
marca X” si distribuisce come una binomiale con n = 1000 and p = .30.
Inoltre, np = 1000(.3) = 300 > 5n(1-p) = 1000(1-.3) = 700 > 5.
0838.01449.
30.32.n)p1(p
pp̂P)32.p̂(P
Distribuzione campionaria Distribuzione campionaria del confronto tra mediedel confronto tra medie
La differenza tra medie è un parametro rilevante quando si confrontano due popolazioni
Per fare inferenza tra 1 - 2 dobbiamo osservare
la distribuzione di 21 xx
Il valore atteso e la varianza saranno:
La distribuzione di è normale con media 1 - 2 e deviazione standard di
se– I due campioni sono indipendenti– Le popolazioni originarie si distribuiscono
in modo normale
nnxVxVxxV
xExExxE22
21
2121
212121
)()()(
)()()(
21 xx
nn
22
21
Se le popolazioni originarie non sono normali ma il campione è maggiore di 30 la distribuzione si approssima ad una normale
Esempio
– I voti medi (in centesimi) di diploma di due differenti Istituti sono 62 (stand.dev. = 14,5), e 60 (stand. dev. = $18,3).
– Qual è la probabilità che la media campionaria degli studenti dell’Istituto A sia maggiore di quella degli studenti dell’Istituto B (nWLU = 50;
nUWO = 60)
21 xx
Soluzione
1 - 2 = 62 – 60 = 2
128,360
3,18
50
5,14 2222
21
nn
7389.2389.5.)64.(
)128,3
20) - (()0(
2
22
1
21
212121
zP
nn
xxPxxP