Upload
others
View
14
Download
0
Embed Size (px)
Citation preview
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
17
CAP. 1 – CALCOLO DELLE PROBABILITA’
Introduzione
Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo, si è sviluppato
teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei
fenomeni collettivi diventando presupposto essenziale della statistica e della teoria
statistica delle decisioni.
Il calcolo delle probabilità è una disciplina matematica astratta e altamente
formalizzata pur conservando il suo originale e rilevante contenuto empirico. Per questa
sua particolare natura l’esposizione dei suoi contenuti essenziali risulta facilitata
dall’introduzione di definizioni esplicite relative agli aspetti e concetti che ne
costituiscono il corpo.
1.1 - Alcuni concetti base
Definizione 1: Si dice prova o esperimento casuale ogni operazione o attività il cui
risultato non può essere previsto con certezza.
Risulta chiaro che il termine prova o esperimento va qui inteso in senso lato,
comprendendo in esso sia il lancio di un dado, sia l'estrazione di una pallina da un'urna,
sia la rilevazione dei pesi dei coscritti alla leva, sia l’esito di una operazione chirurgica,
sia la sperimentazione di un nuovo farmaco, sia il controllo dei pezzi prodotti da un cer-
to macchinario ecc.
Definizione 2: Si dice spazio campionario di un esperimento casuale l'insieme di
tutti i possibili risultati (punti campionari), esaustivi e mutualmente
escludentesi, dell'esperimento stesso.
Di seguito si riportano alcuni esempi di esperimento casuale e di spazio campionario
ad esso associato.
Se l'esperimento casuale consiste nel lancio di una moneta a due facce, lo spazio
campionario è dato da
= {T, C} = 21,
dove T = 1 è il punto campionario testa e C = 2 è il punto campionario croce.
In questo esempio si è assunto che gli unici risultati possibili siano T e C, e che
quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
18
anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento
casuale è
= {T, C, B}= 321 ,,
dove B è il punto campionario “moneta in equilibrio sul bordo”.
Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento
casuale sia un’operazione di finanziamento di una banca ad una impresa cliente, i cui
risultati possibili sono la restituzione o meno del finanziamento concesso da parte
dell’impresa. In tal caso, infatti, lo spazio campionario è dato da
= {R, NR}= 21,
dove R è il punto campionario finanziamento restituito e NR il punto campionario
finanziamento non restituito.
Nel caso in cui l'esperimento consiste nel controllo dei pezzi prodotti da un certo
macchinario avendo come finalità l'accertamento della bontà o difettosità del pezzo
prodotto, lo spazio campionario sarà composto dai soli due elementi (punti
campionari) 1 e 2 , dove 1 rappresenta il pezzo difettoso ed 2 il pezzo non
difettoso.
Quando l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio
campionario è dato da
= {1, 2, …, 90}= 9021 ,.....,,
costituito, come è ovvio, da tutti i numeri interi da 1 a 90; da rilevare che, in realtà,
l’esito di questo esperimento casuale non è un numero ma una pallina contrassegnata da
un numero, così come quando si lancia un dado, l’esito della prova non è un numero ma
una faccia su cui sono riportati 1 o 2 ……..o 6 puntini.
Quando l'esperimento consiste nell'estrazione di una pallina da un'urna che ne
contiene n identiche a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio
campionario resta definito da
1 2 i nΩ ω ,ω ,...,ω ,...,ω
dove i (i=1, 2,...,n) sta ad indicare il punto campionario costituito dalla estrazione
della pallina contrassegnata con il numero i.
Se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito
internet oppure nel contare il numero di stelle presenti nell’universo, lo spazio
campionario è dato da
= {0, 1, 2, …, ∞} = 1 2 ,ω ,ω ,... .
cioè, da tutti i numeri interi non negativi, dato che il numero di accessi o di stelle è un
numero intero e non è possibile stabilirne a priori il valore massimo che per
convenzione si pone uguale ad infinito.
Infine, nel caso in cui l'esperimento casuale consiste nel test di durata di un
pneumatico, lo spazio campionario è costituito da
= {0,∞}
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
19
cioè da numeri reali non negativi, dato che la durata è un numero che non può essere
negativo. Si segnala che anche in questo caso l’estremo superiore pari a ∞ sta ad
indicare che non è possibile stabilire la durata massima che, ovviamente, da un punto di
vista empirico non potrà essere infinita.
Negli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà
nell'individuazione e nella successiva enumerazione dei punti campionari che ne
costituiscono i possibili risultati. In esperimenti più complessi possono risultare di
notevole ausilio alcune formule combinatorie che facilitano notevolmente
l'enumerazione dei punti campionari, cioè l'esatta definizione dello spazio campionario.
Dagli esempi riportati risulta che lo spazio campionario può essere costituito da un
numero finito di punti (come nel caso del lancio della moneta, dei pezzi buoni/difettosi,
delle palline estratte da un’urna), oppure da un’infinità numerabile di punti (come nel
caso del numero di accessi ad un sito internet), o infine da un’infinità non numerabile
di punti (come nel caso del test di durata di un pneumatico).
Definizione 3: Se lo spazio campionario è costituito da un numero finito o da
un’infinità numerabile di punti campionari, si dice evento ogni
sottoinsieme E dello spazio campionario . Se lo spazio campionario
è costituito da un’infinità non numerabile di punti, non tutti i possibili
sottoinsiemi di hanno la natura di eventi (si tratta di sottoinsiemi non
misurabili1); in questa sede verranno, comunque, considerati soltanto i
cosidetti sottoinsiemi misurabili di . Si può pertanto definire come
evento qualunque sottoinsieme misurabile dello spazio campionario.
Se, ad esempio, si fa riferimento al caso dell'estrazione di una pallina da un'urna che
ne contiene n, si può pensare di suddividere l'intero spazio campionario in due
sottoinsiemi (eventi) 1 1Ω E ed 2 2Ω E contenenti, rispettivamente, i punti
campionari: a) presentarsi di una pallina contrassegnata da un numero dispari; b)
presentarsi di una pallina contrassegnata con un numero pari.
Sia i l’evento estrazione di pallina contrassegnata con il numero i , il sottoinsieme
E = ( : i per i pari o dispari) = ni ,...,,...,, 21 =
coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si
realizzerà in quanto effettuando l'estrazione è certo che si presenterà una pallina o
contrassegnata con un numero dispari o contrassegnata con un numero pari.
1 In matematica un insieme non-misurabile è un insieme la cui struttura è talmente complicata da impedire la
possibilità di assegnare all’insieme stesso una misura significativa. Borel e Kolmogorov nelle loro formulazioni della
teoria della probabilità hanno ristretto la classe dei possibili sottoinsiemi dell’asse reale che derivano da un insieme
numerabile di operazioni di unione ed intersezione di intervalli aperti o chiusi dell’asse stesso, sottoinsiemi
usualmente definiti come insiemi di Borel o Borelliani. Il primo esempio di insieme non misurabile è attribuito al
matematico italiano Vitali (1905). Un esempio di insieme non misurabile è quello costituito dagli intervalli semiaperti
(a,b]=x : a < x b ed anche [a,b)=x : a x < b.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
20
Il sottoinsieme
E = ( : i per i pari e dispari) =
è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da
un numero dispari o da un numero pari e non esiste pallina contrassegnata da un numero
che è dispari e pari allo stesso tempo. L'evento così definito viene detto evento
impossibile (si tratta dell'evento che non si potrà mai realizzare) e denotato con il
simbolo .
Gli eventi i iE , per i = 1, 2,…, n, vengono detti eventi elementari in quanto
costituiti da un solo punto campionario.
Si consideri ora l’insieme B di tutti i possibili sottoinsiemi misurabili di , cioè
l’insieme degli eventi, su questo insieme si può introdurre un'algebra, cioè un insieme di
operazioni che soddisfano certe proprietà e che generano, come risultato delle
operazioni stesse, ancora degli eventi, cioè elementi che appartengono allo stesso
insieme B sui quali è stata introdotta l’algebra; si parla, in tal caso, di sistema chiuso
rispetto alle operazioni introdotte. Se il sistema è chiuso rispetto ad un numero finito di
operazioni, si parla di algebra di Boole o, più semplicemente, di algebra o campo, se il
sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di
Boole completa o, più semplicemente, di -algebra o -campo.
Definizione 4 - Si definisce come spazio degli eventi, ed anche Algebra di Boole
completa costruita su (-algebra), l’insieme B di tutti i possibili
sottoinsiemi misurabili di sul quale è stata introdotta un’algebra.
Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto
esposto in queste note, riguardo agli eventi, non rappresenta alcunché di nuovo o di
diverso rispetto al già conosciuto; in effetti gli eventi possono essere interpretati come
insiemi, o meglio, come sottoinsiemi di un insieme dato rappresentato dallo spazio
campionario . Si ha così che l'evento certo (coincidente con l'intero spazio
campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile
rappresenta l'insieme vuoto.
1.2 - Algebra degli eventi
Le operazioni proprie della teoria degli insiemi sono quella di prodotto o intersezione
(), quella di somma o unione (), quella di complementazione o negazione E e
quella di differenza (-); si tratta delle stesse operazioni che, oltre al concetto di
inclusione, verranno qui considerate in quanto costituenti parte essenziale dell'algebra
degli eventi.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
21
Si dice che un evento E1 è incluso nell'evento E
2, e si scrive E
1 E
2 se ogni punto
campionario appartenente ad E1 appartiene anche ad E
2. Due eventi E
1 ed E
2 sono,
quindi, uguali se e solo se (sse) contemporaneamente
E1 E
2 ed E
1 E
2.
Ovviamente, in questo caso i due eventi saranno costituiti dagli stessi punti
campionari.
Si definisce come negazione (complementazione nella teoria degli insiemi) di un
evento E, e si scrive E , l'evento che si realizza quando non si realizza E. L'evento E
sarà pertanto, costituito da tutti i punti campionari di che non appartengono ad E.
Nella figura sottostante vengono proposti graficamente (facendo ricorso ai
diagrammi di Venn) il concetto di evento incluso e di evento negato.
Fig. 1.1 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta
l’intero spazio campionario e E1 E
2 .
L'intersezione tra due eventi E1 ed E
2 è l'evento E
3= E
1 E
2 che si realizza quando si
realizzano entrambi gli eventi E1 ed E2 e che resta definito dai punti campionari che
appartengono sia ad E1
sia ad E2. L'unione tra due eventi E
1 ed E
2 è l'evento E
4= E
1 E
2
che resta definito da tutti i punti campionari che appartengono ad E1 o ad E
2 o ad
entrambi gli eventi E1 ed E
2 , si tratta , cioè, dell’evento che si realizza quando si
realizza almeno uno di due eventi E1 o E
2 La differenza fra due eventi E1 ed E2 è
l'evento E5 = E2 – E1 che risulta costituito dai punti campionari che appartengono ad
E2 ma non a E1, si tratta, cioè, dell’evento che si realizza E2 ma non E1.
La rappresentazione grafica tramite i diagrammi di Venn delle tre operazioni
(intersezione, unione e differenza) è riportata nella Fig. 1.2.
E1
E2
E2
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
22
Fig. 1.2 - Diagrammi di Venn per l’intersezione, l’unione e la differenza dove il tratteggio
vuole evidenziare rispettivamente, l’evento E3 , nella prima figura, l’evento E4 nella seconda
figura e l’evento E5 nella terza figura.
Si noti che una volta introdotte le operazioni di negazione ed intersezione (operazioni
base dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori
operazioni di unione e di differenza non essendo queste ultime operazioni
concettualmente nuove; infatti:
1 2 1 2E E E E
2 1 1 2E E E E
La relazione 1 2 1 2E E E E e la relazione duale 1 2 1 2E E E E non sono
altro che la formulazione tramite la simbologia relativa alla teoria degli insiemi delle
leggi di de Morgan.
L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione,
sia formale sia operativa, che esse comportano.
Due eventi E1 e E
2 si dicono incompatibili se la loro intersezione dà luogo all'evento
impossibile
E1 E
2 =
si tratta, quindi, di eventi che non hanno elementi (punti campionari) comuni.
A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo sta ad
indicare che l’evento E1
è contenuto nell’evento E2 (E
1 sottoinsieme proprio di E
2) e il
simbolo rappresenta la relazione di implicazione (dalla prima relazione deriva
necessariamente - è implicata - la seconda relazione):
E1 E
2 => E
1 E
2 = E
1
E1 E
2 => E
1 E
2 = E
2
=
E
E =
E3= E1 E2
E1 E2
E4= E1 E2
E1 E2 E1 E2
E5= E2 – E1
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
23
E = E
E = E
E =
E E =
E E =
E1 (E
1 E
2)
E2 (E
1 E
2)
(E1
E2) E
1
(E1 E
2) E
2
Un ulteriore e rilevante concetto è quello di condizionamento degli eventi. L'evento
E1/E
2 (e si legge l'evento E
1 condizionato dall'evento E
2 o, più semplicemente, l'evento
E1 dato E
2 ) va interpretato presupponendo già verificato l'evento condizionante E
2. Il
condizionamento degli eventi si risolve, praticamente, in una sorta di ridefinizione dello
spazio campionario che da si trasforma nell'evento condizionante, o, in altre parole,
è l'evento condizionante che assume la natura di spazio campionario di riferimento.
Fig. 1.3 - Ridefinizione dello spazio per eventi condizionati
Se si considera l'evento condizionato E1/E
2 non solo E
2 si trasforma in ma anche
l'evento E1 si trasforma nell'evento E
1 E
2, in quanto, sapendo che l'evento E
2 si è
verificato perdono di rilevanza tutti i punti campionari che pur appartenendo ad E1 non
appartengono ad E2.
Le operazioni di unione e di intersezione possono, naturalmente, essere applicate
anche a k (>2) eventi. L'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato
l'evento E
E = 1 2 ...k
k i
i=1
E E E E
che contiene tutti i punti campionari i (comuni ai k eventi E1,E2,….,Ek; mentre
l'unione tra gli stessi k eventi, se necessari, dà come risultato l'evento E=
E1 E2
E1/ E2
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
24
E = = E1 E
2 ... E
k =
k
i 1
Ei
che contiene tutti i punti campionari i che appartengono ad almeno uno degli eventi
Ei. Un caso particolare di eventi necessari E1,E2,….,Ek è rappresentato da una partizione
dello spazio campionario, cioè, quando i k eventi sono necessari (un evento si deve
necessariamente verificare) e incompatibili, cioè, quando = k
i 1
Ei e E
i E
j= per
i≠j.
Le operazioni di unione e di intersezione soddisfano la proprietà associativa:
E1 E
2 E
3 = (E
1 E
2) E
3 = E
1 (E
2 E
3)
E1 E
2 E
3 = (E
1 E
2) E
3 = E
1 (E
2 E
3)
e quella distributiva:
E1 (E
2 E
3) = (E
1 E
2) (E
1 E
3)
E1 (E
2 E
3) = (E
1 E
2) (E
1 E
3)
La proprietà distributiva, dell’intersezione rispetto all’unione e dell’unione rispetto
all’intersezione, per k eventi è espressa, rispettivamente, da
E (E1
E2 ... E
k ) = E (
1
k
i
Ei ) =
1
k
i
(E Ei )
E (E1 E
2 ... E
k ) = E (
1
k
i
Ei ) =
1
k
i
(E Ei )
1.3 - Probabilità
Definizione 5: Si dice probabilità di un evento la funzione a valori reali P(E), definita
sulla classe dei sottoinsiemi ammissibili (eventi) dello spazio
campionario, che soddisfa specifiche proprietà.
I concetti (primitivi) prova o esperimento casuale, evento e probabilità sono collegati
fra loro dalla seguente frase: "l'esperimento genera l'evento con una certa
probabilità"; dove, naturalmente, la probabilità va intesa come misura applicata agli
eventi quando viene condotto un esperimento casuale.
I tre concetti primitivi sono posti a base della definizione assiomatica di probabilità.
Si tratta di una definizione che non ha sollevato obiezioni sostanziali da parte degli
studiosi dopo la sua formulazione da parte di Kolmogorov (1933)2. Si tratta infatti di
una definizione che si preoccupa di precisare e chiarire soltanto i contenuti sintattici sui
quali è più facile trovare l'accordo. Ma se da un lato il cosiddetto approccio assiomatico
2 Andrej Nikolaevič Kolmogorov - in russo: Андре́й Никола́евич Колмого́ро - (1933) Grundbegriffe der
Wahrscheinlichkeitsrechnung. Julius Springer, Berlin. Il testo è stato tradotto in inglese con il titolo Foundations of
the Theory of Probability (1956),
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
25
alla probabilità presenta indubbi vantaggi, sia in termini di accettabilità che di sviluppo
della teoria, dall'altro lato il considerare i soli aspetti formali esclude ogni operatività
della definizione stessa in quanto non consente la derivazione numerica della misura di
probabilità nei singoli casi concreti. Quando si vuol far ricorso alla probabilità per
risolvere problemi reali si dovrà, quindi, fare necessariamente riferimento ad altre
definizioni nelle quali l'aspetto semantico viene privilegiato.
Prima di trattare della definizione assiomatica di probabilità conviene, pertanto,
introdurre altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in
questa sede se ne presentano soltanto tre: la definizione classica, quella frequentista o
statistica e la definizione soggettiva. Si tratta delle tre definizioni non assiomatiche
della probabilità più note ed alle quali si fa più spesso riferimento in pratica; tutte e tre
le definizioni soddisfano ai postulati posti a base della definizione assiomatica di
probabilità.
Definizione classica (a priori) della probabilità
La probabilità P(E) di un evento E è data dal rapporto tra il numero En dei casi
favorevoli al verificarsi dell'evento e il numero n dei casi possibili, purché tutti i casi
siano egualmente possibili
possibilicasideinumero
favorevolicasideinumero
n
nEP E
)(
Esempio 1.1
L’azienda Lance Clothiers produce un’ampia varietà di abbigliamento maschile, tra cui
camicie. Una volta prodotte, le camicie vengono ripiegate e impacchettate singolarmente da 10
macchine e, una volta raccolto il risultato di ciascuna macchina in cartoni, vengono spedite ai
clienti. A seguito di un’ispezione di routine si scopre che una di queste 10 macchine non è
messa a punto adeguatamente e, conseguentemente, crea degli strappi in ogni camicia
sottoposta al processo di ripiegatura e impacchettamento. Prima dell’ ispezione, è stata inviata,
a 100 clienti diversi, una spedizione di 100 pacchi di camicie tra cui 10 provenienti dal
macchinario difettoso. Qual è la probabilità che un cliente riceva il pacco contenente le
camicie difettose?
Poiché ciascun cliente riceverà uno dei 100 pacchi di camicie spediti, lo spazio campionario
dell’esperimento è costituito da 100 elementi (n=100); inoltre, poiché 10 di questi pacchi
contengono le camicie difettose (nE), allora, per la definizione classica di probabilità:
10,0100
10)(
n
nEP E ,
dove con E si indica l’evento “pacco contenente camicie difettose”.
Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La
prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che
tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
26
si può definire un concetto utilizzando lo stesso concetto). Altre due critiche riguardano
l’operatività della definizione; una volta superato lo scoglio logico, non sono affatto rare
le situazioni reali nelle quali non è possibile procedere all’enumerazione dei casi
favorevoli e dei casi possibili, inoltre, anche nelle situazioni in cui si può effettuare una
tale enumerazione, non è infrequente la circostanza in cui i casi non sono tutti
ugualmente possibili.
Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far
ricorso alla definizione classica di probabilità quando le situazioni non lo consentono, è
stata introdotta una diversa definizione di probabilità.
Definizione frequentista o statistica (a posteriori) della probabilità
La probabilità di un evento ripetibile E è data dal rapporto tra il numero En delle volte
in cui l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse
condizioni) quando il numero delle prove stesse tende ad infinito
P(E) = n
nE
n lim
La probabilità secondo questa definizione può essere, pertanto, intesa come una sorta
di idealizzazione della frequenza relativa3. Taluni autori ritengono, infatti, che
probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di
uno stesso concetto ed interpretano la frequenza relativa di un evento come misura
approssimata (per n finito) della probabilità.
Anche alla definizione frequentista sono state rivolte critiche di varia natura quale
quella relativa al limite irraggiungibile (+) imposto al numero delle prove, ma ad una
tale critica si risponde accettando la frequenza relativa di un numero finito (ma
sufficientemente elevato) di prove come misura approssimata della probabilità. Molto
più problematica è la risposta alla critica relativa alla ripetibilità delle prove
(esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle
situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere
all’effettuazione di alcuna prova.
Esempio 1.2
La Metric Systems produce circuiti elettronici integrati. Occasionalmente, il processo produce
un circuito difettoso e, saltuariamente, il responsabile per il controllo della qualità seleziona
casualmente 500 circuiti dalla linea di produzione e li ispeziona attentamente. Nell’ultima
ispezione sono stati riscontrati 15 circuiti difettosi (su un totale di 500 ispezionati). Qual è la
probabilità che il processo produca un circuito difettoso?
3 Nel contesto della statistica descrittiva, si definisce frequenza relativa il rapporto tra il numero delle unità statistiche
caratterizzate da una specifica modalità del carattere in esame ed il numero totale delle unità statistiche osservate.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
27
La selezione casuale di un circuito dalla linea di produzione corrisponde ad una singola prova
di un esperimento, quindi 500 selezioni rappresentano 500 prove, cioè n = 500. Si indichi con E
l’evento “produzione di un circuito difettoso”. Poiché E si è manifestato 15 volte, la probabilità
che il processo produca un circuito difettoso, sulla base della definizione frequentista, è
approssimata dalla frequenza relativa di E nelle 500 prove:
15( ) 0,03.
500
EnP E
n
Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla
definizione classica e alla definizione frequentista di probabilità è la definizione sotto
riportata.
Definizione soggettiva della probabilità
La probabilità P(E) di un evento E viene definita come il grado di fiducia che un
individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di
probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di
scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento
in questione si realizzi. Si deve sottolineare che questa affermazione vale solo nel caso
di individui con funzione di utilità lineare4.
Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La prima
riguarda proprio la soggettività insita nella stessa definizione, la seconda è relativa alla
difficoltà di traduzione in un valore numerico significativo del grado di fiducia.
Alla prima critica si risponde osservando che qualunque probabilità deve essere
intesa in senso condizionato, cioè condizionatamente allo stato di informazione
dell’individuo (razionale); pertanto, anche se apparentemente due individui diversi
attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui
si riferiscono a due diversi eventi essendo diverso lo stato di informazione su cui basano
l’esplicitazione del proprio grado di fiducia.
Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla
misura di probabilità si perviene attraverso l’attivazione di un processo relativamente
semplice, almeno sul piano concettuale, che è quello di porre l’individuo di fronte ad
una operazione di scommessa: quanto è disposto a scommettere per ricevere 1 in caso di
vittoria.
Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una valutazione
numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle
probabilità bastando a tal fine la definizione assiomatica, ed a questa definizione si farà
riferimento negli sviluppi teorici che seguono. Alle tre definizioni non assiomatiche si
farà, di volta in volta, riferimento nelle esemplificazioni delle argomentazioni teoriche.
4 Sul concetto di funzione di utilità si avrà modo di soffermare l’attenzione nel Cap. 7.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
28
Definizione assiomatica di probabilità
Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo riguarda il
concetto primitivo di evento, gli altri cinque il concetto primitivo di probabilità.
Assioma 1 - Gli eventi formano un’algebra di Boole completa
Assioma 2 - La misura di probabilità di un evento P(E) è unica
Assioma 3 - La misura della probabilità di un evento è sempre non negativa
P(E) 0
Assioma 4 - La probabilità dell’evento certo è uguale a 1
P() = 1
Assioma 5 - Se due eventi E1 ed E2 sono incompatibili, cioè se la loro
intersezione è l’evento impossibile, allora la probabilità della loro unione è uguale
alla somma delle probabilità dei singoli eventi (principio delle probabilità totali
per eventi incompatibili o principio ristretto delle probabilità totali)
P(E1 E2) = P(E1) + P(E2) per E1 E2 =
Assioma 6 - La probabilità dell’evento condizionato E1/E2 è pari alla probabilità
dell’intersezione dei due eventi rapportata alla probabilità dell’evento
condizionante supposta maggiore di 0
P(E1/E2) = )P(E
)EP(E
2
21 per P(E2) > 0
L’ultima relazione può essere riscritta (principio delle probabilità composte) come:
P(E1 E2) = P(E2) P(E1/E2) = PE2E1) = P(E1) P(E2/E1)
In realtà, sapendo che si è realizzato un certo evento E1, non è detto che questo
modifichi necessariamente la probabilità di realizzarsi di un altro evento E2, può
accadere cioè che
P(E1 / E2) = P(E1)
in tal caso si ha (principio delle probabilità composte per eventi indipendenti o
principio ristretto delle probabilità composte)
P(E1 E2) = P(E1) P(E2)
ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti
stocasticamente, o indipendenti in probabilità).
Il principio delle probabilità composte può riguardare anche un numero qualsiasi di
eventi E1, E
2, E
3,..., si avrà allora
P(E1 E
2 E
3 ...) = P(E
1) P(E
2/E
1) P(E
3/E
1 E
2) ...
k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o
probabilisticamente) mutualmente indipendenti se e solo se per ogni sottoinsieme di
eventi la probabilità dell’intersezione è uguale al prodotto delle probabilità
P(Ei Ej) = P(Ei) P(Ej)
P(Ei Ej Eh) = P(Ei) P(Ej) P(Eh)
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
29
………………………………………..
P(E1 E2 Ek) = P(E1) P(E2)…….. P(Ek)
Pertanto tre eventi E1, E2 ed E3 sono statisticamente indipendenti se valgono le relazioni
P(E1 E2) = P(E1) P(E2)
P(E1 E3) = P(E1) P(E3)
P(E2 E3) = P(E2) P(E3)
P(E1 E2 E3) = P(E1) P(E2) P(E3)
Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie) non
implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le
prime tre.
Esempio 1.3
L’esperimento casuale consiste nel lancio di due dadi regolari contrassegnati, ciascuno, da un
numero da 1 a 6 su ogni faccia.
Si definiscono quindi i 3 eventi di interesse:
E1= il risultato del lancio del I dado è pari
E2= il risultato del lancio del II dado è dispari
E3= la somma dei risultati del lancio dei due dadi è pari.
Di seguito si riportano le probabilità ottenute:
Gli eventi E1 ed E2 sono indipendenti, infatti
P(E1 E2) = 9/36 =1/4
P(E1) . P(E2) =1/2
. 1/2 =1/4
Gli eventi E1 ed E3 sono indipendenti, infatti
P(E1 E3) = 9/36=1/4
P(E1) . P (E3)= 1/2
. 1/2 =1/4
Gli eventi E2 ed E3 sono indipendenti, infatti
P(E2 E3) = 9/36=1/4
P(E2) . P (E3)= 1/2
. 1/2 =1/4
I tre eventi E1 , E2 ed E3 non sono però indipendenti; infatti, se si realizzano l’evento E1 , E2,
l’evento E3 non si può realizzare (è impossibile)
P(E1 E2 E3)= P( ) = 0.
Si definiscono ora i 3 eventi di interesse:
E1= il risultato del lancio del I dado è 1 o 2 o 3
E2= il risultato del lancio del I dado è 3 o 4 o 5
E3= la somma dei risultati del lancio dei due dadi è 9.
Da cui
1 2
1 3
2 3
1 2 3
3,1 , 3,2 , 3,3 , 3,4 , 3,5 , 3,6
3,6
3,6 , 4,5 , 5,4
3,6
E E
E E
E E
E E E
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
30
Le probabilità sono
1 2 3
1 2 1 2
1 3 1 3
2 3 2 3
1 2 3 1 2 3
1 1 ,
2 9
1 1
6 4
1 1
36 18
1 1
12 18
1.
36
P E P E P E
P E E P E P E
P E E P E P E
P E E P E P E
P E E E P E P E P E
Pertanto l’indipendenza tripla tra eventi non implica l’indipendenza tra coppie di eventi.
Avendo definito la probabilità come funzione da applicare agli eventi dove, come
precisato, l'evento è un qualunque sottoinsieme dello spazio campionario , cioè un
elemento dell’insieme B (Algebra di Boole completa costruita su ), risulta facile
dimostrare le relazioni (teoremi) seguenti:
P(E) 1
P( ) = 0
E1 E2 => P(E1) < P(E2)
P(E1 E2) = P(E1) + P(E2) - P(E1 E2)
L'ultima relazione, detta anche (impropriamente perché non è una affermazione ma
deriva da un teorema) principio delle probabilità totali, per k eventi diventa
1
1 1
k kk
i i i j i j i j h i j h i
i i
P E Σ P E Σ Σ P E E Σ Σ Σ P E E E -1 P E
e si riduce al postulato delle probabilità totali (Assioma 5)
k
i
iEP1
=
k
i
i )P(E1
quando i k eventi Ei sono tra loro incompatibili.
La probabilità per eventi condizionati o, più semplicemente, la probabilità
condizionata P(E1/E
2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati
formano un’algebra di Boole, inoltre
P(E1/E) 0
P(E/E) = 1
P(E1 E
2 .../E) = P(E
1/E) + P(E
2/E) +....
se gli eventi E1, E
2,... sono incompatibili.
Inoltre
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
31
E1 E
2 => P(E
1/E) P(E
2/E)
P( 1E /E) = 1 - P(E1/E)
P(E1 E
2/E) = P(E
1/E) + P(E
2/E) - P(E
1 E
2/E)
Il principio delle probabilità composte può riguardare anche un numero qualsiasi
di eventi E1, E
2, E
3,..., si avrà
P(E1 E
2 E
3 ...) = P(E
1) P(E
2/E
1) P(E
3/E
1 E
2) ...
Esempio 1.4
La società IMA produce componenti meccaniche per un cliente. Siccome i limiti di tolleranza
specificati dal cliente sono piuttosto severi, la produzione di queste componenti è stata affidata
a due macchinisti esperti, A e B. Al termine di ogni giornata tutte le parti prodotte sono
ispezionate e classificate come “buone” (G - good) o “difettose” (D).
La seguente tabella riporta i dati relativi alla produzione di un giorno di lavoro:
Macchinista
Condizioni A B Totale
G 80 88 168
D 20 12 32
Totale 100 100 200
Quindi le parti sono state classificate in base alla condizione (buona / difettosa) e in base al
macchinista preposto al processo produttivo.
Si determinano le seguenti probabilità: P(A), dove A è l’evento “parte prodotta dal macchinista
A”; P(B), dove B è l’evento “parte prodotta dal macchinista B”; P(G), dove G è l’evento
“parte prodotta secondo le specifiche di tolleranza del cliente”; P(D), dove D è l’evento “parte
difettosa”.
( ) 100 / 200 0,50
100 200 0 50
168 200 0 84
32 200 0 16
P A
P(B) / ,
P(G) / ,
P(D) / ,
Le probabilità congiunte dei vari eventi sono:
( ) 80 / 200 0,40
( ) 20 / 200 0,10
( ) 88 / 200 0,44
( ) 12 / 200 0,06
P A G
P A D
P B G
P B D
Le probabilità condizionate dei vari eventi sono:
0,40
0,80( ) 0,50
P A GP G A
P A
0,10
0,625( ) 0,16
P A DP A D
P D
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
32
0,10
0,20( ) 0,50
P A DP D A
P A
0,44
0,524( ) 0,84
P B GP B G
P G
0,44
0,88( ) 0,50
P B GP G B
P B
0,00
0,00( ) 0,16
P D GP G D
P D
Infine, si vuol capire se la condizione (buona / difettosa) di una parte prodotta è indipendente
dal macchinista che la produce.
Se esiste indipendenza tra queste categorie, allora gli eventi “la parte è buona” e “la parte è
stata prodotta da A” sono statisticamente indipendenti. E’, dunque, necessario valutare la
relazione che sussiste tra ( )P G A e )()( APGP .
Dai precedenti calcoli risulta
( ) 80 / 200 0,40P G A
42,050,084,0)()(
50,0200/100)(
84,0200/168)(
APGP
AP
GP
Siccome ( ) ( ) ( )P G A P G P A A e G non sono statisticamente indipendenti, quindi il
macchinista preposto al processo di produzione influenza la condizione buona o difettosa della
parte prodotta.
Alla stessa conclusione si perviene considerando le relazioni tra )( GAP e )(AP , dal momento
che
48016880 ,/)GP(A e
)()(
50,0200/100)(
APGAP
AP
Dai dati riportati in tabella e dai precedenti calcoli possono essere verificate anche le seguenti
ulteriori relazioni:
che confermano la dipendenza statistica tra operatore preposto al processo produttivo e
risultato dello stesso.
Esempio 1.5
L’azienda Sigma fornisce materiali per la costruzione di case e attualmente ha un contratto con
uno dei suoi clienti per evadere un ordine entro il 31 luglio. Al 1° luglio sussiste una certa
incertezza in merito al fatto che l’azienda riesca a rispettare il termine imposto dal contratto,
)()(
)()(
)()(
BPBDP
BPGBP
APDAP
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
33
poiché non sa se riceverà le materie prime necessarie dal suo fornitore entro la metà di luglio,
come può essere stimata l’incertezza in questa situazione?
Sia A l’evento che la Sigma riesca a rispettare la scadenza contrattuale del 31 luglio e B
l’evento che riceva le materie prime entro il 15 luglio dal fornitore. All’inizio di luglio l’azienda
stima che la probabilità di ottenere le materie prime in tempo è pari a P(B) = 2/3; inoltre, se le
materie prime sono consegnate per tempo, allora la probabilità di terminare i lavori per la fine
del mese è stimata in P(A/B) = ¾. Quindi, applicando il principio delle probabilità composte, si
ottiene
( ) ( ) ( ) 3 / 4 2 / 3 0,50P A B P A B P B
Esiste, quindi, una probabilità del 50% che l’azienda Sigma ottenga le materie prime in tempo e
riesca a consegnare il materiale al cliente per la fine di luglio.
Può essere interessante procedere al calcolo di ulteriori probabilità. Se si indica con B
l’evento che le materie prime non arrivino in tempo si ha P( B ) = 1-2/3 =1/3. Se si ritiene che
la probabilità di terminare i lavori entro il 31 luglio, dato che i fornitori non hanno consegnato
entro il 15 le materie prime necessarie, sia P(A/ B ) = 1/5, applicando di nuovo il principio
delle probabilità composte, si ottiene
( ) ( ) ( ) 1/ 5 1/ 3 0,0667P A B P A B P B
cioè la probabilità che il materiale non arrivi in tempo, ma i lavori siano ugualmente ultimati
per la scadenza contrattuale è pari al 6,67%.
A questo punto, al management dell’azienda può essere utile conoscere la probabilità di
terminare i lavori entro il 31 luglio, indipendentemente dal fatto che le materie prime siano
consegnate entro la metà del mese. Poiché B e B sono due eventi incompatibili (o si verifica
l’uno o si verifica l’altro), allora per il principio delle probabilità totali per eventi
incompatibili, si ha
0 50 0 0667 0 5667P(A) P(A B) P(A B) , , ,
Quindi, la probabilità che la società Sigma riesca a rispettare i termini di esecuzione del
contratto è pari al 56,67%.
1.4 - Formula di Bayes
La formula di Bayes rappresenta un elemento teorico fondamentale nello sviluppo
dell’Inferenza statistica e della Teoria statistica delle decisioni. Esso consente, infatti,
al soggetto decisore di revisionare le informazioni a priori (aggiornamento della
conoscenza) che lo stesso possiede sul fenomeno oggetto di studio attraverso
l’acquisizione di ulteriori informazioni, in modo da ottenere informazioni (a posteriori)
più affidabili e, quindi, più utili a fini decisionali.
Si consideri una partizione dello spazio campionario in k eventi E1, E2, ... , E
i, ... ,
Ek; i k eventi sono necessari ed incompatibili, tali cioè da rispettare le condizioni
Ei Ej = per i j = 1, 2, ...,k
e
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
34
k
i
iE1
= .
Se E è un evento appartenente ad si ha
E = E = E (k
i
iE1
) = k
1i
(E Ei)
e, per l'incompatibilità degli eventi Ei, anche
P(E) = P [i 1
k
(E Ei)] = i
k
1
P(E Ei).
Inoltre, valendo le relazioni
P(E Ej ) = P(Ej )P(E/ Ej ) = P(Ej E) = P(E) P(Ej /E)
si avrà
P(Ej /E) =
1
( ) ( / )
( ) ( / )
j j j j
k
i i
i
P(E ) P(E / E ) P E P E E
P(E)P E P E E
che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi
Ei possono essere interpretati come possibili “cause” dell'evento E. In tale contesto,
P(Ej /E) viene detta probabilità a posteriori della causa Ej; mentre, P(Ej ) rappresenta la
probabilità a priori della stessa causa e P(E/Ej ) è detta probabilità probativa
(verosimiglianza, nell’ambito dell’inferenza statistica, come si avrà modo di precisare
in seguito) dell'evento E.
Fig. 1.4 - Partizione dello spazio campionario in cinque eventi E1, E2, E3, E4 ed E5
La formula di Bayes esprime in maniera molto semplice il processo di
apprendimento dall'esperienza in contesti non deterministici.
Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini
di probabilità (a priori) P(Ej), queste probabilità si trasformano, al verificarsi dell'evento
E (acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(Ej /E). Le
probabilità condizionate si usano, quindi, per riassegnare le probabilità agli eventi una
volta che sono state acquisite ulteriori informazioni ti natura campionaria.
E
E1
E3 E4
E5 E2
E
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
35
Esempio 1.6
Da un controllo di qualità effettuato sul processo produttivo dell’azienda Alfa risulta che il
40% delle parti difettose prodotte è dovuto a errori meccanici, mentre il restante 60% è dovuto
ad errori umani. Si sa, inoltre, che i difetti causati da errori meccanici possono essere rilevati,
in occasione di un’ispezione di qualità, con un tasso di accuratezza del 90%, tasso che scende
al 50% per i difetti risultanti da errori umani. Si supponga che a seguito di un’ispezione di
qualità sia stato trovato un pezzo difettoso. Qual è la probabilità che tale difetto sia stato
causato da un errore meccanico?
Se si assume che:
P(Em) = 0,40 è la probabilità (a priori) che una parte difettosa sia causata da un errore
meccanico;
P(Eu) = 0,60 è la probabilità (a priori) che una parte difettosa sia causata da errore
umano;
P(D/Em) = 0,90 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di
una parte difettosa causata da errore meccanico;
P(D/Eu) = 0,50 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di
una parte difettosa causata da errore umano;
P(Em/D) = ? la probabilità che la parte difettosa rilevata al controllo sia stata provocata
da errore meccanico.
Applicando la formula di Bayes si ha:
//
/ /
0,40 0,900,55
0,40 0,90 0,60 0,50
m m m
m
m m u u
P E D P E P D EP E D
P D P E P D E P E P D E
Quindi, la probabilità che il pezzo difettoso sia stato causato da errore meccanico è pari al
55%. Di conseguenza, la probabilità che un pezzo difettoso sia stato causato da errore umano è
pari al 45% (=1- 0,55).
La seguente tabella mostra le fasi dell’applicazione della formula di Bayes:
Causa
Ei
Prob. a priori
P(Ei)
Prob. Condiz.
P(D/Ei)
Prob. congiunte
P(Ei) (D/Ei)
Prob. a posteriori
P(Ei/D)
Meccanica m 0,40 0,90 0,36 0,55
Umana u 0,60 0,50 0,30 0,45
Totale 1,00 0,66 1,00
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
36
Esempio 1.7
Attualmente un’azienda che produce parti elettroniche dispone di 4 macchinari: A1, A2, A3, A4,
ognuno con una capacità produttiva di 10.000 pezzi a settimana. In linea generale, si può
ritenere che quanto più un macchinario è nuovo tanto più basso è il numero di parti difettose
che lo stesso produce. Un controllo effettuato dall’azienda rivela i seguenti tassi di parti
difettose prodotte da ciascuna macchina: 0% per A1 poiché è nuova; 1% per A2 che è stata
acquistata un anno fa; 5% per A3 che è stata acquistata due anni fa; 10% per A4 che è
operativa già da tre anni. Al termine del quarto anno di attività ogni macchinario viene
rimpiazzato con uno nuovo. Per effettuare un controllo aggiuntivo, il responsabile della
produzione seleziona casualmente un pezzo già pronto per la spedizione al cliente. Tale pezzo
risulta difettoso: qual è la probabilità che il pezzo estratto casualmente sia stato prodotto dalla
macchina A2, dato che risulta essere difettoso?
Si ponga:
P(D) = probabilità che sia osservata una parte difettosa
P(Ai) = probabilità che una parte sia prodotta dal macchinario i-esimo
P(D/Ai) = probabilità condizionata che sia selezionata casualmente una parte difettosa,
dato che è stata prodotta dal macchinario i-esimo.
In base ai dati del problema risulta:
P(D/A1) = 0,00
P(D/A2) = 0,01
P(D/A3) = 0,05
P(D/A4) = 0,10
Inoltre, poiché ciascuna macchina produce lo stesso numero di parti elettroniche, la probabilità
a priori che il campione estratto provenga da una delle 4 macchine è sempre uguale al 25%,
cioè:
P(A1) = P(A2) = P(A3) = P(A4) = 0,25
quindi,
1 1 2 2 3 3 4 4( ) ( ) ( ) ( )
0,25 0,00 0,25 0,01 0,25 0,05 0,25 0,10 0,040
P D P A P D A P A P D A P A P D A P A P D A
A questo punto si può applicare la formula di Bayes per determinare la probabilità a posteriori
che il campione estratto provenga dal macchinario A2, essendo noto che è difettoso:
2 2
2
0,25 0,010,0625 6,25%
0,04
P A P D AP A D
P D
La seguente tabella mostra il dettaglio dei passaggi svolti:
Causa
Ai
Prob. a priori
P(Ai)
Prob. condizionate
P(D/Ai)
Prob. congiunte
P(Ai) P(D/Ai)
Prob. a posteriori
P(Ai/D)
A1 0,25 0,00 0,0000 0,0000
A2 0,25 0,01 0,0025 0,0625
A3 0,25 0,05 0,0125 0,3125
A4 0,25 0,10 0,0250 0,6250
Totali 1,00 0,0400* 1,0000
* Probabilità marginale: P(D) = 0,04 = probabilità che sia osservata una parte difettosa
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
37
E’ interessante confrontare l’elenco delle probabilità a priori con quello delle probabilità a
posteriori, per valutare l’effetto provocato dall’impiego dell’informazione aggiuntiva (dato
campionario) sul risultato del problema. Le differenze registrate sono decisamente rilevanti:
dopo che la probabilità a priori è stata modificata dall’informazione campionaria, la
probabilità che una parte difettosa venga prodotta dalla macchina A4 cresce notevolmente dal
25% al 62,5%, mentre la probabilità che una parte difettosa provenga dalla macchina A1
scende dal 25% allo 0%. Fatto questo del tutto ragionevole se si tiene conto della circostanza
che il numero di difetti dipende dall’età del macchinario.
Dopo la sommaria indicazione delle operazioni proprie del calcolo delle probabilità e
dopo aver precisato che la tripletta (, B, P(.)) [dove: è lo spazio campionario (cioè
l’insieme di tutti i punti campionari ,..., 21 possibili risultati di un esperimento
casuale), B è l’algebra di Boole completa costruita su e P(.) è una funzione definita su
B che gode di particolari proprietà], viene detta spazio di probabilità o spazio
probabilistico, si può procedere all'introduzione di due ulteriori concetti che possono
essere ritenuti fondamentali nello sviluppo sia del calcolo delle probabilità sia della
statistica. Il primo concetto è quello di "variabile casuale" o "variabile aleatoria" o
"variabile stocastica" o "numero aleatorio", il secondo è quello di "funzione di
distribuzione" o "funzione di ripartizione" o "funzione delle probabilità cumulate".
1.5 - Variabili casuali semplici
Definizione 6 - Si dice variabile casuale, una funzione X (.) a valori reali definita sullo
spazio campionario ; cioè ogni funzione che, soddisfacendo ad
opportune condizioni (tali da preservare la struttura di B), associa ad
ogni punto dello spazio campionario un numero reale.
In termini più rigorosi, la funzione univoca X( ) definita su è una variabile
casuale (o variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la
relazione
A = :ω Ω X(ω) x B
cioè se l’insieme A, costituito da tutti gli eventi elementari per i quali il valore
assunto dalla funzione X( ) è minore od uguale ad un numero reale qualsiasi x, è un
elemento di B, cioè un evento appartenente all’algebra.
Le variabili casuali si distinguono in:
discrete, se il codominio della funzione è costituito da un numero finito o
da un'infinità numerabile di numeri reali;
continue, se il codominio della funzione è costituito da un insieme
continuo (e quindi non numerabile) di numeri reali.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
38
Definizione 7 - Si dice funzione di distribuzione della variabile casuale X, la funzione
F(x) definita dalla relazione
F(x) = P (X x)
dove: x rappresenta un numero reale qualunque; P (X x) misura la
probabilità con cui la variabile casuale X può assumere un valore
inferiore od uguale al numero reale x.
Da sottolineare che la funzione di distribuzione non rappresenta altro che la
probabilità dell’evento A definito in precedenza; infatti:
P(A) = )()()(: xXPxXPxXP .
Se con x1, x
2,...,x
k, si indicano le possibili determinazioni distinte, ordinate in modo
crescente, di una certa variabile casuale discreta X e con p1, p
2,...,p
k, le probabilità
rispettive, si avrà
F(xi) = P(X xi) = 1
i
j
P(X = xj) = 1
i
j
pj
dove j jp P X x .
La funzione f(xi ) che deriva dalla relazione f(xi ) = F(xi ) - F(xi-1 ) viene detta
funzione di massa di probabilità e, ovviamente, fornisce la probabilità che l’entità
variabile X ha di assumere la specifica determinazione xi ; infatti
f (xi ) = F(xi ) - F(xi-1 ) = P (X xi
) - P (X xi-1
) = P(X = xi
) per i = 1, 2, ... , k .
Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione assolutamente
continua (si supporrà, da ora in poi e per tutte le F(x) che tale condizione sia
soddisfatta), esisterà la derivata
( )d F x
f xdx
.
Si ricorda in proposito che le funzioni assolutamente continue sono funzioni
uniformemente continue e derivabili quasi ovunque, cioè, derivabili in tutti i punti a
meno di un insieme di punti con misura nulla.
La funzione f(x) così definita viene detta funzione di densità di probabilità o più
semplicemente funzione di densità. Si avrà quindi che x
f(y) dy = F(x);
inoltre
f(x) dx = dF(x)= P x X x dx
rappresenta la probabilità con cui una variabile casuale continua X assume valori
all'interno dell'intervallino infinitesimo (x , x+dx). Per le v.c. continue la probabilità in
un punto è sempre pari a zero.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
39
Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti
(corrispondenza biunivoca) funzioni di massa di probabilità, nel discreto, di densità di
probabilità, nel continuo, che identificano completamente le variabili casuali cui si
riferiscono, sono caratterizzate da specifici valori (entità di riferimento) dette parametri
caratteristici. Per evidenziare tale fatto, si usa la notazione
; , , ... , ;1 2 rF x F x , ; , , ... , ;1 2 rf x f x
dove , , ... ,1 2 r è il vettore dei parametri caratteristici della funzione che, come
già sottolineato e come si avrà modo di chiarire successivamente, viene anche detto
modello probabilistico.
Si richiama l’attenzione sulla punteggiatura introdotta per separare gli elementi che
definiscono l’argomento della funzione: il punto e virgola separa la componente x,
entità variabile, dalle altre componenti (parametri) che sono separate da una virgola e
che, come si avrà modo di precisare in seguito, nel contesto dell’inferenza statistica
classica sono entità costanti usualmente incognite. Il valore assunto da queste ultime
entità individua il modello probabilistico specifico relativo alla famiglia definita dalla
funzione ;F x o ;f x .
Ripercorrendo il processo che ha portato alla definizione della funzione di
distribuzione, della funzione di massa e di densità di probabilità, risulta immediata
l’individuazione delle proprietà che tali funzioni soddisfano.
Si supponga che la variabile casuale discreta X possa assumere le determinazioni x1,
x2,..., xi, ... , xk, (dove: xi < xi+1 e k può anche tendere al valore +), e che la variabile
casuale continua X risulti definita nell’intervallo dell’asse reale (a,b), dove: a < b, dove
a può tendere al valore - e b tendere al valore +, allora la funzione di distribuzione
F(x):
1. assume valori nell’intervallo unitario
0 F(x) 1
2. il limite sinistro assume valore zero
limx
F(x) = 0
3. il limite destro assume valore uno
limx
F(x) = 1
4. è monotona non decrescente
5. è continua a destra nel caso discreto (i punti di discontinuità si collocano
in corrispondenza dei valori x1, x
2,..., xk assunti dalla variabile) ed è assolutamente
continua (uniformemente continua e derivabile quasi ovunque) nel caso continuo.
La funzione di massa di probabilità if x , essendo una probabilità gode delle proprietà
già considerate relativamente a tale entità, cioè i0 f x 1 , inoltre
k
i
i )f(x1
1 .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
40
La funzione di densità f(x) soddisfa le condizioni
f(x) 0
( ) 1b
af x dx
Da quanto è stato detto deriva che una variabile casuale è completamente individuata
dalla sua funzione di distribuzione (o di massa o di densità di probabilità) e che essa
rappresenta una formalizzazione astratta (modello) dell'insieme delle possibili
manifestazioni di un certo fenomeno avente natura aleatoria.
1.6 - Valore atteso di funzioni di variabili casuali semplici
Come già sottolineato nella premessa, per particolari esigenze scientifiche ed operative
si può essere interessati all’effettuazione di una rappresentazione sintetica delle
manifestazioni di un certo fenomeno mediante indici caratteristici. Può, cioè, risultare
conveniente, o sufficiente, descrivere una variabile casuale con degli indici
caratteristici, anziché procedere ad una sua rappresentazione completa mediante la
funzione di distribuzione o la funzione di massa o di densità di probabilità.
Successivamente si avrà modo di verificare la stretta relazione esistente tra parametri
caratteristici e indici caratteristici di una distribuzione.
Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere al
calcolo del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile
casuale stessa. In questa sede si considerano solo le trasformazioni che portano alla
definizione di una nuova variabile casuale Y, cioè, se X è una v.c., anche Y =g(X) è una
variabile casuale, che può essere sia discreta che continua, la cui funzione di massa di
probabilità if y o di densità (di probabilità) f y si ottiene attraverso appropriate
trasformazioni della funzione di massa o di densità della v.c. X.
Definizione 8: Si definisce valore atteso di una trasformazione Y g X - dove Y è
una variabile casuale - di una variabile casuale X , con funzione di
distribuzione F(x) , la quantità che risulta dalla relazione
1
k
i i
i
E Y E g X g x f x
nel discreto
E Y E g X g x f x dx nel continuo5
5 Se si ricorre al così detto integrale di Lebesgue-Stieltjes non occorre distinguere il caso discreto dal caso continuo,
basterà scrivere
1
( ) nel discreto( )
( ) nel continuo
k
i i
i
bL S
a
g x f xE g X g x d F x
g x f x dx
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
41
dove ixf è la funzione di massa di probabilità della variabile casuale discreta X che
assume il valore xi con probabilità ixf , per i = 1, 2, ..., k ; mentre xf è la funzione
di densità di probabilità della variabile casuale continua X , definita in un intervallo
dell’asse reale ,a b , anche - ∞,+ ∞ .
Si può osservare come l’operatore valore atteso non richieda la derivazione della
funzione di densità o di massa di probabilità della variabile casuale trasformata
Y = g(X)
e goda della proprietà di linearità; infatti, per qualunque variabile X, con funzione f(xi)
nel discreto, f(x) nel continuo, date due costanti a , b e due trasformazioni 1g X e
2g X ancora variabili casuali
1 2 1 2 ( ) ( ) ( ) ( )E a g X b g X a E g X b E g X
come si può verificare facilmente osservando le relazioni sotto riportate
1 2 1 2
1
( ) ( ) ( ) ( ) ( )k
i i i
i
E a g X b g X a g x b g x f x
)()()()()()( 21
1 1
21 XgEbXgEaxfxgbxfxgak
i
k
i
iiii
nel discreto e
1 2 1 2 ( ) ( ) ( ) ( ) ( )
b
a
E a g X b g X a g x b g x f x dx
1 2 1 2( ) ( ) ( ) ( ) ( ) ( )b b
a aa g x f x dx b g x f x dx a E g X b E g X
nel continuo.
Esempio 1.8
Una compagnia d’investimenti sta decidendo se investire in un progetto di estrazione mineraria
in Canada oppure in una spedizione di trivellazione del petrolio in Alaska. Un’analisi
preliminare mostra che l’investimento nel progetto di estrazione mineraria genererà un profitto
netto di 1.000.000$, nell’ipotesi in cui venga trovato l’oro; altrimenti la compagnia perderà
800.000$. D’altra parte, la compagnia otterrà un profitto netto di 1.500.000$ o una perdita di
1.000.000$ nell’affare petrolifero, a seconda che venga scoperto o meno il petrolio.
Supponendo che un geologo abbia stimato una probabilità del 70% che venga trovato l’oro e
una probabilità del 50% che venga trovato il petrolio e assumendo che entrambi i progetti
richiedono lo stesso ammontare di capitale iniziale e che solo uno dei due progetti può essere
intrapreso, qual è l’investimento più conveniente per la compagnia?
In questo caso si assume che il criterio di scelta della compagnia sia il maggior valore atteso in
termini monetari, cioè la compagnia troverà più conveniente l’investimento che presenta il più
alto valore atteso.
Il valore atteso dei due progetti è dato, in base alla precedente definizione, da:
Il lettore interessato ad un approfondimento dell’argomento può consultare, tra gli altri, Royden (1963) . Real
Analysis. The macMillan Company, New York.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
42
Progetto di estrazione mineraria X:
1
0 0 1 1
0
( ) ( ) ( ) 1.000.000 0,70 800.000 0,30 460.000i i
i
E X x p x x p x x p x
dove con xi si indica il risultato dell’evento “successo” (x0) o “insuccesso” (x1) del progetto e
con p(xi) le rispettive probabilità. La seguente tabella riassume quanto detto:
Evento Probabilità P(xi) Risultato xi Valore Atteso
Successo 0,70 1.000.000 700.000
Insuccesso 0,30 -800.000 -240.000
Valore Atteso del progetto “estrazione mineraria” 460.000
Progetto di trivellazione petrolifera Y:
1
0 0 1 1
0
( ) ( ) ( ) 1.500.000 0,50 1.000.000 0,50 250.000i i
i
E Y y p y y p y y p y
dove con yi si indica il risultato dell’evento “successo” (y0) e “insuccesso” (y1) del progetto e
con p(yi) le relative probabilità. La seguente tabella riassume quanto detto:
Evento Probabilità P(yi) Risultato yi Valore Atteso
Successo 0,50 1.500.000 750.000
Insuccesso 0,50 -1.000.000 -500.000
Valore Atteso del progetto “trivellazione petrolifera” 250.000
In conclusione, poiché il progetto relativo all’estrazione mineraria presenta un profitto atteso
maggiore, la decisione ottima per la compagnia è investire in tale affare piuttosto che in quello
relativo alla trivellazione petrolifera.
Esempio 1.9
L’azienda Gamma sta pensando di acquistare un nuovo macchinario, che dovrebbe consentire
una notevole riduzione dei costi di produzione rispetto al macchinario attualmente impiegato.
La nuova macchina costa 10.000 euro e ci si attende un risparmio di circa 0,50 euro/ora. Il
risparmio complessivo R è dato da XR 50,0000.10 , dove X indica il numero di ore-
macchina impiegate. Il management non conosce ancora l’ammontare esatto di ore durante le
quali il macchinario sarà in funzione, dunque esprime la sua incertezza in termini della
seguente distribuzione di probabilità
Ore d’uso Probabilità
10.000 0,10
20.000 0,30
30.000 0,50
40.000 0,10
In base ai dati a disposizione, è conveniente per l’azienda acquistare il macchinario?
Il management dovrebbe decidere per l’acquisto del nuovo macchinario nell’ipotesi in cui il
risparmio atteso dello stesso sia positivo:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
43
( ) ( 10.000 0,50 ) ( 10.000) (0,50 )
10.000 0,50 ( )
10.000 0,50 ( )
10.000 0,50 0,10 10.000 0,30 20.000 0,50 30.000 0,10 40.000
10.000 13.000 3.000
i i
E R E X E E X
E X
P x x
Poiché il risparmio atteso assume un valore positivo di 3.000 euro, l’azienda dovrebbe
acquistare il nuovo macchinario.
Finora è stata considerata la trasformazione più semplice g(X) = X (in realtà non è stata
operata alcuna trasformazione); in questo caso particolare, come sarà puntualizzato in
seguito, il valore atteso viene anche detto momento primo rispetto all’origine o media
aritmetica della v.c. X.
Momenti rispetto all’origine
Ponendo
g(X) = Xr per r = 0, 1, 2 , ...
si ha
1
( ) ( ) ( )
( )
kr
i ir
ir
br
a
x f x nel discretoE g X E X
x f x dx nel continuo
che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto
all’origine. Da rilevare che il momento di ordine 0
01
0
( ) 1 ( )
( ) 1
k
i
i
b
a
f x nel discretoE X
f x dx nel continuo
è assolutamente non significativo risultando sempre uguale ad uno per qualunque
variabile casuale.
Particolare rilevanza assume il momento di ordine uno.
b
a
k
i
ii
dxxfx
xfxXEXgE
)(
)( )()( 11
che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico
(indice caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella
variabile casuale. Altri momenti di un certo rilievo sono il momento secondo 2 , il
momento terzo 3 ed il momento quarto 4 che evidenziano, come si avrà modo di
sottolineare, la loro rilevanza in contesti diversi di sintesi delle variabili casuali.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
44
Esempio 1.10
Indicando con X l’entità della domanda per una particolare marca di detersivo in un
supermercato e con f(x) la rispettiva probabilità secondo il seguente schema
X 0 1 2 3 4 5 6 7
f(x) 0,05 0,10 0,15 0,25 0,20 0,10 0,10 0,05
Si determina la domanda media.
( ) ( ) 0 1 0,10 2 0,15 3 0,25 4 0,20 5 0,10 6 0,10 7 0,05 3,40x
E X x f x
Momenti rispetto alla media o momenti centrali
Ponendo
g(X) = rX )( , per r = 0, 1, ...
dove )(1 XE è il momento primo rispetto all’origine (media aritmetica) della
variabile casuale X , si avrà
1
( ) ( )( ) ( )
( ) ( )
kr
i ir
ir
br
a
x f x nel discretoE g X E X
x f x dx nel continuo
che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media
(aritmetica).
Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento
centrale di ordine uno; infatti
1 ( ) ( ) ( ) ( ) 0E g X E X E X E
per qualunque variabile casuale.
La trasformazione g(X) = )( X rappresenta una traslazione dell’origine nel punto
medio. La variabile casuale trasformata g(X) = )( X si indica usualmente con il
simbolo )( XS x e viene detta variabile casuale scarto. Qualunque variabile
casuale scarto ha, pertanto, il momento primo sempre uguale a zero; cioè la media
aritmetica di una qualunque variabile casuale scarto è uguale a zero.
Il momento centrale di ordine due
2
2 ( ) ( )E g X E X
)(2)()()2( 2222 XEEXEXXE
22
2
22
2 2
viene denominato varianza ed assume una rilevanza tutta particolare in quanto è
l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Da
sottolineare che il momento centrale di ordine due 2 , cioè la varianza 2 , è uguale al
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
45
momento secondo rispetto all’origine 2( ) meno il quadrato del momento primo
rispetto all’origine 2( )
2 2
2 2 1
Essendo la media (aritmetica) e la varianza gli indici caratteristici più utilizzati per
sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile
casuale, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e
sulla varianza di particolari trasformazioni di variabili casuali.
Ad esempio, in molti contesti di ricerca, è necessario procedere ad una
trasformazione lineare (trasformazione affine) della variabile X
Y = a + b X
Tale trasformazione rappresenta un cambiamento del sistema di riferimento che si
risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è
espressa la variabile.
Se con x e 2
x si indicano rispettivamente la media e la varianza della variabile
casuale X, la media e la varianza della variabile casuale trasformata Y risultano dalle
relazioni
xy babXaEYE )()(
22222
222
)()(
)()(
xxx
xyy
bXEbbbXE
babXaEYE
cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla
trasformazione lineare della media della variabile casuale originaria e la varianza di una
trasformazione lineare di una variabile casuale è pari alla varianza della variabile
casuale originaria moltiplicata per il quadrato del coefficiente angolare della
trasformazione.
Momenti standardizzati
Ponendo
r
Xg X
, per r = 0, 1, ...
dove: è il momento primo (media aritmetica) della variabile casuale X e la radice
quadrata positiva della sua varianza 2 , si ha
1
( )
( )
( )
rki
r i
i
r rb
a
xf x nel discreto
XE g X E
xf x dx nel continuo
per r = 1, 2,
che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r
La trasformazione (lineare), standardizzazione
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
46
XX
Z x
1
è particolarmente rilevante in quanto, oltre a procedere alla traslazione nel punto medio,
si utilizza come nuova unità di misura il valore assunto dall’indice caratteristico di
variabilità che prende il nome di scostamento quadratico medio.
Oltre ai momenti standardizzati di ordine zero 0 1 e di ordine uno 1 0
anche il momento standardizzato di ordine due è del tutto irrilevante; infatti
2
2 2
2 2 2
1 11
XE E X
cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a
uno.
Particolare rilevanza assumono, invece, il momento terzo standardizzato
3
3
33 13 3
E XXE
che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento
quarto standardizzato
4
4
44 24 4
E XXE
che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà
analizzata nelle pagine successive) della distribuzione.
Sui due indici di simmetria 1( ) e di curtosi )( 2 si avrà modo di tornare
successivamente, dopo aver parlato della variabile casuale normale, mentre risulta
conveniente definire altri due indici caratteristici molto usati per sintetizzare gli aspetti
di tipicità delle variabili casuali: la moda e la mediana.
Il primo indice caratteristico che si considera è la moda di una variabile casuale. Si
definisce come moda )( oM di una distribuzione il valore della modalità cui corrisponde
la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più
elevata.
Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto questo
che può essere esteso anche a situazioni in cui si considerano non solo il massimo
assoluto (della probabilità o della densità di probabilità) ma anche i massimi relativi
(massimi locali).
Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili
casuali è la mediana. Si definisce come mediana )( eM di una variabile casuale
continua il valore centrale della distribuzione stessa; cioè il valore della modalità
rispetto al quale si registra una probabilità pari a 0,50 di valori inferiori e pari a 0,50 di
valori superiori.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
47
Si può aver interesse al calcolo di altri valori (segnaletici) particolari. Se la variabile
casuale è continua si considerano il valore che è preceduto dal 25% dei casi e seguito
dal 75% dei casi )( 1Q e quello preceduto dal 75% dei casi e seguito dal 25% dei casi
)( 3Q . I valori 1Q e 3Q vengono detti, rispettivamente, primo e terzo quartile;
ovviamente il secondo quartile 2Q è uguale alla Mediana. In generale il p-esimo
quantile, con 0 p1, è il valore, usualmente indicato con Qx(p), che soddisfa la
relazione P X Qx(p) = p.
Per le variabili casuali continue è sempre possibile operare la suddivisione con una
proporzione esatta p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra
di Qx(p), mentre ciò non è sempre possibile per le variabili casuali discrete. Infatti, per
le variabili casuali discrete la massa di probabilità del punto x = Qx(p) può essere
diversa da zero, pertanto la proporzione di valori a sinistra di Qx(p) può essere p e la
proporzione di valori a destra di Qx(p) può essere (1-p). Può accadere, cioè, che non
esista alcun valore x per il quale F(x) = p, il quantile viene comunque facilmente
individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della
funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ).
Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p
valga per un intervallo di valori di x, in questo caso il quantile si ottiene calcolando la
semisomma degli estremi dell’intervallo.
Momenti fattoriali
Ponendo
12 1 rXXXXXg , per r = 0, 1, ...
si ottengono i momenti fattoriali di ordine r:
12-X )1( )( rXXXEXgEr .
Tra i momenti fattoriali ed i momenti rispetto all’origine valgono le relazioni sotto
riportate; relazioni che consentono di derivare i momenti rispetto all’origine (in qualche
caso di difficile computo) dai momenti fattoriali.
1233
122
1
2 3
1
Funzione Generatrice dei Momenti
Ponendo
t Xg X e
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
48
dove e è la costante di Nepero, e la trasformazione è definita per ogni valore di t
compreso nell’intervallo – h < t < h con h > 0, si ha
1
( ) ( )i
kt xt X
x i
i
m t E e e f x
, se X è una v.c. discreta;
( ) ( )t X t x
xm t E e e f x dx
, se X è una v.c. continua.
che viene detta funzione generatrice dei momenti rispetto all’origine (trasformata di
Laplace) della v.c. X.
La funzione generatrice dei momenti, quando esiste, gode di importanti proprietà, tra
questa una delle più rilevanti è quella di consentire il computo immediato dei momenti
rispetto all’origine; infatti, se si sviluppa in serie e t X
2 2 3 3
1 2! 3!
t X X t X te X t
si ha:
2 3 2 3
1 2 3
1 1 1 1( ) 1 ( ) ( ) .... 1 ....
2! 3! 2! 3!
t X
xm t E e E X t X t X t t t t
da cui
0|r
r x tr
dm t
dt per r = 1,2,….
Cioè, se si calcola la derivata r-esima della funzione generatrice dei momenti nel
punto t = 0 si ottiene il momento r-esimo rispetto all’origine.
Ragionando in modo analogo, si possono definire la funzione generatrice dei
momenti centrali e la funzione generatrice dei momenti standardizzati.
La proprietà più rilevante della funzione generatrice dei momenti (quando esiste) è
l’univocità, il che comporta l’identificazione univoca della v.c. di riferimento; esiste
cioè una corrispondenza biunivoca tra la funzione generatrice dei momenti e la funzione
di distribuzione e, quindi, tra funzione generatrice dei momenti e funzione di massa o di
densità di probabilità.
Una ulteriore importante proprietà della funzione generatrice dei momenti è quella
della conservazione del limite. Sia X1, X2,…, Xn una successione di v.c. con funzione di
distribuzione F(xn) e funzione generatrice dei momenti tmnx ; allora, se
*lim xFxF nn
si dimostra che
*limnx x
nm t m t
Inoltre se tmx è la funzione generatrice dei momenti della v.c. X, allora a
xe m bt è
la funzione generatrice dei momenti della v.c. Y = a + b X .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
49
Esempio 1.11
Sia X una variabile casuale continua definita nell’intervallo ( 0,+ ) 0,+ con funzione di
densità di probabilità ( ) xf x e ( v.c. esponenziale negativa) si ha:
0
( ) ( ) tX tx x
xm t E e e e dxt
per t <
I momenti rispetto all’origine sono dati da:
0 02
1| |r x t t
dE X m t
dt t
22
2 0 032 2
2 2| |r x t t
dE X m t
dt t
Mentre il secondo momento centrale (varianza) è data da
2 2 2
2 1 2 2 2
2 1 1E X
Funzione Generatrice dei Momenti Fattoriali
Ponendo
Xg X t , dove t assume valori in un intorno di 1
si ha
1
( ) ( )i
kxX
ixi
m t E t t f x
, se X è una v.c. discreta;
dxxfttEtm xX
x )()( , se X è una v.c. continua.
che viene detta funzione generatrice dei momenti fattoriali della v.c. X.
La derivata r-esima di questa funzione, quando esiste, nel punto t = 1 genera il
momento fattoriale di ordine r .
1| 1r
tr xr
dm t E X X-1 X-2 X r
dt , per r = 0, 1, ...
.
Funzione Caratteristica
Trattando della funzione generatrice dei momenti è stata a più riprese aggiunta la
precisazione: “se esiste”; in effetti tale funzione potrebbe non esistere, sia per v.c.
discrete che possono assumere una infinità numerabile di valori diversi, sia per v.c.
continue non essendo convergente la somma di infiniti termini o l’integrale.
Se si pone
i t Xg X e
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
50
per ogni valore di t compreso nell’intervallo –h < t < h con h > 0 e 1i è l’unità
immaginaria, la funzione sotto definita esiste sempre
1
( ) nel caso discreto
( ) nel caso continuo
i t X i t x
x i
i
i t X i t x
x
m i t E e e f x
m i t E e e f x dx
infatti, se si considera, ad esempio il caso continuo si ha
cos
cos
i t X i t x
x
-
m (i t) E e E t X i sen t X e f x dx
t x f x dx i sen t x f x dx
essendo cos e t x i sen t x assolutamente limitate, l’integrale sopra scritto è
assolutamente convergente (si può quindi calcolare) per qualunque valore di t
compreso tra e .
La funzione sopra introdotta viene detta funzione caratteristica (trasformata di
Fourier) della v.c. X e gode di tutte le proprietà della funzione generatrice dei momenti
ma, rispetto a quest’ultima funzione, ha l’ulteriore proprietà di esistere sempre.
1.7 - Variabili casuali discrete
Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati
particolarmente utili in vari campi della ricerca applicata. Nei paragrafi seguenti, ne
vengono presentati alcuni, tra quelli più comunemente usati, facendo riferimento al tipo
di distribuzione ad essi associata.
1.7.1 Distribuzione binomiale
La distribuzione Binomiale si usa quando si è interessati al numero delle volte con cui
un certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale.
Essa può, quindi, essere considerata un eccellente modello probabilistico per molte
situazioni reali. Infatti, tale distribuzione può servire per studiare ad es. l'atteggiamento
dei cittadini nei confronti di un determinato provvedimento legislativo (favorevoli o
contrari alla elezione diretta del presidente della repubblica), per analizzare la
produzione di un determinato macchinario (pezzi regolari e pezzi difettosi), l’esito di
una visita medica (sano o malato), ecc.. Serve cioè, in generale, nello studio di tutti quei
fenomeni che possono essere caratterizzati da un evento che può realizzarsi o meno:
"successo" o "insuccesso"; dove successo vuol dire estrazione di pallina bianca, essere
favorevole alla elezione diretta del presidente, pezzo regolare, ecc., mentre insuccesso
vuol dire estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso,
ecc.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
51
Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una singola
prova, 1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non
verificarsi dell'evento.
Si consideri ora la variabile casuale XX , dove X indica il numero delle volte
in cui l'evento E si presenta in n prove indipendenti. Per n = 1 si avrà che la variabile
casuale XX , detta variabile casuale di Bernoulli e anche variabile casuale
indicatore, potrà assumere unicamente i due valori 0 e 1, con probabilità
P (X = 0) = q = 1 - p ; P (X = 1) = p
La corrispondente funzione di massa di probabilità assume i valori f(0) = 1-p = q e
f(1) = p, e può essere espressa dalla formula
f(x) = f(x;p) = px (1-p)1-x = px q1-x per x = 0, 1
Per n qualsiasi, si avrà che la variabile casuale X (numero di successi in n prove
indipendenti) potrà assumere i valori 0, 1, 2,...,n, si tratta cioè di una funzione che
associa ad ogni possibile sequenza di successi ed insuccessi in n prove indipendenti, il
numero x di successi che nelle n prove si sono verificati. La probabilità di x successi
P(X = x) = f(x), cioè la funzione di massa di probabilità è data da
f(x) = f(x;n,p) = 1n xx x n x
n np p p q
x x
dove
!
! !
n n
x x n x
rappresenta il numero di permutazioni con ripetizione di n
oggetti, di cui x sono uguali tra loro e (n-x) uguali tra loro ma diversi dai precedenti x,
e coincide con il numero delle combinazioni di n oggetti x a x.
L'interpretazione della formula della funzione di massa di probabilità della variabile
casuale così costruita (variabile casuale binomiale) è immediata: la probabilità di una
specifica successione di x successi e (n-x) insuccessi indipendenti è pari a (principio
delle probabilità composte per eventi indipendenti)
( )
x n x
n x voltex volte
p p p p q q q p q
;
non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,
tali probabilità dovranno essere sommate (principio delle probabilità totali per eventi
incompatibili) tante volte quante sono le permutazioni con ripetizione di n oggetti di
cui x sono uguali tra loro e (n-x) diversi dagli x ma uguali tra loro.
Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione f(x)
rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la somma
delle probabilità relative a tutti i possibili valori assunti dalla variabile casuale
binomiale (come per qualunque variabile discreta) è uguale ad uno; infatti
11)(0
nnxnxn
x
qpqpx
n
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
52
La media e la varianza della distribuzione binomiale sono date rispettivamente dalle
uguaglianze
0 0
( ; , )n n
x n x
x x
nx f x n p x p q np
x
2 2 2
0 0
( ) ( ; , ) ( )n n
x n x
x x
nx f x n p x np p q npq
x
Dimostrazione: = n p
1 ( 1)1
0 0 1
( 1)!( ) ( ; , )
( 1)! 1 ( 1) !
n n nn xx n x x
x x x
n n nE X x f x n p x p q x p p q
x x x n x
ponendo n-1 = m e x-1 = y, si ha
0
om
!( ) 1
!( )!
my m y m
y
Bin io di Newton
mnp p q np p q np np
y m y
Dimostrazione: 2 = n p q
22
2
2
2
2 pn
2 2
2
0 0
0 0
2
2
( ) 1 1
( 1)
( 1)( 2)!1
( 1)( 2)! 2 2 !
!( 1)
! ( )!
n nx n x x n x
x x
n nx n x x n x
x x
np
nx n x
x
n nE X x p q x x p q
x x
n nx x p q x p q
x x
n n nx x p q np
x x x n x
mn n p p
y m y
2
0 0
2 2 2 2 2 2 2 2
!( 1)
!( )!
( 1) 1
m my m y y m y
y y
Binomio di Newton
mq np n n p p q np
y m y
n n p np n p np np n p n p p n p npq
dove y = x-2 e m = n-2, da cui:
npqpnnpqpnpn 222222
2
2
2
2
La funzione generatrice dei momenti della v.c. binomiale è data da
0 0
n n
x ntX t x x n x t n x t
x
x x
n nm t E e e p q e p q p e q
x x
dalla quale si deducono facilmente i momenti
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
53
1
1 0 0
21 2
2 0 02
2 2 2 2 2
2 2 2 2 2 2
2 1
| |
| 1 |
1 1
nt t
x t t
n nt t t t t
x t t
dμ m t n p e p e q n p
dt
dμ m t n p e p e q n (n - ) p e p e q p e
dt
n p n n - p n p n p - p n p n p q
Var(X) σ μ μ n p n p q - n p n p q
Distribuzione binomiale relativa
Si consideri la variabile casuale binomiale X specificata dai parametri n e p , se si opera la
trasformazione X
Y g Xn
si ottiene una nuova variabile, denominata distribuzione
binomiale relativa, che potrà assumere i valori 1 2
0, , ,...., 1n n
con probabilità
X x
P Y y P P X xn n
La funzione generatrice dei momenti di questa v.c. è espressa da
nX t t
t XtY n n n
ym t E e E e E e p e q
da questa espressione si derivano facilmente i momenti
1
1 0 0 0
1 22
2 0 02
22 2 2
2
1| | |
1 1| 1 |
11
nt t
n ny t x t t
n nt t t t t
n n n n ny t t
d d tμ m t m n p e p e q p
dt dt n n
dμ m t p e p e q (n - ) p e p e q p e
dt n n
p p p p q n - p p p
n n n n n
Var(X) σ μ
2 2 2
2 1
p q p qμ p - p
n n
Un modo più rapido per derivare media e varianza della distribuzione binomiale
relativa è, ovviamente, quello di ricorrere all'operatore lineare valore atteso, infatti si ha
1
X
E Y E n p pn n
2
1
X p qVar Y Var n p q
n n n
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
54
Esempio 1.12
Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1-p
= 0,5, si vuol determinare la probabilità che in una famiglia con quattro figli vi sia: a) Almeno
un maschio, b) almeno un maschio ed una femmina.
a) Almeno un maschio
Poichè si ha
P (0 maschi) = 0 4
4 10,5 0,5
0 16
P (1 maschio) = 1 3
4 10,5 0,5
1 4
P (2 maschi) = 2 2
4 30,5 0,5
2 8
P (3 maschi) = 3 1
4 10,5 0,5
3 4
P (4 maschi) = 4 0
4 10,5 0,5
4 16
la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione
P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi) =
16
15
16
1
4
1
8
3
4
1 .
Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a quello
che interessa (almeno un maschio), si determina poi la probabilità del suo verificarsi che
sottratta alla unità fornisce il risultato; si avrà
P ( almeno un maschio ) = 1 - P ( nessun maschio) =0 4
4 1 151 0,5 0,5 1
0 16 16
b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà
P ( almeno un maschio ed una femmina ) = 1 – P ( nessun maschio oppure nessuna femmina )=
1 - P ( nessun maschio ) - P (nessuna femmina) =11
16
1
16
14
16
7
8 .
Esempio 1.13
In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo
predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%,
almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da
sottoporre ad esperimento. In altri termini si dovrà ricercare il più piccolo n (numero di cavie
da sottoporre ad esperimento) capace di soddisfare la disuguaglianza.
P (X 2) > 0,80
dove X sta per il numero di cavie che sopravvivono all'esperimento.
Nella distribuzione binomiale per p = 0,4 (probabilità di successo e nel caso specifico successo
significa cavia sopravvissuta) ed n = 7, si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
55
0 7 1 67 7
( 2) 1 ( 0) ( 1) 1 0,40 0,60 0,40 0,60 0,840 1
P X P X P X
Per p = 0,4 ed n = 6, si ha
0 6 1 56 6
( 2) 1 ( 0) ( 1) 1 0,40 0,60 0,40 0,60 0,770 1
P X P X P X
Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7.
Esempio 1.14
Un’azienda che produce batterie per riflettori afferma che i suoi prodotti nell’80% dei casi
sono in grado di funzionare adeguatamente a temperature inferiori ai -10°C. Le registrazioni
meteorologiche mostrano che durante il mese di gennaio di un anno ci sono stati 18 giorni in
cui le temperature sono scese al di sotto dei -10°C in un campione di città del Nord Europa.
Qual è la probabilità che le batterie vendute dall’azienda abbiano funzionato adeguatamente
per meno di 11 giorni durante il mese di gennaio?
Essendo X = n° di giorni durante i quali le batterie hanno funzionato adeguatamente
(successo), 18n e 80.0p si ha:
1018
0
18( 10) ( 0) ( 1) ... ( 10) 0.8 0.2 0.0163x x
x
P X P X P X P Xx
Esempio 1.15
Soltanto il 45% delle borse prodotte dall’azienda Alfa rispetta i requisiti base di soddisfazione
del cliente. Qual è la probabilità che, considerato un campione di 20 borse selezionate
casualmente, almeno 11, ma non più di 15, rispettino i requisiti di minima soddisfazione?
Essendo X= l’evento “numero di borse le cui caratteristiche soddisfano i requisiti di qualità”
(successo), n = 20 e p = 0,45 (probabilità di un successo), allora si ha:
P(11 ≤ X ≤15) = P( X =11)+…………+ P( X =15) =
15
11
200,45 0,55x n x
xx
= 0,24775
Quindi, la probabilità che una quantità compresa tra 11 e 15 borse su un totale di 20 rispetti i
requisiti di soddisfazione minima del cliente è del 25%.
Esempio 1.16
Le compagnie aeree sanno per esperienza che una certa percentuale di passeggeri, pur avendo
già prenotato il biglietto, cancellerà il volo all’ultimo minuto. Perciò, per evitare posti vuoti,
esse vendono più biglietti rispetto alla capienza massima dell’aereo, sperando che alla fine il
numero di passeggeri che si presenta all’imbarco sia quello “giusto” (cioè tale da riempire
tutti i posti disponibili senza eccedenze). In base a delle stime risulta che la probabilità che un
passeggero cancelli il volo all’ultimo minuto è del 5%. In termini binomiali, si sta affermando
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
56
che ciascun potenziale passeggero, indipendentemente dagli altri, si presenterà all’imbarco con
una probabilità del 95%, mentre cancellerà il volo con una probabilità del 5%.
Si supponga che per un volo da 200 posti siano stati venduti 215 biglietti. La compagnia aerea
vuole conoscere I) la probabilità che più di 205 passeggeri si presenteranno per l’imbarco; II)
la probabilità che se ne presenteranno più di 200; III) la probabilità che risultino occupati
almeno 195 posti; IV) la probabilità che siano occupati almeno 190 posti.
Posto X = presentarsi di un passeggero per l’imbarco, n = 215, p = 0.95, si ha:
I) P(X ≥ 206 ) = P(X =206)+… …+ P( X =215) =215
206
2150,95 0,05x n x
x x
= 0,363
II) P(X ≥ 201 ) = P(X =201)+… …+ P( X =215) =215
201
2150,95 0,05x n x
x x
= 0,877
III) P(X ≥ 195) = P(X =195)+……+ P( X =215) =215
195
2150,95 0,05x n x
x x
= 0,997
IV ) P(X ≥ 190) = P(X =190)+……+ P( X =215) =215
190
2150,95 0,05x n x
x x
= 0,999.
1.7.2 Teorema di Markov
Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di
carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie
informative che si collocano a un livello intermedio tra la conoscenza completa, seppure
spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica espressa
dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e significativi è
quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a cui si perviene
facilmente attraverso una opportuna specificazione di un teorema più generale: il
teorema di Markov.
Teorema (disuguaglianza)di Markov – Sia X una variabile casuale con funzione di
distribuzione F(x), g(X) una funzione a valori reali non negativa (in modo
tale che Y = g(X) sia essa stessa variabile casuale) e c una costante positiva,
allora
c
XgEcXgP
)()(
Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema
con relativa facilità.
Dimostrazione
dxxfxgXgE )()()(
: ( ) : 0 ( )
( ) ( ) ( ) ( )x g x c x g x c
g x f x dx g x f x dx
: ( ) : 0 ( ) : ( )
( ) 0 ( ) ( ) x g x c x g x c x g x c
c f x dx f x dx c f x dx c P g X c
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
57
( )
( )E g X
P g X cc
Di particolare interesse risulta una specificazione (corollario) del teorema.
Disuguaglianza di Bienaymé-Cebiçev: Se X è una variabile casuale con varianza 2
finita, allora
2
11P X k
k .
Dimostrazione 1
Ponendo g(X) = X - e c = k per k > 0
dove: = E(X) e 2 = var(X) , si avrà, dal Teorema di Markov,
2 2 2( )P X k P X k
222
2
22
2 1)(
kkk
XE
2
1P X k
k
ed anche
2
11P X k
k
Alla stessa conclusione si giunge partendo dalla definizione di varianza di una
variabile casuale:
Dimostrazione 2
Var(X) =
dxxfx )(
22
L’integrale può essere diviso nella somma di tre integrali:
k
k k
k
dxxfxdxxfxdxxfx )()()(2222
sottraendo il secondo integrale dal membro di destra dell’equazione, si ottiene la
seguente disuguaglianza:
2 22 ( ) ( )
k
kx f x dx x f x dx
Si consideri
2 2 2 2( ) ( ) ( )
k k k
x f x dx k f x dx k f x dx
,
poiché se x è almeno k volte il valore atteso di X, allora la differenza al quadrato tra x e
il suo valore atteso, cioè (x - )2, deve essere maggiore di k
22. Ad esempio, se x = -
k - h, allora x - = - k - h - = - (k + h). Di conseguenza, il quadrato di questa
quantità sarà più grande di k22
. Analogamente
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
58
2 2 2( ) ( )
k kx f x dx k f x dx
quindi, sostituendo, si ottiene:
2 2 2 ( ) ( ) k
kk f x dx f x dx
la quantità in parentesi è uguale a
1P x k P x k P x k P x k
quindi
2 2 2
2
2
1
11
11
k P x k
P x kk
P x kk
La disuguaglianza di Bienaymé-Cebiçev sta ad indicare che, per qualunque variabile
casuale, la probabilità dei valori che si collocano in un intorno della media di ampiezza
k è sempre superiore ad 2
11
k . Ad es., per k = 2, si ottiene
2 2 3/ 4P X , cioè per ogni variabile casuale avente varianza finita
almeno ¾ dei valori distano dalla sua media meno del doppio della deviazione standard.
Ovviamente la disuguaglianza assume significato solo per k > 1, in quanto per k = 1
oppure per k < 1, risulta che la probabilità è 0 : ma questo è sempre vero per la
definizione stessa di probabilità.
Se si fa riferimento ad una particolare distribuzione e si considera una specifica
funzione g(X) si perviene ad un altro interessante risultato.
Teorema di Bernoulli - Si consideri la variabile casuale binomiale caratterizzata dai
parametri p ed n e la trasformazione X
Y n
, cioè la variabile casuale binomiale
relativa, la cui media e varianza sono, rispettivamente, pn
XE
e
X p qVar
n n
.
Applicando la disuguaglianza per
pn
X
n
XgYg
si avrà 2
2
2
2 2
XE p
nX X p qP p c P p c
n n c n c
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
59
da cui
2lim lim
n n
X p qP p c 0
n n c
ed anche (probabilità dell’evento contrario)
limn
XP p c 1
n
Siccome c può essere scelto piccolo a piacere, si può anche concludere che al
crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni
analoghe) la frequenza relativa di un evento converge, in probabilità, alla probabilità
dell’evento stesso.
Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la variabile
casuale binomiale relativa interpretabile come media aritmetica di n variabili casuali di
Bernoulli indipendenti e identicamente distribuite.
Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più
interessante è quella che estende il risultato ad una successione qualsiasi di variabili
casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media
E(Xi) = .
Teorema di Kolmogorov (legge debole dei grandi numeri) – Sia X1, X2, …, Xn, … una
successione di variabili casuali indipendenti e identicamente distribuite, di media
finita, allora per la variabile casuale
n
i
in Xn
X1
1, di media )( nXE , vale la
relazione
1lim
nn
XP
Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano
varianza 2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev,
dimostrare facilmente la cosiddetta legge debole dei grandi numeri espressa dalla
relazione
lim 1 1n nn
P X c P X c
,
dove 0 < < 1.
Dimostrazione
Ponendo ( ) ng X X e applicando il Teorema di Markov, si ottiene
2
22
2
2 2
2
2
1 1
da cui
lim lim 1 1
n
n n
nn n
E XP X c P X c
c n c
P X cn c
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
60
La legge forte dei grandi numeri è espressa dalla relazione
lim 1nn
P X
.
La differenza tra le due leggi è ovvia; infatti, anche se entrambe le leggi affermano
che al crescere della numerosità degli elementi della successione considerati la loro
media tende alla media comune µ , nel primo caso (legge debole) si ammette la
possibilità che, in probabilità, si registri uno scarto tra e nX , nel secondo caso (legge
forte) tale possibilità è esclusa.
Le leggi (forte e debole) dei grandi numeri sono estremamente utili a fini pratici, in
quanto consentono di fare inferenze attendibili sulla media di una popolazione quando
si dispone soltanto di un campione di manifestazioni del fenomeno di interesse. Tali
leggi, infatti, stabiliscono che è possibile determinare un intero positivo n (ampiezza
campionaria) tale che, se si prende un campione casuale di ampiezza maggiore o uguale
ad n da una popolazione con media , allora la probabilità che la differenza tra la media
campionaria nX e la media della popolazione sia minore di una quantità fissata
piccola a piacere è vicina ad 1 quanto si vuole.
Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della
probabilità e della statistica ma ancora più rilevante è, come si avrà modo di
approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale
(teorema centrale del limite), qui se ne propone una versione particolare, quella
usualmente attribuita a Lindberg-Levy.
1.7.3 Distribuzione ipergeometrica
Per introdurre la distribuzione ipergeometrica conviene riprendere in considerazione la
distribuzione binomiale proponendo l'interpretazione che si rifà al linguaggio
dell'estrazione casuale da un'urna. Infatti, la distribuzione ipergeometrica ha lo stesso
campo di applicabilità della distribuzione binomiale e dovrà essere ad essa sostituita
tutte le volte che gli eventi relativi alle singole prove non possono essere considerati
indipendenti.
Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La
probabilità di estrarre pallina bianca in una prova sarà p = N
K .
Come già detto in precedenza, se si effettuano n estrazioni con ripetizione (cioè con
reinserimento della pallina nell’urna) la probabilità di ottenere esattamente x palline
bianche, nelle n prove, è data da
( ) ( ) 1
x n x
x n xn nK K
P X x f x p qx xN N
cioè, l'estrazione con ripetizione (campionamento bernoulliano) conduce alla
distribuzione binomiale. Si ammetta ora di effettuare le n estrazioni, senza rimettere
ogni volta la pallina estratta nell'urna (campionamento esaustivo o campionamento
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
61
senza ripetizione); in questa situazione la probabilità di estrarre esattamente x palline
bianche è data da
( ) ( ; , , )
K N K
x n xf x f x n K N
N
n
per max [ 0,n - (N - K) ] x min [n, K]
Infatti, se n > K, X potrà assumere al massimo il valore K, inoltre se
n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K).
Naturalmente
min , min ,
max 0, max 0,
( ; , , ) 1n K n K
n N K n N K
K N K
x n xf x n K N
N
n
Per dimostrare la relazione sopra riportata, occorre tenere presente che ogni
successione di n palline di cui x bianche e n-x nere costituisce una partizione dello
spazio campionario in eventi elementari equiprobabili, per cui è sufficiente fare il
rapporto tra il numero di eventi favorevoli (cioè il numero delle sequenze contenenti
esattamente x palline bianche) e il numero complessivo di eventi elementari (cioè il
numero di tutte le possibili sequenze di N palline ad n ad n).
Gli eventi favorevoli affinché si verifichi X = x sono quelli che contengono x
palline bianche scelte tra le K esistenti e sono in numero di
x
K, moltiplicati per tutti
quelli che contengono le rimanenti (n-x) palline nere scelte tra le (N – K) possibili, che
sono in numero di
xn
KN. Quindi, i casi favorevoli sono
x
K
xn
KN, mentre i
casi possibili sono tutte le combinazioni di N palline prese ad n ad n, cioè
n
N. Da ciò
deriva la formula precedente che definisce la distribuzione di probabilità di una v.c.
ipergeometrica. L’espressione può essere interpretata più facilmente se, dopo aver
opportunamente sviluppato i simboli combinatori presenti, essa viene espressa nel
seguente modo:
! ( )!
! ( )! ( )! ( )!( ) ( ; , , )
!
! ( )!
1 1 1 1........ ......
1 1 1 1
K N K K N K
x n x x K x n x N K n xf x f x n K N
NN
n N nn
n K K K x N K N K N K n x
x N N N x N x N x N n
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
62
A meno del coefficiente binomiale, l’ultima espressione è pari al prodotto delle
probabilità che la prima pallina estratta sia bianca, per la probabilità che la seconda sia
bianca dato che la prima è bianca, …., per la probabilità che la x-esima pallina sia
bianca dato che le precedenti sono state bianche, per la probabilità che (x+1)-esima
pallina sia nera dato che si sono verificate x palline bianche, …., per la probabilità che
l‘n-esima sia nera dato che in precedenza si sono verificate x bianche e (n-x+1) nere.
Tale probabilità, cioè quella della sequenza ordinata di x palline bianche (n-x) nere, va
ripetuta per tutti i modi possibili in cui le n palline si possono disporre preservando però
sempre x palline bianche e (n-x) palline nere. Tali modi sono appunto
x
n.
La media e la varianza della distribuzione che ha la funzione di massa di probabilità
sopra indicata e che viene detta ipergeometrica, sono definite dalle relazioni di seguito
riportate dove, per semplicità di notazione, si è ipotizzata la possibilità che la variabile X
possa assumere i valori 0 ed n ; ovviamente, se l’ipotesi non è soddisfatta basterà
sostituire gli estremi 0 ed n con i valori
max [ 0,n - (N - K) ] e min [n, K]
0 0 1
1
1 1 ( 1)
1 1 ( 1)( ; , , )
1
1
1 1 ( 1)
1 1 ( 1)
1
1
n n n
x x x
n
x
K N K K N KK
x n x x x n xx f x n K N x x
N NN
n n n
K N K
x n xK Kn n n p
NN N
n
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
63
2 2
2
0 0
1
( ; , , )
2 2 ( 2)1
1 2 2 ( 2) 1
21
1 2
2 2 ( 2)1
1 2 2 ( 2) 1
n n
x x
n
x
K N K
x n xx f x n K N x
N
n
K N KK K
x x x n xx x x
NN N
n n n
K N KK K
x x x n xx x
2 1
2
1 1 ( 1)
1 1 ( 1)
2 11
1 2 1
2 2 ( 2)
2 2 ( 2)1 1 1 1
21 1
2
n n
x x
n
x
K N KK
x n x
N NN N N
n n n n n
K N K
x n xK K K K K Kn n n n n n
NN N N N N N
n
2
2 2
0 0
22 2
2 2
( ) ( ; , , ) 11 1
od anche
1 11 1 1
1 1
1 1 1
n n
x x
2
K N K
x n xn K N n K K N nx f x n K N x n n p q
NN N N N N
n
K K K K K K K n n n n n n n
N N N N N N N
N K n N N n K Kn
N
11
1) 1 1
KN n
N K N nNn n p q
N N N N N
Il fattore 1
N
nN ( 1) viene usualmente detto fattore di correzione (per il
campionamento senza ripetizione). Si osservi che, se n = 1, allora la varianza della v.c.
ipergeometrica coincide esattamente con quella della binomiale (v.c di Bernoulli):
infatti, estraendo una sola pallina è del tutto irrilevante il fatto che essa venga
reimmessa o meno nell’urna. Inoltre, le due varianze coincidono anche nel caso in cui N
tende ad infinito, infatti, il fattore di correzione1
N
nN tende ad 1.
Si procede alla dimostrazione della relazione
min , min ,
max 0, max 0,
( ; , , ) 1n K n K
n N K n N K
K N K
x n xf x n K N
N
n
ipotizzando, anche in questo caso per semplificare la notazione algebrica, che i limiti
della sommatoria siano pari a 0 ed n, si dimostra quindi l’uguaglianza
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
64
0
1n
x
K N K
x n x
N
n
Si consideri l’identità
0
1 K r
K r y
y
K ra a
y
Ponendo y K - x si ha
1 K
K r K x
x r
K ra a
K x
inoltre
0
1 N K
N K N K s
s
N Ka a
s
Se si moltiplicano membro a membro le due identità si ha
0
0
1 1 1K r N K N r
K N KK x N K s
x r s
K N KN x s
x r s
a a a
K r N K a a
K x s
K r N K a
K x s
ponendo N-x-s = t , si ha
0
0
1
ma
1
N r N tN r t
t x r
N rN r t
t
K r N K a a
K x N x t
N r a a
t
Per il principio d’identità dei polinomi vale l’uguaglianza
ponendo 0 e si ha
ed anche
N t
x r
n
x o
K r N K N r
K x N x t t
r t N - n
K N K N
K x n x N n
K
x
cioè
1
n
x o
n
x o
N K N
n x n
K N K
x n x
N
n
Al crescere della dimensione della popolazione ( N ) la distribuzione
ipergeometrica tende alla distribuzione binomiale, risultato questo facilmente intuibile
se si considera una popolazione molto numerosa dove la presenza o assenza
(reimmisione o non reimmissione della pallina estratta) non modifica sostanzialmente le
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
65
probabilità di estrazione. Ovviamente, l’approssimazione è tanto più buona quanto più
elevato il valore assunto da N e quanto più piccolo è il valore assunto da n.
lim ( ) lim ( ; , , ) lim
1 1 1 1lim ........ ......
1 1 1 1
/ ( 1) / ( 1) /lim ........
/ ( 1) / (
N N N
N
N
K N K
x n xf x f x n K N
N
n
n K K K x N K N K N K n x
x N N N x N x N x N n
n K N K N K x N
x N N N N N
( ) / ( 1) / ......
1) / ( ) / ( 1) /
1 / ( 1) / 1 1 ( 1) /lim ........ ......
1 1 / 1 ( 1) / 1 / 1 ( 1) /
1
N
n xx x n x
N K N N K n x N
x N N x N N n N
n p N p x N p p n x Np
x N x N x N n N
n np p p q
x x
La funzione generatrice dei momenti della v.c. ipergeometrica non è utile.
Esempio 1.17
Una compagnia di assicurazioni sa per esperienza che tra le persone che rispondono alla
pubblicità su giornali e riviste per polizze assicurative sulla salute, circa il 40% finisce poi per
acquistarne una. Un assicuratore della compagnia riceve 10 risposte e ne seleziona
casualmente tre, fissando degli appuntamenti per un incontro con i potenziali futuri clienti.
Qual è la probabilità che l’assicuratore venda una polizza ad una delle tre persone che
incontrerà?
La popolazione complessiva è costituita dalle 10 persone che rispondono all’annuncio, quindi
N = 10. La caratteristica posseduta da 4 di queste persone è la loro tendenza ad acquistare una
polizza sulla salute, quindi K = 4. Infine, se l’assicuratore seleziona casualmente tre risposte,
si ha n = 3.
Dunque, la probabilità che una persona (x =1) acquisti una polizza è data da:
4 6
1 2 601 0,50
10 120
3
K N K
x n xP x
N
n
.
Esempio 1.18
Si supponga che in un processo produttivo il 30% dei pezzi prodotti risulti difettoso. Il manager
responsabile del controllo di qualità seleziona casualmente 5 pezzi da un totale di 20 prodotti e
ispeziona ciascuna parte del campione. Qual è la probabilità che ciascun campione contenga I)
esattamente 2 parti difettose? II) oppure che contenga al massimo due parti difettose?
La popolazione è rappresentata da 20 pezzi prodotti, quindi N =20. Poiché il 30% si sa essere
difettosi, allora ciascun lotto contiene 6 pezzi difettosi, cioè K = 6. Infine, ciascun campione
estratto consiste di 5 pezzi, quindi n = 5.
Ricapitolando: N = 20, K = 6, n = 5
I)
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
66
6 14
2 32 0,352 35,2%
20
5
K N K
x n xP x
N
n
II)
)0()1()2()0()1()2(2 fffxPxPxPxP
f(2) =0.352,
6 14
1 4(1) 0,387
20
5
f
,
6 14
0 5(0) 0,129
20
5
f
2 (2) (1) (0) 0,352 0,387 0,129 0,868 86,8%P x f f f .
1.7.4 Distribuzione di Poisson (o dei piccoli numeri o degli eventi rari)
A differenza delle precedenti variabili casuali, la distribuzione di Poisson non è
generata direttamente da una successione di prove Bernoulliane (se non come processo
limite) ma riguarda il numero di eventi registrati in un ambito circoscritto di tipo
temporale, spaziale, concettuale; cioè, si parla di variabile casuale di Poisson quando
interessa conoscere il numero X di eventi (accadimenti, successi,…) che si verificano
in uno specifico intervallo di tempo o di spazio o di circostanze. Per es., si
distribuiscono secondo una v.c. di Poisson il numero di clienti che arriva allo sportello
bancario ogni ora, il numero di chiamate che arriva ad un centralino ogni 10 minuti, il
numero di auto in attesa al casello autostradale ogni minuto, il numero di incidenti
mortali tra gli operai addetti ad un certo processo chimico pericoloso per ogni impianto
funzionante, il numero di pezzi difettosi prodotti da ciascun macchinario di un’azienda
ecc.
La funzione di massa di probabilità della v.c. di Poisson è data da
!);()(
x
exfxf
x
per x = 0, 1, 2 ,...,∞
(dove e è la costante di Nepero e un numero reale positivo). Naturalmente la somma
delle probabilità, per questa particolare variabile casuale discreta che può assumere
l'infinità (numerabile) di valori diversi 0, 1, 2,... , è pari ad 1
0 0 0
( ; ) 1! !
x x
x x x
ef x e e e
x x
La media e la varianza sono date da
1
0 0 1 0
( ; )
! 1 ! !
x x y
x x x y
e e ex f x x x
x x x y
dove y=x-1.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
67
2 2 2
0 0
2 2
0 0 0
2
0
2
0 0
2 2
0
( ) ( ; ) ( )!
2! ! !
1 2 !
1 ( 1) 2 ! !
+ !
x
x x
x x x
x x x
x
x
x x
x x
y
y
ex f x x
x
e e ex x
x x x
ex x x
x
e ex x x
x x x x
e
y
dove y=x-2.
Dalle uguaglianze sopra riportate risulta che l’unico parametro caratterizzante la
distribuzione di Poisson coincide con la media e la varianza della variabile casuale
stessa.
I momenti possono essere più facilmente derivati se si considera la funzione
generatrice dei momenti:
1
0 0
1
1 0 0
21 1 2
2 0 02
2 2 2 2
2 1
( ) ( )! !
| |
| |
( )
tt
t
t t
xttx x
etX e
x
x x
e t
x t t
e et t t
x t t
ee em t E e e e e e
x x
dm t e e
dt
dm t e e e e e
dt
Var X
Esempio 1.19
Il dipartimento per il controllo di qualità della Shirt Manufacturing Company rileva che per
ciascuna spedizione di 10.000 magliette circa 5 vengono rimandate indietro in quanto
presentano delle imperfezioni nelle cuciture. L’azienda ha in programma 2 spedizioni ad un
cliente di New York. Qual è la probabilità che più di 10 magliette siano restituite per la
sostituzione?
p = probabilità di trovare una maglietta difettosa = 5/10.000 = 0,0005
n = numero totale di magliette prese in considerazione = 2×10.000 = 20.000
= numero medio di magliette difettose = n p 20.000×0.0005 = 10
x = numero di magliette difettose > 10
quindi:
10
0
1010
0
( 10) ( 11) ( 12) ... 1 ( 10) 1!
101 1 0,583 0,417 41,7%
!
x
x
x
x
eP x P x P x P x
x
e
x
.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
68
Esempio 1.20
Un grande centro commerciale vende diverse marche di apparecchi televisivi. Uno dei
principali problemi del responsabile degli acquisti consiste nel definire la quantità di televisori
di ciascuna marca da tenere come scorta di magazzino. Da una parte, infatti, vuole garantirsi
una quantità di scorte tale da soddisfare prontamente le richieste dei clienti, dall’altra vuole
evitare di immobilizzare troppo denaro in scorte di magazzino eccessive che, se non vendute in
tempi relativamente rapidi, rischiano di diventare obsolete. La principale difficoltà nel risolvere
tale problema consiste nell’ampia variabilità della domanda da un mese all’altro. Tutto ciò di
cui il manager è a conoscenza è il fatto che, sulla base dei dati storici, la domanda media
mensile ( ) è approssimativamente 17 unità.
Il manager si chiede, dunque, qual è la probabilità che la domanda il prossimo mese sia I)
inferiore o uguale alle 20 unità e II) sia compresa tra le 10 e le 15 unità.
1720 20
0 0
17( 20) 0,806 80.6%
! !
x x
x x
e eP x
x x
1715 15
10 10
17(10 15) 0,345 34.5%
! !
x x
x x
e eP x
x x
.
Distribuzione di Poisson come limite della distribuzione binomiale
La distribuzione di Poisson ha importanti applicazioni anche perché essa rappresenta
una conveniente approssimazione della distribuzione binomiale nel caso in cui il
numero delle prove n sia abbastanza elevato (in genere si assume 100n ) e la
probabilità che l'evento si presenti in una singola prova sia sufficientemente prossima
allo 0. L’approssimazione è giustificata in quanto si dimostra che la legge di
distribuzione di Poisson può essere derivata come limite della distribuzione Binomiale
nel caso in cui n tende ad infinito e p tende a 0, mentre il prodotto = n p rimane
costante.
La formula generale per la probabilità di x successi in n prove Bernoulliane, cioè in n
estrazioni casuali con ripetizione (eventi indipendenti) è rappresentata dalla v.c.
Binomiale
( ) ( ; , ) (1 )x n xn
f x f x n p p px
Si consideri la famiglia per cui il prodotto n p sia una costante . Se si pone = n p,
allora p = /n, sostituendo p = /n nella precedente espressione si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
69
!( ; , ) 1 1
! !
1 ! 1
! !
1 ( 1) ( 2).....( 1)( )! 1
! ( )! ......
x n x x n x
n x
x
x
n x
x
n nf x n
x n n x n x n n
n
x n x n n
n n n n x n x
x n x n n n n n
1 1 1 ...... 1
!
1 1 1 = 1 1 ...... 1 1
!
n x
x
n x
x
n n n x
x n n n n
x
x n n n
Per x costante si ha
1 1 1lim ( ; , ) lim 1 1 ...... 1 1
!
1 1 = lim 1 lim 1
! ! !
n x
x
n n
n x n xx x
n n
xf x n
x n n n
e
x n x n x
che è la funzione di massa di probabilità della v.c. di Poisson.
Allo stesso risultato si perviene ma in modo decisamente più rapido se si considerano
le funzioni generatrici dei momenti delle due v.c.; infatti
11
lim lim 1 lim 1t
nn t
n e t t
n n n
e p e q e e
n n n
Esempio 1.21
E’ noto che il 3% delle lampadine prodotte dalla Edison Light Company è difettoso. Un lotto
che ne contiene 1000 sta per essere inviato al cliente. Si calcola la media e la varianza delle
lampadine difettose usando I) una funzione di distribuzione di Poisson e II) una funzione di
distribuzione Binomiale.
Funzione di distribuzione di Poisson:
Media = 1000 0,03 30n p
Varianza = 302 pn
Funzione di distribuzione Binomiale:
Media = 3003.01000 pn
Varianza =2 1000 0,03 0,97 29.1n p q
Come si può osservare le due medie coincidono e le due varianze sono molto simili. Tale
risultato evidenzia la buona approssimazione della distribuzione Binomiale con la distribuzione
di Poisson nel caso incui p è molto vicina a zero ed n è abbastanza grande.
pnpnqpn 12.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
70
Esempio 1.22
Si supponga che la probabilità di ottenere una parte difettosa da un certo processo produttivo
sia pari a 0.02. Qual è la probabilità che un lotto di 200 pezzi prodotti ne contenga fino a 5
difettosi? Si calcola tale probabilità ricorrendo sia alla distribuzione Binomiale che alla
distribuzione di Poisson.
Distribuzione Binomiale:
5200
0
200( 5) 0,02 0,98 0,787 78,7%x x
x
P x x
Distribuzione di Poisson:
402.0200 pn
45
0
4( 5) 0,785 78,5% 78,7%
!
x
x
eP x
x
.
1.7.5 Distribuzione binomiale negativa
La distribuzione Binomiale Negativa si usa quando si è interessati al numero di
ripetizioni (prove) indipendenti necessario per ottenere k volte un certo evento
d’interesse (successo). Essa può essere derivata direttamente dalla distribuzione
Binomiale. Nella Binomiale il numero di prove n viene fissato in anticipo e la variabile
casuale è il numero di successi che si ottengono nelle n prove. Viceversa, la Binomiale
Negativa specifica in anticipo il numero k di successi che si vuole osservare, mentre la
variabile casuale diventa il numero di prove necessario per osservare il numero k di
successi prefissato. Quindi il fenomeno sotto osservazione è lo stesso per entrambe le
distribuzioni, ciò che cambia è l’evento d’interesse.
Indicando con X la v.c. numero di prove necessario per ottenere k successi (Ia
definizione) i valori che tale variabile può assumere sono k, k+1, k+2, ...., cioè
un’infinità di valori. Se si indica con p la probabilità di ottenere un successo in una
singola prova dell’esperimento e con (evento elementare) una possibile sequenza di
esiti (S indica un successo e I un insuccesso), si ha:
( )x k volte k volte
I I I I S S S
= (I I I I ..... I S S S .... S)
inoltre, essendo gli eventi associati alle singole sottoprove indipendenti, la probabilità di
è data da:
P() = P(I I I I ..... I S S S .... S) =
= kkx
voltekvoltekx
pqppppqqq
)(
.
Qualunque permutazione venga fatta tra i vari eventi in modo da avere sempre un
totale di x prove affinché si manifestino k successi, la probabilità dell’evento rimane
invariata ed è pari a pk(1– p)
x-k.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
71
Per ricavare la funzione di massa di probabilità della distribuzione Binomiale
Negativa basta conoscere il numero di possibili permutazioni che possono essere
effettuate in modo da ottenere k successi in x prove. Se sono richieste x prove per
ottenere k successi, allora devono verificarsi (k – 1) successi nelle prime (x – 1) prove;
inoltre, il k-esimo successo deve verificarsi all’x-esima prova (cioè l’ultima). Questo
equivale a dire che, con riferimento all’evento sopra riportato, il numero delle
possibili permutazioni si ottiene cambiando, in ogni modo possibile, l’ordine di tutti gli
eventi tranne l’ultimo. In altre parole, l’ultimo evento che si verifica deve essere sempre
il k-esimo successo: se questo si verificasse prima dell’x-esima prova vorrebbe dire che
il numero di prove necessario per ottenere k successi non è più x ma un valore inferiore.
Se si indica con k l’evento nel quale nelle prime x-1 prove si realizzano k-1
successi, la sua probabilità si può derivare facendo riferimento alla distribuzione
Binomiale nella quale su n=x-1 prove si realizzano k-1 successi
1 1 ( 1) 11 1
(1 ) (1 )1 1
k x k k x k
k
x xP p p p p
k k
La probabilità di successo nella x-esima prova è p, quindi, la funzione di massa di
probabilità della variabile casuale Binomiale negativa è data da:
( )1
( ) ( ; , ) (1 )1
k x kx
P X x f x k p p pk
, con x = k, k+1, k+2, k+3, ....
Infine, si può dimostrare che la media e la varianza della distribuzione Binomiale
Negativa sono date da:
1( )E X k
p ;
2 2
1( )
p k qVar X k
p p
.
Infatti:
( ) 1 ( )1
(1 ) (1 )1
k x k k x k
k k
x xk kE X x p p p p
k kp p
2 2 ( ) ( )
2
( ) ( )
2 ( )
2 2
1 1 (1 ) 1 (1 )
1 1
1 11 (1 ) (1 )
1 1
1 1 1 (1 )
1
k x k k x k
k k
k x k k x k
k k
k x k
k
x xE X x p p x x x p p
k k
x xx x p p x p p
k k
xk k k kkp p
kp p p
2 2 2
2 2 2 2 2 2
1
k
p
k pk k k k k k q
p p p p p p p
2 2
2
2 1 2 2 2 2
k k q k k qVar X
p p p p
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
72
Si osservi la ragionevolezza del risultato per cui il valore medio di tale variabile
casuale è l’inverso della probabilità che si verifichi l’evento “successo” nella singola
prova, moltiplicato per k. Infatti, se l’evento è raro, la probabilità p è molto bassa,
pertanto, occorrerà attendere mediamente un numero piuttosto elevato di prove prima
che si verifichi per k volte. Viceversa, se l’evento in questione possiede una probabilità
p elevata, allora il numero di prove necessarie perché si verifichi per k volte sarà
mediamente più basso.
Una delle tante applicazioni della distribuzione Binomiale Negativa è relativa a certi
problemi di attesa. Si supponga, ad esempio, che in un processo di produzione
automatico in ogni secondo viene prodotta una parte del macchinario, la parte viene
controllata automaticamente e, quindi, gettata in un recipiente in caso risulti difettosa.
Essendo p la probabilità di ottenere una parte difettosa (successo) e k il numero di parti
difettose che il recipiente è in grado di contenere, allora la lunghezza di tempo (in
secondi) prima che il recipiente sia riempito e debba essere sostituito con uno vuoto è X,
dove X segue la distribuzione Binomiale negativa con parametri k e p e rappresenta il
numero totale di pezzi difettosi (cioè, il numero totale di prove) necessari per ottenere il
k-esimo pezzo difettoso.
Esempio 1.23
Si supponga che, in base ai dati storici, risulti che un istituto di credito concede in media un
prestito ogni cinque richieste che gli pervengono (p = 0,20). Il credit manager della banca
vorrebbe conoscere qual è la probabilità che, in una tipica giornata, egli debba valutare 5
richieste di finanziamento (quindi x = 5) e, tra queste, 2 risultino idonee (k =2). E’ implicito che
la seconda approvazione avvenga per la quinta ed ultima richiesta di finanziamento analizzata,
altrimenti il manager non dovrebbe valutare 5 richieste. Indicando con A le richieste di
finanziamento approvate e con R quelle rifiutate si ottengono le seguenti possibili sequenze con
le rispettive probabilità:
Sequenze Probabilità
A R R R A 0,2 0,8 0,8 0,8 0,2 = 0,02048
R A R R A 0,8 0,2 0,8 0,8 0,2 = 0,02048
R R A R A 0,8 0,8 0,2 0,8 0,2 = 0,02048
R R R A A 0,8 0,8 0,8 0,2 0,2 = 0,02048
Totale 0,02048 4= 0,08192 = 8,192%
Allo stesso risultato si giunge applicando direttamente la funzione di probabilità della
distribuzione Binomiale Negativa. Infatti, posto x= 5, k = 2 e p = 0,20 si ottiene:
2 5 25 1 4!
( 5) 0,20 0,8 0,04 0,512 0,08192 8,20%2 1 3! 1!
P X
.
Esempio 1.24
Dalla precedente esperienza si sa che un’azienda è in grado di produrre il 90% dei suoi
prodotti (lamine di acciaio) entro i limiti di accettabilità dell’ampiezza del diametro. In vista
del controllo periodico il responsabile della qualità decide di fermare il processo produttivo ed
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
73
effettuare un’ispezione completa di tutti i macchinari nell’ipotesi in cui da un campione di 7
lamine ne risultino 3 difettose prima che ne siano prodotte 4 accettabili. Qual è la probabilità
che il processo produttivo venga interrotto?
Sia x = 7, k = 4 e p = 0,90, allora:
4 7 47 1 6
( 7) 0,9 0,1 0,6561 0,001 0,0131 13,1%4 1 3
P X
.
Esempio 1.25
Un’azienda che svolge servizi di soccorso stradale sa, sulla base dei dati storici, che circa il
45% di tutte le chiamate di soccorso che le pervengono richiedono l’intervento di un carro
attrezzi. Al momento l’azienda ha 9 carri attrezzi disponibili e 18 chiamate di soccorso in
attesa. Qual è la probabilità che le 18 chiamate siano completate prima che i 9 carri attrezzi
siano utilizzati? Per x = 18, k = 9 e p = 0,45, si ha:
9 18 918 1
( 18) 0,45 0,55 0,0847 8,47%9 1
P X
.
La funzione X sopra definita fa corrispondere a ciascun punto campionario il
numero delle prove necessarie per ottenere k successi, dal che risulta che la v.c. X
così definita potrà assumere i valori k, k+1, k+2,.... +. Una diversa definizione è
quella di non considerare il numero delle prove necessarie per ottenere k successi ma il
numero delle prove necessarie prima di ottenere k successi (IIa definizione), in tal
caso la v.c. X così definita potrà assumere i valori 1, 2, 3,…, + .
Una ulteriore possibile definizione della distribuzione binomiale negativa (IIIa
definizione) è quella di definire X come il numero di insuccessi necessari per
ottenere k successi. In questo caso la v.c. risultante può assumere i valori 0, 1, 2,……,
+, cioè tutti i numeri naturali da zero a + ed ha funzione di massa di probabilità pari
a :
1 1
( ) ( ; , ) (1 ) xk x k x k
k x k x kP X x f x k p p p p q p q
x x x
dove,
1 2k k ( k ) k
x x ! n - x !
espressione questa che da ragione anche della denominazione di distribuzione binomiale
negativa.
L'uguaglianza tra gli ultimi termini della relazione sopra scritta deriva
dall'uguaglianza
1
1xk x k
x x
.
Infatti
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
74
1 ! 1 !1
! 1 !! 1 !
x k x kx k
x kx x k xx
1 1 1 1 2 1 1 1 !
! 1 !
x k k k x k x k x x k x
x k
1 1 1 1 2 1 2 1 1
!
x valori
x k x k x k x k x x k x
x
Riscrivendo l’espressione precedente invertendo l’ordine degli x termini al
numeratore:
1 3 2 1
!
k k k x k x k x
x
Se si moltiplicano gli x termini per -1, si ottiene:
1 1 3 2 11
!
x
x kk k k x k x k x
xx
La funzione generatrice dei momenti della v.c. binomiale negativa in questa terza
formulazione è:
t
t0 0
1 e1 e
kx kxtX xt k k t k
x
x x
k k pm t E e e p q p e q p q
x x q
Risultato che deriva dalla relazione
0
1 k x
t t
x
ke q e q
x
che si ottiene dallo sviluppo del binomio di Newton
0
n x n x
x
na b a b
x
per ed ta e q n k .
Ricorrendo alla funzione generatrice dei momenti si determinano facilmente media e
varianza della distribuzione.
1 0
2 2 2
2 02 2 2
2 2 2 22 2
2 1 2 2 2 2
|
|
x t
x t
d k qμ m t
dt p
d k q k qμ m t
dt p p
k q k q k q k qVar(X) σ μ μ
p p p p
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
75
1.7.6 Distribuzione geometrica (di Pascal)
Nell’ipotesi in cui, nella distribuzione Binomiale negativa, il numero k di successi
desiderato sia pari ad 1, si parla di distribuzione Geometrica o distribuzione di Pascal.
Quindi, quest’ultima non è altro che un caso particolare della Binomiale negativa
quando k = 1 ed indica il numero di prove necessarie prima di ottenere un successo, o il
numero di insuccessi prima di ottenere un successo.
La distribuzione di probabilità della v.c. Geometrica risulta utile in diverse
situazioni. Per esempio, per certi tipi di macchinari è noto che la probabilità p di rottura
(successo) è la stessa ogni volta che il macchinario viene impiegato e non aumenta
all’aumentare del numero di volte in cui il macchinario è stato utilizzato in precedenza.
La qualità di un macchinario così fatto è, dunque, determinata da p: quanto più p è
basso tanto più il macchinario è affidabile. Un metodo per controllare un macchinario di
questo tipo è utilizzarlo finché si manifesta la prima rottura, cioè calcolare la probabilità
che la rottura avvenga alla x-esima prova, dato un livello di probabilità pari a p.
Un altro esempio di applicabilità della distribuzione Geometrica si può rilevare nel
settore creditizio. Il responsabile per la concessione di prestiti di una banca deve tenere
conto del fatto che non può permettersi di concedere troppi prestiti che potrebbero non
andare a buon fine (per i quali, cioè, il cliente non sarà in grado di pagare gli interessi
e/o di restituire il capitale ottenuto a prestito). D’altra parte è altresì vero che è
praticamente impossibile concedere prestiti del tutto esenti da rischio. Indicando
semplicemente con positivo/negativo l’esito che un qualsiasi prestito può avere e con p
la probabilità che venga concesso un prestito che avrà esito negativo6, il responsabile
per l’erogazione dei finanziamenti è in grado di determinare per ogni cliente la
probabilità che il prossimo prestito che gli sarà concesso avrà esito negativo, avendo
egli già onorato con esito positivo i precedenti 5, 10, 50, ... prestiti concessi in passato.
1.7.7 Variabili casuali discrete: riepilogo
Prima di procedere con l’esposizione delle principali variabili casuali continue, si riepilogano
le caratteristiche e le propprietà delle variabili casuali discrete considerate.
V.c. di Bernoulli
Descrizione: numero di successi in una sola prova
Parametro caratteristico: p = probabilità di ottenere un successo
Supporto della v.c. X: x 0, 1
La prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di prove è fisso, pari ad 1
Funzione di massa di probabilità:
f(x) = f(x;p) = 1 11
xx x xp p p q
6 La probabilità p non deve essere né troppo alta né troppo bassa: nel primo caso la banca rischierebbe di perdere
troppo denaro, nel secondo caso, invece, si comporterebbe in maniera eccessivamente conservativa e non avrebbe la
possibilità di spuntare margini di guadagno elevati.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
76
E X p
Var(X) pq
t
xm t p e q
V.c. Binomiale
Descrizione: numero di successi in n prove indipendenti (campionamento con
ripetizione)
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova;
n, numero delle prove
Supporto della v.c. X: x 0, 1, 2, …., n
Ogni prova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
La probabilità dell’evento “successo” è costante in tutte le sottoprove
Il numero di sottoprove è fisso, pari ad n
Funzione di massa di probabilità:
f(x) = f(x;n,p) = 1n xx x n x
n np p p q
x x
E X n p
Var(X) n p q
n
t
xm t p e q
V.c. Ipergeometrica
Descrizione: numero di successi in n prove (campionamento senza ripetizione)
Parametri caratteristici: n, numero delle prove; K, numero di eventi “successo”
possibili; N, numero totale di eventi (successi e insuccessi) possibili
Supporto della v.c. X: x max(0, n – N + K), min (n, K)
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il risultato di una sottoprova modifica la probabilità (condizionata) di successo nelle
sottoprove successive
Il numero di sottoprove è fisso, pari ad n
Funzione di massa di probabilità:
( ) ( ; , , )
K N K
x n xf x f x n K N
N
n
per max [ 0,n - (N - K) ] x min [n, K]
1
E X n p
N nVar(X) n p q
N
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
77
V.c. di Poisson
Descrizione: numero di successi in un ambito predefinito (di tempo o di spazio)
Parametro caratteristico: , che indica sia la media che la varianza della variabile
casuale
Supporto della v.c. X: x 0, 1, 2,…., +∞
Il tasso medio di occorrenza dell’evento E è costante
La manifestazione di ciascun evento è indipendente in ambiti che non si sovrappongono
La probabilità di due o più manifestazioni degli eventi in ambiti che si sovrappongono
tende a zero.
Funzione di massa di probabilità:
!);()(
x
exfxf
x
E X
Var(X)
1( )
te
xm t e
V.c. Binomiale negativa
- Prima definizione
Descrizione: numero di prove occorrenti perché si verifichino k successi
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola
sottoprova; k, numero prefissato di successi che si desidera di ottenere
Supporto della v.c. X: x k, k+1, k+2,…, +
Ogni sottprova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di sottoprove non è fisso, ma coincide con la v.c. X
L’esperimento termina al verificarsi del k-esimo successo
Funzione di massa di probabilità:
( )1
( ) ( ; , ) (1 )1
k x kx
P X x f x k p p pk
2
kE X
p
k qVar(X)
p
- Terza definizione
Descrizione: numero di insuccessi prima di ottenere k successi
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola
sottoprova; k, numero prefissato di successi che si desidera ottenere
Supporto della v.c. X: x 0, 1, 2,…, +
Ogni sottoprova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di sottoprove non è fisso, ma coincide con la v.c. X
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
78
L’esperimento termina al verificarsi del k-esimo successo
Funzione di massa di probabilità:
( ) ( ; , ) xk
kP X x f x k p p q
x
2
k qE X
p
k qVar(X)
p
t1 e
k
x
pm t
q
V.c. Geometrica
Descrizione: numero di sottoprove occorrenti perché si verifichi un successo, od anche,
numero di insuccessi prima di ottenere un successo
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola
sottoprova
Supporto della v.c. X: x 1, 2,…, + , nel caso in cui si considera il numero delle
sottoprove necessarie per ottenere un successo, x 0, 1, 2,…, + nel caso in cui si
considera il numero di insuccessi prima di ottenere un successo.
Ogni sottoprova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di sottoprove non è fisso, ma coincide con la v.c. X
L’esperimento termina al verificarsi del primo successo
Quando si considera il numero delle sottoprove necessarie per ottenere un successo
2
1
E Xp
qVar(X)
p
Quando si considera il numero degli insuccessi necessari per
ottenere un successo
2
t
1 e
x
qE X
p
qVar(X)
p
pm t
q
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
79
1.8 - Variabili casuali continue
1.8.1 Distribuzione normale (di Gauss-Laplace)
La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata
la più importante tra le distribuzioni continue, soprattutto per le seguenti ragioni:
una vasta serie di esperimenti casuali ha associata una variabile casuale la cui
distribuzione è approssimativamente normale;
alcune variabili casuali, che non sono distribuite normalmente, possono essere
rese tali mediante trasformazioni relativamente semplici;
alcune distribuzioni, relativamente complicate, possono essere approssimate
sufficientemente bene dalla distribuzione normale;
alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi
statistiche o per la determinazione di intervalli di stima, o sono distribuite
normalmente o derivano da tale distribuzione.
Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure
notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo
fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e
che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i
fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che
svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel “teorema
del limite centrale” o “teorema centrale del limite”; di questo teorema si tratterà in
seguito.
La funzione di densità di probabilità della distribuzione normale è 2
1
2 2
2
1( ) ( ; , )
2
x
f x f x e
per - x +
Ovviamente
2( ; , ) 1f x dx
.
Si controlla facilmente che la distribuzione normale è simmetrica e che ha il massimo
nel punto x = . Si dimostra, inoltre, che i due parametri caratteristici e 2
corrispondono proprio alla media (momento primo rispetto all’origine) e alla varianza
(momento secondo rispetto alla media) della distribuzione.
2( ; , ) x f x dx
2 2 2( ) ( ; , ) x f x dx
Per dimostrare che il valor medio (momento primo rispetto all’origine) della v.c.
Normale è uguale al parametro e la varianza al parametro 2 risulta conveniente
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
80
introdurre la funzione generatrice dei momenti della quale si farà anche largo uso nelle
pagine successive.
22
2 22 4 2 4 2 2 22 22
1/2
1 2 /2/22
1( )
2
1 1 e
2 2
xt X t xtX t t
x
x t x t t x tt t t
m t E e e E e e e e dx
e dx e e dx
ma
2
2 2/21
2
x te dx 1
infatti, effettuando la trasformazione 2
, x t dx
z dz dx dz
si ha
2
2 2 2 /2 /21 1
2 2
x t ze dx e dz A
2 22 2 /22 /2 /2
se si considera la relazione
1 1 1
22 2
e si effettua la trasformazione in coordinate polari
z vz vA e dz e dv e dz dv
2 2 2 2 2 22 /2 /22
0 0
2
0
e
si ha
1 1 ,
2 2
1
2
z v r cos r sen
z r cos v r sen
A e dz dv e J r dr d
2 22 /2 /2
0 0
2 2
1 1
2
si ricorda che , rappresenta lo Jacobiano della trasformazione
-
,
r re r dr d e r dr A = 1
J r
z z
cos θ r senrJ r r cos sen
v v sen r cos
r
1r r
quindi
2/22
)( tt
x etm
inoltre
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
81
2
2
1
/2 2
2
1 1 1
2 2
dove è stata operata la trasformazione
1 .
x
zA e dz e dx
xz x z dz dx
Derivando la funzione generatrice dei momenti in t=0 si ottengono i momenti di
interesse.
2 2 2 2
2 2 2 2
/2 /2 2
1 0 0 0
22
/2 2 /2 2 2 2
2 0 02
2 2 2 2 2 2
2 1
| | |
| |
t t t t
x t t t
t t t t
x t t
d dμ m t e e t
dt dt
dμ m t e t e
dt
Var(X) σ μ μ
Queste relazioni provano quanto sopra affermato; cioè, che i parametri caratteristici
µ e 2 rappresentano, rispettivamente, la media e la varianza della distribuzione
normale.
Il momento terzo ed il momento quarto standardizzati (indice di simmetria e indice di
curtosi) sono dati rispettivamente, da: 3
2
1 3 ( ; , ) 0x
f x dx
4
2
2 4 ( ; , ) 3x
f x dx
Ovviamente, essendo la distribuzione normale simmetrica, l’indice 1 assume valore
zero. In altre distribuzioni l’indice assume, invece, valore negativo in caso di
asimmetria a sinistra, valore positivo in caso di asimmetria a destra, della distribuzione
(cfr. Fig. 1.5).
Mentre l’asimmetria è definita in termini assoluti, la curtosi è un concetto relativo;
infatti, si può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa
riferimento alla distribuzione normale. Essendo per quest’ultima distribuzione il valore
assunto dall’indice di curtosi pari a 3, si dirà platicurtica la distribuzione con valore
dell’indice 2 inferiore a 3, leptocurtica la distribuzione con valore dell’indice
2
maggiore di 3 (cfr. Fig. 1.5).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
82
Fig. 1.5 - Forma delle distribuzioni
Se si considera la funzione di distribuzione della variabile casuale normale
2
2
1
2
2
1
2
(y μ)xσF(x) P(X x) e dy
πσ
e si effettua la trasformazione (standardizzazione) Z =
x si ha
F(z) = P(Z z) = 21
21
2
z y
e dy
i cui valori sono stati tabulati.
Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno valore
medio nullo e varianza pari ad uno.
Tenendo presente che
bZ
aP
bXaPbXaPaFbF )()()(
Se si pone a = (µ e b = (µ + si ha, utilizzando le tavole della distribuzione
normale standardizzata, che
P (µ < X µ + ) = P(1 < Z 1) 0,68
per a = (µ 2 e b = (µ + 2 si ha
P (µ 2 < X µ + 2) = P(2 < Z 2) 0,955
per a = (µ 3 )e b = (µ + 3 si ha
P (µ 3 < X µ + 3) = P(3 < Z 3) 0,997
Asimmetria negativa
1 < 0
Asimmetria positiva
1 > 0
Me Me Mo Mo
Distribuzione leptocurtica
2 > 3
Distribuzione normale
2 = 3
Distribuzione platicurtica
2 < 3
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
83
Le relazioni sopra scritte portano a concludere che per qualunque variabile casuale
normale:
circa i due terzi dei valori sono contenuti nell'intervallo
( ), ;
circa il 95% dei valori sono contenuti nell'intervallo
( 2 ), 2 (µ 2µ + 2;
circa il 99,7% dei valori (praticamente tutti) sono contenuti nell'intervallo
( 3 ), 3 .
I valori soglia per le probabilità 0,95, 0,99 e 0,999 sono, rispettivsmente, 1,96, 2,58 e
3,29
P (µ 1,96 < X µ + 1,96 ) = 0,95
P (µ 2,58 < X µ + 2,58 ) = 0,99
P (µ 3,29 < X µ + 3,29 ) = 0,999.
Esempio 1.25
Sia X una variabile casuale normale di media µ = -2 e varianza 2 = 0,25; si vuol determinare
il valore della costante c in modo da soddisfare le relazioni:
a) P (X c) = 0,2; b) P (c X 1) = 0,5;
c) P (c X c) = 0,95; d) P (2c X 2+c) = 0,9.
Utilizzando la tavola in cui sono riportati i valori della funzione di distribuzione della variabile
casuale normale standardizzata, si ottengono i seguenti risultati:
2,0
5,0
21
5,0
21
5,0
2)()
cF
cZP
cZP
cXPcXPa
579,1842,05,0
28,0
5,0
2
c
ccZP
2 1 2 2 2
) ( 1) 2 20,5 0,5 0,5 0,5
c X c cb P c X P P Z P Z P Z
0285,2057,05,0
24772,0
5,0
25,0
5,0
2)2(
c
ccF
cFF
2 2 2 2 2) ( ) 2 0,5
0,5 0,5 0,5 0,5 0,5
c X c c c cc P c X c P P Z P Z
02,196,15,0
2975,0
5,0
295,01
5,0
22
c
ccF
cF
) ( 2 2 ) ( 2 ) ( 2 )
0,5 0,5 0,5 0,5
c X c c cd P c X c P P Z P Z c P Z c
823,0645,129,0)2()2( cccFcF
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
84
Esempio 1.26
Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere un
determinato spessore e che la produzione subisca delle piccole variazioni (in termini di
spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte,
può essere convenientemente rappresentato mediante un modello probabilistico di tipo
normale. Sia X la variabile casuale normale che interessa e si ammetta di conoscere la sua
media µ = 10 mm. e la sua varianza σ 2 = 0,0004. Si vuol determinare la percentuale attesa di
lamine difettose supposto che:
a) siano difettose le lamine con spessore inferiore a 9,97 mm.;
b) siano difettose le lamine con spessore superiore a 10,05 mm.;
c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm.
Usando la tavola della distribuzione normale si ottengono i seguenti risultati:
a) 067,0)5,1(02,0
1097,9)97,9(
FFXP
b) 006,002,0
1005,101)05,10(1)05,10(
FXpXP
c) P (X < 9,97) + P (X > 10,03) = 1 P (9,97 X 10,03) = 1 P (X 10,03)
+ P (X < 9,97) = 1 F
02,0
1097,9
02,0
1003,10F = 0,13.
Esempio 1.27
La Goodstone Tire Company produce 2 milioni di pneumatici l’anno. Basandosi sui risultati di
precedenti esperimenti, i manager dell’azienda hanno accertato che ciascun pneumatico è in
grado di percorrere una media di 40.000 km con una deviazione standard di 10.000 km. E’
politica dell’azienda sostituire gratuitamente ogni pneumatico che duri meno di 28.000 km,
riconoscendo inoltre un risarcimento di 5,00 € al cliente. Assumendo che il pneumatico medio
abbia una distribuzione normale:
I) Qual’è la probabilità che venga prodotto un pneumatico che duri almeno 55.000
km? Quanti pneumatici di questo tipo saranno prodotti ogni anno?
II) Quanti pneumatici aventi una vita media compresa tra 25.000 km e 35.000 km
saranno prodotti in un anno?
III) Qual’è il costo annuo atteso per i risarcimenti?
IV) Assumendo che un cliente acquisti un pneumatico che si colloca nel miglior 5% a
livello di qualità, quanti km ci si può aspettare che faccia?
Utilizzando le tavole della distribuzione Normale standardizzata si ottengono i seguenti
risultati:
I)
55000 40000
( 55000) 1,5 1 1,5 1 0,9332 0,066810000
P X P Z P Z P Z
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
85
Quindi, la probabilità che un pneumatico sia in grado di percorrere almeno 55.000 km è pari al
6,68%. In un anno saranno prodotti 2.000.000 0,0668 133.600 pneumatici di questo tipo.
II)
Per x = 35.000 z = (35.000-40.000)/10.000 = - 0,5
Per x = 25.000 z = (25.000 – 40.000)/10.000 = - 1,5
Quindi,
25.000 35.000 ( 1,5 0,5) ( 0,5) ( 1,5) 0,3085 0,0668 0,2417P X P Z F F
Di conseguenza, saranno prodotti 400.4832417,0000.000.2 pneumatici l’anno con una
capacità di uso compresa tra i 25.000 e i 35.000 km.
III)
La probabilità che un pneumatico abbia una durata di vita inferiore ai 28.000 km è data,
analogamente ai casi appena visti, da:
1151,0)2,1(000.10
000.40000.28000.28
ZPZPXP
Perciò il costo totale che l’azienda dovrà sostenere per il risarcimento è pari a:
000.151.100,51151,0000.000.2 €
IV)
65,195,005,01)(05,0)(1)()( zzZPzZPzZPxXP
40.0001,65 10.000 1,65 40.000 56.500
10.000
xz x km
Quindi, ci si può aspettare che un pneumatico che si colloca nel miglior 5% percorra almeno
56.500 km.
Esempio 1.28
L’Ufficio del Personale dell’azienda Beta sta riconsiderando la sua politica di assunzione.
Ciascun candidato per un certo lavoro deve superare un esame tecnico e psico-attitudinale
iniziale. Da un’analisi svolta si è rilevato che i punteggi conseguiti dai vari candidati si
distribuiscono normalmente con media pari a 525 e deviazione standard pari a 55.
L’attuale politica di assunzione si svolge in due fasi. Durante la prima fase i candidati vengono
separati in tre categorie: candidati automaticamente accettati, candidati automaticamente
rifiutati, candidati incerti. L’accettazione automatica si ha quando il punteggio conseguito è
perlomeno pari a 600; il rifiuto automatico si ha quando il punteggio conseguito non supera
425. In merito agli incerti, il responsabile del personale procede alla seconda fase della
selezione, basando la sua scelta su vari elementi, quali eventuali precedenti esperienze di
lavoro, attitudini e conoscenze particolari ecc.
Il responsabile del personale dell’azienda Beta vuole conoscere:
I) la percentuale di candidati che automaticamente vengono accettati o rifiutati;
II) vuole conoscere come varierebbero i punteggi di discriminazione, nel caso in cui si
decida di accettare automaticamente il 15% dei migliori candidati e di rifiutare
automaticamente il 10% dei peggiori.
Indicando con X la v.c. punteggio conseguito e rifacendosi alle tavole della distribuzione
Normale standardizzata, si ottengono le seguenti soluzioni:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
86
I)
%45,3)82,1(55
525425)425(
ZPZPXP
%63,8)36,1(1)36,1(55
525600)600(
ZPZPZPXP
Quindi, il 3,45% circa dei candidati sarà automaticamente rifiutato, mentre l’8,63% sarà
automaticamente accettato.
II)
4555255527,127,110,0)(55
525)(
xzzZP
xZPxXP
85,0)()(115,0)(55
525)(
zZPzZPzZP
xZPxXP
1,04 1,04 55 525 582z x .
Pertanto, se l’azienda Beta vuole incrementare sia il numero di candidati accettati
automaticamente (dall’8,63% al 15%) che quello dei candidati rifiutati automaticamente (dal
3,45% al 10%) dovrà restringere l’intervallo degli “incerti” innalzando il punteggio limite del
rifiuto automatico da 425 a 455 e abbassando il punteggio dell'accettazione automatica da 600
a 582.
Esempio 1.29
Da un’indagine di mercato risulta che circa il 70% dei clienti adulti che entrano in un grande
magazzino effettua un acquisto. Per verificare questo dato, il management di un certo centro
commerciale seleziona casualmente 200 adulti all’uscita del negozio chiedendo loro se hanno
effettuato almeno un acquisto. Assumendo l’affidabilità del dato acquisito dalla ricerca di
mercato, calcolare la probabilità che almeno 150 soggetti del campione selezionato abbiano
effettuato un acquisto?
Indicando con X la v.c. numero di clienti che hanno effettuato almeno un acquisto, allora X ha
una distribuzione Binomiale con parametri n = 200 e p = 0,70. La probabilità ricercata si
ottiene dalla relazione
200200
150
200( 150) 0,70 0,30x x
x
P Xx
Ricorrendo all’approssimazione tramite la v.c Normale, di media 14070,0200 np e
deviazione standard (1 ) 200 0,7 0,3 6,5np p , si ha:
54,15,6
140150
z
( 1,54) 1 ( 1,54) 1 0,9382 6,18%P Z P Z
Quindi, la probabilità che almeno 150 clienti tra i 200 selezionati casualmente abbiano
effettuato almeno un acquisto all’interno del centro commerciale è pari al 6,18% che
costituisce una buona approssimazione al vero valore che è pari al 6,95%.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
87
1.8.2 Teorema del limite centrale
La versione proposta in queste note è quella usualmente attribuita a Lindberg-Levy.
Teorema del limite centrale - Sia X1, X2, …, Xn, … una successione di variabili casuali
indipendenti ed identicamente distribuite (i.i.d.) di media e varianza 2 > 0 finita;
si consideri la variabile casuale (media aritmetica dei primi n elementi della
successione)
n
i
in Xn
X1
1
che avrà valore medio e varianza, rispettivamente, )( nXE e ,)(2
nXVar n
allora
la variabile casuale standardizzata
n
XZ n
n/
per n + tende alla distribuzione normale (standardizzata).
Dimostrazione
Si indichi con 2
2
t
m t e la funzione generatrice dei momenti della v.c. Normale
standardizzata e con nzm t la funzione generatrice dei momenti di Zn. si vuol
dimostrare che nzm t tende a m(t) al crescere di n.
Per l’indipendenza delle v.c. Xi, vale
1
1
1 1
( ) ( ) exp exp exp/ / /
exp exp/
n
n
n
i nnt Z ii
z
i
n ni i
i i
XX t X
m t E e E t E t Enn n n
t X t XE E
n n n
Se si pone Yi = (Xi - )/ , la funzione generatrice dei momenti di Yi, cioè ym t , è
indipendente da i poiché tutti gli Yi hanno la stessa distribuzione. Quindi
1 1 1
( ) exp expn
nn n n
iz i z z
i i i
t X t t tm t E E Z m m
n n n n
La se si considera lo sviluppo in serie della funzione generatrice dei momenti della
variabile casuale
XZ
n
si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
88
2 3
1 2 3
2 3 2 3 2 2
33 3
2 3 33 3
1 1( ) exp 1 ....
2! 3!
1 ..... 1 ..... 1
2 2 22! 3! 3!
z
t X t t tm t E
n n n n
t t t t t t
n n nn n n
o
dove 2
2
t
n
o rappresenta per n un infinitesimo di ordine superiore a 2
2
t
n, da cui
2 2 ( ) 1
2 2n
nn
z z
t t tm t m
n nn
o
dove 2 2
, per , sta ad indicare un infinitesimo di ordine superiore a 2 2
t tn
n n
o ,
quindi
2
2 2 2
2
lim lim 1 lim 12 2 2n
n n t
zn n n
t t tm t e
n n n
o
ma
2
2
t
e è la funzione generatrice dei momenti della v.c. normale standardizzata, quindi,
la v.c. Zn , per n ha la stessa funzione generatrice dei momenti della v.c.
normale standardizzata, cioè, stessa funzione di distribuzione e stessa funzione di
densità.
In altre parole, il teorema del Limite Centrale afferma che, se si dispone di variabili
casuali indipendenti X1, X2, …, Xn, …, ognuna con la stessa distribuzione dotata di
media e varianza, allora la variabile casuale 1
n i
i
X Xn
ha, per n abbastanza grande,
una distribuzione approssimativamente normale con media e varianza n
2 . La
bontà dell’approssimazione dipende dal tipo di distribuzione comune. L’elemento
essenziale da osservare è che non importa quale distribuzione comune abbiano le v.c.
X1, X2, …, Xn, …, purché esse abbiano una media ed una varianza finite e siano
indipendenti.
Quindi, ogni volta che un fenomeno reale può essere interpretato come la somma
oppure la media di un gran numero di cause indipendenti, nessuna delle quali ha la
prevalenza sulle altre, è ragionevole attendersi che la distribuzione di probabilità di quel
fenomeno sia approssimabile mediante la distribuzione della v.c. Normale. Per es., il
punteggio che si riceve sottoponendosi ad una serie numerosa di test a risposta multipla
è la risultante di numerose cause, tra cui: la preparazione generale del soggetto, la
conoscenza degli argomenti specifici selezionati dall’esaminatore, l’attitudine verso la
materia, i fattori psicologici ecc. Anche se difficili da quantificare, questi effetti
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
89
determinano con pesi differenti l’esito e il voto finale che si distribuisce
approssimativamente come una v.c. Normale.
In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella
in cui non si richiede più che le variabili casuali della successione abbiano identica
distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi
generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) =
(i) e le varianze 0)( 2 iiXVar siano finite. In questo caso, naturalmente, la
variabile che tende alla variabile casuale normale standardizzata è
n
XZ n
n/
dove:
n
i
i
n
i
in
i
in en
Xn
X1
22
1
)(
1
1,
1 .
1.8.3 Distribuzione log-normale
La distribuzione log-normale denominata anche distribuzione di Galton è definita nel
semiasse reale positivo con funzione di densità di probabilità
2
2
log
2 2 1
( ; , ) 2
y
f y ey
2per 0 , 0 e 0y
doveXY e e X è una v.c. normale con media 2 e varianza .
Anche se la v.c. log-normale ha momenti rispetto all’origine di qualunque ordine, la
funzione generatrice dei momenti è infinita t Y
ym t E e per qualunque t > 0 .
La funzione caratteristica
2 2 / 2
0
!
n
i t Y n n
y
n
i tm i t E e e
n
consente la facile derivazione dei momenti di qualunque ordine7
7 Si richiamano due significative proprietà di questa v.c.:
1. Poiché il logaritmo di una v.c. log-normale è simmetrico ed i quantili sono invarianti rispetto a
trasformazioni monotone, la media geometrica e la mediana della v.c. log-normale sono uguali.
2. A ragione della mancata convergenza della funzione generatrice dei momenti della v.c log-normale (non
esiste), l’insieme di tutti i momenti non identificano univocamente la variabile stessa.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
90
2 2
2 2 2
2 2
2
/2
0 0
0
2
/2 2 2 /2
0
2 22 /2
0 02 2
0
22 /2 2
2
| |
!
1 |
2!
| |
!
1
2!
n
n n
y t t
n
t
n
n n
y t t
n
i td dE Y m i t e
dit dit n
i tdi t e e e
dit
i td dE Y m i t e
nd it d it
i tdi t e e
d it
2 2
22 2 2
2 2 2
0
2 /22 2 2 2
2 1
|
1 .
t e
Var Y e e e e
Gli ambiti applicativi di questa distribuzione sono molto numerosi, da quello
economico a quello medico, da quello idrologico a quello demografico. Hanno
distribuzione log-normale il reddito, gli indici di borsa, i tassi di cambio, gli indici dei
prezzi, la dimensione delle città e delle imprese, i valori massimi mensili e annuali delle
piogge, alcune misure relative allo stato di salute degli individui quali la pressione
sanguigna il peso, distintamente per donne e uomini, ecc.
1.8.4 Distribuzione di Cauchy
Un’altra interessante distribuzione, soprattutto per le sue caratteristiche analitiche
negative è la distribuzione di Cauchy o anche di Cauchy-Lorentz; in statistica è spesso
trattata come esempio di distribuzione “patologica”.
La v.c. di Cauchy non ha funzione generatrice dei momenti, la sua media (momento
primo rispetto all’origine) non esiste e la sua varianza è infinita. La funzione di densità
di probabilità di questa variabile è
2 2
1( ; , )f x
x
per , e 0.x
Per α = 0 e β = 1 si si ottiene la distribuzione di Cauchy nella sua forma standard
2
1( ;0,1) .
1f x
x
La funzione caratteristica della distribuzione di Cauchy è
| |
2 2
1 = .i t X i t x i t t
xm i t E e e dx ex
La rilevanza applicativa della v.c. di Cauchy è da attribuire soprattutto ai lavori di
Lorentz in ambito fisico.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
91
1.8.5 Distribuzione gamma
La distribuzione gamma viene utilizzata nella generalità dei casi come modello per
descrivere fenomeni dipendenti dal tempo o, in termini più generali, per fenomeni di
durata (di vita, di resistenza, di funzionamento ecc.). Essa può essere più facilmente
compresa se si fa riferimento alla distribuzione discreta di Poisson. Infatti, nella
distribuzione di Poisson la variabile casuale X rappresenta il numero di successi,
mentre lo spazio di riferimento è fissato (unità di tempo o di spazio o di volume).
Viceversa, nella distribuzione continua gamma la variabile casuale diventa lo spazio di
riferimento, mentre il numero di successi è fissato. In altri termini, mentre la Poisson
fornisce la probabilità che x successi si manifestino in un certo intervallo di tempo (o di
spazio o di volume), noto il numero medio di successi = β per unità di tempo (o di
spazio o di volume), la distribuzione gamma fornisce la probabilità che un tempo X = x
sia necessario affinché si manifesti un certo numero prefissato α di successi, noto il
tasso di manifestazione β di successi per unità di tempo. I parametri della distribuzione
gamma sono, quindi, due: il numero α di successi che si desidera ottenere e il tasso di
manifestazione medio β di successi per unità di tempo.
La funzione di densità di probabilità della v.c. gamma è data da:
11
( ; , )( )
x
f x x e
0 e 0 ,0per x
dove
1
0
( ) xx e dx
Procedendo ad una integrazione per parti si dimostra facilmente l’uguaglianza
( ) 1 ( 1)
Inoltre, se α è un numero intero si ha ( ) 1 ! , (1) 0! 1 e (1 2) .
La funzione generatrice dei momenti è
1
0
1
1
0
1
0 0
22
2 02
2 2
2 1
1( ) ( )
( )
11
( )
da cui
| 1 |
| 1
var( )
x
tX t x
x
tx
x t t
x t
m t E e e x e dx
x e dx t
dm t t
dt
dm t
dt
X
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
92
1.8.6 Distribuzione di Pareto (I° tipo)
La v.c. di Pareto si è rivelata un modello soddisfacente per la rappresentazione di
fenomeni in svariati contesti di ricerca, in particolare nelle scienze sociali, in quelle
geofisiche ed nell’ambito attuariale. Questa distribuzione è stata introdotta
dall’economista italiano Vilfredo Pareto per misurare la distribuzione del reddito. La
base della distribuzione è rappresentata dal fatto che un’elevata proporzione della
popolazione possiede un basso reddito mentre una bassa proporzione possiede un
reddito elevato. La funzione di densità di questa v.c è
1
( ; , )f x
x
, x
dove 0 e 0 , è il minimo assumibile dalla v.c. X.
Media e varianza sono
2
2
per > 1 = per > 2.
1 1 2E X Var X
La funzione generatrice dei momenti è definita per i soli valori di 0 t
X , e per 0, 0 1t
x xm t E e t t t m
dove 1
-
, t
t
t t e dt
è la funzione matematica Gamma incompleta.
Il parametro 0 viene utilizzato, tra l’altro, come indice per la misura di
concentrazione del reddito.
1.8.7 Distribuzione di Weibull
La distribuzione di Weibull, anche per la sua estrema versatilità, trova largo impiego in
ambito ingegneristico per rappresentare fenomeni di affidabilità e di durata dei prodotti.
Questa v.c. ha funzione di densità
1( ; , )
x
f x x e
, 0 x
dove 0 e 0 , x indica il tempo di rottura (guasto, difetto, fallimento nel contesto
economico, morte nel contesto biologico, ecc.). Per 1 , la v.c. di Weibull coincide
con la v.c. esponenziale negativa che verrà introdotta al punto successivo; mentre per
2 , si ottiene la v.c. di Rayleigh; inoltre, per che tende a + la variabile tende
alla distribuzione di Dirac centrata sul valore x .
Il parametro rappresenta il tasso di rottura, tasso che, con il trascorrere del tempo,
decresce se 1 , cresce per 1 mentre rimane costante per 1 . Per 0 1 la
densità tende a + per x che tende a 0.
La media e la varianza sono
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
93
2
21 2 1 1+ , = 1+ 1 .E X Var X
La funzione generatrice dei momenti, che può essere espressa in diverse forme, è
analiticamente troppo complicata per risultare di qualche utilità.
1.8.8 Distribuzione esponenziale negativa
La funzione di densità di probabilità della distribuzione esponenziale negativa si ottiene
ponendo 1 nella funzione di densità di probabilità della v.c gamma:
1( ; )
x
f x e
0 ,0per x
La funzione generatrice dei momenti è
1 ( ) ( ) 1 t X
xm t E e t
2
da cui
( )
E X
Var X
Il parametro β viene usualmente denominato parametro di sopravvivenza (survival
parameter) e la variabile X sta ad indicare la durata in vita e E X indica il tempo
medio di sopravvivenza8.
La distribuzione esponenziale negativa può essere anche intesa come la controparte
continua della distribuzione geometrica che, come già sottolineato, descrive il numero
di prove bernoulliane necessarie per ottenere un cambiamento di stato (x insuccessi
prima di ottenere 1 successo). L'esponenziale negativa descrive il tempo continuo
necessario affinché si realizzi un cambiamento di stato.
Un modo alternativo di definizione della v.c. esponenziale negativa è dato
dall'introduzione del reciproco del parametro ponendo 1
, usualmente detto rate
parameter; in tal caso si ha
( ; ) xf x e per 0 , 0x
1
1 21( ) ( ) 1 da cui ( ) , ( ) .tX
xm t E e t E X Var X
La distribuzione esponenziale negativa in questa seconda formulazione può essere
utilizzata per determinare la probabilità che sia necessario un intervallo di tempo X = x
affinché si abbia la prima manifestazione dell’evento d’interesse.
La funzione delle probabilità cumulate dell’esponenziale negativa
xexXPxF 1
8 Questa distribuzione può, come sopra sottolineato, derivare dalla distribuzione di Weibull, sostituendo con .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
94
assume particolare significato quando l’evento d’interesse è il guasto di un macchinario
o di una sua parte. In tal caso, ponendo
1
, diventa il tasso di rottura di quel
macchinario per unità di tempo e la funzione delle probabilità cumulate fornisce la
probabilità che il macchinario si guasti prima del tempo X = x. In realtà, è di maggiore
interesse conoscere la probabilità che il macchinario non si guasti prima di un certo
tempo x: tale probabilità è semplicemente xexF )(1 . Tale funzione è spesso
chiamata “funzione di attendibilità” ed è usata per determinare l’attendibilità o,
analogamente, la probabilità che non si verifichi nessun guasto entro tempi specificati
per certi tipi di macchinario. Affinché la funzione di attendibilità sia un buon modello è,
però, necessario che il macchinario d’interesse abbia un tasso di rottura costante nel
tempo; in caso contrario l’esponenziale non fornisce un buon modello per verificare
l’affidabilità del macchinario.
Un aspetto interessante della funzione di attendibilità è che tramite essa è possibile
conoscere l’affidabilità di un intero sistema produttivo costituito da una serie di
macchinari M1, M2, ...., Mn, aventi, rispettivamente, tassi di fallimento 1, 2, ..., n
costanti, così da valutare oggettivamente la possibilità di ultimare una certa produzione
entro il termine di consegna x. Infatti, l’affidabilità A dell’intero sistema è data da:
1
n
i
i
A exp x
e il tasso di fallimento dell’intero sistema è semplicemente la somma dei tassi di
fallimento delle singole componenti.
Esempio 1.30
Si consideri un’azienda che sta per lanciare sul mercato un nuovo tipo di stampante: uno dei
principali fattori critici per il successo di questo nuovo prodotto è stato individuato dai
manager dell’azienda nel suo effettivo corretto funzionamento. Infatti, se la stampante dovesse
rompersi, ne risentirebbe negativamente la soddisfazione del consumatore e, quindi, il livello
delle vendite future di tutti i prodotti dell’azienda. Prima del lancio sul mercato, il management
dell’azienda necessità di maggiori informazioni sul grado di affidabilità del nuovo prodotto, in
termini di guasti che lo stesso prodotto potrebbe presentare entro un anno dall’acquisto da
parte del cliente. A tal proposito il responsabile tecnico della produzione sa che tutte le
componenti della stampante sono già state ampiamente usate da anni su altri prodotti
dell’azienda e sono risultate altamente affidabili; l’unica eccezione è rappresentata da un
sensore elettrico che entra in funzione ogni volta che la stampante viene predisposta per un tipo
di carta più grande del classico A4. Egli stima che il dispositivo venga attivato in media 10
volte all’anno. Il modello esponenziale fornisce, in questo caso, la probabilità di
“sopravvivenza” del singolo prodotto, tramite l’espressione xexXP )( , dove x
rappresenta una misura del tempo di sopravvivenza. Poiché il tempo è misurato in termini di
numero di volte in cui il dispositivo elettrico viene attivato, cioè 10, allora si può porre x = 10.
L’unico parametro sconosciuto è , il tasso di fallimento; il responsabile tecnico acquista un
certo numero di dispositivi elettrici e li sottopone a 10.000 cicli di accendimento e spegnimento:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
95
il numero di guasti osservati è di 7 sul totale di 10.000 cicli. Dunque, il responsabile tecnico
stima il tasso di fallimento del sensore pari a 0007,0000.10/7 . Di conseguenza,
0,0007 10 0,007( ) 0,993 99,3% x P X x e e e ,
cioè la probabilità che una stampante funzioni adeguatamente per almeno un anno senza
presentare guasti è pari al 99,3%.
1.8.9 Distribuzione 2 (di Pizzetti-Pearson)
Se nella distribuzione Gamma si pone 2
n (n intero positivo) e 2 si ottiene una
importante v.c generalmente indicata con il simbolo 2
n (distribuzione chi quadro) la
cui funzione di densità è:
2/1)2/(
2/ )2/(2
1);()( xn
nex
nnxfxf
per x 0
dove il parametro n rappresenta i gradi di libertà della distribuzione 2.
La curva della distribuzione 2 è monotona per n = 1 e n = 2; per n > 2 ha un
massimo nel punto x = n 2.
La funzione generatrice dei momenti, la media e la varianza sono date da
2( ) ( ) 1 2 e , ( ) 2 n
t X
xm t E e t n Var X n
Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale
normale con media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2 ,
definita nell’intervallo (0 , +), è una variabile del tipo 2 (chi quadro) con un grado
di libertà. Infatti, se si considera la funzione di densità della v.c. normale standardizzata
2
2
1
2
z
f z e
e si opera la trasformazione 2Z X , la funzione di distribuzione della v.c. X è
2
2
2
0
=
12 0 2
2
zx
F x P X x P Z x P x Z x
P Z x e dz
Se si trasforma la variabile d’integrazione ponendo2 z v
1
2
1 1
22 2 2 2
0 0
2
1
1da cui 0 0, e si ha
2
1 1 1 2
22 2
che è la funzione di distribuzione di una v.c. con 1 grado di libertà.
v vx x
z v z x v x dz v dv
F x e v dv e v dv F z
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
96
Tenendo presente questo risultato e che la funzione generatrice dei momenti di una
v.c. X di tipo 2
1 è data da 1
2( ) ( ) 1 2 t X
xm t E e t
ne deriva che la somma di n
variabili casuali normali standardizzate indipendenti al quadrato ha una distribuzione di
tipo 2 n con n gradi di libertà. Infatti, ponendo 2
1
n
i
i
X Z
si ha
2
21
1 2 2
1 1
( ) ( ) ( ) ( ) 1 2 1 2 .
n
i
i i
n nt Z nt Zt X
x
i i
m t E e E e E e t t
Da questo risultato deriva, inoltre, che la somma di k variabili casuali del tipo 2,
stocasticamente indipendenti e con gradi di libertà rispettivamente pari a n1, n
2, ...,n
k, è
ancora una variabile casuale 2 con
k
i
ing1
gradi di libertà (proprietà additiva o
riproduttiva del 2). Infatti, date k v.c. indipendenti X1, X2, ….. , Xk di tipo 2 con gradi
di libertà rispettivamente pari a n1, n
2, ...,n
k, la v.c. somma
1
k
i
i
Y X
ha funzione
generatrice dei momenti
1 1 2
1 2 1
2 2 2 2 2
( ) ( ) ( ) ( ) ( ) ( )
1 2 1 2 1 2 1 2 1 2
k
i
k
k
i
k
t Xt Xt X t Xt Y
y
nnn n g
m t E e E e E e E e E e
t t t t t
dove
k
i
ing1
.
Si dimostra che la variabile casuale 2
n standardizzata tende, al crescere di n, alla
distribuzione normale standardizzata, ne deriva quindi una possibilità di
approssimazione della v.c. 2 mediante la v.c. normale per n sufficientemente elevato.
Esempio 1.31
Sia X una variabile casuale del tipo 2
n con 5 gradi di libertà (n=5). Si vogliono determinare le
costanti c, c1 e c
2 in modo che sia:
a) P (X c) = 0,10
b) P (X > c) = 0,05
c) P (c1 < X c2) = 0,95 per c1 < c2
Utilizzando le tavole della distribuzione 2
5 si avrà
a) - P (X c) = F(c) = 0,10 => c = 1,61
b) - P (X > c) = 1 - p (X c) = 1 - F(c) = 0,05 => c = 11,1
c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c
2)
capaci di soddisfare la condizione posta, si potrebbe ad esempio suddividere la probabilità 0,05
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
97
in modo da avere un livello pari a 0,01 alla sinistra di c1 ed un intervallo 0,04 alla destra di c2,
oppure 0,02 a sinistra di c1 e 0,03 a destra di c2 ecc.; usualmente, a meno che non vi siano
particolari ragioni per specificare altrimenti, si suddivide la probabilità in parti uguali, così
facendo si avrà
P (X c1
) = F(c1 ) = 0,025 => c
1 = 0,831
P (X > c2
) = 1 - P (X c2 ) = 0,025 => c
2 = 12,8
da cui
P (c1 < X c
2 ) = P (0,831 < X 12,8) = 0,95.
1.8.10 Distribuzione beta
La distribuzione beta è considerata la distribuzione base per le variabili casuali limitate
inferiormente e superiormente, è definita su un intervallo finito a,b, dipende da quattro
parametri (a, b, 0 e 0 ) ed ha la seguente funzione di densità di probabilità:
1 1
1
1 ( ) ( )( ; , , , )
( , ) ( )
x a b xf x a b
B b a
per 0 0a x b, e
L’espressione analitica della funzione matematica beta è 1
1 1
0( , ) (1 )B x x dx per 0 0 e
La funzione beta (integrale di Eulero) è in relazione con la funzione matematica
gamma (.)
( ) ( )
,B
Per α e β interi si ha9
1 ! 1 !,
1 !B
La funzione generatrice dei momenti della v.c. beta ha una espressione algebrica
tutt'altro che semplice e si rivela quindi scarsamente utile; comunque, i momenti
possono essere facilmente derivati ricorrendo alla funzione di densità di probabilità.
Nella generalità dei casi, la variabile casuale beta viene definita sull’intervallo
unitario 0,1, cioè per a = 0 e b = 1. In questo caso la funzione di densità diventa:
1 11 11 ( 1)!( ; , ) 1 1
( , ) ( 1)! ( 1)!f x x x x x
B
con 10 x
9 Altre espressioni analitiche per rappresentare la funzione matematica beta sono:
0
,
n
n
nB
n
;
1
0
,1
yB
y
;
1
1
, 1
n + +nn
B
;
2 1 2 1
2
0, 2 B sen x cos x d x
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
98
La media e la varianza della distribuzione beta sono date da:
e
2
2
1
Al variare del valore dei parametri e , la funzione di densità beta può
assumere un gran numero di forme diverse. L’estrema flessibilità di questa v.c. la rende
idonea a rappresentare molti fenomenti in svariati ambiti disciplinari; inoltre, come si
avrà modo di illustrare nel Cap. 6, gioca un ruolo molto rilevante nel contesto
dell’inferenza statistica bayesiana.
La figura riportata10
nelle pagine successive rappresenta un esempio di impiego della
v.c. beta. I grafici evidenziano il diverso metro di valutazione impiegato nelle facoltà: a
fronte di un’attribuzione di voti prossima alla simmetria nelle facoltà di Economia,
Giurisprudenza e Ingegneria, si collocano facoltà quali Lettere e Filosofia, Scienze della
Formazione e Farmacia, con una asimmetria molto pronunciata e per le quali risulta in
modo molto evidente uno sbilanciamento verso l’attribuzione di voti più elevati. Infatti,
se si ritorna alla classica votazione in 30-esimi si registrano le seguenti votazioni medie.
Economia 26, Giurisprudenza 25,9, Ingegneria 26,2, Lettere e Filosofia 28, Scienze
della Formazione 28,4, Farmacia 26,6. Relativamente alle votazioni attribuite si segnala
che anche altre facoltà evidenziano un’attitudine all’attribuzione di voti elevati. A
completamento del quadro informativo si riportano le votazioni medie attribuite nelle
altre facoltà. Agraria 26,5, Architettura 27, Medicina e Chirurgia 26,9, Scienze
Matematiche, Fisiche e Naturali 26,7, Scienze Politiche 26,5.
10 I grafici sono stati ripresi dal volume Chiandotto, Bacci, Bertaccini (2004). I laureati e diplomati dell’Ateneo
Fiorentino dell’anno 2000: Profilo e sbocchi occupazionali (pp. I-XLIX, 1-532). Università degli Studi di Firenze.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
99
Fig. 1.6 – Laureati dell’Ateneo fiorentino nell’anno solare 2000: voto medio agli esami in
110esimi, per facoltà (distribuzioni di frequenza)
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
% ATENEO
Beta ATENEO (α = 5,63 ; β = 2)
Asimmetria = -0,64
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%Agraria
Beta Agraria (α = 9,79 ; β = 3,5)Beta Ateneo
Asimmetria = -0,27
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Architettura
Beta Architettura (α = 17,96 ; β = 6,01)
Beta Ateneo
Asimmetria = -0,4
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Economia
Beta Economia (α = 8,15 ; β = 4,11)
Beta Ateneo
Asimmetria = -0,17
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Farmacia
Beta Farmacia (α = 4,64 ; β = 1,8)
Beta Ateneo
Asimmetria = -1,41
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Giurisprudenza
Beta Giurisprudenza (α = 5,87 ; β = 3,01)
Beta Ateneo
Asimmetria = -0,15
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
100
Fig. 1.6 – (continua)
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%Ingegneria
Beta Ingegneria (α = 8,42 ; β = 3,88)
Beta Ateneo
Asimmetria = -0,19
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Lettere e Filosofia
Beta Lettere e Filosofia (α = 11,72 ; β = 1,7)
Beta Ateneo
Asimmetria = -1,00
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Medicina e Chirurgia
Beta Medicina e Chirurgia (α = 7,38 ; β = 2,31)
Beta Ateneo
Asimmetria = -0,55
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Scienze Formaz
Beta Scienze Formaz (α = 11,01 ; β = 1,36)
Beta Ateneo
Asimmetria = -0,80
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
Scienze Politiche
Beta Scienze Politiche (α = 7,51 ; β = 3,16)
Beta Ateneo
Asimmetria = -0,50
0
3
6
9
12
15
71 74 77 80 83 86 89 92 95 98 101 104 107 110
%
SMFN
Beta SMFN (α = 7,46 ; β = 2,77)
Beta Ateneo
Asimmetria = -0,44
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
101
1.8.11 Distribuzione uniforme
La distribuzione Uniforme Continua si configura come caso particolare della
distribuzione Beta ponendo = = 1. Tale distribuzione viene impiegata per
descrivere situazioni in cui la variabile X è distribuita uniformemente in un certo
intervallo. Questo comporta che sottointervalli di pari ampiezza hanno tutti la stessa
probabilità, così che la funzione di densità di probabilità assume una forma rettangolare,
esplicitata dalla seguente relazione.
1( ; , )f x a b
b a
con bxa
La funzione di ripartizione F(x) è pari a:
ab
axxF
)( con bxa
e la media e la varianza: 2
)(ba
XE
;
2
( )12
b aVar X
.
1.8.12 Distribuzione t (di Student)
La c.d. distribuzione t è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo
pseudonimo di "Student".
La v.c t di Student è definita dalla relazione
nY
ZX
/
dove:
Z è una variabile casuale normale standardizzata;
Y è una variabile casuale 2 con n gradi di libertà;
Z e Y sono variabili stocasticamente indipendenti.
La funzione di densità di probabilità di una variabile casuale X di tipo t di Student ha
funzione di densità di probabilità definita dalla relazione:
1 22
1 2 1( ) ( ; )
2 1n
nf x f x n
n n x n
per x
è simmetrica ed ha un massimo nel punto t = 0. La media è = 0 per n 2 , mentre
non esiste per n = 1; la varianza non esiste per n = 1, 2 mentre per n 3 la varianza è
data da 2
2
n
n .
Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata;
un buona approssimazione si ottiene anche per n relativamente piccolo ( n 30 ).
La funzione generatrice dei momenti della v.c. t di Student non esiste.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
102
Esempio 1.32
Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono determinare i
valori della costante c che soddisfano le relazioni: a) P(X > c) = 0,05; b) P(X < c) = 0,05;
c)P(-c < X c) = 0,99; d) P(0 < X c) = 0,475.
Utilizzando le tavole della distribuzione t e ricordando la simmetria di tale distribuzione, si
ottiene:
a)- P (X > c) = 1 - P (X c) = 1 - F(c) = 0,05 => c = 1,83
b)- P (X c) = F(c) = 0,05 => c = -1,83
c)- P (-c < X c) = P (X < c) - P (X c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] =
0,99 => c = 3,25
d)- P (0 < X c) = P (X c) - P (X 0) = F(c) - 0,5 = 0,475 => c = 2,26.
1.8.13 Distribuzione F (di Fisher- Snedecor)
La distribuzione F è relativa alla variabile
2
1
/
/
nY
nVX
dove, V e Y sono due variabili casuali del tipo 2, con gradi di libertà rispettivamente
pari a n1
e n2, distribuite indipendentemente.
Si noti che l'ordine dei gradi di libertà n1 e n2 è fondamentale, e si verifica
facilmente che le due variabili casuali 21 ,nnF e 1
, 12
nnF hanno la stessa distribuzione.
La funzione di densità di probabilità di una variabile casuale X di tipo F di Fisher-
Snedecor, con n1 e n2 gradi di libertà, è:
1 2
1
1 2
/2 /21 2( /2) 11 2
1 2 ( )/21 2 1 2
2( ) ( ; , )
( )
2 2
n n
n
n n
n nn n
xf x f x n n
n n n x n
per 0 x +
La media e la varianza sono date da: 2
22 2 1
2
2 1 2 2
2 ( 2);
2 ( 2) ( 4)
n n n n
n n n n
La funzione generatrice dei momenti della v.c. F di Fisher-Snedecor non esiste.
Esempio 1.33
Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si vogliono
determinare i valori della costante c che soddisfa le relazioni:
a) P (X c) = 0,95 ; b) P (X c) = 0,01.
Utilizzando la tavola della distribuzione F si ottiene
a) P (X c) = F7,10(c) = 0,95 => c = 3,14
b) - Per quanto detto nel testo risulta l'uguaglianza
F7,10(c) = 1 - F10,7(1/c), per cui
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
103
P (X c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 => 1
c = 6,62 => c = 0,15.
1.8.13 Variabili casuali continue: riepilogo11
Di seguito è riportato riepilogo delle variabili casuali continue considerate.
V.c. Normale
Descrizione: una vasta serie di esperimenti casuali ha associata una variabile casuale la
cui distribuzione è approssimativamente normale;alcune variabili casuali che non sono
distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente
semplici; alcune distribuzioni relativamente complicate, possono essere approssimate
sufficientemente bene dalla distribuzione normale. E’ la distribuzione su cui è basata
principalmente tutta l’inferenza statistica soprattutto grazie al teorema del limite centrale
Parametri caratteristici: e 2 che rappresentano, rispettivamente, media e varianza
della distribuzione.
Supporto della v.c. X: x (-,+)
Funzione di densità di probabilità 2
x
2
1
2
2 e2
1),;x(f)x(f
Forma – Simmetrica, centrata sulla media μ e con indice di curtosi pari a 3. Cfr.
https://www.xycoon.com/contdistroverview.htm.
1
2
E X μ
Var(X) σ
2/22
)( tt
x etm
V.c. Log-normale
Descrizione: Molti fenomeni possono essere adeguatamente descritti dalla
distribuzione log-normale: il reddito, gli indici di borsa, i tassi di cambio, gli
indici dei prezzi, la dimensione delle città e delle imprese, i valori massimi
mensili e annuali delle piogge, ecc
Parametri caratteristici: e 2
Supporto della v.c. X: x (0,+)
Funzione di densità di probabilità
2
2
log
2 2 1
( ; , ) 2
y
f y ey
Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.
11 Si consiglia la consultazione del sito:” https://www.xycoon.com/contdistroverview.htm” dove è riportata una
panoramica pressoché completa delle v.c. continue.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
104
2
2 2
/2
2 1
E Y e
Var Y e e
2 2 /2
0
!
n
i t Y n n
y
n
i tm i t E e e
n
V.c. di Cauchy
Descrizione: Trova le maggiori applicazioni in ambito fisico.
Parametri caratteristici: α e β
Supporto della v.c. X: x (-,+)
Funzione di densità di probabilità
2 2
1( ; , )f x
x
Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.
| | i t t
xm i t e
V.c. di Pareto (I° tipo)
Descrizione: Introdotta per misurare la distribuzione del reddito, anche a ragione di
successive generalizzazioni, trova applicazione in diversi contesti applicativi quali quello
geofisico e quello attuariale.
Parametri caratteristici: α e β
Supporto della v.c. X: x (0,+)
Funzione di densità di probabilità
1
( ; , )f x
x
Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.
2
2
per > 1
1
= per > 2
-1 - 2
E X
Var X
La funzione generatrice dei momenti è definita per i soli valori di 0 t
X - ,- e per 0, 0 1t
x xm t E e t t t m
V.c. di Weibull
Descrizione: E’ estremamente versatile e trova largo impiego nell’analisi di fenomeni di
durata.
Parametri caratteristici: α e β
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
105
1( ; , )x
f x x e
Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.
2
2
1 1+
2 1= 1+ 1
E X
Var X
xm t non utile
V.c. Gamma
Descrizione - Fornisce la distribuzione del tempo necessario affinché si realizzino k
eventi indipendenti quando il tasso di realizzazione è costante. Utilizzata spesso come
modello per descrivere fenomeni di durata (in vita, resistenza, funzionamento
ecc.).
Parametri caratteristici - α, il numero di successi desiderati; =1/β, il tasso di
realizzazione di un successo per unità di tempo
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
11
( ; , )( )
x
f x x e
Forma - Quando α 1, la funzione è asimmetrica positiva con una moda; quando α = 1,
la funzione decresce monotonicamente a partire dall’origine. Cfr.
https://www.xycoon.com/contdistroverview.htm.
2
2
1
E X
Var(X)
1
( ) 1 1 xm t t t
V.c. Esponenziale negativa
Descrizione: Deriva dalla v.c. Gamma quando α = 1. Fornisce la probabilità
dell’intervallo di tempo necessario affinché si realizzino due eventi indipendenti con
tasso di realizzazione costante
Parametri caratteristici: , il tasso di realizzazione di un successo per unità di tempo
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
1( ; )
x
f x e
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
106
Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.
2
E X
Var(X)
1
11( ) 1 1 xm t t t
V.c. 2 di Pizzetti-Pearson
Descrizione: Deriva dalla v.c. Gamma per 2
n (n intero positivo) e 2 e anche
dalla somma di n variabili casuali normali standardizzate indipendenti elevate al
quadrato.
Parametri caratteristici: n, il numero di gradi di libertà
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
2/1)2/(
2/ )2/(2
1);()( xn
nex
nnxfxf
Forma - Asimmetrica positiva con indice di curtosi maggiore di 3. Per n tendente ad ,
assume una forma sempre più vicina alla Normale.
Cfr. https://www.xycoon.com/contdistroverview.htm.
2
E X n
Var(X) n
2( ) 1 2 g
ym t t
V.c. Beta
Descrizione: Distribuzione base per le variabili casuali limitate inferiormente e
superiormente. E’ impiegata come modello per descrivere la distribuzione degli stimatori
dei parametri di alcune variabili casuali
Supporto della v.c. X: x (a, b)
Parametri caratteristici: e , che definiscono la forma e i momenti caratteristici della
funzione
Funzione di densità di probabilità
1 1
1
1 ( ) ( )( ; , , , )
( , ) ( )
x a b xf x a b
B b a
Forma - Varia notevolmente al variare di ed . Per es., se = , la funzione è
simmetrica rispetto ad x = ½; altrimenti è asimmetrica. Scambiando con si riflette la
forma della distribuzione rispetto al suo asse di simmetria. Se che sono entrambi
maggiori di 1, allora la funzione mostra una moda, se sono entrambi minori di 1,
presenta una forma ad U e, quindi, una “antimoda”. Quando (-1) (-1) 0, la funzione
presenta una forma a “J”.
Cfr. https://www.xycoon.com/contdistroverview.htm.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
107
2
1
E X
Var (X)
xm t non utile
V.c. Uniforme (rettangolare)
Descrizione:E’ un caso particolare della v.c. Beta. Fornisce la probabilità del realizzarsi
di eventi all’interno di un certo intervallo, quando la probabilità di realizzazione è
proporzionale all’ampiezza dell’intervallo.
Parametri caratteristici: a e b, che delimitano l’intervallo di variabilità di x
Supporto della v.c. X: x (a, b)
Funzione di densità di probabilità
1( ; , )f x a b
b a
Forma della funzione di densità: è un segmento parallelo all’asse delle ascisse
nell’intervallo (a, b).
2
2
12
a bE X
b aVar(X)
V.c. t di Student
Descrizione: Deriva dal rapporto tra una Normale standardizzata e la radice quadrata di
una v.c. Chi – quadrato divisa per i suoi gradi di libertà con le due variabili indipendenti.
Parametri caratteristici: n, il numero di gradi di libertà
Supporto della v.c. X: x (-,+)
Funzione di densità di probabilità
2
1
2
1
1
2
2
1
);()(
n
n
xnn
n
nxfxf
Forma - Simmetrica con media nel punto 0 (se n = 1 però la media non esiste). Per n
tendente ad +, assume una forma sempre più vicina alla Normale.
1
0 2
1 2
32
E X non esiste per n
E X per n
Var(X) non esiste per n e n
nVar(X) per n
n
Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
108
xm t non esiste
V.c. F di Fisher-Snedecor
Descrizione:Deriva dal rapporto di due v. c. Chi – quadrato indipendenti, ciascuna
divisa per i rispettivi gradi di libertà (n1 ed n2)
Parametri caratteristici: n1 ed n2, i gradi di libertà
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
1 2
1
1 2
/ 2 / 21 2( / 2) 11 2
1 2 ( ) / 21 2 1 2
2( ) ( ; , )
( )
2 2
n n
n
n n
n nn n
xf x f x n n
n n n x n
22
2
2
2 1 2
22
1 2 2
1 2
22
1 2
2 2 4
( 2) 4
E X non esiste per n e n
nE X per n
n
Var(X) non esiste per n e n
n n nVar(X) per n
n n n
xm t non esiste
1.9 - Variabili casuali multidimensionali
Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè delle
funzioni che soddisfano a certe condizioni e che associano a ciascun evento elementare
(punto dello spazio campionario) ω Ω un numero reale.
L’estensione al caso multidimensionale non presenta difficoltà di ordine logico, si
tratta, infatti, di definire un’analoga funzione che associa a ciascun evento elementare
non più un numero ma una k-upla (k 2) ordinata di numeri reali.
Definizione 9 - Si dice variabile casuale (vettore casuale) a k dimensioni una funzione
X() 1 2( ) , ,..., 'kX x x x x12
a valori reali in Rk (spazio euclideo
a k 2 dimensioni) definita su per la quale vale la relazione
: ( ) A X B x per ogni x Rk
dove
12 Da rilevare che il vettore x è stato definito come vettore colonna mentre x’ indica il vettore riga (trasposto di x).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
109
1
2
k
x
x
x
x
è un vettore di k numeri reali.
Quindi la variabile casuale a k dimensioni è una funzione a k componenti che fa
corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre,
essendo A B elemento dell’algebra di Boole costruita sugli eventi ( ) è possibile
determinare la sua misura di probabilità
1 1 2 2 1 2
/ ( ) ( )
, ,......,k k k
P A P X P X P
P X x X x X x F x x x F
x x X x
x
che definisce la funzione di distribuzione o funzione di ripartizione o funzione delle
probabilità cumulate della variabile casuale a k dimensioni (vettore casuale)
1
2
k
X
X
X
X
La variabile casuale multipla (v.c.m.) 1 2, ,....., k' X X XX = è discreta se tutte le
componenti possono assumere soltanto un numero finito o un’infinità numerabile di
valori reali distinti, è invece continua se tutte le componenti possono assumere
un’infinità non numerabile di valori (tutti i valori in intervalli dell’asse reale); si parla di
variabili casuali miste, quando alcune componenti sono discrete, altre continue.
La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a
proposito della funzione di distribuzione per variabili casuali semplici F(x). Infatti, la
funzione di distribuzione:
1. è monotona non decrescente rispetto a tutti gli argomenti;
2. valgono i limiti:
1
2
1 2
1 2
1 2 1 2 1 1
lim ( , ,..., ,..., ) 0 ; per 1, 2,....,
lim ( , ,..., ) 1
lim ( , ,..., ,..., ) ( , ,..., , ,..., ); per 1, 2,....,
i
k
i
i kx
kxx
x
i k i i kx
F x x x x i k
F x x x
F x x x x F x x x x x i k
dove ),...,,,...,,( 1121 kii xxxxxF è la funzione di distribuzione della variabile
casuale a k-1 dimensioni 1 2 1 1, , ..., , ,..., i i kX X X X X
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
110
1 2 1 2 1 1 1 1
lim ( , ,..., ,..., ) ( , ,..., , ,..., , ,..., )
per 1, 2,...., ,ecc.;
i
j
i k i i j j kxx
F x x x x F x x x x x x x
i j k
3. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è
assolutamente continua, cioè continua e derivabile, rispetto a tutti gli argomenti
nel caso continuo.
Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione di
distribuzione possono essere ricavate in modo univoco, rispettivamente
nel caso discreto, la funzione di massa di probabilità
1 2 1 1 2 2( , ,..., ) i j ks i j k ksf x x x P X x X x X x
che rappresenta, appunto, la probabilità che ha il vettore casuale
1 2, X , , XkX'X di assumere la determinazione '
1 2, , , i i j ksx x x x
nel caso continuo la funzione di densità di probabilità13
),...,,(),...,,( 21
21
21 k
k
k
k xxxFxxx
xxxf
ed anche
1 2 1 2 1 2
1 1 1 1 2 2 2 2
( , ,..., ) ( , ,..., ) .....
( ) ( ) ...... ( )
k k k
k k k k
d F x x x f x x x dx dx dx f d
P x X x dx x X x dx x X x dx
x x
che rappresenta la probabilità che ha il vettore casuale di assumere una
determinazione nell’ipercubo infinitesimo a k dimensioni
1 1 1 2 2 2( , ),( , ),......,( , )k k kx x dx x x dx x x dx
Per la funzione di massa di probabilità valgono le proprietà:
0 1 2i j ksf(x ,x ,...,x ) 1; s ksjii j
)x,...,x,f(x... 1 21
mentre per la funzione di densità valgono le proprietà
1 2( , ,..., ) 0kf x x x ; 1 2 1 2... ( , ,..., ) ... 1k kf x x x dx dx dx
Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso
discreto, di densità di probabilità, nel caso continuo, esiste una corrispondenza
biunivoca e le funzioni stesse identificano completamente la variabile casuale
multipla (vettore casuale) 1 2, X , , XkX'X .
Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale
multipla 1 2, X , , XkX , si dicono indipendenti in probabilità o statisticamente
indipendenti se vale la relazione
F(x1, x2, ..., xk) = F(x1) F(x2) ... F(xk)
13 Si sottolinea che è stata esplicitata la derivazione della funzione di densità di probabilità per la sua semplicità
analitica mentre, come si avrà modo di chiarire successivamente, non risulta altrettanto facile la derivazione della
funzione di massa di probabilità.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
111
od anche
f(x1i, x2j, ..., xks) = f(x1i) f(x2j) ... f(xks) nel discreto
f(x1, x2, ..., xk) = f(x1) f(x2) ... f(xk) nel continuo
Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale
multipla 1 2, X , , XkX , si dicono mutualmente indipendenti se per ogni
sottoinsieme finito di variabili la funzione di ripartizione (o di massa o di densità di
probabilità) dell’insieme è uguale al prodotto delle funzioni di ripartizione (o di massa o
di densità di probabilità) delle singole variabili costituenti l’insieme.
Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale a
due dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è
posto X1 = X e X2 = Y . La variabile casuale doppia (X, Y) è completamente
individuata dalla sua funzione di distribuzione
( , ) ( ) ( )F x y P X x Y y
od anche:
i) dalla sua funzione di massa di probabilità nel caso discreto
1 1 1 1( , ) ( , ) ( , ) ( , ) ( , )
( ) ( )
i j i j i j i j i j
i j ij ij
f x y F x y F x y F x y F x y
P X x Y y p f
per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +);
ii) dalla sua funzione di densità di probabilità nel caso continuo
),(),(2
yxFyx
yxf
per a x b e c y d (a e/o c possono tendere al valore -, b e/o d
possono tendere al valore +).
Valgono, ovviamente, le relazioni
0 f(xi , yj) 1 ,
h
i
k
j
ji yxf1 1
1),(
f(x , y) 0 ,
d
c
b
a
dydxyxf 1),(
inoltre
h
i
jji kjyfyxf1
,...,2,1)(),(
k
j
iji hixfyxf1
,...,2,1;)(),(
dycyfdxyxf
b
a
;)(),(
bxaxfdyyxf
d
c
;)(),(
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
112
che definiscono le funzioni di massa e di densità di probabilità delle variabili casuali
semplici (variabili casuali marginali) componenti la variabile casuale doppia.
Una variabile casuale doppia discreta viene usualmente rappresentata in una tabella a
doppia entrata del tipo
Y
X y1 y2 ... yj ... yk
x1 p11 p12 ... p1j ... p1k p1.
x2 p21 p22 ... p2j ... p2k p2.
xi pi1 pi2 ... pij ... pik pi.
xh ph1 ph2 ... phj ... phk ph.
p.1 p.2 ... p.j ... p.k 1
Tab. 1.1 - Schema di tabella a doppia entrata per la variabile casuale doppia
discreta (Xi,Yj)
dove:
( , ) ( ) ( )ij ij i j i jp f f x y P X x Y y
k
j
iji pp1
. per i = 1,2,...,h
h
i
ijj pp1
. per j = 1,2,...,k
11 1
..
h
i
k
j
ijpp
Le due variabili casuali semplici X ed Y, componenti la variabile casuale doppia (X,
Y), sono indipendenti statisticamente, o indipendenti in probabilità se:
. . ( ) ( ) ( ) ( ) ( , ) ( ) ( )ij i j i j i j i j i jp p p P X x Y y P X x P Y y f x y f x f y
Se le due componenti, come avviene nella generalità dei casi, non sono indipendenti,
interesserà, per un verso, misurare l’eventuale relazione tra le due variabili, per altro
verso, analizzare le cosiddette variabili casuali condizionate che, riferendosi per
semplicità sempre al caso discreto, sono definite dalle relazioni:
variabili casuali condizionate X/
(X/Y = yj) = X/yj per j = 1,2,...,k
con funzioni di massa condizionata
f(xi/yj) = )(
),(
j
ji
yf
yxf per i = 1,2,...,h ; j = 1,2,...,k
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
113
variabili casuali condizionate Y/
(Y/X = xi) = Y/xi per i = 1,2,...,h
con funzioni di massa condizionata
f(yj/xi) = )(
),(
i
ji
xf
yxf per i = 1,2,...,h ; j = 1,2,...,k
Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità della
variabile condizionante Y ) e h variabili condizionate Y/xi (tante quante sono le
modalità della variabile condizionante X ).
Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y e
(Y/X = x) = Y/x sono in numero infinito.
Se le due variabili casuali componenti la variabile doppia sono indipendenti, cioè se
( , ) ( ) ( ) o ( , ) ( ) ( )i j i jf x y f x f y f x y f x f y , non esiste il condizionamento, quindi
tutte le variabili casuali condizionate sono uguali alle variabili marginali,
La funzione di distribuzione o le funzioni di massa o di densità di probabilità
descrive in modo completo la variabile casuale doppia e quindi anche le variabili casuali
semplici (variabili casuali marginali) componenti la variabile casuale doppia e le
variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali
semplici può risultare comunque conveniente una descrizione sintetica (e quindi
parziale) delle variabili casuali doppie.
Un modo per procedere nella sintesi, analogamente a quanto si è fatto per le variabili
casuali semplici, è quello di calcolare il valore atteso di opportune trasformazioni delle
variabili casuali doppie; ovviamente, le trasformazioni devono essere tali da rendere
significativo (finito) il computo del valore atteso.
1.10 - Valore atteso di funzioni di variabili casuali multidimensionali
Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito da
continuo neldy dx ,, ,
discreto nel ,, ,,
b
a
d
c
1 11 1
yxfyxgYXgE
pyxgyxfyxgYXgE ij
h
i
k
j
jiji
h
i
k
j
ji
Momenti misti rispetto all’origine
Ponendo g(X , Y) = Xr Ys
, per r,s = 0,1,2,..., si ha
continuo nel
discreto nel
b
a
d
c
1 1
dx dyx,yfy xYXE
pyxYXE
srsr
rs
ij
s
j
h
i
k
j
r
i
sr
rs
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
114
che viene detto momento misto di ordine rs rispetto all’origine.
Risulta facile verificare che i momenti misti 10 e 01 sono i momenti primi (cioè
le medie aritmetiche) delle variabili casuali marginali semplici X ed Y ; infatti, si ha:
1 0
10 .
1 1 1 1 1
1 0
10
= nel discreto
, nel continuo
h k h k h
i ij i ij i i x
i j i j i
b d b
xa c a
E X Y x p x p x p
E X Y x f x y dx dy x f x dx
Analoghe considerazioni possono essere fatte nei confronti dei momenti 01, 20,
02, 30, 03, ecc.
Il momento misto rispetto all’origine di ordine 1,1 più significativo ed interessante è
quello del primo ordine 11 = xy
1 1
11
1 1
1 1
11
= nel discreto
, nel continuo.
h k
i j ij xy
i j
b d
xya c
E X Y x y p
E X Y x y f x y dx dy
Momenti misti rispetto alla media o momenti misti centrali
Ponendo
g(X Y) = s
y
r
x YX )()( per r, s = 0,1,2,…
si ha
( ) ( )r s
rs x yE X Y
che viene detto momento misto centrale, o momento misto rispetto alla media, di
ordine rs .
I momenti misti 00 10 01 , , non sono significativi essendo sempre uguali a uno e
zero, mentre risulta particolarmente interessante il momento misto di ordine 11 :
11 11 10 01( ) ( )x y xy yxE X Y
che viene detto covarianza.
La covarianza è un indice assoluto di concordanza tra le due v.c. componenti la v.c.
doppia. Si tratta, cioè, di un indice che misura l’associazione tra le due componenti X
ed Y e potrà assumere valore positivo, negativo o nullo. Assumerà un valore positivo
quando le due componenti della variabile casuale doppia variano tendenzialmente nella
stessa direzione, al crescere dei valori assunti dalla X crescono i valori assunti dalla Y ,
ed anche, al diminuire dei valori assunti dalla X diminuiscono i valori assunti dalla Y.
In questo caso si avrà che a scarti positivi (negativi) (X x) corrisponderanno,
usualmente, scarti positivi (negativi) (Y y) ed il prodotto degli scarti risulterà positivo.
La covarianza assume invece valore negativo quando le due variabili variano in
direzione opposta, cioè quando al crescere dei valori assunti da una variabile i valori
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
115
assunti all’altra variabile diminuiscono e viceversa. In questo caso nella formula per il
computo della varianza si troveranno, usualmente, prodotti tra uno scarto positivo di
una variabile ed uno scarto negativo dell’altra variabile e viceversa.
Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo ordine
delle due variabili casuali marginali, cioè le due varianze:
2 0 2 2
20 ( ) ( ) ( )x y x xE X Y E X
0 2 2 2
02 ( ) ( ) ( )x y y yE X Y E Y
Momenti misti standardizzati
Se si pone
g(X,Y) =
s
y
y
r
x
xYX
per r,s = 0,1,2,…
si ha
sr
yxrs
x y
YXE
che viene detto momento misto standardizzato di ordine rs .
Il momento misto più significativo è il momento misto standardizzato di ordine 1,1
11
y xyxxy yx
x y x y
YXE
usualmente detto coefficiente di correlazione (di Bravais-Pearson).
Il coefficiente di correlazione è un indice relativo di concordanza, si dimostra,
infatti, la relazione
xy x y
dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y
sono linearmente dipendenti cioè quando Y = a+b X . In questo caso xy = yx = 1
ed il segno dipenderà dal segno del coefficiente angolare b della retta Y = a+b X.
Teorema. 1xy , yx = 1 se e solo se y = a + b x
Si consideri il seguente valore atteso di una combinazione lineare delle v.c. scarto
e x x y yS X S Y :
22
22 2
2 2 2
2
2 0
x y x y
x y x y
x y xy
E S S E X Y
E X E Y E X Y
La disuguaglianza può anche essere nella forma
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
116
2 2 22 0y xy x
espressione che evidenzia chiaramente che si tratta di una disequazione di 2° grado che
ammette soluzione solo se il discriminante 2 4 b a c assume un valore minore o
uguale a 0, cioè se 2 2 22 4 0 xy y x , da cui
2
22 2
2 22 4 1 1 1
xy xy
xy y x xy yx
y x x y
Condizione sufficiente: se y = a + b x allora yx = 1
infatti, se y = a + b x si ha
2 22 2 2
2
2 2 42 2
2 2 2 2 2
da cui
= 1 1
y y x x
xy x y x x x
xy x
x y x x
Var Y E Y E a bX a b b
Cov X Y E X Y E X b X b
b
b
Condizione necessaria: yx = 1 solo se y = a + b x
infatti, yx = 1 solo se nella disequazione vale il segno di uguaglianza, cioè, se
2
0 0
1
1dove, e .
x y x y
xy
xy
E X Y X Y
Y X a b X
a b
Per quanto sopra riportato deriva che il coefficiente di correlazione potrà assumere
soltanto valori compresi tra –1 e +1, ed è pari a –1 o +1 sse tra le due v.c. esiste una
relazione lineare perfetta; il segno – o + dipende dal valore del coefficiente angolare b
della retta, se negativo o positivo14
. Se xy = yx = 0 (cioè se xy = yx = 0) si dice che
le due componenti X ed Y sono linearmente indipendenti. Questa forma di
indipendenza è una forma molto particolare di mancanza di associazione tra variabili e
non esclude affatto la presenza di un possibile legame di natura diversa tra le due
componenti X ed Y della variabile casuale doppia (X,Y). Infatti potrebbe sussistere tra
le due componenti un legame funzionale molto stretto, ad es. Y = a+b X2 , e risultare
xy = 0.
14 Si segnala che quanto riportato non rappresenta altro che una specifica particolarizzazione della disuguaglianza di
Cauchy-Schwarz. Tale disuguaglianza è espressa dalla relazione 2
, , , a' b a' a b b
dove ,a' b indica il prodotto scalare (interno) tra i due vettori di uguale dimensione e a b , se la dimensione è n
la diseguaglianza è quindi espressa dalla relazione 2
2 2
1 1 1
.
n n n
i i i i
i i i
a b a b
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
117
Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo di
concordanza) è un indice di dipendenza o meglio interdipendenza (essendo xy = yx)
lineare.
Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi altra
forma di indipendenza). Infatti, se le due componenti X ed Y sono statisticamente
indipendenti f(x,y) = f(x)f(y) e quindi (senza perdere in generalità si considera il solo
caso continuo)
11
10 01
( ) ( ) ( )( ) ( , )
a ragione dell'indipendenza tra e si ha
( )( ) ( ) ( )
( ) ( ) ( ) ( ) 0
b d
xy x y x y
a c
b d
x y
a c
b d
x y
a c
E X Y x y f x y dx dy
x y
x y f x f y dx dy
x f x dx y f y dy
L’indipendenza lineare, come già sottolineato, non implica l’indipendenza statistica a
meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione
nelle righe seguenti ed è quello particolarmente rilevante della variabile casuale normale
doppia.
Momenti delle distribuzioni condizionate
La derivazione dei momenti delle distribuzioni condizionate non comporta alcuna
difficoltà, basterà fare riferimento, nel calcolo del valore atteso, alla funzione di massa o
di densità di probabilità condizionate. Ad esempio, per media (momento primo rispetto
all’origine) e varianza (momento secondo rispetto alla media) nel caso continuo si ha
/ // / ; / /y x x yE Y x y f y x dy E X y x f x y dx
2 2 2
/ / /
2 2 2
/ / /
/ ( ) ( ) /
/ ( ) ( ) /
y x y x y x
x y x y x y
Var Y x E Y y f y x dy
Var X y E X x f x y dx
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
118
Funzione generatrice dei momenti
La funzione generatrice dei momenti di una variabile casuale doppia è definita dalla
relazione
, , x yt X t Y
x y x ym t t E e
La funzione generatrice dei momenti, quando esiste, identifica completamente la v.c.
doppia (X , Y) e consente di ottenere facilmente sia le funzioni generatrici dei momenti
delle distribuzioni marginali sia i momenti misti rispetto all’origine; infatti
Distribuzioni marginali
,0 0
,0 0
lim , lim
lim , lim
x y x
y y
x y y
x x
t X t Y t X
x y x y x xt t
t X t Y t Y
x y x y y yt t
m t t E e E e m t
m t t E e E e m t
Momenti
, 0, 0 0, 0 0 10
, 0, 0 0, 0 0 01
2 2
, 0, 0
, / / /
, / / /
, /
x y x
x y x y x
x y y
x y x y
x
x y
t X t Y t X
x y x y t t t t t x
x x x
t X t Y t Y
x y x y t t t t ty y
y y y
t X
x y x y t t
x y x y
d d dm t t E e E e
dt dt dt
d d dm t t E e E e
dt dt dt
d dm t t E e
dt dt dt dt
0, 0 11
2 32
0, 02
2 2 2 22
0, 02
/
1 /
2! 3!
21 /
2!
y
x y
x y
x y
t Y
t t xy
x y x y
x y t t
x
x y x y
x y t t
x
t X t Y t X t YdE t X t Y
dt
E t X E t Y E t t XYdt E X t E Y
dt
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
119
2 2220 02 11
0, 0 202
2 32
0, 02
2 2 2 22
2
21 /
2!
1 /
2! 3!
21
2!
x y
x y
x y x y
x x y y t t
x
x y x y
x y t t
y
x y x y
x y
y
t t t tdt t
dt
t X t Y t X t YdE t X t Y
dt
E t X E t Y E t t XYdt E X t E Y
dt
0, 0
2 2220 02 11
0, 0 022
/
21 /
2!
x y
x y
t t
x y x y
x x y y t t
y
t t t tdt t
dt
Quanto detto per le v.c. doppie (k = 2) può essere facilmente esteso al caso più
generale per un k > 2 qualsiasi, restando cosi definite le variabili casuali multiple
(v.c.m.) o vettori casuali a k dimensioni. Si possono definire, quindi, le variabili
marginali e quelle condizionate di qualsiasi ordine ed i momenti di qualsiasi natura e
ordine.
La funzione generatrice dei momenti è
1 21 2
1 2 1 2
....
, ,....., , ,....., x x x kk
k k
t X t X t X
x x x x x xm t t t E e
Da tale funzione si derivano facilmente le distribuzioni marginali e, quindi, le
distribuzioni condizionate ed i momenti di qualsiasi ordine.
1.11 - Variabili casuali discrete e continue a k dimensioni
In questo paragrafo si procederà alla descrizione delle sole variabile casuali doppie
(k=2) binomiale (detta usualmente variabile casuale trinomiale) e normale e la loro
estensione al caso k >2; si procederà, inoltre, alla definizione della v.c. ipergeometrica
a k dimensioni e della v.c. di Dirichlet, verranno, infine, introdotte tre variabili casuali
multiple multivariate (matrici casuali), le prime due derivano, rispettivamente dalla
generalizzazione della v.c normale multipla e della v.c. gamma multipla, mentre la
terza, la distribuzione di Wishart, che è una specifica sottofamiglia della gamma
multipla multivariata, viene trattata separatamente per la sua rilevanza in quanto
distribuzione campionaria della matrice di varianze e covarianze (matrice di
dispersione) di una variabile casuale multinormale.
1.11.1 Distribuzione trinomiale (binomiale doppia)
Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova
sia 1 o 2 o 3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna
prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
120
esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate
ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).
Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di numeri
reali in cui la prima componente X rappresenta il numero delle volte in cui si è
presentato il risultato 1 nelle n prove, mentre Y rappresenta il numero delle volte in
cui si è presentato il risultato 2. Ovviamente, il numero delle volte in cui si presenta il
risultato 3 non può essere inserito come terza variabile essendo tale numero
univocamente determinato per differenza (n – x – y).
Se, per semplicità di notazione, si pone
1 1
2 2
3 3
( ) ( 1)
( ) ( 1)
( ) ( 0) ( 0) 1
x
y
x y
p P P X p
p P P Y p
p P P X Y p p q
si avrà
!
( , ; , , ) ( ) ( )! !( )!
x y n x y
x y x y
nf x y n p p P X x Y y p p q
x y n x y
dove: x rappresenta il numero delle volte in cui si è presentato il risultato 1 nelle n
prove ed y il numero delle volte in cui si è presentato il risultato 2 ; x potrà, pertanto,
assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n–x ,
oppure x,y = 0, 1, 2, …, n con il vincolo x+y n .
La funzione generatrice dei momenti della v.c. trinomiale è data da
0 0
!
! !( )!
x y x y yx
n n x nt X t Y t x t y ttx y n x y
x y x y
x y
nE e e p p q p e p e q
x y n x y
.
Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono
variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto
riportate relative ad alcuni momenti misti
10 = x = n px , 01 = y = n py
2 2
20 02(1 ) , (1 )x x x y y yn p p n p p
11 11,(1 ) (1 )
x y
xy yx x y xy yx
x y
p pn p p
p p
y
x
x
y
p
pynyXE
p
pxnxYE
1)()/(,
1)()/(
L’espressione analitica delle due distribuzioni condizionate è yxn
x
y
x
y
p
q
p
p
yxny
xnxyf
11)!(!
)!()/(
yxn
y
x
y
x
p
q
p
p
yxnx
ynyxf
11)!(!
)!()/(
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
121
Esempio 1.34
Si supponga che il diametro dei tubi prodotti da un certo processo produttivo possa essere
classificato come accettabile se 21 xXx , sovradimensionato se X > x2 oppure
sottodimensionato se X < x1. Le probabilità per ciascun tipo di classificazione sono,
rispettivamente, 0.7, 0.2 e 0.1. Qual è la probabilità che, da una sequenza di 10 prove
statisticamente indipendenti, si ottengano come risultato 6 pezzi accettabili, 1
sovradimensionato e 3 sottodimensionati?
Tale probabilità può essere calcolata come il prodotto delle probabilità di due eventi, ciascuno
dei quali segue una distribuzione binomiale.
Il primo evento è dato dall’estrazione di 6 pezzi accettabili (e quindi 4 difettosi), dato un
campione di 10 unità:
6 410
( 6) 0,7 0,3 0,2001 20,01%6
P X
Tale evento non fa alcuna distinzione tra pezzi sottodimensionati e pezzi sovradimensionati.
Il secondo evento, invece, è relativo all’estrazione di un pezzo sovradimensionato e 3 pezzi
sottodimensionati, dati 4 pezzi al di fuori dei limiti di accettabilità. La probabilità di tale evento
è data da: 1 3
4 0,2 0,1( 1) 0,099 9,90%
1 0,3 0,3P Y
,
dove la probabilità che un pezzo sia sovradimensionato dato che è difettoso è pari, in base al
principio delle probabilità condizionate, al rapporto tra la probabilità di ottenere un pezzo
sovradimensionato, cioè 0.2, e la probabilità di ottenere un pezzo che sia difettoso, quindi o
sovradimensionato o sottodimensionato, che è data da (0.2+0.1) = 0.3.
La manifestazione congiunta dell’evento X “6 pezzi accettabili in 10 prove” e dell’evento Y “1
pezzo sovradimensionato in 4 prove” è proprio l’evento di cui stiamo cercando la probabilità.
Tale probabilità è data dal prodotto della probabilità di X = 6 per la probabilità condizionata
di Y = 1 dato X = 6, quindi: 1 3
6 410! 4! 0,2 0,1( 6 1) 0,7 0,3
6! 4! 1! 3! 0,3 0,3P X Y
,
semplificando si ottiene:
6 1 310!( 6 1) 0,7 0,2 0,1 0,2001 0,0990 1,98%.
6! 1! 3!P X Y
L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove
indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k+1
risultati necessari ed incompatibili 1, 2, …, k, k+1 . Si potrà introdurre la variabile
casuale multinomiale a k dimensioni (X1, X2, …, Xk) , dove le componenti
rappresentano il numero delle volte in cui, nelle n prove, si è presentato,
rispettivamente il risultato 1, 2, …, k . Il numero delle volte in cui si presenta il
risultato k+1 non viene considerato risultando il suo valore per differenza
k
i
ixn1
.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
122
1.11.2 Distribuzione multinomiale e ipergeometrica a k dimensioni
Se con
1 2 1
1
, , ..., 1k
k k i
i
p p p e p q p
si indicano le probabilità dei risultati (punti campionari) 1, 2, …, k+1 , la funzione di
massa di probabilità della variabile casuale multinomiale è
11 2
1 2 1 2 1 2
1 2
1
!( , , ... ; ... ) ( ; ) ...
! ! ... ! !
k
i
k i
n xxx x
k k kk
k i
i
nf x x x p p p f p p p q
x x x n x
x p
dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo nxk
i
i 1
.
La funzione generatrice dei momenti della v.c. multinomiale a k dimensioni è data da
1
11
11 2
1 2
1 2
1 2
0 0 01 2
1
1 2
!
! ! ( )!
k
ki
i i
k i
k
k
n xn xn n x
xx x
kk
x x xi
i
ntt t
k
nE e e p p p q
x x n x
p e p e p e q
' 'X xt t
dove, , , ,1 2 k it t t per -h t h con h 0, i =1,2, ,k. 't
.... ....
1
.1 1
i
i j
i j
oo i o i x i
i i i
i j x x i j i j
i j
i j x x i j
i j
E X n p
Var X n p p
Covar X X n p p
p pCorr X X
p p
Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti
che, rifacendosi allo schema di estrazione da un’urna, si procede ad n estrazioni senza
ripetizione da un’urna contenente N palline, si deriva la versione a k dimensioni della
variabile casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di
probabilità
11 2
1 2
1
1 2 1 2
...
( , ,..., ; , , , , )
k
i
ik
kk
i
i
k k
N NNN N
xx xn x
f x x x n N N NN
n
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
123
dove N1, N2, …, Nk, Nk+1 (
k
i
ik NNN1
1 ) rappresentano le palline, rispettivamente,
del colore 1,2,…,k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore
numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo
1
k
i
i
x n N
anche dai valori N1, N2,…, Nk.
Si possono, senza eccessiva difficoltà, derivare le distribuzioni marginali e le
distribuzioni condizionate della v.c. multinomiale e ipergeometrica a k dimensioni
verificando l’appartenenza alla stessa famiglia di origine.
1.11.3 Distribuzione normale doppia
La funzione di densità della variabile casuale normale doppia o variabile casuale
normale bivariata è data da 22
2
1 22(1 )
2
1( , ; , , , , )
2 1
y yx xxy
x x y yxy
y yx x
x y x y xy
x y xy
f x y e
per x + e y + e dove i parametri che caratterizzano la
distribuzione coincidono con gli indici caratteristici più significativi della distribuzione
stessa
yx YEXE )(,)( 0110
22
02
22
20 )(,)( yyxx YEXE
11 10 0111
y xyxxy yx
x y x y x y
YXE
E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti
2
2
1( )
2
2
1( ) ( , )
2
x
x
x
x
f x f x y dy e
2
2
1( )
2
2
1( ) ( , )
2
y
y
y
y
f y f x y dx e
2
2 2
1 ( )2 (1 )
2 2
( , ) 1( / )
( ) 2 (1 )
xx xy y
yx xy
x y
x xy
f x yf x y e
f y
2
2 2
1( )
2 (1 )
2 2
( , ) 1( / )
( ) 2 (1 )
yy xy x
xy xy
y x
y xy
f x yf y x e
f x
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
124
che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni
condizionate.
Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle
distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni
marginali e dal coefficiente di correlazione. Se xy = yx = = 0, le due variabili
casuali componenti la v.c. doppia sono statisticamente indipendenti
)()(),( yfxfyxf e le distribuzioni condizionate, per l’indipendenza, non
risentono più del condizionamento e risultano uguali alle distribuzioni marginali.
Nella Fig. 1.7 è riportata la forma della funzione di densità e le sezioni orizzontali e
verticali della variabile casuale normale doppia le cui componenti sono incorrelate
(indipendenti) ed hanno uguale varianza.
Nella Fig. 1.8 sono riportate le sezioni orizzontali di variabili casuali normali doppie
incorrelate (xy = 0) con relazione diversa tra le varianze delle due distribuzioni
marginali. Nella Fig. 1.9 sono riportate le sezioni orizzontali di una variabile casuale
normale doppia, le cui componenti hanno stessa varianza 122 yx , per diversi
livelli di correlazione; mentre nella Fig. 1.10 le sezioni sono relative a diversi livelli di
correlazione e diversa varianza ( )14 22 yx e .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
125
Fig. 1.7 – Funzione di densità di una variabile casuale normale bivariata
Osservando le Figg. 1.8, 1.9 e 1.10 si rileva l’incidenza del valore assunto dai
parametri caratteristici sulla forma della funzione di densità. La forma campanulare
perfetta si ha solo quando xy = yx = 0 e 22
yx . Se xy = yx = = 1 , cioè se
esiste un legame lineare tra le due componenti, si avrà un completo schiacciamento
della distribuzione doppia che degenera in una distribuzione semplice. Cosa questa
peraltro desumibile immediatamente anche per via analitica; infatti, valendo la relazione
Y = a + b X non ha più senso parlare di variabilità su due componenti essendo la
variabilità dell’una (es. la Y) strettamente determinata dalla variabilità dell’altra.
= 0,7 ; 2 2 2
.x y = 0,9 ; 2 2 2
.x y
= 0 ; 2 2 2
.x y
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
126
Fig. 1.8 - Sezioni orizzontali di una variabile casuale normale doppia con xy = yx = 0
Fig. 1.9 – Sezioni orizzontali di una variabile casuale normale bivariata con2 2 1x y
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
127
Fig. 1.10 - Sezioni orizzontali di una variabile casuale normale bivariata con
2 24 1x ye
Di seguito si riportano le dimostrazioni di quanto sopra affermato ed evidenziato
graficamente nelle figure.
La funzione specificata è una funzione di densità, infatti: 22
2
1 22(1 )
2
10
2 1
y yx xxy
x x y yxy
y yx x
x y xy
e
e
, 1f x y dx dy
La prima disuguaglianza è immediata, si dimostra la seconda relazione.
22
2
1 2 2(1 )
2
( , ; , , , , )
1
2 1
y yx x
x x y y
x y x y
y yx x
x y
f x y dx dy
e dx dy
Se si operano le trasformazioni
e si ha yx
x y x y x y
x y
yxz z dx dy dz dz
quindi
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
128
22
2
2 2
2
1 2 2(1 )
2
1 2 2(1 )
2
1
2 1
1
2 1
y yx x
x x y y
x x y y
y yx x
x y
z z z z
x y
e dx dy
e dz dz
Se si completa nell’esponente il quadrato in xz si ha
2 2
2
2 2 2 2 2 2
2
2 2 2
2
1 2 2(1 )
2
1 2 2(1 )
2
1 12(1 )
2
1
2 1
1
2 1
1
2 1
x x y y
x x y y y y
x y y
z z z z
x y
z z z z z z
x y
z z z
x y
e dz dz
e dz dz
e dz dz
Se si effettua la trasformazione 1 2
2
2 si ha 1 , quindi
1
x y
x
z zv dz dv
2 2 2
2
22
1 12(1 )
2
2 2
1
2 1
1 1 1
2 2
x y y
y
z z z
x y
zv
y
e dz dz
e dv e dz
La funzione generatrice dei momenti è definita dalla relazione
2 2 2 21
2 2, ,
x x y y x x x y x y y yx y
t t t t t tt X t Y
x y x ym t t E e e
Infatti, se si effettuano le trasformazioni
e da cui e yx
x y x x x y y y
x y
yxz z x z y z
si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
129
2 2
2
2 2 2
2
,
1 2 2(1 )
2
1 2 2 12(1 )
2
,
1
2 1
1
2 1
x x x x y y y y x x y y x x x y y y
x x y yx x y y x x x y y y
x x y y x x xx x y y
t z t z t t t z t z
x y x y
z z z zt t t z t z
x y
z z z z t zt t
m t t E e e E e
e e e dz dz
e e
22 1
y y yt z
x ydz dz
se si completano i quadrati in e x yz z ad esponente si ottiene
2 2 2 2
2
2 22 2 2 2 2 2 2
2
1 2 2 1 2 1
2(1 )
1 2 1 1 1 2
2(1 )
1
22 1
1
22 1
x x y y x x x y y y
x x y y
x y x x y x x y y x x x y x y y yx x y y
z z z z t z t zt t
xy x y
z z t z t t t t t tt t
m e e d z d z
e e
2 22 22 2 2 2
2
11 1 1 22(1 )2 1
22 1
x y x x y x x y yx x y y x x x y x y y y
x y
z z t z t tt t t t t t
x y
d z d z
e e d z d z
effettuando le trasformazioni
2
2
2
1 e si ha 1
1
x y x x
y x x y y x x
z z tu v z t t dz dz du dv
si ha
2 22 2 2 2
2 2 2 2
12
2 2 2,
12
2
1 1
2 2,
x x y y x x x y x y y y
x x y y x x x y x y y y
u vt t t t t t
x y x y
t t t t t t
m t t e e du e dv
e
Le distribuzioni marginali sono normali
La distribuzione marginale X della v.c. doppia (X,Y) è normale con parametri 2 .x xe
Infatti
22
2
1 2 2(1 )
2
1,
2 1
y yx x
x x y y
y yx x
x y
f x f x y dy e dy
se si opera la trasformazione y
y
y
yz
da cui y ydy dz si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
130
22
2
2
2
2
1 2 2(1 )
2
1 2 2(1 )
2
1
2 1
1
2 1
y yx x
x x y y
x xy y
x x
y yx x
x y
x xz z
y
x
e dy
e dz
completando il quadrato di yz ad esponente si ha
2
2
2
2 2 2
2 2 2
2
1 2 2(1 )
2
1 2 2(1 )
2
1 2
1
2 1
1
2 1
1
2
x xy y
x x
x x x xy y
x x x x
x xz z
y
x
x x x xz z
y
x
x
f x e d z
e d z
e
2
2
22
1 2(1 )
2
1
2 1
xyx
xx
xzx
ye d z
ma
2
2
2
1 2(1 )
2
2
1
1 1 per la trasformazione
2 1
da cui 1 pertanto
xy
x
xy
x
xz
y
xz
y
e d z
v d z d v
2
2
1 21
2
x
x
x
x
f x e
Ragionamento analogo vale per f y che è data da
2
2
1 21
2
y
y
y
y
f y e
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
131
Le distribuzioni condizionate sono normali
22
2
2
2
2
2 2
1 2 2(1 )
2
1 2
1 2(1 )
2
1
2 1,/
1
2
1
2 1
y yx x
x x y y
y
y
xx y
yx
y yx x
x y
y
y
x y
x
ef x y
f x yf y
e
e
Analogamente
22
2
2
2
2
2 2
1 2 2(1 )
2
1 2
1 2(1 )
2
1
2 1,/
1
2
1
2 1
y yx x
x x y y
x
x
yy x
xy
y yx x
x y
x
x
y x
y
ef x y
f y xf x
e
e
Da sottolineare che se le due distribuzioni marginali di una v.c. doppia sono normali
non necessariamente la v.c. di origine è normale; ovviamente, se le due v.c. marginali
normali sono indipendenti è normale anche la v.c. doppia di origine.
1.11.4 Distribuzione normale a k dimensioni
La funzione di densità della variabile casuale normale a k dimensioni o variabile
casuale normale k-dimensionale è data da
11 2
1/2/2
1( ; , )
(2 ) kf e
'x x
x
dove tutte le componenti del vettore '
1 2( , ,...., )kx x x x variano tra -∞ e +∞ e
1 1
2 2
; ;
k k
x
x
x
x
1
2
12 111 12 1
221 22 2 21 2 2
21 2 1 2 k
kk
k k
k k kk k k
inoltre, 1 2, ,...., kx x xx' rappresenta una possibile determinazione del vettore casuale
1 2, ,...., kX X X'X , 1 2, ,...., k ' il vettore medio, cioè il vettore delle k medie
aritmetiche (momenti di ordine 1 rispetto all’origine) relative alle k v.c. semplici
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
132
componenti la v.c. multipla e la matrice k×k di varianze e covarianze (matrice di
dispersione); se non è definita positiva la v.c. multipla non esiste e si parla di v.c.
multipla a k dimensioni degenere, in altri termini la dimensione del vettore casuale
1 2, ,...., kX X X'X è inferiore a k.
Il termine 1' x x - - viene usualmente detto distanza generalizzata o
distanza di Mahalanobis di da x .
Si dimostra, senza eccessiva difficoltà, che tutte le v.c. marginali e condizionate,
semplici e multiple, si distribuiscono normalmente.
La funzione generatrice dei momenti è definita dalla relazione
1 2
, , , 1 2, , , k
1
2x x x km t t t E e e
' '
' Xt μ t t
t
dove, , , ,1 2 k it t t per -h t h con h 0, i = 1,2, ,k. 't
Un modo diverso per rappresentare la funzione di densità di probabilità della
variabile casuale multinormale è quello di fare riferimento alle correlazioni anziché alle
varianze e covarianze, in questo caso si ha
' 11
21
2 2
1( ; , )
(2 )
( )
kf e
x DRD x
xDRD
dove
12 1
21 2
1 2
1
1 per
1
k
ijk
ij
i j
k k
R è detta matrice di correlazione
e dove
1
2
0 0
0 0
0 0 k
D è detta matrice di dispersione.
La matrice di correlazione si può ottenere dalla matrice di dispersione e viceversa 1 1 e R D D D R D
Le v.c. marginali e condizionate di ogni ordine hanno distribuzione normale ma se
tutte le v.c. marginali semplici di una v.c. a k dimensioni hanno distribuzione normale
non necessariamente la varibile k-upla di origine è normale. Quest’ultima implicazione
vale se le v.c marginali semplici sono indipendenti, in questo caso le covarianze sono
tutte nulle e la matrice di dispersione è una matrice diagonale.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
133
1.11.5 Distribuzione di Dirichlet
La distribuzione di Dirichlet è una v.c. a k dimensioni (vettore casuale) caratterizzato da
k+1 parametri positivi che deriva da una generalizzazione al caso multivariato della v.c.
Beta (k=1). Questa distribuzione è spesso usata come distribuzione a priori della v.c.
multinomiale nell’inferenza statistica bayesiana.
1
1
1 1
1
1
1
( ; ) i
k
i k
i
ik
ii
i
f x
x
dove, 1 1 2 1 2 1
1 1
1 , 1 , , ,....., > 0 e , ,....., .
k k
k i i k k
i i
x x x x x x
La media e la varianza delle distribuzioni marginali sono
1
1
1 21 1
11 1
, = .
1
k
i i i
iii ik
k k
ii i
ii i
E X Var X
Un caso particolare di questa distribuzione è rappresentato dall’uguaglianza
1 2 1 ..... = = .k k In tale caso si parla di distribuzione di Dirichlet
simmetrica la cui funzione di densità diventa
1
1
1
1
1( ; )
k
ik
i
kf x
x .
1.12 - La famiglia esponenziale
Una v.c. semplice X, caratterizzata da un solo parametro , con funzione di densità o
massa di probabilità ;f x appartiene alla famiglia esponenziale se può essere
espressa nella forma (standard)
;
t xf x a h x e
per 0 , 0 a h x e
dove, può essere definito come parametro standard e come spazio parametrico
standard.
Se il supporto della v.c. X non dipende da la famiglia è detta regolare altrimenti
si parla di famiglia irregolare.
Modi equivalenti per rappresentare la famiglia esponenziale sono
; ; ;
t x d t x d g xf x h x e f x e
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
134
dove logd a e logg x h x
Una v.c. caratterizzata da r parametri con funzione di densità o massa di probabilità
1 2 ; , ,...., ;rf x f x , dove, 1 2, ,...., r θ , appartiene alla famiglia
esponenziale se può essere espressa nella forma:
1
;
r
i i
i
t x
f x a h x e
dove, 0 , 0 e a h x Θ
o anche
1
;
r
i i
i
t x d
f x h x e
;
1
;
r
i i
i
t x d g x
f x e
dove logd a e logg x h x .
L’espressione analitica della funzione di massa o di densità della famiglia
esponenziale nel caso multivariato è:
1
;
r
i i
i
t
f a h e
x
x x
dove 1 2, ,....., kx x x'x rappresenta un vettore casuale a k dimensioni.
Modi equivalenti per rappresentare la famiglia esponenziale nel caso multivariato
multiparametrico sono
1 1
; ; ;
r r
i i i i
i i
t d t d g
f h e f e
x x x
x x x
dove logd a e logg h x x .
Nella generalità dei casi la famiglia esponenziale non viene presentata nei termini
sopra riportati (formulazione standard). Una diversa rappresentazione della famiglia
esponenziale, che agevola gli sviluppi teorici, è quella che si ottiene, attraverso una
specifica riparametrizzazione, usualmente detta naturale o canonica e i nuovi parametri
(spazio parametrico naturale) vengono detti parametri naturali o canonici.
Nel caso univariato e di un solo parametro l’espressione in forma naturale è
;
t xf x b h x e
per 0 , 0 b h x e
od anche
; ; ;
t x d t x d g xf x h x e f x e
Nel caso univariato multiparametrico l’espressione in forma naturale è
1
;
r
i
i
t x
f x h x c e
dove i i
od anche
1 1
; ; ;
r r
i i i i
i i
t x d t x d g x
f x h x e f x e
Nel caso multivariato multiparametrico la rappresentazione in forma naturale è
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
135
1
;
r
i i
i
t
f c h e
x
x x
od anche
1 1
; ; ;
r r
i i i i
i i
t d t d g
f h e f e
x x x
x x x
Specificando opportunamente le funzioni a valori reali riportate nelle diverse
espressioni analitiche sopra introdotte si derivano molte delle distribuzioni illustrate
nelle pagine precedenti; infatti, appartengono alla famiglia esponenziale, la v.c.
binomiale per n noto (bernoulli come caso particolare della binomiale), la v.c. binomiale
negativa per k noto e la v.c. multinomiale per n noto, la v.c. di poisson, la v.c. di
Pareto per valore minimo noto, la v.c. di Weibull per noto, la v.c. gamma, la v.c.
beta, le v.c. casuali normale, log-normale e normale multivariata. Non appartengono
alla famiglia esponenziale la v.c. ipergeometrica, la v.c. uniforme quando gli estremi di
variabilità non sono noti, la v.c. di Cauchy, la v.c. logistica, la v.c. t di student e la v.c. F
di Fisher-Snedecor; più in generale, non appartengono alla famiglia esponenziale tutte
le distribuzioni il cui supporto dipende da parametri caratteristici (famiglia irregolare) a
meno che questi non vengano assunti come noti.
Esempio 1.35
Di seguito si riportano a titolo esemplificativo le rappresentazione in forma naturale (canonica)
di alcune distribuzioni tra quelle sopra elencate.
v.c. Binomiale (v.c. di Bernoulli, come caso particolare della binomiale)
La funzione di massa di probabilità della v.c. binomiale è caratterizzata dai due parametri n e
p , assumendo noto il valore di n l’unico parametro di interesse è θ=p. Operando opportune
trasformazioni si deriva facilmente la rappresentazione in forma esponenziale della funzione di
massa di probabilità.
log
1 ; , 1 1
px
n x n p p t xx x n xn n n
f x n p p p p q p e h x a p ex x x
dove: 1 0n
a p p , 0n
h xx
, log1
pp
p
, t(x) = x.
Poisson
La funzione di massa di probabilità della v.c. di Poisson è caratterizzata dal solo parametro .
Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma
esponenziale della funzione di massa di probabilità.
log1( ) ( ; )
! !
xxe
f x f x e ex x
dove, 1
, , log , !
h x e a t x xx
.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
136
Normale
La funzione di densità di probabilità della v.c. normale è caratterizzata dai due parametri 2 e . Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma
esponenziale della funzione di densità di probabilità. 2 2
2
2 2 2
1 1 x
2 2 2 2
2 2
1 1( ) ( ; , )
2 2
xx
f x f x e e e
dove
2
2 2 221 2 1 22 22
1 1 , , 1 , , , ,
22e a h x x t x x t x
Multinomiale
La funzione di massa di probabilità della v.c. multinomiale a k dimensioni è caratterizzata da
k+1 parametri n e 1 2, ,......, kp p p , assumendo noto il valore di n, i parametri di interesse
sono 1 2, ,......, kp p p'
p . Operando opportune trasformazioni si deriva facilmente la
rappresentazione in forma esponenziale della funzione di massa di probabilità.
1
1
1
11
log log
11
!( ; )
! !
!
! !
k
i
i i
ki
i
i
k n xx
ik k
i
i i
ii
px
qn q
k k
i i
ii
nf p q
x n x
ne e
x n x
x p
dove 1
log 1 log
1 1
!, , log ,
! !
k
i
i
n pn q i
i i ik k
i i
i i
n ph e e h t x
qx n x
x p x.
1.13 - Distribuzioni multiple multivariate (matrici casuali)
Ai punti precedenti sono state illustrate alcune tra le v.c. a k ≥ 2 dimensioni di uso più
comune, introducendo il termine di vettore casuale. Un’ulteriore generalizzazione è il
passaggio dal vettore casuale alla matrice casuale; nelle righe successive verranno
introdotte tre generalizzazioni di particolare interesse utilizzando la terminologia
variabile casuale multipla multivariata (v.c.m.m.). In particolare verranno considerate
le generalizzazioni della v.c normale, della v.c. gamma, della v.c. beta e la distribuzione
di Wishart che è una sottofamiglia della gamma multipla multivariata.
Distribuzione normale multipla multivariata
La funzione di densità di probabilità di una matrice casuale normale X di dimensione
n×k è data da
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
137
1 1
/2 /2 /2
1exp tr '
2( , , )
2n kn k
f
V X M U X M
X; M U VV U
Dove M (matrice dei momenti) è, ovviamente di dimensione n×k , e le due matrici di
varianze e covarianze U, di dimensione n×n, e V , di dimensione k×k , possono essere
definite dalle relazioni
'
' / /
E tr
E c tr c
U X M X M U V
V X M X M V U
c è una costante che dipende da U tale da consentire la derivazione della costante di
normalizzazione della funzione di densità.
La v.c.m.m normale può essere posta in relazione con la v.c.m. normale se e solo se
,vec N vec X M V U15
se vale questa relazione, cioè se il vettore vec (X) di dimensione nk×1 si distribuisce
normalmente con vettore medio vec(M), di dimensione nk×1 e matrice di dispersione
V U , di dimensione nk×nk, si ha
, .n kMN X M U,V
Distribuzione gamma multipla multivariata
La funzione di densità di probabilità di una matrice casuale gamma X simmetrica e
definita positiva di dimensione k×k , , ,k kM X è data da
11
1 /2
( ; , , ) , < <
ktrk
k
k kk
k
ef
X
XX 0 X 1
dove 0 , 0 , k è una matrice simmetrica definita positiva di dimensione k×k e
1
1 /2 1 /4 1 1
2
k
i
ktr k k
k ie d
X
X X =
dove rappresenta l'insieme di tutte le matrici X definite positive di dimensione k×k .
Distribuzione beta multipla multivariata
La funzione di densità di probabilità di una matrice casuale Beta X simmetrica e
definita positiva di dimensione k×k , ,kMBe X è data da
1 /2 1 /2
( ; , ) , < < ,
k k
k
k
k
fBe
X I - X
X 0 X 1
dove 1 / 2k , 1 / 2k e
15 Si ricorda che l’operatore vec(X) indica l’operazione di vettorizzazione della matrice X (i vettori colonna della
matrice vengono allineati sulla prima colonna) mentre l’operatore indica il prodotto di Konecker tra matrici
(ciascun elemento della prima matrice viene moltiplicato per la seconda matrice definite nel prodotto).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
138
1 /2 1 /2
< <
,
k
k k
k kBe d
0 X 1
X I - X X
ed anche
,
k k
k
k
Be
è la funzione matematica beta multivariata.
Distribuzione di Wishart e Wishart inversa
La funzione di densità di probabilità di una matrice casuale di Wishart X simmetrica e
definita positiva di dimensione k×k , ,k kW X è data da
11 /2 1 /22
/2
( ; , ) , < <
/ 2 2
ktrk
k
k kk
k
ef
X
XX 0 X 1
dove 1k , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della
distribuzione, k è una matrice simmetrica e definita positiva di dimensione k×k.
Una prima osservazione da fare su questa distribuzione è che essa rappresenta una
sottofamiglia della distribuzione Gamma multipla multivariata per / 2 e =2 ;
inoltre, la distribuzione di Wishart può essere interpretata come una generalizzazione
della v.c 2 . Infatti, se si pone k = 1 e 1k , la matrice X si riduce ad uno scalare
quindi 1 ,1x W , da cui
1 2 2
/2
( ; )
/ 2 2
x
x ef x
che rappresenta la funzione di densità di probabilità di una v.c. 2 con gradi di
libertà.
La funzione di densità di probabilità di una matrice casuale di Wishart inversa X
simmetrica e definita positiva di dimensione k×k , ,k kInvW X è data da
11 + 1 /2 22
/2
( ; , ) , < <
/ 2 2
kk tr
k
k kk
k
ef
X
XX 0 X 1
dove 1k , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della
distribuzione, k è una matrice simmetrica e definita positiva di dimensione k×k.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
139
1.14 - Distribuzioni a priori coniugate16
La formula di Bayes introdotta nelle pagine precedenti consente, come già sottolineato,
di esprimere il processo di apprendimento dall’esperienza e, quindi, dà la possibilità di
aggiornare le informazioni (a priori) che il soggetto possiede in merito ad uno specifico
fenomeno di interesse sulla base delle nuove informazioni acquisite o acquisibili
(informazioni campionarie). Nell’illustrazione della formula sono stati introdotti i
concetti di probabilità a priori, di probabilità probativa o verosimiglianza e di
probabilità a posteriori.
Se anziché far riferimento alla probabilità si fa riferimento, senza perdere in
generalità, alla funzione di densità di probabilità per un modello caratterizzato da un
solo parametro assunto variabile (perché incognito) nel continuo17
, valgono le relazioni
( , ) ( ) ( ) ( / ) ( )f x f x / f f x f x ,
dove, avendo attribuito al parametro la natura di variabile a ragione della mancata
conoscenza del suo valore, è stata utilizzata la simbologia ( , )f x anziché ( )f x; , la
formula di Bayes è espressa dalla relazione
( ) ( ) ( ) ( )( / )
( ) ( ) ( )
f x / f f x / ff x
f x f x / f d
e, utilizzando la simbologia di più largo impiego, anche
( ) ( ) ( ) ( )( / )
( ) ( ) ( )
f x / f x /x
f x f x / d
dove, ( / )x rappresenta la distribuzione di probabilità a posteriori del parametro ,
( ) la sua distribuzione a priori e ( )f x / la probabilità probativa.
Quando la distribuzione di probabilità a posteriori appartiene alla stessa famiglia
della distribuzione a priori, quest’ultima viene detta distribuzione di probabilità a priori
coniugata.
Definizione 10 – Data la relazione
( ) ( )( / )
( ) ( )
f x /x
f x / d
16 Il concetto di distribuzione a priori coniugata è stato formalizzato da Raiffa e Schlaifer (1961); concetto questo che
trova una chiara interpretazione nella frase: “distribution closed under sampling”. 17 Ragionamento del tutto analogo vale anche quando si considerano più parametri, definiti nel discreto o nel
continuo, per la funzione di massa di probabilità e per la funzione di distribuzione.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
140
() è detta distribuzione a priori coniugata di ( , )f x se la
corrispondente distribuzione a posteriori (/x) appartiene alla
medesima famiglia di ().
Alcuni esempi di distribuzioni a priori coniugate sono riportati nella tabella seguente.
dove N indica la distribuzione Normale, la distribuzione Gamma, B la Binomiale, Be
la Beta, P la distribuzione di Poisson e BinNeg la distribuzione Binomiale Negativa.
Distrib. campionaria
f(x/)
Distrib. a priori
()
Distrib. a posteriori
(/x)
N(,2) N(,2
) N
22
22
22
22
,
x
(,) (,) (+,+x)
B(n, p) e(,) Be(x+,n+)
P() (,) (+x,+1)
BinNeg(,1/) (, ) B(+r, +x)
Per comprendere meglio l’utilità del concetto di distribuzione a priori coniugata, si
consideri un processo di tipo Bernoulliano; in questo caso la distribuzione campionaria
è di tipo Binomiale. Poiché p è il parametro sconosciuto della popolazione (la causa che
genera l’evento), coerentemente a quanto riportato nella precedente tabella, si assuma
che la distribuzione a priori di p sia di tipo Beta con parametri e .
11
1 11 1
1; , 1
,
( 1)! 1 1
1 ! 1 !
p p p pB
p p p p
poiché
/ ; , (1 ) (1 )x n x x n xn
f x p f x n p p p p px
dalla formula di Bayes risulta che la distribuzione a posteriori è proporzionale18
al
prodotto della verosimiglianza per la distribuzione a priori, pertanto si ha:
1 11 1/ / 1 (1 ) 1
n xx n x xp x p f x p p p p p p p
18 Il simbolo sta ad indicare la relazione di proporzionalità tra le quantità poste a confronto.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
141
che, a meno della costante di normalizzazione, è una distribuzione di tipo beta con
parametri pari a x+α e n+β; cioè, la distribuzione a priori e quella a posteriori
appartengono alla stessa famiglia. La costante di normalizzazione risulta essere
1 ! 1 !1
, 1 !
x n x n
B x n x n x n
.
quindi la funzione di densità a posteriori è
111
/ 1,
n xxp x p pB x n
cioè, una distribuzione di tipo Beta con prametri e .x n
Considerazioni del tutto analoghe possono essere svolte nei confronti della v.c.
multinomiale a k dimensioni per n noto. Come già anticipato, in questo caso, la
distribuzione a priori coniugata della v.c. multinomiale è la v.c. di Dirichlet.
La funzione di massa di probabilità della v.c. multinomiale è
1
1
11
1 1
1
1 1
1
1 1
1 1
!/ ( ; , )
! !
!
!
dove
1
k
i
i i
i i
k n xx
ik k
i
i i
ii
k k
x x
i ik
i ii
i
k k
k i k i
i i
nf f n p q
x n x
np p
x
x n x e p q p
x p x p
mentre, la funzione di densità di probabilità della v.c. di Dirichlet è
1
1 1
1 1 1
1
1 1
1
( ) ( ; ) i i
k
i k k
i
i ik
i ii
i
p p
p p
da cui 1 1 1
1 1
1 1 1
( / ) ( ; , , ) i i i i
k k k
x x
i i i
i i i
n p p p
p x p x
che, a meno della costante di proporzionalità (normalizzazione)
1
1
1
1
k
i i
i
k
i i
i
x
x
è la funzione di densità di probabilità di una v.c di Dirichlet; cioè la distribuzione a
priori e quella a posteriori appartengono alla stessa famiglia.
142