CAP. 1 – CALCOLO DELLE PROBABILITA’...B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità 19 cioè da numeri reali non negativi, dato che la durata

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 1 - Calcolo delle probabilità

17

CAP. 1 – CALCOLO DELLE PROBABILITA’

Introduzione

Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo, si è sviluppato

teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei

fenomeni collettivi diventando presupposto essenziale della statistica e della teoria

statistica delle decisioni.

Il calcolo delle probabilità è una disciplina matematica astratta e altamente

formalizzata pur conservando il suo originale e rilevante contenuto empirico. Per questa

sua particolare natura l’esposizione dei suoi contenuti essenziali risulta facilitata

dall’introduzione di definizioni esplicite relative agli aspetti e concetti che ne

costituiscono il corpo.

1.1 - Alcuni concetti base

Definizione 1: Si dice prova o esperimento casuale ogni operazione o attività il cui

risultato non può essere previsto con certezza.

Risulta chiaro che il termine prova o esperimento va qui inteso in senso lato,

comprendendo in esso sia il lancio di un dado, sia l'estrazione di una pallina da un'urna,

sia la rilevazione dei pesi dei coscritti alla leva, sia l’esito di una operazione chirurgica,

sia la sperimentazione di un nuovo farmaco, sia il controllo dei pezzi prodotti da un cer-

to macchinario ecc.

Definizione 2: Si dice spazio campionario di un esperimento casuale l'insieme di

tutti i possibili risultati (punti campionari), esaustivi e mutualmente

escludentesi, dell'esperimento stesso.

Di seguito si riportano alcuni esempi di esperimento casuale e di spazio campionario

ad esso associato.

Se l'esperimento casuale consiste nel lancio di una moneta a due facce, lo spazio

campionario è dato da

= {T, C} = 21,

dove T = 1 è il punto campionario testa e C = 2 è il punto campionario croce.

In questo esempio si è assunto che gli unici risultati possibili siano T e C, e che

quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che




18

anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento

casuale è

= {T, C, B}= 321 ,,

dove B è il punto campionario “moneta in equilibrio sul bordo”.

Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento

casuale sia un’operazione di finanziamento di una banca ad una impresa cliente, i cui

risultati possibili sono la restituzione o meno del finanziamento concesso da parte

dell’impresa. In tal caso, infatti, lo spazio campionario è dato da

= {R, NR}= 21,

dove R è il punto campionario finanziamento restituito e NR il punto campionario

finanziamento non restituito.

Nel caso in cui l'esperimento consiste nel controllo dei pezzi prodotti da un certo

macchinario avendo come finalità l'accertamento della bontà o difettosità del pezzo

prodotto, lo spazio campionario sarà composto dai soli due elementi (punti

campionari) 1 e 2 , dove 1 rappresenta il pezzo difettoso ed 2 il pezzo non

difettoso.

Quando l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio


= {1, 2, …, 90}= 9021 ,.....,,

costituito, come è ovvio, da tutti i numeri interi da 1 a 90; da rilevare che, in realtà,

l’esito di questo esperimento casuale non è un numero ma una pallina contrassegnata da

un numero, così come quando si lancia un dado, l’esito della prova non è un numero ma

una faccia su cui sono riportati 1 o 2 ……..o 6 puntini.

Quando l'esperimento consiste nell'estrazione di una pallina da un'urna che ne

contiene n identiche a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio

campionario resta definito da

1 2 i nΩ ω ,ω ,...,ω ,...,ω

dove i (i=1, 2,...,n) sta ad indicare il punto campionario costituito dalla estrazione

della pallina contrassegnata con il numero i.

Se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito

internet oppure nel contare il numero di stelle presenti nell’universo, lo spazio


= {0, 1, 2, …, ∞} = 1 2 ,ω ,ω ,... .

cioè, da tutti i numeri interi non negativi, dato che il numero di accessi o di stelle è un

numero intero e non è possibile stabilirne a priori il valore massimo che per

convenzione si pone uguale ad infinito.

Infine, nel caso in cui l'esperimento casuale consiste nel test di durata di un

pneumatico, lo spazio campionario è costituito da

= {0,∞}




19

cioè da numeri reali non negativi, dato che la durata è un numero che non può essere

negativo. Si segnala che anche in questo caso l’estremo superiore pari a ∞ sta ad

indicare che non è possibile stabilire la durata massima che, ovviamente, da un punto di

vista empirico non potrà essere infinita.

Negli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà

nell'individuazione e nella successiva enumerazione dei punti campionari che ne

costituiscono i possibili risultati. In esperimenti più complessi possono risultare di

notevole ausilio alcune formule combinatorie che facilitano notevolmente

l'enumerazione dei punti campionari, cioè l'esatta definizione dello spazio campionario.

Dagli esempi riportati risulta che lo spazio campionario può essere costituito da un

numero finito di punti (come nel caso del lancio della moneta, dei pezzi buoni/difettosi,

delle palline estratte da un’urna), oppure da un’infinità numerabile di punti (come nel

caso del numero di accessi ad un sito internet), o infine da un’infinità non numerabile

di punti (come nel caso del test di durata di un pneumatico).

Definizione 3: Se lo spazio campionario è costituito da un numero finito o da

un’infinità numerabile di punti campionari, si dice evento ogni

sottoinsieme E dello spazio campionario . Se lo spazio campionario

è costituito da un’infinità non numerabile di punti, non tutti i possibili

sottoinsiemi di hanno la natura di eventi (si tratta di sottoinsiemi non

misurabili1); in questa sede verranno, comunque, considerati soltanto i

cosidetti sottoinsiemi misurabili di . Si può pertanto definire come

evento qualunque sottoinsieme misurabile dello spazio campionario.

Se, ad esempio, si fa riferimento al caso dell'estrazione di una pallina da un'urna che

ne contiene n, si può pensare di suddividere l'intero spazio campionario in due

sottoinsiemi (eventi) 1 1Ω E ed 2 2Ω E contenenti, rispettivamente, i punti

campionari: a) presentarsi di una pallina contrassegnata da un numero dispari; b)

presentarsi di una pallina contrassegnata con un numero pari.

Sia i l’evento estrazione di pallina contrassegnata con il numero i , il sottoinsieme

E = ( : i per i pari o dispari) = ni ,...,,...,, 21 =

coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si

realizzerà in quanto effettuando l'estrazione è certo che si presenterà una pallina o

contrassegnata con un numero dispari o contrassegnata con un numero pari.

1 In matematica un insieme non-misurabile è un insieme la cui struttura è talmente complicata da impedire la

possibilità di assegnare all’insieme stesso una misura significativa. Borel e Kolmogorov nelle loro formulazioni della

teoria della probabilità hanno ristretto la classe dei possibili sottoinsiemi dell’asse reale che derivano da un insieme

numerabile di operazioni di unione ed intersezione di intervalli aperti o chiusi dell’asse stesso, sottoinsiemi

usualmente definiti come insiemi di Borel o Borelliani. Il primo esempio di insieme non misurabile è attribuito al

matematico italiano Vitali (1905). Un esempio di insieme non misurabile è quello costituito dagli intervalli semiaperti

(a,b]=x : a < x b ed anche [a,b)=x : a x < b.

http://upload.wikimedia.org/wikipedia/commons/3/39/Latex_real_numbers.svg

http://upload.wikimedia.org/wikipedia/commons/3/39/Latex_real_numbers.svg




20

Il sottoinsieme

E = ( : i per i pari e dispari) =

è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da

un numero dispari o da un numero pari e non esiste pallina contrassegnata da un numero

che è dispari e pari allo stesso tempo. L'evento così definito viene detto evento

impossibile (si tratta dell'evento che non si potrà mai realizzare) e denotato con il

simbolo .

Gli eventi i iE , per i = 1, 2,…, n, vengono detti eventi elementari in quanto

costituiti da un solo punto campionario.

Si consideri ora l’insieme B di tutti i possibili sottoinsiemi misurabili di , cioè

l’insieme degli eventi, su questo insieme si può introdurre un'algebra, cioè un insieme di

operazioni che soddisfano certe proprietà e che generano, come risultato delle

operazioni stesse, ancora degli eventi, cioè elementi che appartengono allo stesso

insieme B sui quali è stata introdotta l’algebra; si parla, in tal caso, di sistema chiuso

rispetto alle operazioni introdotte. Se il sistema è chiuso rispetto ad un numero finito di

operazioni, si parla di algebra di Boole o, più semplicemente, di algebra o campo, se il

sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di

Boole completa o, più semplicemente, di -algebra o -campo.

Definizione 4 - Si definisce come spazio degli eventi, ed anche Algebra di Boole

completa costruita su (-algebra), l’insieme B di tutti i possibili

sottoinsiemi misurabili di sul quale è stata introdotta un’algebra.

Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto

esposto in queste note, riguardo agli eventi, non rappresenta alcunché di nuovo o di

diverso rispetto al già conosciuto; in effetti gli eventi possono essere interpretati come

insiemi, o meglio, come sottoinsiemi di un insieme dato rappresentato dallo spazio

campionario . Si ha così che l'evento certo (coincidente con l'intero spazio

campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile

rappresenta l'insieme vuoto.

1.2 - Algebra degli eventi

Le operazioni proprie della teoria degli insiemi sono quella di prodotto o intersezione

(), quella di somma o unione (), quella di complementazione o negazione E e

quella di differenza (-); si tratta delle stesse operazioni che, oltre al concetto di

inclusione, verranno qui considerate in quanto costituenti parte essenziale dell'algebra

degli eventi.




21

Si dice che un evento E1 è incluso nell'evento E

2, e si scrive E

1 E

2 se ogni punto

campionario appartenente ad E1 appartiene anche ad E

2. Due eventi E

1 ed E

2 sono,

quindi, uguali se e solo se (sse) contemporaneamente

E1 E

2 ed E

1 E

2.

Ovviamente, in questo caso i due eventi saranno costituiti dagli stessi punti

campionari.

Si definisce come negazione (complementazione nella teoria degli insiemi) di un

evento E, e si scrive E , l'evento che si realizza quando non si realizza E. L'evento E

sarà pertanto, costituito da tutti i punti campionari di che non appartengono ad E.

Nella figura sottostante vengono proposti graficamente (facendo ricorso ai

diagrammi di Venn) il concetto di evento incluso e di evento negato.

Fig. 1.1 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta

l’intero spazio campionario e E1 E

2 .

L'intersezione tra due eventi E1 ed E

2 è l'evento E

3= E

1 E

2 che si realizza quando si

realizzano entrambi gli eventi E1 ed E2 e che resta definito dai punti campionari che

appartengono sia ad E1

sia ad E2. L'unione tra due eventi E

1 ed E

2 è l'evento E

4= E

1 E

2

che resta definito da tutti i punti campionari che appartengono ad E1 o ad E

2 o ad

entrambi gli eventi E1 ed E

2 , si tratta , cioè, dell’evento che si realizza quando si

realizza almeno uno di due eventi E1 o E

2 La differenza fra due eventi E1 ed E2 è

l'evento E5 = E2 – E1 che risulta costituito dai punti campionari che appartengono ad

E2 ma non a E1, si tratta, cioè, dell’evento che si realizza E2 ma non E1.

La rappresentazione grafica tramite i diagrammi di Venn delle tre operazioni

(intersezione, unione e differenza) è riportata nella Fig. 1.2.

E1

E2

E2




22

Fig. 1.2 - Diagrammi di Venn per l’intersezione, l’unione e la differenza dove il tratteggio

vuole evidenziare rispettivamente, l’evento E3 , nella prima figura, l’evento E4 nella seconda

figura e l’evento E5 nella terza figura.

Si noti che una volta introdotte le operazioni di negazione ed intersezione (operazioni

base dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori

operazioni di unione e di differenza non essendo queste ultime operazioni

concettualmente nuove; infatti:

1 2 1 2E E E E

2 1 1 2E E E E

La relazione 1 2 1 2E E E E e la relazione duale 1 2 1 2E E E E non sono

altro che la formulazione tramite la simbologia relativa alla teoria degli insiemi delle

leggi di de Morgan.

L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione,

sia formale sia operativa, che esse comportano.

Due eventi E1 e E

2 si dicono incompatibili se la loro intersezione dà luogo all'evento

impossibile

E1 E

2 =

si tratta, quindi, di eventi che non hanno elementi (punti campionari) comuni.

A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo sta ad

indicare che l’evento E1

è contenuto nell’evento E2 (E

1 sottoinsieme proprio di E

2) e il

simbolo rappresenta la relazione di implicazione (dalla prima relazione deriva

necessariamente - è implicata - la seconda relazione):

E1 E

2 => E

1 E

2 = E

1

E1 E

2 => E

1 E

2 = E

2

=

E

E =

E3= E1 E2

E1 E2

E4= E1 E2

E1 E2 E1 E2

E5= E2 – E1




23

E = E

E = E

E =

E E =

E E =

E1 (E

1 E

2)

E2 (E

1 E

2)

(E1

E2) E

1

(E1 E

2) E

2

Un ulteriore e rilevante concetto è quello di condizionamento degli eventi. L'evento

E1/E

2 (e si legge l'evento E

1 condizionato dall'evento E

2 o, più semplicemente, l'evento

E1 dato E

2 ) va interpretato presupponendo già verificato l'evento condizionante E

2. Il

condizionamento degli eventi si risolve, praticamente, in una sorta di ridefinizione dello

spazio campionario che da si trasforma nell'evento condizionante, o, in altre parole,

è l'evento condizionante che assume la natura di spazio campionario di riferimento.

Fig. 1.3 - Ridefinizione dello spazio per eventi condizionati

Se si considera l'evento condizionato E1/E

2 non solo E

2 si trasforma in ma anche

l'evento E1 si trasforma nell'evento E

1 E

2, in quanto, sapendo che l'evento E

2 si è

verificato perdono di rilevanza tutti i punti campionari che pur appartenendo ad E1 non

appartengono ad E2.

Le operazioni di unione e di intersezione possono, naturalmente, essere applicate

anche a k (>2) eventi. L'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato

l'evento E

E = 1 2 ...k

k i

i=1

E E E E

che contiene tutti i punti campionari i (comuni ai k eventi E1,E2,….,Ek; mentre

l'unione tra gli stessi k eventi, se necessari, dà come risultato l'evento E=

E1 E2

E1/ E2




24

E = = E1 E

2 ... E

k =

k

i 1

Ei

che contiene tutti i punti campionari i che appartengono ad almeno uno degli eventi

Ei. Un caso particolare di eventi necessari E1,E2,….,Ek è rappresentato da una partizione

dello spazio campionario, cioè, quando i k eventi sono necessari (un evento si deve

necessariamente verificare) e incompatibili, cioè, quando = k

i 1

Ei e E

i E

j= per

i≠j.

Le operazioni di unione e di intersezione soddisfano la proprietà associativa:

E1 E

2 E

3 = (E

1 E

2) E

3 = E

1 (E

2 E

3)

E1 E

2 E

3 = (E

1 E

2) E

3 = E

1 (E

2 E

3)

e quella distributiva:

E1 (E

2 E

3) = (E

1 E

2) (E

1 E

3)

E1 (E

2 E

3) = (E

1 E

2) (E

1 E

3)

La proprietà distributiva, dell’intersezione rispetto all’unione e dell’unione rispetto

all’intersezione, per k eventi è espressa, rispettivamente, da

E (E1

E2 ... E

k ) = E (

1

k

i

Ei ) =

1

k

i

(E Ei )

E (E1 E

2 ... E

k ) = E (

1

k

i

Ei ) =

1

k

i

(E Ei )

1.3 - Probabilità

Definizione 5: Si dice probabilità di un evento la funzione a valori reali P(E), definita

sulla classe dei sottoinsiemi ammissibili (eventi) dello spazio

campionario, che soddisfa specifiche proprietà.

I concetti (primitivi) prova o esperimento casuale, evento e probabilità sono collegati

fra loro dalla seguente frase: "l'esperimento genera l'evento con una certa

probabilità"; dove, naturalmente, la probabilità va intesa come misura applicata agli

eventi quando viene condotto un esperimento casuale.

I tre concetti primitivi sono posti a base della definizione assiomatica di probabilità.

Si tratta di una definizione che non ha sollevato obiezioni sostanziali da parte degli

studiosi dopo la sua formulazione da parte di Kolmogorov (1933)2. Si tratta infatti di

una definizione che si preoccupa di precisare e chiarire soltanto i contenuti sintattici sui

quali è più facile trovare l'accordo. Ma se da un lato il cosiddetto approccio assiomatico

2 Andrej Nikolaevič Kolmogorov - in russo: Андре́й Никола́евич Колмого́ро - (1933) Grundbegriffe der

Wahrscheinlichkeitsrechnung. Julius Springer, Berlin. Il testo è stato tradotto in inglese con il titolo Foundations of

the Theory of Probability (1956),

http://it.wikipedia.org/wiki/Lingua_russa




25

alla probabilità presenta indubbi vantaggi, sia in termini di accettabilità che di sviluppo

della teoria, dall'altro lato il considerare i soli aspetti formali esclude ogni operatività

della definizione stessa in quanto non consente la derivazione numerica della misura di

probabilità nei singoli casi concreti. Quando si vuol far ricorso alla probabilità per

risolvere problemi reali si dovrà, quindi, fare necessariamente riferimento ad altre

definizioni nelle quali l'aspetto semantico viene privilegiato.

Prima di trattare della definizione assiomatica di probabilità conviene, pertanto,

introdurre altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in

questa sede se ne presentano soltanto tre: la definizione classica, quella frequentista o

statistica e la definizione soggettiva. Si tratta delle tre definizioni non assiomatiche

della probabilità più note ed alle quali si fa più spesso riferimento in pratica; tutte e tre

le definizioni soddisfano ai postulati posti a base della definizione assiomatica di

probabilità.

Definizione classica (a priori) della probabilità

La probabilità P(E) di un evento E è data dal rapporto tra il numero En dei casi

favorevoli al verificarsi dell'evento e il numero n dei casi possibili, purché tutti i casi

siano egualmente possibili

possibilicasideinumero

favorevolicasideinumero

n

nEP E

)(

Esempio 1.1

L’azienda Lance Clothiers produce un’ampia varietà di abbigliamento maschile, tra cui

camicie. Una volta prodotte, le camicie vengono ripiegate e impacchettate singolarmente da 10

macchine e, una volta raccolto il risultato di ciascuna macchina in cartoni, vengono spedite ai

clienti. A seguito di un’ispezione di routine si scopre che una di queste 10 macchine non è

messa a punto adeguatamente e, conseguentemente, crea degli strappi in ogni camicia

sottoposta al processo di ripiegatura e impacchettamento. Prima dell’ ispezione, è stata inviata,

a 100 clienti diversi, una spedizione di 100 pacchi di camicie tra cui 10 provenienti dal

macchinario difettoso. Qual è la probabilità che un cliente riceva il pacco contenente le

camicie difettose?

Poiché ciascun cliente riceverà uno dei 100 pacchi di camicie spediti, lo spazio campionario

dell’esperimento è costituito da 100 elementi (n=100); inoltre, poiché 10 di questi pacchi

contengono le camicie difettose (nE), allora, per la definizione classica di probabilità:

10,0100

10)(

n

nEP E ,

dove con E si indica l’evento “pacco contenente camicie difettose”.

Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La

prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che

tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non




26

si può definire un concetto utilizzando lo stesso concetto). Altre due critiche riguardano

l’operatività della definizione; una volta superato lo scoglio logico, non sono affatto rare

le situazioni reali nelle quali non è possibile procedere all’enumerazione dei casi

favorevoli e dei casi possibili, inoltre, anche nelle situazioni in cui si può effettuare una

tale enumerazione, non è infrequente la circostanza in cui i casi non sono tutti

ugualmente possibili.

Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far

ricorso alla definizione classica di probabilità quando le situazioni non lo consentono, è

stata introdotta una diversa definizione di probabilità.

Definizione frequentista o statistica (a posteriori) della probabilità

La probabilità di un evento ripetibile E è data dal rapporto tra il numero En delle volte

in cui l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse

condizioni) quando il numero delle prove stesse tende ad infinito

P(E) = n

nE

n lim

La probabilità secondo questa definizione può essere, pertanto, intesa come una sorta

di idealizzazione della frequenza relativa3. Taluni autori ritengono, infatti, che

probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di

uno stesso concetto ed interpretano la frequenza relativa di un evento come misura

approssimata (per n finito) della probabilità.

Anche alla definizione frequentista sono state rivolte critiche di varia natura quale

quella relativa al limite irraggiungibile (+) imposto al numero delle prove, ma ad una

tale critica si risponde accettando la frequenza relativa di un numero finito (ma

sufficientemente elevato) di prove come misura approssimata della probabilità. Molto

più problematica è la risposta alla critica relativa alla ripetibilità delle prove

(esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle

situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere

all’effettuazione di alcuna prova.

Esempio 1.2

La Metric Systems produce circuiti elettronici integrati. Occasionalmente, il processo produce

un circuito difettoso e, saltuariamente, il responsabile per il controllo della qualità seleziona

casualmente 500 circuiti dalla linea di produzione e li ispeziona attentamente. Nell’ultima

ispezione sono stati riscontrati 15 circuiti difettosi (su un totale di 500 ispezionati). Qual è la

probabilità che il processo produca un circuito difettoso?

3 Nel contesto della statistica descrittiva, si definisce frequenza relativa il rapporto tra il numero delle unità statistiche

caratterizzate da una specifica modalità del carattere in esame ed il numero totale delle unità statistiche osservate.




27

La selezione casuale di un circuito dalla linea di produzione corrisponde ad una singola prova

di un esperimento, quindi 500 selezioni rappresentano 500 prove, cioè n = 500. Si indichi con E

l’evento “produzione di un circuito difettoso”. Poiché E si è manifestato 15 volte, la probabilità

che il processo produca un circuito difettoso, sulla base della definizione frequentista, è

approssimata dalla frequenza relativa di E nelle 500 prove:

15( ) 0,03.

500

EnP E

n

Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla

definizione classica e alla definizione frequentista di probabilità è la definizione sotto

riportata.

Definizione soggettiva della probabilità

La probabilità P(E) di un evento E viene definita come il grado di fiducia che un

individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di

probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di

scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento

in questione si realizzi. Si deve sottolineare che questa affermazione vale solo nel caso

di individui con funzione di utilità lineare4.

Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La prima

riguarda proprio la soggettività insita nella stessa definizione, la seconda è relativa alla

difficoltà di traduzione in un valore numerico significativo del grado di fiducia.

Alla prima critica si risponde osservando che qualunque probabilità deve essere

intesa in senso condizionato, cioè condizionatamente allo stato di informazione

dell’individuo (razionale); pertanto, anche se apparentemente due individui diversi

attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui

si riferiscono a due diversi eventi essendo diverso lo stato di informazione su cui basano

l’esplicitazione del proprio grado di fiducia.

Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla

misura di probabilità si perviene attraverso l’attivazione di un processo relativamente

semplice, almeno sul piano concettuale, che è quello di porre l’individuo di fronte ad

una operazione di scommessa: quanto è disposto a scommettere per ricevere 1 in caso di

vittoria.

Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una valutazione

numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle

probabilità bastando a tal fine la definizione assiomatica, ed a questa definizione si farà

riferimento negli sviluppi teorici che seguono. Alle tre definizioni non assiomatiche si

farà, di volta in volta, riferimento nelle esemplificazioni delle argomentazioni teoriche.

4 Sul concetto di funzione di utilità si avrà modo di soffermare l’attenzione nel Cap. 7.




28

Definizione assiomatica di probabilità

Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo riguarda il

concetto primitivo di evento, gli altri cinque il concetto primitivo di probabilità.

Assioma 1 - Gli eventi formano un’algebra di Boole completa

Assioma 2 - La misura di probabilità di un evento P(E) è unica

Assioma 3 - La misura della probabilità di un evento è sempre non negativa

P(E) 0

Assioma 4 - La probabilità dell’evento certo è uguale a 1

P() = 1

Assioma 5 - Se due eventi E1 ed E2 sono incompatibili, cioè se la loro

intersezione è l’evento impossibile, allora la probabilità della loro unione è uguale

alla somma delle probabilità dei singoli eventi (principio delle probabilità totali

per eventi incompatibili o principio ristretto delle probabilità totali)

P(E1 E2) = P(E1) + P(E2) per E1 E2 =

Assioma 6 - La probabilità dell’evento condizionato E1/E2 è pari alla probabilità

dell’intersezione dei due eventi rapportata alla probabilità dell’evento

condizionante supposta maggiore di 0

P(E1/E2) = )P(E

)EP(E

2

21 per P(E2) > 0

L’ultima relazione può essere riscritta (principio delle probabilità composte) come:

P(E1 E2) = P(E2) P(E1/E2) = PE2E1) = P(E1) P(E2/E1)

In realtà, sapendo che si è realizzato un certo evento E1, non è detto che questo

modifichi necessariamente la probabilità di realizzarsi di un altro evento E2, può

accadere cioè che

P(E1 / E2) = P(E1)

in tal caso si ha (principio delle probabilità composte per eventi indipendenti o

principio ristretto delle probabilità composte)

P(E1 E2) = P(E1) P(E2)

ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti

stocasticamente, o indipendenti in probabilità).

Il principio delle probabilità composte può riguardare anche un numero qualsiasi di

eventi E1, E

2, E

3,..., si avrà allora

P(E1 E

2 E

3 ...) = P(E

1) P(E

2/E

1) P(E

3/E

1 E

2) ...

k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o

probabilisticamente) mutualmente indipendenti se e solo se per ogni sottoinsieme di

eventi la probabilità dell’intersezione è uguale al prodotto delle probabilità

P(Ei Ej) = P(Ei) P(Ej)

P(Ei Ej Eh) = P(Ei) P(Ej) P(Eh)




29

………………………………………..

P(E1 E2 Ek) = P(E1) P(E2)…….. P(Ek)

Pertanto tre eventi E1, E2 ed E3 sono statisticamente indipendenti se valgono le relazioni

P(E1 E2) = P(E1) P(E2)

P(E1 E3) = P(E1) P(E3)

P(E2 E3) = P(E2) P(E3)

P(E1 E2 E3) = P(E1) P(E2) P(E3)

Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie) non

implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le

prime tre.

Esempio 1.3

L’esperimento casuale consiste nel lancio di due dadi regolari contrassegnati, ciascuno, da un

numero da 1 a 6 su ogni faccia.

Si definiscono quindi i 3 eventi di interesse:

E1= il risultato del lancio del I dado è pari

E2= il risultato del lancio del II dado è dispari

E3= la somma dei risultati del lancio dei due dadi è pari.

Di seguito si riportano le probabilità ottenute:

Gli eventi E1 ed E2 sono indipendenti, infatti

P(E1 E2) = 9/36 =1/4

P(E1) . P(E2) =1/2

. 1/2 =1/4


P(E1 E3) = 9/36=1/4

P(E1) . P (E3)= 1/2

. 1/2 =1/4


P(E2 E3) = 9/36=1/4

P(E2) . P (E3)= 1/2

. 1/2 =1/4

I tre eventi E1 , E2 ed E3 non sono però indipendenti; infatti, se si realizzano l’evento E1 , E2,

l’evento E3 non si può realizzare (è impossibile)

P(E1 E2 E3)= P( ) = 0.

Si definiscono ora i 3 eventi di interesse:

E1= il risultato del lancio del I dado è 1 o 2 o 3

E2= il risultato del lancio del I dado è 3 o 4 o 5

E3= la somma dei risultati del lancio dei due dadi è 9.

Da cui

1 2

1 3

2 3

1 2 3

3,1 , 3,2 , 3,3 , 3,4 , 3,5 , 3,6

3,6

3,6 , 4,5 , 5,4

3,6

E E

E E

E E

E E E




30

Le probabilità sono

1 2 3

1 2 1 2

1 3 1 3

2 3 2 3

1 2 3 1 2 3

1 1 ,

2 9

1 1

6 4

1 1

36 18

1 1

12 18

1.

36

P E P E P E

P E E P E P E

P E E P E P E

P E E P E P E

P E E E P E P E P E

Pertanto l’indipendenza tripla tra eventi non implica l’indipendenza tra coppie di eventi.

Avendo definito la probabilità come funzione da applicare agli eventi dove, come

precisato, l'evento è un qualunque sottoinsieme dello spazio campionario , cioè un

elemento dell’insieme B (Algebra di Boole completa costruita su ), risulta facile

dimostrare le relazioni (teoremi) seguenti:

P(E) 1

P( ) = 0

E1 E2 => P(E1) < P(E2)

P(E1 E2) = P(E1) + P(E2) - P(E1 E2)

L'ultima relazione, detta anche (impropriamente perché non è una affermazione ma

deriva da un teorema) principio delle probabilità totali, per k eventi diventa

1

1 1

k kk

i i i j i j i j h i j h i

i i

P E Σ P E Σ Σ P E E Σ Σ Σ P E E E -1 P E

e si riduce al postulato delle probabilità totali (Assioma 5)

k

i

iEP1

=

k

i

i )P(E1

quando i k eventi Ei sono tra loro incompatibili.

La probabilità per eventi condizionati o, più semplicemente, la probabilità

condizionata P(E1/E

2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati

formano un’algebra di Boole, inoltre

P(E1/E) 0

P(E/E) = 1

P(E1 E

2 .../E) = P(E

1/E) + P(E

2/E) +....

se gli eventi E1, E

2,... sono incompatibili.

Inoltre




31

E1 E

2 => P(E

1/E) P(E

2/E)

P( 1E /E) = 1 - P(E1/E)

P(E1 E

2/E) = P(E

1/E) + P(E

2/E) - P(E

1 E

2/E)

Il principio delle probabilità composte può riguardare anche un numero qualsiasi

di eventi E1, E

2, E

3,..., si avrà

P(E1 E

2 E

3 ...) = P(E

1) P(E

2/E

1) P(E

3/E

1 E

2) ...

Esempio 1.4

La società IMA produce componenti meccaniche per un cliente. Siccome i limiti di tolleranza

specificati dal cliente sono piuttosto severi, la produzione di queste componenti è stata affidata

a due macchinisti esperti, A e B. Al termine di ogni giornata tutte le parti prodotte sono

ispezionate e classificate come “buone” (G - good) o “difettose” (D).

La seguente tabella riporta i dati relativi alla produzione di un giorno di lavoro:

Macchinista

Condizioni A B Totale

G 80 88 168

D 20 12 32

Totale 100 100 200

Quindi le parti sono state classificate in base alla condizione (buona / difettosa) e in base al

macchinista preposto al processo produttivo.

Si determinano le seguenti probabilità: P(A), dove A è l’evento “parte prodotta dal macchinista

A”; P(B), dove B è l’evento “parte prodotta dal macchinista B”; P(G), dove G è l’evento

“parte prodotta secondo le specifiche di tolleranza del cliente”; P(D), dove D è l’evento “parte

difettosa”.

( ) 100 / 200 0,50

100 200 0 50

168 200 0 84

32 200 0 16

P A

P(B) / ,

P(G) / ,

P(D) / ,

Le probabilità congiunte dei vari eventi sono:

( ) 80 / 200 0,40

( ) 20 / 200 0,10

( ) 88 / 200 0,44

( ) 12 / 200 0,06

P A G

P A D

P B G

P B D

Le probabilità condizionate dei vari eventi sono:

0,40

0,80( ) 0,50

P A GP G A

P A

0,10

0,625( ) 0,16

P A DP A D

P D




32

0,10

0,20( ) 0,50

P A DP D A

P A

0,44

0,524( ) 0,84

P B GP B G

P G

0,44

0,88( ) 0,50

P B GP G B

P B

0,00

0,00( ) 0,16

P D GP G D

P D

Infine, si vuol capire se la condizione (buona / difettosa) di una parte prodotta è indipendente

dal macchinista che la produce.

Se esiste indipendenza tra queste categorie, allora gli eventi “la parte è buona” e “la parte è

stata prodotta da A” sono statisticamente indipendenti. E’, dunque, necessario valutare la

relazione che sussiste tra ( )P G A e )()( APGP .

Dai precedenti calcoli risulta

( ) 80 / 200 0,40P G A

42,050,084,0)()(

50,0200/100)(

84,0200/168)(

APGP

AP

GP

Siccome ( ) ( ) ( )P G A P G P A A e G non sono statisticamente indipendenti, quindi il

macchinista preposto al processo di produzione influenza la condizione buona o difettosa della

parte prodotta.

Alla stessa conclusione si perviene considerando le relazioni tra )( GAP e )(AP , dal momento

che

48016880 ,/)GP(A e

)()(

50,0200/100)(

APGAP

AP

Dai dati riportati in tabella e dai precedenti calcoli possono essere verificate anche le seguenti

ulteriori relazioni:

che confermano la dipendenza statistica tra operatore preposto al processo produttivo e

risultato dello stesso.

Esempio 1.5

L’azienda Sigma fornisce materiali per la costruzione di case e attualmente ha un contratto con

uno dei suoi clienti per evadere un ordine entro il 31 luglio. Al 1° luglio sussiste una certa

incertezza in merito al fatto che l’azienda riesca a rispettare il termine imposto dal contratto,

)()(

)()(

)()(

BPBDP

BPGBP

APDAP




33

poiché non sa se riceverà le materie prime necessarie dal suo fornitore entro la metà di luglio,

come può essere stimata l’incertezza in questa situazione?

Sia A l’evento che la Sigma riesca a rispettare la scadenza contrattuale del 31 luglio e B

l’evento che riceva le materie prime entro il 15 luglio dal fornitore. All’inizio di luglio l’azienda

stima che la probabilità di ottenere le materie prime in tempo è pari a P(B) = 2/3; inoltre, se le

materie prime sono consegnate per tempo, allora la probabilità di terminare i lavori per la fine

del mese è stimata in P(A/B) = ¾. Quindi, applicando il principio delle probabilità composte, si

ottiene

( ) ( ) ( ) 3 / 4 2 / 3 0,50P A B P A B P B

Esiste, quindi, una probabilità del 50% che l’azienda Sigma ottenga le materie prime in tempo e

riesca a consegnare il materiale al cliente per la fine di luglio.

Può essere interessante procedere al calcolo di ulteriori probabilità. Se si indica con B

l’evento che le materie prime non arrivino in tempo si ha P( B ) = 1-2/3 =1/3. Se si ritiene che

la probabilità di terminare i lavori entro il 31 luglio, dato che i fornitori non hanno consegnato

entro il 15 le materie prime necessarie, sia P(A/ B ) = 1/5, applicando di nuovo il principio

delle probabilità composte, si ottiene

( ) ( ) ( ) 1/ 5 1/ 3 0,0667P A B P A B P B

cioè la probabilità che il materiale non arrivi in tempo, ma i lavori siano ugualmente ultimati

per la scadenza contrattuale è pari al 6,67%.

A questo punto, al management dell’azienda può essere utile conoscere la probabilità di

terminare i lavori entro il 31 luglio, indipendentemente dal fatto che le materie prime siano

consegnate entro la metà del mese. Poiché B e B sono due eventi incompatibili (o si verifica

l’uno o si verifica l’altro), allora per il principio delle probabilità totali per eventi

incompatibili, si ha

0 50 0 0667 0 5667P(A) P(A B) P(A B) , , ,

Quindi, la probabilità che la società Sigma riesca a rispettare i termini di esecuzione del

contratto è pari al 56,67%.

1.4 - Formula di Bayes

La formula di Bayes rappresenta un elemento teorico fondamentale nello sviluppo

dell’Inferenza statistica e della Teoria statistica delle decisioni. Esso consente, infatti,

al soggetto decisore di revisionare le informazioni a priori (aggiornamento della

conoscenza) che lo stesso possiede sul fenomeno oggetto di studio attraverso

l’acquisizione di ulteriori informazioni, in modo da ottenere informazioni (a posteriori)

più affidabili e, quindi, più utili a fini decisionali.

Si consideri una partizione dello spazio campionario in k eventi E1, E2, ... , E

i, ... ,

Ek; i k eventi sono necessari ed incompatibili, tali cioè da rispettare le condizioni

Ei Ej = per i j = 1, 2, ...,k

e




34

k

i

iE1

= .

Se E è un evento appartenente ad si ha

E = E = E (k

i

iE1

) = k

1i

(E Ei)

e, per l'incompatibilità degli eventi Ei, anche

P(E) = P [i 1

k

(E Ei)] = i

k

1

P(E Ei).

Inoltre, valendo le relazioni

P(E Ej ) = P(Ej )P(E/ Ej ) = P(Ej E) = P(E) P(Ej /E)

si avrà

P(Ej /E) =

1

( ) ( / )

( ) ( / )

j j j j

k

i i

i

P(E ) P(E / E ) P E P E E

P(E)P E P E E

che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi

Ei possono essere interpretati come possibili “cause” dell'evento E. In tale contesto,

P(Ej /E) viene detta probabilità a posteriori della causa Ej; mentre, P(Ej ) rappresenta la

probabilità a priori della stessa causa e P(E/Ej ) è detta probabilità probativa

(verosimiglianza, nell’ambito dell’inferenza statistica, come si avrà modo di precisare

in seguito) dell'evento E.

Fig. 1.4 - Partizione dello spazio campionario in cinque eventi E1, E2, E3, E4 ed E5

La formula di Bayes esprime in maniera molto semplice il processo di

apprendimento dall'esperienza in contesti non deterministici.

Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini

di probabilità (a priori) P(Ej), queste probabilità si trasformano, al verificarsi dell'evento

E (acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(Ej /E). Le

probabilità condizionate si usano, quindi, per riassegnare le probabilità agli eventi una

volta che sono state acquisite ulteriori informazioni ti natura campionaria.

E

E1

E3 E4

E5 E2

E




35

Esempio 1.6

Da un controllo di qualità effettuato sul processo produttivo dell’azienda Alfa risulta che il

40% delle parti difettose prodotte è dovuto a errori meccanici, mentre il restante 60% è dovuto

ad errori umani. Si sa, inoltre, che i difetti causati da errori meccanici possono essere rilevati,

in occasione di un’ispezione di qualità, con un tasso di accuratezza del 90%, tasso che scende

al 50% per i difetti risultanti da errori umani. Si supponga che a seguito di un’ispezione di

qualità sia stato trovato un pezzo difettoso. Qual è la probabilità che tale difetto sia stato

causato da un errore meccanico?

Se si assume che:

P(Em) = 0,40 è la probabilità (a priori) che una parte difettosa sia causata da un errore

meccanico;

P(Eu) = 0,60 è la probabilità (a priori) che una parte difettosa sia causata da errore

umano;

P(D/Em) = 0,90 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di

una parte difettosa causata da errore meccanico;

P(D/Eu) = 0,50 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di

una parte difettosa causata da errore umano;

P(Em/D) = ? la probabilità che la parte difettosa rilevata al controllo sia stata provocata

da errore meccanico.

Applicando la formula di Bayes si ha:

//

/ /

0,40 0,900,55

0,40 0,90 0,60 0,50

m m m

m

m m u u

P E D P E P D EP E D

P D P E P D E P E P D E

Quindi, la probabilità che il pezzo difettoso sia stato causato da errore meccanico è pari al

55%. Di conseguenza, la probabilità che un pezzo difettoso sia stato causato da errore umano è

pari al 45% (=1- 0,55).

La seguente tabella mostra le fasi dell’applicazione della formula di Bayes:

Causa

Ei

Prob. a priori

P(Ei)

Prob. Condiz.

P(D/Ei)

Prob. congiunte

P(Ei) (D/Ei)

Prob. a posteriori

P(Ei/D)

Meccanica m 0,40 0,90 0,36 0,55

Umana u 0,60 0,50 0,30 0,45

Totale 1,00 0,66 1,00




36

Esempio 1.7

Attualmente un’azienda che produce parti elettroniche dispone di 4 macchinari: A1, A2, A3, A4,

ognuno con una capacità produttiva di 10.000 pezzi a settimana. In linea generale, si può

ritenere che quanto più un macchinario è nuovo tanto più basso è il numero di parti difettose

che lo stesso produce. Un controllo effettuato dall’azienda rivela i seguenti tassi di parti

difettose prodotte da ciascuna macchina: 0% per A1 poiché è nuova; 1% per A2 che è stata

acquistata un anno fa; 5% per A3 che è stata acquistata due anni fa; 10% per A4 che è

operativa già da tre anni. Al termine del quarto anno di attività ogni macchinario viene

rimpiazzato con uno nuovo. Per effettuare un controllo aggiuntivo, il responsabile della

produzione seleziona casualmente un pezzo già pronto per la spedizione al cliente. Tale pezzo

risulta difettoso: qual è la probabilità che il pezzo estratto casualmente sia stato prodotto dalla

macchina A2, dato che risulta essere difettoso?

Si ponga:

P(D) = probabilità che sia osservata una parte difettosa

P(Ai) = probabilità che una parte sia prodotta dal macchinario i-esimo

P(D/Ai) = probabilità condizionata che sia selezionata casualmente una parte difettosa,

dato che è stata prodotta dal macchinario i-esimo.

In base ai dati del problema risulta:

P(D/A1) = 0,00

P(D/A2) = 0,01

P(D/A3) = 0,05

P(D/A4) = 0,10

Inoltre, poiché ciascuna macchina produce lo stesso numero di parti elettroniche, la probabilità

a priori che il campione estratto provenga da una delle 4 macchine è sempre uguale al 25%,

cioè:

P(A1) = P(A2) = P(A3) = P(A4) = 0,25

quindi,

1 1 2 2 3 3 4 4( ) ( ) ( ) ( )

0,25 0,00 0,25 0,01 0,25 0,05 0,25 0,10 0,040

P D P A P D A P A P D A P A P D A P A P D A

A questo punto si può applicare la formula di Bayes per determinare la probabilità a posteriori

che il campione estratto provenga dal macchinario A2, essendo noto che è difettoso:

2 2

2

0,25 0,010,0625 6,25%

0,04

P A P D AP A D

P D

La seguente tabella mostra il dettaglio dei passaggi svolti:

Causa

Ai

Prob. a priori

P(Ai)

Prob. condizionate

P(D/Ai)

Prob. congiunte

P(Ai) P(D/Ai)

Prob. a posteriori

P(Ai/D)

A1 0,25 0,00 0,0000 0,0000

A2 0,25 0,01 0,0025 0,0625

A3 0,25 0,05 0,0125 0,3125

A4 0,25 0,10 0,0250 0,6250

Totali 1,00 0,0400* 1,0000

* Probabilità marginale: P(D) = 0,04 = probabilità che sia osservata una parte difettosa




37

E’ interessante confrontare l’elenco delle probabilità a priori con quello delle probabilità a

posteriori, per valutare l’effetto provocato dall’impiego dell’informazione aggiuntiva (dato

campionario) sul risultato del problema. Le differenze registrate sono decisamente rilevanti:

dopo che la probabilità a priori è stata modificata dall’informazione campionaria, la

probabilità che una parte difettosa venga prodotta dalla macchina A4 cresce notevolmente dal

25% al 62,5%, mentre la probabilità che una parte difettosa provenga dalla macchina A1

scende dal 25% allo 0%. Fatto questo del tutto ragionevole se si tiene conto della circostanza

che il numero di difetti dipende dall’età del macchinario.

Dopo la sommaria indicazione delle operazioni proprie del calcolo delle probabilità e

dopo aver precisato che la tripletta (, B, P(.)) [dove: è lo spazio campionario (cioè

l’insieme di tutti i punti campionari ,..., 21 possibili risultati di un esperimento

casuale), B è l’algebra di Boole completa costruita su e P(.) è una funzione definita su

B che gode di particolari proprietà], viene detta spazio di probabilità o spazio

probabilistico, si può procedere all'introduzione di due ulteriori concetti che possono

essere ritenuti fondamentali nello sviluppo sia del calcolo delle probabilità sia della

statistica. Il primo concetto è quello di "variabile casuale" o "variabile aleatoria" o

"variabile stocastica" o "numero aleatorio", il secondo è quello di "funzione di

distribuzione" o "funzione di ripartizione" o "funzione delle probabilità cumulate".

1.5 - Variabili casuali semplici

Definizione 6 - Si dice variabile casuale, una funzione X (.) a valori reali definita sullo

spazio campionario ; cioè ogni funzione che, soddisfacendo ad

opportune condizioni (tali da preservare la struttura di B), associa ad

ogni punto dello spazio campionario un numero reale.

In termini più rigorosi, la funzione univoca X( ) definita su è una variabile

casuale (o variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la

relazione

A = :ω Ω X(ω) x B

cioè se l’insieme A, costituito da tutti gli eventi elementari per i quali il valore

assunto dalla funzione X( ) è minore od uguale ad un numero reale qualsiasi x, è un

elemento di B, cioè un evento appartenente all’algebra.

Le variabili casuali si distinguono in:

discrete, se il codominio della funzione è costituito da un numero finito o

da un'infinità numerabile di numeri reali;

continue, se il codominio della funzione è costituito da un insieme

continuo (e quindi non numerabile) di numeri reali.




38

Definizione 7 - Si dice funzione di distribuzione della variabile casuale X, la funzione

F(x) definita dalla relazione

F(x) = P (X x)

dove: x rappresenta un numero reale qualunque; P (X x) misura la

probabilità con cui la variabile casuale X può assumere un valore

inferiore od uguale al numero reale x.

Da sottolineare che la funzione di distribuzione non rappresenta altro che la

probabilità dell’evento A definito in precedenza; infatti:

P(A) = )()()(: xXPxXPxXP .

Se con x1, x

2,...,x

k, si indicano le possibili determinazioni distinte, ordinate in modo

crescente, di una certa variabile casuale discreta X e con p1, p

2,...,p

k, le probabilità

rispettive, si avrà

F(xi) = P(X xi) = 1

i

j

P(X = xj) = 1

i

j

pj

dove j jp P X x .

La funzione f(xi ) che deriva dalla relazione f(xi ) = F(xi ) - F(xi-1 ) viene detta

funzione di massa di probabilità e, ovviamente, fornisce la probabilità che l’entità

variabile X ha di assumere la specifica determinazione xi ; infatti

f (xi ) = F(xi ) - F(xi-1 ) = P (X xi

) - P (X xi-1

) = P(X = xi

) per i = 1, 2, ... , k .

Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione assolutamente

continua (si supporrà, da ora in poi e per tutte le F(x) che tale condizione sia

soddisfatta), esisterà la derivata

( )d F x

f xdx

.

Si ricorda in proposito che le funzioni assolutamente continue sono funzioni

uniformemente continue e derivabili quasi ovunque, cioè, derivabili in tutti i punti a

meno di un insieme di punti con misura nulla.

La funzione f(x) così definita viene detta funzione di densità di probabilità o più

semplicemente funzione di densità. Si avrà quindi che x

f(y) dy = F(x);

inoltre

f(x) dx = dF(x)= P x X x dx

rappresenta la probabilità con cui una variabile casuale continua X assume valori

all'interno dell'intervallino infinitesimo (x , x+dx). Per le v.c. continue la probabilità in

un punto è sempre pari a zero.




39

Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti

(corrispondenza biunivoca) funzioni di massa di probabilità, nel discreto, di densità di

probabilità, nel continuo, che identificano completamente le variabili casuali cui si

riferiscono, sono caratterizzate da specifici valori (entità di riferimento) dette parametri

caratteristici. Per evidenziare tale fatto, si usa la notazione

; , , ... , ;1 2 rF x F x , ; , , ... , ;1 2 rf x f x

dove , , ... ,1 2 r è il vettore dei parametri caratteristici della funzione che, come

già sottolineato e come si avrà modo di chiarire successivamente, viene anche detto

modello probabilistico.

Si richiama l’attenzione sulla punteggiatura introdotta per separare gli elementi che

definiscono l’argomento della funzione: il punto e virgola separa la componente x,

entità variabile, dalle altre componenti (parametri) che sono separate da una virgola e

che, come si avrà modo di precisare in seguito, nel contesto dell’inferenza statistica

classica sono entità costanti usualmente incognite. Il valore assunto da queste ultime

entità individua il modello probabilistico specifico relativo alla famiglia definita dalla

funzione ;F x o ;f x .

Ripercorrendo il processo che ha portato alla definizione della funzione di

distribuzione, della funzione di massa e di densità di probabilità, risulta immediata

l’individuazione delle proprietà che tali funzioni soddisfano.

Si supponga che la variabile casuale discreta X possa assumere le determinazioni x1,

x2,..., xi, ... , xk, (dove: xi < xi+1 e k può anche tendere al valore +), e che la variabile

casuale continua X risulti definita nell’intervallo dell’asse reale (a,b), dove: a < b, dove

a può tendere al valore - e b tendere al valore +, allora la funzione di distribuzione

F(x):

1. assume valori nell’intervallo unitario

0 F(x) 1

2. il limite sinistro assume valore zero

limx

F(x) = 0

3. il limite destro assume valore uno

limx

F(x) = 1

4. è monotona non decrescente

5. è continua a destra nel caso discreto (i punti di discontinuità si collocano

in corrispondenza dei valori x1, x

2,..., xk assunti dalla variabile) ed è assolutamente

continua (uniformemente continua e derivabile quasi ovunque) nel caso continuo.

La funzione di massa di probabilità if x , essendo una probabilità gode delle proprietà

già considerate relativamente a tale entità, cioè i0 f x 1 , inoltre

k

i

i )f(x1

1 .




40

La funzione di densità f(x) soddisfa le condizioni

f(x) 0

( ) 1b

af x dx

Da quanto è stato detto deriva che una variabile casuale è completamente individuata

dalla sua funzione di distribuzione (o di massa o di densità di probabilità) e che essa

rappresenta una formalizzazione astratta (modello) dell'insieme delle possibili

manifestazioni di un certo fenomeno avente natura aleatoria.

1.6 - Valore atteso di funzioni di variabili casuali semplici

Come già sottolineato nella premessa, per particolari esigenze scientifiche ed operative

si può essere interessati all’effettuazione di una rappresentazione sintetica delle

manifestazioni di un certo fenomeno mediante indici caratteristici. Può, cioè, risultare

conveniente, o sufficiente, descrivere una variabile casuale con degli indici

caratteristici, anziché procedere ad una sua rappresentazione completa mediante la

funzione di distribuzione o la funzione di massa o di densità di probabilità.

Successivamente si avrà modo di verificare la stretta relazione esistente tra parametri

caratteristici e indici caratteristici di una distribuzione.

Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere al

calcolo del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile

casuale stessa. In questa sede si considerano solo le trasformazioni che portano alla

definizione di una nuova variabile casuale Y, cioè, se X è una v.c., anche Y =g(X) è una

variabile casuale, che può essere sia discreta che continua, la cui funzione di massa di

probabilità if y o di densità (di probabilità) f y si ottiene attraverso appropriate

trasformazioni della funzione di massa o di densità della v.c. X.

Definizione 8: Si definisce valore atteso di una trasformazione Y g X - dove Y è

una variabile casuale - di una variabile casuale X , con funzione di

distribuzione F(x) , la quantità che risulta dalla relazione

1

k

i i

i

E Y E g X g x f x

nel discreto

E Y E g X g x f x dx nel continuo5

5 Se si ricorre al così detto integrale di Lebesgue-Stieltjes non occorre distinguere il caso discreto dal caso continuo,

basterà scrivere

1

( ) nel discreto( )

( ) nel continuo

k

i i

i

bL S

a

g x f xE g X g x d F x

g x f x dx




41

dove ixf è la funzione di massa di probabilità della variabile casuale discreta X che

assume il valore xi con probabilità ixf , per i = 1, 2, ..., k ; mentre xf è la funzione

di densità di probabilità della variabile casuale continua X , definita in un intervallo

dell’asse reale ,a b , anche - ∞,+ ∞ .

Si può osservare come l’operatore valore atteso non richieda la derivazione della

funzione di densità o di massa di probabilità della variabile casuale trasformata

Y = g(X)

e goda della proprietà di linearità; infatti, per qualunque variabile X, con funzione f(xi)

nel discreto, f(x) nel continuo, date due costanti a , b e due trasformazioni 1g X e

2g X ancora variabili casuali

1 2 1 2 ( ) ( ) ( ) ( )E a g X b g X a E g X b E g X

come si può verificare facilmente osservando le relazioni sotto riportate

1 2 1 2

1

( ) ( ) ( ) ( ) ( )k

i i i

i

E a g X b g X a g x b g x f x

)()()()()()( 21

1 1

21 XgEbXgEaxfxgbxfxgak

i

k

i

iiii

nel discreto e

1 2 1 2 ( ) ( ) ( ) ( ) ( )

b

a

E a g X b g X a g x b g x f x dx

1 2 1 2( ) ( ) ( ) ( ) ( ) ( )b b

a aa g x f x dx b g x f x dx a E g X b E g X

nel continuo.

Esempio 1.8

Una compagnia d’investimenti sta decidendo se investire in un progetto di estrazione mineraria

in Canada oppure in una spedizione di trivellazione del petrolio in Alaska. Un’analisi

preliminare mostra che l’investimento nel progetto di estrazione mineraria genererà un profitto

netto di 1.000.000$, nell’ipotesi in cui venga trovato l’oro; altrimenti la compagnia perderà

800.000$. D’altra parte, la compagnia otterrà un profitto netto di 1.500.000$ o una perdita di

1.000.000$ nell’affare petrolifero, a seconda che venga scoperto o meno il petrolio.

Supponendo che un geologo abbia stimato una probabilità del 70% che venga trovato l’oro e

una probabilità del 50% che venga trovato il petrolio e assumendo che entrambi i progetti

richiedono lo stesso ammontare di capitale iniziale e che solo uno dei due progetti può essere

intrapreso, qual è l’investimento più conveniente per la compagnia?

In questo caso si assume che il criterio di scelta della compagnia sia il maggior valore atteso in

termini monetari, cioè la compagnia troverà più conveniente l’investimento che presenta il più

alto valore atteso.

Il valore atteso dei due progetti è dato, in base alla precedente definizione, da:

Il lettore interessato ad un approfondimento dell’argomento può consultare, tra gli altri, Royden (1963) . Real

Analysis. The macMillan Company, New York.




42

Progetto di estrazione mineraria X:

1

0 0 1 1

0

( ) ( ) ( ) 1.000.000 0,70 800.000 0,30 460.000i i

i

E X x p x x p x x p x

dove con xi si indica il risultato dell’evento “successo” (x0) o “insuccesso” (x1) del progetto e

con p(xi) le rispettive probabilità. La seguente tabella riassume quanto detto:

Evento Probabilità P(xi) Risultato xi Valore Atteso

Successo 0,70 1.000.000 700.000

Insuccesso 0,30 -800.000 -240.000

Valore Atteso del progetto “estrazione mineraria” 460.000

Progetto di trivellazione petrolifera Y:

1

0 0 1 1

0

( ) ( ) ( ) 1.500.000 0,50 1.000.000 0,50 250.000i i

i

E Y y p y y p y y p y

dove con yi si indica il risultato dell’evento “successo” (y0) e “insuccesso” (y1) del progetto e

con p(yi) le relative probabilità. La seguente tabella riassume quanto detto:

Evento Probabilità P(yi) Risultato yi Valore Atteso

Successo 0,50 1.500.000 750.000

Insuccesso 0,50 -1.000.000 -500.000

Valore Atteso del progetto “trivellazione petrolifera” 250.000

In conclusione, poiché il progetto relativo all’estrazione mineraria presenta un profitto atteso

maggiore, la decisione ottima per la compagnia è investire in tale affare piuttosto che in quello

relativo alla trivellazione petrolifera.

Esempio 1.9

L’azienda Gamma sta pensando di acquistare un nuovo macchinario, che dovrebbe consentire

una notevole riduzione dei costi di produzione rispetto al macchinario attualmente impiegato.

La nuova macchina costa 10.000 euro e ci si attende un risparmio di circa 0,50 euro/ora. Il

risparmio complessivo R è dato da XR 50,0000.10 , dove X indica il numero di ore-

macchina impiegate. Il management non conosce ancora l’ammontare esatto di ore durante le

quali il macchinario sarà in funzione, dunque esprime la sua incertezza in termini della

seguente distribuzione di probabilità

Ore d’uso Probabilità

10.000 0,10

20.000 0,30

30.000 0,50

40.000 0,10

In base ai dati a disposizione, è conveniente per l’azienda acquistare il macchinario?

Il management dovrebbe decidere per l’acquisto del nuovo macchinario nell’ipotesi in cui il

risparmio atteso dello stesso sia positivo:




43

( ) ( 10.000 0,50 ) ( 10.000) (0,50 )

10.000 0,50 ( )

10.000 0,50 ( )

10.000 0,50 0,10 10.000 0,30 20.000 0,50 30.000 0,10 40.000

10.000 13.000 3.000

i i

E R E X E E X

E X

P x x

Poiché il risparmio atteso assume un valore positivo di 3.000 euro, l’azienda dovrebbe

acquistare il nuovo macchinario.

Finora è stata considerata la trasformazione più semplice g(X) = X (in realtà non è stata

operata alcuna trasformazione); in questo caso particolare, come sarà puntualizzato in

seguito, il valore atteso viene anche detto momento primo rispetto all’origine o media

aritmetica della v.c. X.

Momenti rispetto all’origine

Ponendo

g(X) = Xr per r = 0, 1, 2 , ...

si ha

1

( ) ( ) ( )

( )

kr

i ir

ir

br

a

x f x nel discretoE g X E X

x f x dx nel continuo

che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto

all’origine. Da rilevare che il momento di ordine 0

01

0

( ) 1 ( )

( ) 1

k

i

i

b

a

f x nel discretoE X

f x dx nel continuo

è assolutamente non significativo risultando sempre uguale ad uno per qualunque

variabile casuale.

Particolare rilevanza assume il momento di ordine uno.

b

a

k

i

ii

dxxfx

xfxXEXgE

)(

)( )()( 11

che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico

(indice caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella

variabile casuale. Altri momenti di un certo rilievo sono il momento secondo 2 , il

momento terzo 3 ed il momento quarto 4 che evidenziano, come si avrà modo di

sottolineare, la loro rilevanza in contesti diversi di sintesi delle variabili casuali.




44

Esempio 1.10

Indicando con X l’entità della domanda per una particolare marca di detersivo in un

supermercato e con f(x) la rispettiva probabilità secondo il seguente schema

X 0 1 2 3 4 5 6 7

f(x) 0,05 0,10 0,15 0,25 0,20 0,10 0,10 0,05

Si determina la domanda media.

( ) ( ) 0 1 0,10 2 0,15 3 0,25 4 0,20 5 0,10 6 0,10 7 0,05 3,40x

E X x f x

Momenti rispetto alla media o momenti centrali

Ponendo

g(X) = rX )( , per r = 0, 1, ...

dove )(1 XE è il momento primo rispetto all’origine (media aritmetica) della

variabile casuale X , si avrà

1

( ) ( )( ) ( )

( ) ( )

kr

i ir

ir

br

a

x f x nel discretoE g X E X

x f x dx nel continuo

che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media

(aritmetica).

Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento

centrale di ordine uno; infatti

1 ( ) ( ) ( ) ( ) 0E g X E X E X E

per qualunque variabile casuale.

La trasformazione g(X) = )( X rappresenta una traslazione dell’origine nel punto

medio. La variabile casuale trasformata g(X) = )( X si indica usualmente con il

simbolo )( XS x e viene detta variabile casuale scarto. Qualunque variabile

casuale scarto ha, pertanto, il momento primo sempre uguale a zero; cioè la media

aritmetica di una qualunque variabile casuale scarto è uguale a zero.

Il momento centrale di ordine due

2

2 ( ) ( )E g X E X

)(2)()()2( 2222 XEEXEXXE

22

2

22

2 2

viene denominato varianza ed assume una rilevanza tutta particolare in quanto è

l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Da

sottolineare che il momento centrale di ordine due 2 , cioè la varianza 2 , è uguale al




45

momento secondo rispetto all’origine 2( ) meno il quadrato del momento primo

rispetto all’origine 2( )

2 2

2 2 1

Essendo la media (aritmetica) e la varianza gli indici caratteristici più utilizzati per

sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile

casuale, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e

sulla varianza di particolari trasformazioni di variabili casuali.

Ad esempio, in molti contesti di ricerca, è necessario procedere ad una

trasformazione lineare (trasformazione affine) della variabile X

Y = a + b X

Tale trasformazione rappresenta un cambiamento del sistema di riferimento che si

risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è

espressa la variabile.

Se con x e 2

x si indicano rispettivamente la media e la varianza della variabile

casuale X, la media e la varianza della variabile casuale trasformata Y risultano dalle

relazioni

xy babXaEYE )()(

22222

222

)()(

)()(

xxx

xyy

bXEbbbXE

babXaEYE

cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla

trasformazione lineare della media della variabile casuale originaria e la varianza di una

trasformazione lineare di una variabile casuale è pari alla varianza della variabile

casuale originaria moltiplicata per il quadrato del coefficiente angolare della

trasformazione.

Momenti standardizzati

Ponendo

r

Xg X

, per r = 0, 1, ...

dove: è il momento primo (media aritmetica) della variabile casuale X e la radice

quadrata positiva della sua varianza 2 , si ha

1

( )

( )

( )

rki

r i

i

r rb

a

xf x nel discreto

XE g X E

xf x dx nel continuo

per r = 1, 2,

che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r

La trasformazione (lineare), standardizzazione




46

XX

Z x

1

è particolarmente rilevante in quanto, oltre a procedere alla traslazione nel punto medio,

si utilizza come nuova unità di misura il valore assunto dall’indice caratteristico di

variabilità che prende il nome di scostamento quadratico medio.

Oltre ai momenti standardizzati di ordine zero 0 1 e di ordine uno 1 0

anche il momento standardizzato di ordine due è del tutto irrilevante; infatti

2

2 2

2 2 2

1 11

XE E X

cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a

uno.

Particolare rilevanza assumono, invece, il momento terzo standardizzato

3

3

33 13 3

E XXE

che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento

quarto standardizzato

4

4

44 24 4

E XXE

che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà

analizzata nelle pagine successive) della distribuzione.

Sui due indici di simmetria 1( ) e di curtosi )( 2 si avrà modo di tornare

successivamente, dopo aver parlato della variabile casuale normale, mentre risulta

conveniente definire altri due indici caratteristici molto usati per sintetizzare gli aspetti

di tipicità delle variabili casuali: la moda e la mediana.

Il primo indice caratteristico che si considera è la moda di una variabile casuale. Si

definisce come moda )( oM di una distribuzione il valore della modalità cui corrisponde

la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più

elevata.

Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto questo

che può essere esteso anche a situazioni in cui si considerano non solo il massimo

assoluto (della probabilità o della densità di probabilità) ma anche i massimi relativi

(massimi locali).

Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili

casuali è la mediana. Si definisce come mediana )( eM di una variabile casuale

continua il valore centrale della distribuzione stessa; cioè il valore della modalità

rispetto al quale si registra una probabilità pari a 0,50 di valori inferiori e pari a 0,50 di

valori superiori.




47

Si può aver interesse al calcolo di altri valori (segnaletici) particolari. Se la variabile

casuale è continua si considerano il valore che è preceduto dal 25% dei casi e seguito

dal 75% dei casi )( 1Q e quello preceduto dal 75% dei casi e seguito dal 25% dei casi

)( 3Q . I valori 1Q e 3Q vengono detti, rispettivamente, primo e terzo quartile;

ovviamente il secondo quartile 2Q è uguale alla Mediana. In generale il p-esimo

quantile, con 0 p1, è il valore, usualmente indicato con Qx(p), che soddisfa la

relazione P X Qx(p) = p.

Per le variabili casuali continue è sempre possibile operare la suddivisione con una

proporzione esatta p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra

di Qx(p), mentre ciò non è sempre possibile per le variabili casuali discrete. Infatti, per

le variabili casuali discrete la massa di probabilità del punto x = Qx(p) può essere

diversa da zero, pertanto la proporzione di valori a sinistra di Qx(p) può essere p e la

proporzione di valori a destra di Qx(p) può essere (1-p). Può accadere, cioè, che non

esista alcun valore x per il quale F(x) = p, il quantile viene comunque facilmente

individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della

funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ).

Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p

valga per un intervallo di valori di x, in questo caso il quantile si ottiene calcolando la

semisomma degli estremi dell’intervallo.

Momenti fattoriali

Ponendo

12 1 rXXXXXg , per r = 0, 1, ...

si ottengono i momenti fattoriali di ordine r:

12-X )1( )( rXXXEXgEr .

Tra i momenti fattoriali ed i momenti rispetto all’origine valgono le relazioni sotto

riportate; relazioni che consentono di derivare i momenti rispetto all’origine (in qualche

caso di difficile computo) dai momenti fattoriali.

1233

122

1

2 3

1

Funzione Generatrice dei Momenti

Ponendo

t Xg X e




48

dove e è la costante di Nepero, e la trasformazione è definita per ogni valore di t

compreso nell’intervallo – h < t < h con h > 0, si ha

1

( ) ( )i

kt xt X

x i

i

m t E e e f x

, se X è una v.c. discreta;

( ) ( )t X t x

xm t E e e f x dx

, se X è una v.c. continua.

che viene detta funzione generatrice dei momenti rispetto all’origine (trasformata di

Laplace) della v.c. X.

La funzione generatrice dei momenti, quando esiste, gode di importanti proprietà, tra

questa una delle più rilevanti è quella di consentire il computo immediato dei momenti

rispetto all’origine; infatti, se si sviluppa in serie e t X

2 2 3 3

1 2! 3!

t X X t X te X t

si ha:

2 3 2 3

1 2 3

1 1 1 1( ) 1 ( ) ( ) .... 1 ....

2! 3! 2! 3!

t X

xm t E e E X t X t X t t t t

da cui

0|r

r x tr

dm t

dt per r = 1,2,….

Cioè, se si calcola la derivata r-esima della funzione generatrice dei momenti nel

punto t = 0 si ottiene il momento r-esimo rispetto all’origine.

Ragionando in modo analogo, si possono definire la funzione generatrice dei

momenti centrali e la funzione generatrice dei momenti standardizzati.

La proprietà più rilevante della funzione generatrice dei momenti (quando esiste) è

l’univocità, il che comporta l’identificazione univoca della v.c. di riferimento; esiste

cioè una corrispondenza biunivoca tra la funzione generatrice dei momenti e la funzione

di distribuzione e, quindi, tra funzione generatrice dei momenti e funzione di massa o di

densità di probabilità.

Una ulteriore importante proprietà della funzione generatrice dei momenti è quella

della conservazione del limite. Sia X1, X2,…, Xn una successione di v.c. con funzione di

distribuzione F(xn) e funzione generatrice dei momenti tmnx ; allora, se

*lim xFxF nn

si dimostra che

*limnx x

nm t m t

Inoltre se tmx è la funzione generatrice dei momenti della v.c. X, allora a

xe m bt è

la funzione generatrice dei momenti della v.c. Y = a + b X .




49

Esempio 1.11

Sia X una variabile casuale continua definita nell’intervallo ( 0,+ ) 0,+ con funzione di

densità di probabilità ( ) xf x e ( v.c. esponenziale negativa) si ha:

0

( ) ( ) tX tx x

xm t E e e e dxt

per t <

I momenti rispetto all’origine sono dati da:

0 02

1| |r x t t

dE X m t

dt t

22

2 0 032 2

2 2| |r x t t

dE X m t

dt t

Mentre il secondo momento centrale (varianza) è data da

2 2 2

2 1 2 2 2

2 1 1E X

Funzione Generatrice dei Momenti Fattoriali

Ponendo

Xg X t , dove t assume valori in un intorno di 1

si ha

1

( ) ( )i

kxX

ixi

m t E t t f x

, se X è una v.c. discreta;

dxxfttEtm xX

x )()( , se X è una v.c. continua.

che viene detta funzione generatrice dei momenti fattoriali della v.c. X.

La derivata r-esima di questa funzione, quando esiste, nel punto t = 1 genera il

momento fattoriale di ordine r .

1| 1r

tr xr

dm t E X X-1 X-2 X r

dt , per r = 0, 1, ...

.

Funzione Caratteristica

Trattando della funzione generatrice dei momenti è stata a più riprese aggiunta la

precisazione: “se esiste”; in effetti tale funzione potrebbe non esistere, sia per v.c.

discrete che possono assumere una infinità numerabile di valori diversi, sia per v.c.

continue non essendo convergente la somma di infiniti termini o l’integrale.

Se si pone

i t Xg X e




50

per ogni valore di t compreso nell’intervallo –h < t < h con h > 0 e 1i è l’unità

immaginaria, la funzione sotto definita esiste sempre

1

( ) nel caso discreto

( ) nel caso continuo

i t X i t x

x i

i

i t X i t x

x

m i t E e e f x

m i t E e e f x dx

infatti, se si considera, ad esempio il caso continuo si ha

cos

cos

i t X i t x

x

-

m (i t) E e E t X i sen t X e f x dx

t x f x dx i sen t x f x dx

essendo cos e t x i sen t x assolutamente limitate, l’integrale sopra scritto è

assolutamente convergente (si può quindi calcolare) per qualunque valore di t

compreso tra e .

La funzione sopra introdotta viene detta funzione caratteristica (trasformata di

Fourier) della v.c. X e gode di tutte le proprietà della funzione generatrice dei momenti

ma, rispetto a quest’ultima funzione, ha l’ulteriore proprietà di esistere sempre.

1.7 - Variabili casuali discrete

Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati

particolarmente utili in vari campi della ricerca applicata. Nei paragrafi seguenti, ne

vengono presentati alcuni, tra quelli più comunemente usati, facendo riferimento al tipo

di distribuzione ad essi associata.

1.7.1 Distribuzione binomiale

La distribuzione Binomiale si usa quando si è interessati al numero delle volte con cui

un certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale.

Essa può, quindi, essere considerata un eccellente modello probabilistico per molte

situazioni reali. Infatti, tale distribuzione può servire per studiare ad es. l'atteggiamento

dei cittadini nei confronti di un determinato provvedimento legislativo (favorevoli o

contrari alla elezione diretta del presidente della repubblica), per analizzare la

produzione di un determinato macchinario (pezzi regolari e pezzi difettosi), l’esito di

una visita medica (sano o malato), ecc.. Serve cioè, in generale, nello studio di tutti quei

fenomeni che possono essere caratterizzati da un evento che può realizzarsi o meno:

"successo" o "insuccesso"; dove successo vuol dire estrazione di pallina bianca, essere

favorevole alla elezione diretta del presidente, pezzo regolare, ecc., mentre insuccesso

vuol dire estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso,

ecc.




51

Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una singola

prova, 1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non

verificarsi dell'evento.

Si consideri ora la variabile casuale XX , dove X indica il numero delle volte

in cui l'evento E si presenta in n prove indipendenti. Per n = 1 si avrà che la variabile

casuale XX , detta variabile casuale di Bernoulli e anche variabile casuale

indicatore, potrà assumere unicamente i due valori 0 e 1, con probabilità

P (X = 0) = q = 1 - p ; P (X = 1) = p

La corrispondente funzione di massa di probabilità assume i valori f(0) = 1-p = q e

f(1) = p, e può essere espressa dalla formula

f(x) = f(x;p) = px (1-p)1-x = px q1-x per x = 0, 1

Per n qualsiasi, si avrà che la variabile casuale X (numero di successi in n prove

indipendenti) potrà assumere i valori 0, 1, 2,...,n, si tratta cioè di una funzione che

associa ad ogni possibile sequenza di successi ed insuccessi in n prove indipendenti, il

numero x di successi che nelle n prove si sono verificati. La probabilità di x successi

P(X = x) = f(x), cioè la funzione di massa di probabilità è data da

f(x) = f(x;n,p) = 1n xx x n x

n np p p q

x x

dove

!

! !

n n

x x n x

rappresenta il numero di permutazioni con ripetizione di n

oggetti, di cui x sono uguali tra loro e (n-x) uguali tra loro ma diversi dai precedenti x,

e coincide con il numero delle combinazioni di n oggetti x a x.

L'interpretazione della formula della funzione di massa di probabilità della variabile

casuale così costruita (variabile casuale binomiale) è immediata: la probabilità di una

specifica successione di x successi e (n-x) insuccessi indipendenti è pari a (principio

delle probabilità composte per eventi indipendenti)

( )

x n x

n x voltex volte

p p p p q q q p q

;

non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,

tali probabilità dovranno essere sommate (principio delle probabilità totali per eventi

incompatibili) tante volte quante sono le permutazioni con ripetizione di n oggetti di

cui x sono uguali tra loro e (n-x) diversi dagli x ma uguali tra loro.

Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione f(x)

rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la somma

delle probabilità relative a tutti i possibili valori assunti dalla variabile casuale

binomiale (come per qualunque variabile discreta) è uguale ad uno; infatti

11)(0

nnxnxn

x

qpqpx

n




52

La media e la varianza della distribuzione binomiale sono date rispettivamente dalle

uguaglianze

0 0

( ; , )n n

x n x

x x

nx f x n p x p q np

x

2 2 2

0 0

( ) ( ; , ) ( )n n

x n x

x x

nx f x n p x np p q npq

x

Dimostrazione: = n p

1 ( 1)1

0 0 1

( 1)!( ) ( ; , )

( 1)! 1 ( 1) !

n n nn xx n x x

x x x

n n nE X x f x n p x p q x p p q

x x x n x

ponendo n-1 = m e x-1 = y, si ha

0

om

!( ) 1

!( )!

my m y m

y

Bin io di Newton

mnp p q np p q np np

y m y

Dimostrazione: 2 = n p q

22

2

2

2

2 pn

2 2

2

0 0

0 0

2

2

( ) 1 1

( 1)

( 1)( 2)!1

( 1)( 2)! 2 2 !

!( 1)

! ( )!

n nx n x x n x

x x

n nx n x x n x

x x

np

nx n x

x

n nE X x p q x x p q

x x

n nx x p q x p q

x x

n n nx x p q np

x x x n x

mn n p p

y m y

2

0 0

2 2 2 2 2 2 2 2

!( 1)

!( )!

( 1) 1

m my m y y m y

y y

Binomio di Newton

mq np n n p p q np

y m y

n n p np n p np np n p n p p n p npq

dove y = x-2 e m = n-2, da cui:

npqpnnpqpnpn 222222

2

2

2

2

La funzione generatrice dei momenti della v.c. binomiale è data da

0 0

n n

x ntX t x x n x t n x t

x

x x

n nm t E e e p q e p q p e q

x x

dalla quale si deducono facilmente i momenti




53

1

1 0 0

21 2

2 0 02

2 2 2 2 2

2 2 2 2 2 2

2 1

| |

| 1 |

1 1

nt t

x t t

n nt t t t t

x t t

dμ m t n p e p e q n p

dt

dμ m t n p e p e q n (n - ) p e p e q p e

dt

n p n n - p n p n p - p n p n p q

Var(X) σ μ μ n p n p q - n p n p q

Distribuzione binomiale relativa

Si consideri la variabile casuale binomiale X specificata dai parametri n e p , se si opera la

trasformazione X

Y g Xn

si ottiene una nuova variabile, denominata distribuzione

binomiale relativa, che potrà assumere i valori 1 2

0, , ,...., 1n n

con probabilità

X x

P Y y P P X xn n

La funzione generatrice dei momenti di questa v.c. è espressa da

nX t t

t XtY n n n

ym t E e E e E e p e q

da questa espressione si derivano facilmente i momenti

1

1 0 0 0

1 22

2 0 02

22 2 2

2

1| | |

1 1| 1 |

11

nt t

n ny t x t t

n nt t t t t

n n n n ny t t

d d tμ m t m n p e p e q p

dt dt n n

dμ m t p e p e q (n - ) p e p e q p e

dt n n

p p p p q n - p p p

n n n n n

Var(X) σ μ

2 2 2

2 1

p q p qμ p - p

n n

Un modo più rapido per derivare media e varianza della distribuzione binomiale

relativa è, ovviamente, quello di ricorrere all'operatore lineare valore atteso, infatti si ha

1

X

E Y E n p pn n

2

1

X p qVar Y Var n p q

n n n




54

Esempio 1.12

Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1-p

= 0,5, si vuol determinare la probabilità che in una famiglia con quattro figli vi sia: a) Almeno

un maschio, b) almeno un maschio ed una femmina.

a) Almeno un maschio

Poichè si ha

P (0 maschi) = 0 4

4 10,5 0,5

0 16

P (1 maschio) = 1 3

4 10,5 0,5

1 4

P (2 maschi) = 2 2

4 30,5 0,5

2 8

P (3 maschi) = 3 1

4 10,5 0,5

3 4

P (4 maschi) = 4 0

4 10,5 0,5

4 16

la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione

P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi) =

16

15

16

1

4

1

8

3

4

1 .

Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a quello

che interessa (almeno un maschio), si determina poi la probabilità del suo verificarsi che

sottratta alla unità fornisce il risultato; si avrà

P ( almeno un maschio ) = 1 - P ( nessun maschio) =0 4

4 1 151 0,5 0,5 1

0 16 16

b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà

P ( almeno un maschio ed una femmina ) = 1 – P ( nessun maschio oppure nessuna femmina )=

1 - P ( nessun maschio ) - P (nessuna femmina) =11

16

1

16

14

16

7

8 .

Esempio 1.13

In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo

predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%,

almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da

sottoporre ad esperimento. In altri termini si dovrà ricercare il più piccolo n (numero di cavie

da sottoporre ad esperimento) capace di soddisfare la disuguaglianza.

P (X 2) > 0,80

dove X sta per il numero di cavie che sopravvivono all'esperimento.

Nella distribuzione binomiale per p = 0,4 (probabilità di successo e nel caso specifico successo

significa cavia sopravvissuta) ed n = 7, si ha




55

0 7 1 67 7

( 2) 1 ( 0) ( 1) 1 0,40 0,60 0,40 0,60 0,840 1

P X P X P X

Per p = 0,4 ed n = 6, si ha

0 6 1 56 6

( 2) 1 ( 0) ( 1) 1 0,40 0,60 0,40 0,60 0,770 1

P X P X P X

Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7.

Esempio 1.14

Un’azienda che produce batterie per riflettori afferma che i suoi prodotti nell’80% dei casi

sono in grado di funzionare adeguatamente a temperature inferiori ai -10°C. Le registrazioni

meteorologiche mostrano che durante il mese di gennaio di un anno ci sono stati 18 giorni in

cui le temperature sono scese al di sotto dei -10°C in un campione di città del Nord Europa.

Qual è la probabilità che le batterie vendute dall’azienda abbiano funzionato adeguatamente

per meno di 11 giorni durante il mese di gennaio?

Essendo X = n° di giorni durante i quali le batterie hanno funzionato adeguatamente

(successo), 18n e 80.0p si ha:

1018

0

18( 10) ( 0) ( 1) ... ( 10) 0.8 0.2 0.0163x x

x

P X P X P X P Xx

Esempio 1.15

Soltanto il 45% delle borse prodotte dall’azienda Alfa rispetta i requisiti base di soddisfazione

del cliente. Qual è la probabilità che, considerato un campione di 20 borse selezionate

casualmente, almeno 11, ma non più di 15, rispettino i requisiti di minima soddisfazione?

Essendo X= l’evento “numero di borse le cui caratteristiche soddisfano i requisiti di qualità”

(successo), n = 20 e p = 0,45 (probabilità di un successo), allora si ha:

P(11 ≤ X ≤15) = P( X =11)+…………+ P( X =15) =

15

11

200,45 0,55x n x

xx

= 0,24775

Quindi, la probabilità che una quantità compresa tra 11 e 15 borse su un totale di 20 rispetti i

requisiti di soddisfazione minima del cliente è del 25%.

Esempio 1.16

Le compagnie aeree sanno per esperienza che una certa percentuale di passeggeri, pur avendo

già prenotato il biglietto, cancellerà il volo all’ultimo minuto. Perciò, per evitare posti vuoti,

esse vendono più biglietti rispetto alla capienza massima dell’aereo, sperando che alla fine il

numero di passeggeri che si presenta all’imbarco sia quello “giusto” (cioè tale da riempire

tutti i posti disponibili senza eccedenze). In base a delle stime risulta che la probabilità che un

passeggero cancelli il volo all’ultimo minuto è del 5%. In termini binomiali, si sta affermando




56

che ciascun potenziale passeggero, indipendentemente dagli altri, si presenterà all’imbarco con

una probabilità del 95%, mentre cancellerà il volo con una probabilità del 5%.

Si supponga che per un volo da 200 posti siano stati venduti 215 biglietti. La compagnia aerea

vuole conoscere I) la probabilità che più di 205 passeggeri si presenteranno per l’imbarco; II)

la probabilità che se ne presenteranno più di 200; III) la probabilità che risultino occupati

almeno 195 posti; IV) la probabilità che siano occupati almeno 190 posti.

Posto X = presentarsi di un passeggero per l’imbarco, n = 215, p = 0.95, si ha:

I) P(X ≥ 206 ) = P(X =206)+… …+ P( X =215) =215

206

2150,95 0,05x n x

x x

= 0,363

II) P(X ≥ 201 ) = P(X =201)+… …+ P( X =215) =215

201

2150,95 0,05x n x

x x

= 0,877

III) P(X ≥ 195) = P(X =195)+……+ P( X =215) =215

195

2150,95 0,05x n x

x x

= 0,997

IV ) P(X ≥ 190) = P(X =190)+……+ P( X =215) =215

190

2150,95 0,05x n x

x x

= 0,999.

1.7.2 Teorema di Markov

Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di

carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie

informative che si collocano a un livello intermedio tra la conoscenza completa, seppure

spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica espressa

dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e significativi è

quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a cui si perviene

facilmente attraverso una opportuna specificazione di un teorema più generale: il

teorema di Markov.

Teorema (disuguaglianza)di Markov – Sia X una variabile casuale con funzione di

distribuzione F(x), g(X) una funzione a valori reali non negativa (in modo

tale che Y = g(X) sia essa stessa variabile casuale) e c una costante positiva,

allora

c

XgEcXgP

)()(

Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema

con relativa facilità.

Dimostrazione

dxxfxgXgE )()()(

: ( ) : 0 ( )

( ) ( ) ( ) ( )x g x c x g x c

g x f x dx g x f x dx

: ( ) : 0 ( ) : ( )

( ) 0 ( ) ( ) x g x c x g x c x g x c

c f x dx f x dx c f x dx c P g X c




57

( )

( )E g X

P g X cc

Di particolare interesse risulta una specificazione (corollario) del teorema.

Disuguaglianza di Bienaymé-Cebiçev: Se X è una variabile casuale con varianza 2

finita, allora

2

11P X k

k .

Dimostrazione 1

Ponendo g(X) = X - e c = k per k > 0

dove: = E(X) e 2 = var(X) , si avrà, dal Teorema di Markov,

2 2 2( )P X k P X k

222

2

22

2 1)(

kkk

XE

2

1P X k

k

ed anche

2

11P X k

k

Alla stessa conclusione si giunge partendo dalla definizione di varianza di una

variabile casuale:

Dimostrazione 2

Var(X) =

dxxfx )(

22

L’integrale può essere diviso nella somma di tre integrali:

k

k k

k

dxxfxdxxfxdxxfx )()()(2222

sottraendo il secondo integrale dal membro di destra dell’equazione, si ottiene la

seguente disuguaglianza:

2 22 ( ) ( )

k

kx f x dx x f x dx

Si consideri

2 2 2 2( ) ( ) ( )

k k k

x f x dx k f x dx k f x dx

,

poiché se x è almeno k volte il valore atteso di X, allora la differenza al quadrato tra x e

il suo valore atteso, cioè (x - )2, deve essere maggiore di k

22. Ad esempio, se x = -

k - h, allora x - = - k - h - = - (k + h). Di conseguenza, il quadrato di questa

quantità sarà più grande di k22

. Analogamente




58

2 2 2( ) ( )

k kx f x dx k f x dx

quindi, sostituendo, si ottiene:

2 2 2 ( ) ( ) k

kk f x dx f x dx

la quantità in parentesi è uguale a

1P x k P x k P x k P x k

quindi

2 2 2

2

2

1

11

11

k P x k

P x kk

P x kk

La disuguaglianza di Bienaymé-Cebiçev sta ad indicare che, per qualunque variabile

casuale, la probabilità dei valori che si collocano in un intorno della media di ampiezza

k è sempre superiore ad 2

11

k . Ad es., per k = 2, si ottiene

2 2 3/ 4P X , cioè per ogni variabile casuale avente varianza finita

almeno ¾ dei valori distano dalla sua media meno del doppio della deviazione standard.

Ovviamente la disuguaglianza assume significato solo per k > 1, in quanto per k = 1

oppure per k < 1, risulta che la probabilità è 0 : ma questo è sempre vero per la

definizione stessa di probabilità.

Se si fa riferimento ad una particolare distribuzione e si considera una specifica

funzione g(X) si perviene ad un altro interessante risultato.

Teorema di Bernoulli - Si consideri la variabile casuale binomiale caratterizzata dai

parametri p ed n e la trasformazione X

Y n

, cioè la variabile casuale binomiale

relativa, la cui media e varianza sono, rispettivamente, pn

XE

e

X p qVar

n n

.

Applicando la disuguaglianza per

pn

X

n

XgYg

si avrà 2

2

2

2 2

XE p

nX X p qP p c P p c

n n c n c




59

da cui

2lim lim

n n

X p qP p c 0

n n c

ed anche (probabilità dell’evento contrario)

limn

XP p c 1

n

Siccome c può essere scelto piccolo a piacere, si può anche concludere che al

crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni

analoghe) la frequenza relativa di un evento converge, in probabilità, alla probabilità

dell’evento stesso.

Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la variabile

casuale binomiale relativa interpretabile come media aritmetica di n variabili casuali di

Bernoulli indipendenti e identicamente distribuite.

Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più

interessante è quella che estende il risultato ad una successione qualsiasi di variabili

casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media

E(Xi) = .

Teorema di Kolmogorov (legge debole dei grandi numeri) – Sia X1, X2, …, Xn, … una

successione di variabili casuali indipendenti e identicamente distribuite, di media

finita, allora per la variabile casuale

n

i

in Xn

X1

1, di media )( nXE , vale la

relazione

1lim

nn

XP

Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano

varianza 2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev,

dimostrare facilmente la cosiddetta legge debole dei grandi numeri espressa dalla

relazione

lim 1 1n nn

P X c P X c

,

dove 0 < < 1.

Dimostrazione

Ponendo ( ) ng X X e applicando il Teorema di Markov, si ottiene

2

22

2

2 2

2

2

1 1

da cui

lim lim 1 1

n

n n

nn n

E XP X c P X c

c n c

P X cn c




60

La legge forte dei grandi numeri è espressa dalla relazione

lim 1nn

P X

.

La differenza tra le due leggi è ovvia; infatti, anche se entrambe le leggi affermano

che al crescere della numerosità degli elementi della successione considerati la loro

media tende alla media comune µ , nel primo caso (legge debole) si ammette la

possibilità che, in probabilità, si registri uno scarto tra e nX , nel secondo caso (legge

forte) tale possibilità è esclusa.

Le leggi (forte e debole) dei grandi numeri sono estremamente utili a fini pratici, in

quanto consentono di fare inferenze attendibili sulla media di una popolazione quando

si dispone soltanto di un campione di manifestazioni del fenomeno di interesse. Tali

leggi, infatti, stabiliscono che è possibile determinare un intero positivo n (ampiezza

campionaria) tale che, se si prende un campione casuale di ampiezza maggiore o uguale

ad n da una popolazione con media , allora la probabilità che la differenza tra la media

campionaria nX e la media della popolazione sia minore di una quantità fissata

piccola a piacere è vicina ad 1 quanto si vuole.

Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della

probabilità e della statistica ma ancora più rilevante è, come si avrà modo di

approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale

(teorema centrale del limite), qui se ne propone una versione particolare, quella

usualmente attribuita a Lindberg-Levy.

1.7.3 Distribuzione ipergeometrica

Per introdurre la distribuzione ipergeometrica conviene riprendere in considerazione la

distribuzione binomiale proponendo l'interpretazione che si rifà al linguaggio

dell'estrazione casuale da un'urna. Infatti, la distribuzione ipergeometrica ha lo stesso

campo di applicabilità della distribuzione binomiale e dovrà essere ad essa sostituita

tutte le volte che gli eventi relativi alle singole prove non possono essere considerati

indipendenti.

Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La

probabilità di estrarre pallina bianca in una prova sarà p = N

K .

Come già detto in precedenza, se si effettuano n estrazioni con ripetizione (cioè con

reinserimento della pallina nell’urna) la probabilità di ottenere esattamente x palline

bianche, nelle n prove, è data da

( ) ( ) 1

x n x

x n xn nK K

P X x f x p qx xN N

cioè, l'estrazione con ripetizione (campionamento bernoulliano) conduce alla

distribuzione binomiale. Si ammetta ora di effettuare le n estrazioni, senza rimettere

ogni volta la pallina estratta nell'urna (campionamento esaustivo o campionamento




61

senza ripetizione); in questa situazione la probabilità di estrarre esattamente x palline

bianche è data da

( ) ( ; , , )

K N K

x n xf x f x n K N

N

n

per max [ 0,n - (N - K) ] x min [n, K]

Infatti, se n > K, X potrà assumere al massimo il valore K, inoltre se

n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K).

Naturalmente

min , min ,

max 0, max 0,

( ; , , ) 1n K n K

n N K n N K

K N K

x n xf x n K N

N

n

Per dimostrare la relazione sopra riportata, occorre tenere presente che ogni

successione di n palline di cui x bianche e n-x nere costituisce una partizione dello

spazio campionario in eventi elementari equiprobabili, per cui è sufficiente fare il

rapporto tra il numero di eventi favorevoli (cioè il numero delle sequenze contenenti

esattamente x palline bianche) e il numero complessivo di eventi elementari (cioè il

numero di tutte le possibili sequenze di N palline ad n ad n).

Gli eventi favorevoli affinché si verifichi X = x sono quelli che contengono x

palline bianche scelte tra le K esistenti e sono in numero di

x

K, moltiplicati per tutti

quelli che contengono le rimanenti (n-x) palline nere scelte tra le (N – K) possibili, che

sono in numero di

xn

KN. Quindi, i casi favorevoli sono

x

K

xn

KN, mentre i

casi possibili sono tutte le combinazioni di N palline prese ad n ad n, cioè

n

N. Da ciò

deriva la formula precedente che definisce la distribuzione di probabilità di una v.c.

ipergeometrica. L’espressione può essere interpretata più facilmente se, dopo aver

opportunamente sviluppato i simboli combinatori presenti, essa viene espressa nel

seguente modo:

! ( )!

! ( )! ( )! ( )!( ) ( ; , , )

!

! ( )!

1 1 1 1........ ......

1 1 1 1

K N K K N K

x n x x K x n x N K n xf x f x n K N

NN

n N nn

n K K K x N K N K N K n x

x N N N x N x N x N n




62

A meno del coefficiente binomiale, l’ultima espressione è pari al prodotto delle

probabilità che la prima pallina estratta sia bianca, per la probabilità che la seconda sia

bianca dato che la prima è bianca, …., per la probabilità che la x-esima pallina sia

bianca dato che le precedenti sono state bianche, per la probabilità che (x+1)-esima

pallina sia nera dato che si sono verificate x palline bianche, …., per la probabilità che

l‘n-esima sia nera dato che in precedenza si sono verificate x bianche e (n-x+1) nere.

Tale probabilità, cioè quella della sequenza ordinata di x palline bianche (n-x) nere, va

ripetuta per tutti i modi possibili in cui le n palline si possono disporre preservando però

sempre x palline bianche e (n-x) palline nere. Tali modi sono appunto

x

n.

La media e la varianza della distribuzione che ha la funzione di massa di probabilità

sopra indicata e che viene detta ipergeometrica, sono definite dalle relazioni di seguito

riportate dove, per semplicità di notazione, si è ipotizzata la possibilità che la variabile X

possa assumere i valori 0 ed n ; ovviamente, se l’ipotesi non è soddisfatta basterà

sostituire gli estremi 0 ed n con i valori

max [ 0,n - (N - K) ] e min [n, K]

0 0 1

1

1 1 ( 1)

1 1 ( 1)( ; , , )

1

1

1 1 ( 1)

1 1 ( 1)

1

1

n n n

x x x

n

x

K N K K N KK

x n x x x n xx f x n K N x x

N NN

n n n

K N K

x n xK Kn n n p

NN N

n




63

2 2

2

0 0

1

( ; , , )

2 2 ( 2)1

1 2 2 ( 2) 1

21

1 2

2 2 ( 2)1

1 2 2 ( 2) 1

n n

x x

n

x

K N K

x n xx f x n K N x

N

n

K N KK K

x x x n xx x x

NN N

n n n

K N KK K

x x x n xx x

2 1

2

1 1 ( 1)

1 1 ( 1)

2 11

1 2 1

2 2 ( 2)

2 2 ( 2)1 1 1 1

21 1

2

n n

x x

n

x

K N KK

x n x

N NN N N

n n n n n

K N K

x n xK K K K K Kn n n n n n

NN N N N N N

n

2

2 2

0 0

22 2

2 2

( ) ( ; , , ) 11 1

od anche

1 11 1 1

1 1

1 1 1

n n

x x

2

K N K

x n xn K N n K K N nx f x n K N x n n p q

NN N N N N

n

K K K K K K K n n n n n n n

N N N N N N N

N K n N N n K Kn

N

11

1) 1 1

KN n

N K N nNn n p q

N N N N N

Il fattore 1

N

nN ( 1) viene usualmente detto fattore di correzione (per il

campionamento senza ripetizione). Si osservi che, se n = 1, allora la varianza della v.c.

ipergeometrica coincide esattamente con quella della binomiale (v.c di Bernoulli):

infatti, estraendo una sola pallina è del tutto irrilevante il fatto che essa venga

reimmessa o meno nell’urna. Inoltre, le due varianze coincidono anche nel caso in cui N

tende ad infinito, infatti, il fattore di correzione1

N

nN tende ad 1.

Si procede alla dimostrazione della relazione

min , min ,

max 0, max 0,

( ; , , ) 1n K n K

n N K n N K

K N K

x n xf x n K N

N

n

ipotizzando, anche in questo caso per semplificare la notazione algebrica, che i limiti

della sommatoria siano pari a 0 ed n, si dimostra quindi l’uguaglianza




64

0

1n

x

K N K

x n x

N

n

Si consideri l’identità

0

1 K r

K r y

y

K ra a

y

Ponendo y K - x si ha

1 K

K r K x

x r

K ra a

K x

inoltre

0

1 N K

N K N K s

s

N Ka a

s

Se si moltiplicano membro a membro le due identità si ha

0

0

1 1 1K r N K N r

K N KK x N K s

x r s

K N KN x s

x r s

a a a

K r N K a a

K x s

K r N K a

K x s

ponendo N-x-s = t , si ha

0

0

1

ma

1

N r N tN r t

t x r

N rN r t

t

K r N K a a

K x N x t

N r a a

t

Per il principio d’identità dei polinomi vale l’uguaglianza

ponendo 0 e si ha

ed anche

N t

x r

n

x o

K r N K N r

K x N x t t

r t N - n

K N K N

K x n x N n

K

x

cioè

1

n

x o

n

x o

N K N

n x n

K N K

x n x

N

n

Al crescere della dimensione della popolazione ( N ) la distribuzione

ipergeometrica tende alla distribuzione binomiale, risultato questo facilmente intuibile

se si considera una popolazione molto numerosa dove la presenza o assenza

(reimmisione o non reimmissione della pallina estratta) non modifica sostanzialmente le




65

probabilità di estrazione. Ovviamente, l’approssimazione è tanto più buona quanto più

elevato il valore assunto da N e quanto più piccolo è il valore assunto da n.

lim ( ) lim ( ; , , ) lim

1 1 1 1lim ........ ......

1 1 1 1

/ ( 1) / ( 1) /lim ........

/ ( 1) / (

N N N

N

N

K N K

x n xf x f x n K N

N

n

n K K K x N K N K N K n x

x N N N x N x N x N n

n K N K N K x N

x N N N N N

( ) / ( 1) / ......

1) / ( ) / ( 1) /

1 / ( 1) / 1 1 ( 1) /lim ........ ......

1 1 / 1 ( 1) / 1 / 1 ( 1) /

1

N

n xx x n x

N K N N K n x N

x N N x N N n N

n p N p x N p p n x Np

x N x N x N n N

n np p p q

x x

La funzione generatrice dei momenti della v.c. ipergeometrica non è utile.

Esempio 1.17

Una compagnia di assicurazioni sa per esperienza che tra le persone che rispondono alla

pubblicità su giornali e riviste per polizze assicurative sulla salute, circa il 40% finisce poi per

acquistarne una. Un assicuratore della compagnia riceve 10 risposte e ne seleziona

casualmente tre, fissando degli appuntamenti per un incontro con i potenziali futuri clienti.

Qual è la probabilità che l’assicuratore venda una polizza ad una delle tre persone che

incontrerà?

La popolazione complessiva è costituita dalle 10 persone che rispondono all’annuncio, quindi

N = 10. La caratteristica posseduta da 4 di queste persone è la loro tendenza ad acquistare una

polizza sulla salute, quindi K = 4. Infine, se l’assicuratore seleziona casualmente tre risposte,

si ha n = 3.

Dunque, la probabilità che una persona (x =1) acquisti una polizza è data da:

4 6

1 2 601 0,50

10 120

3

K N K

x n xP x

N

n

.

Esempio 1.18

Si supponga che in un processo produttivo il 30% dei pezzi prodotti risulti difettoso. Il manager

responsabile del controllo di qualità seleziona casualmente 5 pezzi da un totale di 20 prodotti e

ispeziona ciascuna parte del campione. Qual è la probabilità che ciascun campione contenga I)

esattamente 2 parti difettose? II) oppure che contenga al massimo due parti difettose?

La popolazione è rappresentata da 20 pezzi prodotti, quindi N =20. Poiché il 30% si sa essere

difettosi, allora ciascun lotto contiene 6 pezzi difettosi, cioè K = 6. Infine, ciascun campione

estratto consiste di 5 pezzi, quindi n = 5.

Ricapitolando: N = 20, K = 6, n = 5

I)




66

6 14

2 32 0,352 35,2%

20

5

K N K

x n xP x

N

n

II)

)0()1()2()0()1()2(2 fffxPxPxPxP

f(2) =0.352,

6 14

1 4(1) 0,387

20

5

f

,

6 14

0 5(0) 0,129

20

5

f

2 (2) (1) (0) 0,352 0,387 0,129 0,868 86,8%P x f f f .

1.7.4 Distribuzione di Poisson (o dei piccoli numeri o degli eventi rari)

A differenza delle precedenti variabili casuali, la distribuzione di Poisson non è

generata direttamente da una successione di prove Bernoulliane (se non come processo

limite) ma riguarda il numero di eventi registrati in un ambito circoscritto di tipo

temporale, spaziale, concettuale; cioè, si parla di variabile casuale di Poisson quando

interessa conoscere il numero X di eventi (accadimenti, successi,…) che si verificano

in uno specifico intervallo di tempo o di spazio o di circostanze. Per es., si

distribuiscono secondo una v.c. di Poisson il numero di clienti che arriva allo sportello

bancario ogni ora, il numero di chiamate che arriva ad un centralino ogni 10 minuti, il

numero di auto in attesa al casello autostradale ogni minuto, il numero di incidenti

mortali tra gli operai addetti ad un certo processo chimico pericoloso per ogni impianto

funzionante, il numero di pezzi difettosi prodotti da ciascun macchinario di un’azienda

ecc.

La funzione di massa di probabilità della v.c. di Poisson è data da

!);()(

x

exfxf

x

per x = 0, 1, 2 ,...,∞

(dove e è la costante di Nepero e un numero reale positivo). Naturalmente la somma

delle probabilità, per questa particolare variabile casuale discreta che può assumere

l'infinità (numerabile) di valori diversi 0, 1, 2,... , è pari ad 1

0 0 0

( ; ) 1! !

x x

x x x

ef x e e e

x x

La media e la varianza sono date da

1

0 0 1 0

( ; )

! 1 ! !

x x y

x x x y

e e ex f x x x

x x x y

dove y=x-1.




67

2 2 2

0 0

2 2

0 0 0

2

0

2

0 0

2 2

0

( ) ( ; ) ( )!

2! ! !

1 2 !

1 ( 1) 2 ! !

+ !

x

x x

x x x

x x x

x

x

x x

x x

y

y

ex f x x

x

e e ex x

x x x

ex x x

x

e ex x x

x x x x

e

y

dove y=x-2.

Dalle uguaglianze sopra riportate risulta che l’unico parametro caratterizzante la

distribuzione di Poisson coincide con la media e la varianza della variabile casuale

stessa.

I momenti possono essere più facilmente derivati se si considera la funzione

generatrice dei momenti:

1

0 0

1

1 0 0

21 1 2

2 0 02

2 2 2 2

2 1

( ) ( )! !

| |

| |

( )

tt

t

t t

xttx x

etX e

x

x x

e t

x t t

e et t t

x t t

ee em t E e e e e e

x x

dm t e e

dt

dm t e e e e e

dt

Var X

Esempio 1.19

Il dipartimento per il controllo di qualità della Shirt Manufacturing Company rileva che per

ciascuna spedizione di 10.000 magliette circa 5 vengono rimandate indietro in quanto

presentano delle imperfezioni nelle cuciture. L’azienda ha in programma 2 spedizioni ad un

cliente di New York. Qual è la probabilità che più di 10 magliette siano restituite per la

sostituzione?

p = probabilità di trovare una maglietta difettosa = 5/10.000 = 0,0005

n = numero totale di magliette prese in considerazione = 2×10.000 = 20.000

= numero medio di magliette difettose = n p 20.000×0.0005 = 10

x = numero di magliette difettose > 10

quindi:

10

0

1010

0

( 10) ( 11) ( 12) ... 1 ( 10) 1!

101 1 0,583 0,417 41,7%

!

x

x

x

x

eP x P x P x P x

x

e

x

.




68

Esempio 1.20

Un grande centro commerciale vende diverse marche di apparecchi televisivi. Uno dei

principali problemi del responsabile degli acquisti consiste nel definire la quantità di televisori

di ciascuna marca da tenere come scorta di magazzino. Da una parte, infatti, vuole garantirsi

una quantità di scorte tale da soddisfare prontamente le richieste dei clienti, dall’altra vuole

evitare di immobilizzare troppo denaro in scorte di magazzino eccessive che, se non vendute in

tempi relativamente rapidi, rischiano di diventare obsolete. La principale difficoltà nel risolvere

tale problema consiste nell’ampia variabilità della domanda da un mese all’altro. Tutto ciò di

cui il manager è a conoscenza è il fatto che, sulla base dei dati storici, la domanda media

mensile ( ) è approssimativamente 17 unità.

Il manager si chiede, dunque, qual è la probabilità che la domanda il prossimo mese sia I)

inferiore o uguale alle 20 unità e II) sia compresa tra le 10 e le 15 unità.

1720 20

0 0

17( 20) 0,806 80.6%

! !

x x

x x

e eP x

x x

1715 15

10 10

17(10 15) 0,345 34.5%

! !

x x

x x

e eP x

x x

.

Distribuzione di Poisson come limite della distribuzione binomiale

La distribuzione di Poisson ha importanti applicazioni anche perché essa rappresenta

una conveniente approssimazione della distribuzione binomiale nel caso in cui il

numero delle prove n sia abbastanza elevato (in genere si assume 100n ) e la

probabilità che l'evento si presenti in una singola prova sia sufficientemente prossima

allo 0. L’approssimazione è giustificata in quanto si dimostra che la legge di

distribuzione di Poisson può essere derivata come limite della distribuzione Binomiale

nel caso in cui n tende ad infinito e p tende a 0, mentre il prodotto = n p rimane

costante.

La formula generale per la probabilità di x successi in n prove Bernoulliane, cioè in n

estrazioni casuali con ripetizione (eventi indipendenti) è rappresentata dalla v.c.

Binomiale

( ) ( ; , ) (1 )x n xn

f x f x n p p px

Si consideri la famiglia per cui il prodotto n p sia una costante . Se si pone = n p,

allora p = /n, sostituendo p = /n nella precedente espressione si ha




69

!( ; , ) 1 1

! !

1 ! 1

! !

1 ( 1) ( 2).....( 1)( )! 1

! ( )! ......

x n x x n x

n x

x

x

n x

x

n nf x n

x n n x n x n n

n

x n x n n

n n n n x n x

x n x n n n n n

1 1 1 ...... 1

!

1 1 1 = 1 1 ...... 1 1

!

n x

x

n x

x

n n n x

x n n n n

x

x n n n

Per x costante si ha

1 1 1lim ( ; , ) lim 1 1 ...... 1 1

!

1 1 = lim 1 lim 1

! ! !

n x

x

n n

n x n xx x

n n

xf x n

x n n n

e

x n x n x

che è la funzione di massa di probabilità della v.c. di Poisson.

Allo stesso risultato si perviene ma in modo decisamente più rapido se si considerano

le funzioni generatrici dei momenti delle due v.c.; infatti

11

lim lim 1 lim 1t

nn t

n e t t

n n n

e p e q e e

n n n

Esempio 1.21

E’ noto che il 3% delle lampadine prodotte dalla Edison Light Company è difettoso. Un lotto

che ne contiene 1000 sta per essere inviato al cliente. Si calcola la media e la varianza delle

lampadine difettose usando I) una funzione di distribuzione di Poisson e II) una funzione di

distribuzione Binomiale.

Funzione di distribuzione di Poisson:

Media = 1000 0,03 30n p

Varianza = 302 pn

Funzione di distribuzione Binomiale:

Media = 3003.01000 pn

Varianza =2 1000 0,03 0,97 29.1n p q

Come si può osservare le due medie coincidono e le due varianze sono molto simili. Tale

risultato evidenzia la buona approssimazione della distribuzione Binomiale con la distribuzione

di Poisson nel caso incui p è molto vicina a zero ed n è abbastanza grande.

pnpnqpn 12.




70

Esempio 1.22

Si supponga che la probabilità di ottenere una parte difettosa da un certo processo produttivo

sia pari a 0.02. Qual è la probabilità che un lotto di 200 pezzi prodotti ne contenga fino a 5

difettosi? Si calcola tale probabilità ricorrendo sia alla distribuzione Binomiale che alla

distribuzione di Poisson.

Distribuzione Binomiale:

5200

0

200( 5) 0,02 0,98 0,787 78,7%x x

x

P x x

Distribuzione di Poisson:

402.0200 pn

45

0

4( 5) 0,785 78,5% 78,7%

!

x

x

eP x

x

.

1.7.5 Distribuzione binomiale negativa

La distribuzione Binomiale Negativa si usa quando si è interessati al numero di

ripetizioni (prove) indipendenti necessario per ottenere k volte un certo evento

d’interesse (successo). Essa può essere derivata direttamente dalla distribuzione

Binomiale. Nella Binomiale il numero di prove n viene fissato in anticipo e la variabile

casuale è il numero di successi che si ottengono nelle n prove. Viceversa, la Binomiale

Negativa specifica in anticipo il numero k di successi che si vuole osservare, mentre la

variabile casuale diventa il numero di prove necessario per osservare il numero k di

successi prefissato. Quindi il fenomeno sotto osservazione è lo stesso per entrambe le

distribuzioni, ciò che cambia è l’evento d’interesse.

Indicando con X la v.c. numero di prove necessario per ottenere k successi (Ia

definizione) i valori che tale variabile può assumere sono k, k+1, k+2, ...., cioè

un’infinità di valori. Se si indica con p la probabilità di ottenere un successo in una

singola prova dell’esperimento e con (evento elementare) una possibile sequenza di

esiti (S indica un successo e I un insuccesso), si ha:

( )x k volte k volte

I I I I S S S

= (I I I I ..... I S S S .... S)

inoltre, essendo gli eventi associati alle singole sottoprove indipendenti, la probabilità di

è data da:

P() = P(I I I I ..... I S S S .... S) =

= kkx

voltekvoltekx

pqppppqqq

)(

.

Qualunque permutazione venga fatta tra i vari eventi in modo da avere sempre un

totale di x prove affinché si manifestino k successi, la probabilità dell’evento rimane

invariata ed è pari a pk(1– p)

x-k.




71

Per ricavare la funzione di massa di probabilità della distribuzione Binomiale

Negativa basta conoscere il numero di possibili permutazioni che possono essere

effettuate in modo da ottenere k successi in x prove. Se sono richieste x prove per

ottenere k successi, allora devono verificarsi (k – 1) successi nelle prime (x – 1) prove;

inoltre, il k-esimo successo deve verificarsi all’x-esima prova (cioè l’ultima). Questo

equivale a dire che, con riferimento all’evento sopra riportato, il numero delle

possibili permutazioni si ottiene cambiando, in ogni modo possibile, l’ordine di tutti gli

eventi tranne l’ultimo. In altre parole, l’ultimo evento che si verifica deve essere sempre

il k-esimo successo: se questo si verificasse prima dell’x-esima prova vorrebbe dire che

il numero di prove necessario per ottenere k successi non è più x ma un valore inferiore.

Se si indica con k l’evento nel quale nelle prime x-1 prove si realizzano k-1

successi, la sua probabilità si può derivare facendo riferimento alla distribuzione

Binomiale nella quale su n=x-1 prove si realizzano k-1 successi

1 1 ( 1) 11 1

(1 ) (1 )1 1

k x k k x k

k

x xP p p p p

k k

La probabilità di successo nella x-esima prova è p, quindi, la funzione di massa di

probabilità della variabile casuale Binomiale negativa è data da:

( )1

( ) ( ; , ) (1 )1

k x kx

P X x f x k p p pk

, con x = k, k+1, k+2, k+3, ....

Infine, si può dimostrare che la media e la varianza della distribuzione Binomiale

Negativa sono date da:

1( )E X k

p ;

2 2

1( )

p k qVar X k

p p

.

Infatti:

( ) 1 ( )1

(1 ) (1 )1

k x k k x k

k k

x xk kE X x p p p p

k kp p

2 2 ( ) ( )

2

( ) ( )

2 ( )

2 2

1 1 (1 ) 1 (1 )

1 1

1 11 (1 ) (1 )

1 1

1 1 1 (1 )

1

k x k k x k

k k

k x k k x k

k k

k x k

k

x xE X x p p x x x p p

k k

x xx x p p x p p

k k

xk k k kkp p

kp p p

2 2 2

2 2 2 2 2 2

1

k

p

k pk k k k k k q

p p p p p p p

2 2

2

2 1 2 2 2 2

k k q k k qVar X

p p p p




72

Si osservi la ragionevolezza del risultato per cui il valore medio di tale variabile

casuale è l’inverso della probabilità che si verifichi l’evento “successo” nella singola

prova, moltiplicato per k. Infatti, se l’evento è raro, la probabilità p è molto bassa,

pertanto, occorrerà attendere mediamente un numero piuttosto elevato di prove prima

che si verifichi per k volte. Viceversa, se l’evento in questione possiede una probabilità

p elevata, allora il numero di prove necessarie perché si verifichi per k volte sarà

mediamente più basso.

Una delle tante applicazioni della distribuzione Binomiale Negativa è relativa a certi

problemi di attesa. Si supponga, ad esempio, che in un processo di produzione

automatico in ogni secondo viene prodotta una parte del macchinario, la parte viene

controllata automaticamente e, quindi, gettata in un recipiente in caso risulti difettosa.

Essendo p la probabilità di ottenere una parte difettosa (successo) e k il numero di parti

difettose che il recipiente è in grado di contenere, allora la lunghezza di tempo (in

secondi) prima che il recipiente sia riempito e debba essere sostituito con uno vuoto è X,

dove X segue la distribuzione Binomiale negativa con parametri k e p e rappresenta il

numero totale di pezzi difettosi (cioè, il numero totale di prove) necessari per ottenere il

k-esimo pezzo difettoso.

Esempio 1.23

Si supponga che, in base ai dati storici, risulti che un istituto di credito concede in media un

prestito ogni cinque richieste che gli pervengono (p = 0,20). Il credit manager della banca

vorrebbe conoscere qual è la probabilità che, in una tipica giornata, egli debba valutare 5

richieste di finanziamento (quindi x = 5) e, tra queste, 2 risultino idonee (k =2). E’ implicito che

la seconda approvazione avvenga per la quinta ed ultima richiesta di finanziamento analizzata,

altrimenti il manager non dovrebbe valutare 5 richieste. Indicando con A le richieste di

finanziamento approvate e con R quelle rifiutate si ottengono le seguenti possibili sequenze con

le rispettive probabilità:

Sequenze Probabilità

A R R R A 0,2 0,8 0,8 0,8 0,2 = 0,02048

R A R R A 0,8 0,2 0,8 0,8 0,2 = 0,02048

R R A R A 0,8 0,8 0,2 0,8 0,2 = 0,02048

R R R A A 0,8 0,8 0,8 0,2 0,2 = 0,02048

Totale 0,02048 4= 0,08192 = 8,192%

Allo stesso risultato si giunge applicando direttamente la funzione di probabilità della

distribuzione Binomiale Negativa. Infatti, posto x= 5, k = 2 e p = 0,20 si ottiene:

2 5 25 1 4!

( 5) 0,20 0,8 0,04 0,512 0,08192 8,20%2 1 3! 1!

P X

.

Esempio 1.24

Dalla precedente esperienza si sa che un’azienda è in grado di produrre il 90% dei suoi

prodotti (lamine di acciaio) entro i limiti di accettabilità dell’ampiezza del diametro. In vista

del controllo periodico il responsabile della qualità decide di fermare il processo produttivo ed




73

effettuare un’ispezione completa di tutti i macchinari nell’ipotesi in cui da un campione di 7

lamine ne risultino 3 difettose prima che ne siano prodotte 4 accettabili. Qual è la probabilità

che il processo produttivo venga interrotto?

Sia x = 7, k = 4 e p = 0,90, allora:

4 7 47 1 6

( 7) 0,9 0,1 0,6561 0,001 0,0131 13,1%4 1 3

P X

.

Esempio 1.25

Un’azienda che svolge servizi di soccorso stradale sa, sulla base dei dati storici, che circa il

45% di tutte le chiamate di soccorso che le pervengono richiedono l’intervento di un carro

attrezzi. Al momento l’azienda ha 9 carri attrezzi disponibili e 18 chiamate di soccorso in

attesa. Qual è la probabilità che le 18 chiamate siano completate prima che i 9 carri attrezzi

siano utilizzati? Per x = 18, k = 9 e p = 0,45, si ha:

9 18 918 1

( 18) 0,45 0,55 0,0847 8,47%9 1

P X

.

La funzione X sopra definita fa corrispondere a ciascun punto campionario il

numero delle prove necessarie per ottenere k successi, dal che risulta che la v.c. X

così definita potrà assumere i valori k, k+1, k+2,.... +. Una diversa definizione è

quella di non considerare il numero delle prove necessarie per ottenere k successi ma il

numero delle prove necessarie prima di ottenere k successi (IIa definizione), in tal

caso la v.c. X così definita potrà assumere i valori 1, 2, 3,…, + .

Una ulteriore possibile definizione della distribuzione binomiale negativa (IIIa

definizione) è quella di definire X come il numero di insuccessi necessari per

ottenere k successi. In questo caso la v.c. risultante può assumere i valori 0, 1, 2,……,

+, cioè tutti i numeri naturali da zero a + ed ha funzione di massa di probabilità pari

a :

1 1

( ) ( ; , ) (1 ) xk x k x k

k x k x kP X x f x k p p p p q p q

x x x

dove,

1 2k k ( k ) k

x x ! n - x !

espressione questa che da ragione anche della denominazione di distribuzione binomiale

negativa.

L'uguaglianza tra gli ultimi termini della relazione sopra scritta deriva

dall'uguaglianza

1

1xk x k

x x

.

Infatti




74

1 ! 1 !1

! 1 !! 1 !

x k x kx k

x kx x k xx

1 1 1 1 2 1 1 1 !

! 1 !

x k k k x k x k x x k x

x k

1 1 1 1 2 1 2 1 1

!

x valori

x k x k x k x k x x k x

x

Riscrivendo l’espressione precedente invertendo l’ordine degli x termini al

numeratore:

1 3 2 1

!

k k k x k x k x

x

Se si moltiplicano gli x termini per -1, si ottiene:

1 1 3 2 11

!

x

x kk k k x k x k x

xx

La funzione generatrice dei momenti della v.c. binomiale negativa in questa terza

formulazione è:

t

t0 0

1 e1 e

kx kxtX xt k k t k

x

x x

k k pm t E e e p q p e q p q

x x q

Risultato che deriva dalla relazione

0

1 k x

t t

x

ke q e q

x

che si ottiene dallo sviluppo del binomio di Newton

0

n x n x

x

na b a b

x

per ed ta e q n k .

Ricorrendo alla funzione generatrice dei momenti si determinano facilmente media e

varianza della distribuzione.

1 0

2 2 2

2 02 2 2

2 2 2 22 2

2 1 2 2 2 2

|

|

x t

x t

d k qμ m t

dt p

d k q k qμ m t

dt p p

k q k q k q k qVar(X) σ μ μ

p p p p




75

1.7.6 Distribuzione geometrica (di Pascal)

Nell’ipotesi in cui, nella distribuzione Binomiale negativa, il numero k di successi

desiderato sia pari ad 1, si parla di distribuzione Geometrica o distribuzione di Pascal.

Quindi, quest’ultima non è altro che un caso particolare della Binomiale negativa

quando k = 1 ed indica il numero di prove necessarie prima di ottenere un successo, o il

numero di insuccessi prima di ottenere un successo.

La distribuzione di probabilità della v.c. Geometrica risulta utile in diverse

situazioni. Per esempio, per certi tipi di macchinari è noto che la probabilità p di rottura

(successo) è la stessa ogni volta che il macchinario viene impiegato e non aumenta

all’aumentare del numero di volte in cui il macchinario è stato utilizzato in precedenza.

La qualità di un macchinario così fatto è, dunque, determinata da p: quanto più p è

basso tanto più il macchinario è affidabile. Un metodo per controllare un macchinario di

questo tipo è utilizzarlo finché si manifesta la prima rottura, cioè calcolare la probabilità

che la rottura avvenga alla x-esima prova, dato un livello di probabilità pari a p.

Un altro esempio di applicabilità della distribuzione Geometrica si può rilevare nel

settore creditizio. Il responsabile per la concessione di prestiti di una banca deve tenere

conto del fatto che non può permettersi di concedere troppi prestiti che potrebbero non

andare a buon fine (per i quali, cioè, il cliente non sarà in grado di pagare gli interessi

e/o di restituire il capitale ottenuto a prestito). D’altra parte è altresì vero che è

praticamente impossibile concedere prestiti del tutto esenti da rischio. Indicando

semplicemente con positivo/negativo l’esito che un qualsiasi prestito può avere e con p

la probabilità che venga concesso un prestito che avrà esito negativo6, il responsabile

per l’erogazione dei finanziamenti è in grado di determinare per ogni cliente la

probabilità che il prossimo prestito che gli sarà concesso avrà esito negativo, avendo

egli già onorato con esito positivo i precedenti 5, 10, 50, ... prestiti concessi in passato.

1.7.7 Variabili casuali discrete: riepilogo

Prima di procedere con l’esposizione delle principali variabili casuali continue, si riepilogano

le caratteristiche e le propprietà delle variabili casuali discrete considerate.

V.c. di Bernoulli

Descrizione: numero di successi in una sola prova

Parametro caratteristico: p = probabilità di ottenere un successo

Supporto della v.c. X: x 0, 1

La prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)

Il numero di prove è fisso, pari ad 1

Funzione di massa di probabilità:

f(x) = f(x;p) = 1 11

xx x xp p p q

6 La probabilità p non deve essere né troppo alta né troppo bassa: nel primo caso la banca rischierebbe di perdere

troppo denaro, nel secondo caso, invece, si comporterebbe in maniera eccessivamente conservativa e non avrebbe la

possibilità di spuntare margini di guadagno elevati.




76

E X p

Var(X) pq

t

xm t p e q

V.c. Binomiale

Descrizione: numero di successi in n prove indipendenti (campionamento con

ripetizione)

Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova;

n, numero delle prove

Supporto della v.c. X: x 0, 1, 2, …., n

Ogni prova è indipendente dalle altre

Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)

La probabilità dell’evento “successo” è costante in tutte le sottoprove

Il numero di sottoprove è fisso, pari ad n


f(x) = f(x;n,p) = 1n xx x n x

n np p p q

x x

E X n p

Var(X) n p q

n

t

xm t p e q

V.c. Ipergeometrica

Descrizione: numero di successi in n prove (campionamento senza ripetizione)

Parametri caratteristici: n, numero delle prove; K, numero di eventi “successo”

possibili; N, numero totale di eventi (successi e insuccessi) possibili

Supporto della v.c. X: x max(0, n – N + K), min (n, K)


Il risultato di una sottoprova modifica la probabilità (condizionata) di successo nelle

sottoprove successive

Il numero di sottoprove è fisso, pari ad n


( ) ( ; , , )

K N K

x n xf x f x n K N

N

n

per max [ 0,n - (N - K) ] x min [n, K]

1

E X n p

N nVar(X) n p q

N




77

V.c. di Poisson

Descrizione: numero di successi in un ambito predefinito (di tempo o di spazio)

Parametro caratteristico: , che indica sia la media che la varianza della variabile

casuale

Supporto della v.c. X: x 0, 1, 2,…., +∞

Il tasso medio di occorrenza dell’evento E è costante

La manifestazione di ciascun evento è indipendente in ambiti che non si sovrappongono

La probabilità di due o più manifestazioni degli eventi in ambiti che si sovrappongono

tende a zero.


!);()(

x

exfxf

x

E X

Var(X)

1( )

te

xm t e

V.c. Binomiale negativa

- Prima definizione

Descrizione: numero di prove occorrenti perché si verifichino k successi

Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola

sottoprova; k, numero prefissato di successi che si desidera di ottenere

Supporto della v.c. X: x k, k+1, k+2,…, +

Ogni sottprova è indipendente dalle altre


Il numero di sottoprove non è fisso, ma coincide con la v.c. X

L’esperimento termina al verificarsi del k-esimo successo


( )1

( ) ( ; , ) (1 )1

k x kx

P X x f x k p p pk

2

kE X

p

k qVar(X)

p

- Terza definizione

Descrizione: numero di insuccessi prima di ottenere k successi


sottoprova; k, numero prefissato di successi che si desidera ottenere

Supporto della v.c. X: x 0, 1, 2,…, +

Ogni sottoprova è indipendente dalle altre






78

L’esperimento termina al verificarsi del k-esimo successo


( ) ( ; , ) xk

kP X x f x k p p q

x

2

k qE X

p

k qVar(X)

p

t1 e

k

x

pm t

q

V.c. Geometrica

Descrizione: numero di sottoprove occorrenti perché si verifichi un successo, od anche,

numero di insuccessi prima di ottenere un successo


sottoprova

Supporto della v.c. X: x 1, 2,…, + , nel caso in cui si considera il numero delle

sottoprove necessarie per ottenere un successo, x 0, 1, 2,…, + nel caso in cui si

considera il numero di insuccessi prima di ottenere un successo.

Ogni sottoprova è indipendente dalle altre



L’esperimento termina al verificarsi del primo successo

Quando si considera il numero delle sottoprove necessarie per ottenere un successo

2

1

E Xp

qVar(X)

p

Quando si considera il numero degli insuccessi necessari per

ottenere un successo

2

t

1 e

x

qE X

p

qVar(X)

p

pm t

q




79

1.8 - Variabili casuali continue

1.8.1 Distribuzione normale (di Gauss-Laplace)

La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata

la più importante tra le distribuzioni continue, soprattutto per le seguenti ragioni:

una vasta serie di esperimenti casuali ha associata una variabile casuale la cui

distribuzione è approssimativamente normale;

alcune variabili casuali, che non sono distribuite normalmente, possono essere

rese tali mediante trasformazioni relativamente semplici;

alcune distribuzioni, relativamente complicate, possono essere approssimate

sufficientemente bene dalla distribuzione normale;

alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi

statistiche o per la determinazione di intervalli di stima, o sono distribuite

normalmente o derivano da tale distribuzione.

Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure

notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo

fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e

che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i

fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che

svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel “teorema

del limite centrale” o “teorema centrale del limite”; di questo teorema si tratterà in

seguito.

La funzione di densità di probabilità della distribuzione normale è 2

1

2 2

2

1( ) ( ; , )

2

x

f x f x e

per - x +

Ovviamente

2( ; , ) 1f x dx

.

Si controlla facilmente che la distribuzione normale è simmetrica e che ha il massimo

nel punto x = . Si dimostra, inoltre, che i due parametri caratteristici e 2

corrispondono proprio alla media (momento primo rispetto all’origine) e alla varianza

(momento secondo rispetto alla media) della distribuzione.

2( ; , ) x f x dx

2 2 2( ) ( ; , ) x f x dx

Per dimostrare che il valor medio (momento primo rispetto all’origine) della v.c.

Normale è uguale al parametro e la varianza al parametro 2 risulta conveniente




80

introdurre la funzione generatrice dei momenti della quale si farà anche largo uso nelle

pagine successive.

22

2 22 4 2 4 2 2 22 22

1/2

1 2 /2/22

1( )

2

1 1 e

2 2

xt X t xtX t t

x

x t x t t x tt t t

m t E e e E e e e e dx

e dx e e dx

ma

2

2 2/21

2

x te dx 1

infatti, effettuando la trasformazione 2

, x t dx

z dz dx dz

si ha

2

2 2 2 /2 /21 1

2 2

x t ze dx e dz A

2 22 2 /22 /2 /2

se si considera la relazione

1 1 1

22 2

e si effettua la trasformazione in coordinate polari

z vz vA e dz e dv e dz dv

2 2 2 2 2 22 /2 /22

0 0

2

0

e

si ha

1 1 ,

2 2

1

2

z v r cos r sen

z r cos v r sen

A e dz dv e J r dr d

2 22 /2 /2

0 0

2 2

1 1

2

si ricorda che , rappresenta lo Jacobiano della trasformazione

-

,

r re r dr d e r dr A = 1

J r

z z

cos θ r senrJ r r cos sen

v v sen r cos

r

1r r

quindi

2/22

)( tt

x etm

inoltre




81

2

2

1

/2 2

2

1 1 1

2 2

dove è stata operata la trasformazione

1 .

x

zA e dz e dx

xz x z dz dx

Derivando la funzione generatrice dei momenti in t=0 si ottengono i momenti di

interesse.

2 2 2 2

2 2 2 2

/2 /2 2

1 0 0 0

22

/2 2 /2 2 2 2

2 0 02

2 2 2 2 2 2

2 1

| | |

| |

t t t t

x t t t

t t t t

x t t

d dμ m t e e t

dt dt

dμ m t e t e

dt

Var(X) σ μ μ

Queste relazioni provano quanto sopra affermato; cioè, che i parametri caratteristici

µ e 2 rappresentano, rispettivamente, la media e la varianza della distribuzione

normale.

Il momento terzo ed il momento quarto standardizzati (indice di simmetria e indice di

curtosi) sono dati rispettivamente, da: 3

2

1 3 ( ; , ) 0x

f x dx

4

2

2 4 ( ; , ) 3x

f x dx

Ovviamente, essendo la distribuzione normale simmetrica, l’indice 1 assume valore

zero. In altre distribuzioni l’indice assume, invece, valore negativo in caso di

asimmetria a sinistra, valore positivo in caso di asimmetria a destra, della distribuzione

(cfr. Fig. 1.5).

Mentre l’asimmetria è definita in termini assoluti, la curtosi è un concetto relativo;

infatti, si può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa

riferimento alla distribuzione normale. Essendo per quest’ultima distribuzione il valore

assunto dall’indice di curtosi pari a 3, si dirà platicurtica la distribuzione con valore

dell’indice 2 inferiore a 3, leptocurtica la distribuzione con valore dell’indice

2

maggiore di 3 (cfr. Fig. 1.5).




82

Fig. 1.5 - Forma delle distribuzioni

Se si considera la funzione di distribuzione della variabile casuale normale

2

2

1

2

2

1

2

(y μ)xσF(x) P(X x) e dy

πσ

e si effettua la trasformazione (standardizzazione) Z =

x si ha

F(z) = P(Z z) = 21

21

2

z y

e dy

i cui valori sono stati tabulati.

Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno valore

medio nullo e varianza pari ad uno.

Tenendo presente che

bZ

aP

bXaPbXaPaFbF )()()(

Se si pone a = (µ e b = (µ + si ha, utilizzando le tavole della distribuzione

normale standardizzata, che

P (µ < X µ + ) = P(1 < Z 1) 0,68

per a = (µ 2 e b = (µ + 2 si ha

P (µ 2 < X µ + 2) = P(2 < Z 2) 0,955

per a = (µ 3 )e b = (µ + 3 si ha

P (µ 3 < X µ + 3) = P(3 < Z 3) 0,997

Asimmetria negativa

1 < 0

Asimmetria positiva

1 > 0

Me Me Mo Mo

Distribuzione leptocurtica

2 > 3

Distribuzione normale

2 = 3

Distribuzione platicurtica

2 < 3




83

Le relazioni sopra scritte portano a concludere che per qualunque variabile casuale

normale:

circa i due terzi dei valori sono contenuti nell'intervallo

( ), ;

circa il 95% dei valori sono contenuti nell'intervallo

( 2 ), 2 (µ 2µ + 2;

circa il 99,7% dei valori (praticamente tutti) sono contenuti nell'intervallo

( 3 ), 3 .

I valori soglia per le probabilità 0,95, 0,99 e 0,999 sono, rispettivsmente, 1,96, 2,58 e

3,29

P (µ 1,96 < X µ + 1,96 ) = 0,95

P (µ 2,58 < X µ + 2,58 ) = 0,99

P (µ 3,29 < X µ + 3,29 ) = 0,999.

Esempio 1.25

Sia X una variabile casuale normale di media µ = -2 e varianza 2 = 0,25; si vuol determinare

il valore della costante c in modo da soddisfare le relazioni:

a) P (X c) = 0,2; b) P (c X 1) = 0,5;

c) P (c X c) = 0,95; d) P (2c X 2+c) = 0,9.

Utilizzando la tavola in cui sono riportati i valori della funzione di distribuzione della variabile

casuale normale standardizzata, si ottengono i seguenti risultati:

2,0

5,0

21

5,0

21

5,0

2)()

cF

cZP

cZP

cXPcXPa

579,1842,05,0

28,0

5,0

2

c

ccZP

2 1 2 2 2

) ( 1) 2 20,5 0,5 0,5 0,5

c X c cb P c X P P Z P Z P Z

0285,2057,05,0

24772,0

5,0

25,0

5,0

2)2(

c

ccF

cFF

2 2 2 2 2) ( ) 2 0,5

0,5 0,5 0,5 0,5 0,5

c X c c c cc P c X c P P Z P Z

02,196,15,0

2975,0

5,0

295,01

5,0

22

c

ccF

cF

) ( 2 2 ) ( 2 ) ( 2 )

0,5 0,5 0,5 0,5

c X c c cd P c X c P P Z P Z c P Z c

823,0645,129,0)2()2( cccFcF




84

Esempio 1.26

Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere un

determinato spessore e che la produzione subisca delle piccole variazioni (in termini di

spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte,

può essere convenientemente rappresentato mediante un modello probabilistico di tipo

normale. Sia X la variabile casuale normale che interessa e si ammetta di conoscere la sua

media µ = 10 mm. e la sua varianza σ 2 = 0,0004. Si vuol determinare la percentuale attesa di

lamine difettose supposto che:

a) siano difettose le lamine con spessore inferiore a 9,97 mm.;

b) siano difettose le lamine con spessore superiore a 10,05 mm.;

c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm.

Usando la tavola della distribuzione normale si ottengono i seguenti risultati:

a) 067,0)5,1(02,0

1097,9)97,9(

FFXP

b) 006,002,0

1005,101)05,10(1)05,10(

FXpXP

c) P (X < 9,97) + P (X > 10,03) = 1 P (9,97 X 10,03) = 1 P (X 10,03)

+ P (X < 9,97) = 1 F

02,0

1097,9

02,0

1003,10F = 0,13.

Esempio 1.27

La Goodstone Tire Company produce 2 milioni di pneumatici l’anno. Basandosi sui risultati di

precedenti esperimenti, i manager dell’azienda hanno accertato che ciascun pneumatico è in

grado di percorrere una media di 40.000 km con una deviazione standard di 10.000 km. E’

politica dell’azienda sostituire gratuitamente ogni pneumatico che duri meno di 28.000 km,

riconoscendo inoltre un risarcimento di 5,00 € al cliente. Assumendo che il pneumatico medio

abbia una distribuzione normale:

I) Qual’è la probabilità che venga prodotto un pneumatico che duri almeno 55.000

km? Quanti pneumatici di questo tipo saranno prodotti ogni anno?

II) Quanti pneumatici aventi una vita media compresa tra 25.000 km e 35.000 km

saranno prodotti in un anno?

III) Qual’è il costo annuo atteso per i risarcimenti?

IV) Assumendo che un cliente acquisti un pneumatico che si colloca nel miglior 5% a

livello di qualità, quanti km ci si può aspettare che faccia?

Utilizzando le tavole della distribuzione Normale standardizzata si ottengono i seguenti

risultati:

I)

55000 40000

( 55000) 1,5 1 1,5 1 0,9332 0,066810000

P X P Z P Z P Z




85

Quindi, la probabilità che un pneumatico sia in grado di percorrere almeno 55.000 km è pari al

6,68%. In un anno saranno prodotti 2.000.000 0,0668 133.600 pneumatici di questo tipo.

II)

Per x = 35.000 z = (35.000-40.000)/10.000 = - 0,5

Per x = 25.000 z = (25.000 – 40.000)/10.000 = - 1,5

Quindi,

25.000 35.000 ( 1,5 0,5) ( 0,5) ( 1,5) 0,3085 0,0668 0,2417P X P Z F F

Di conseguenza, saranno prodotti 400.4832417,0000.000.2 pneumatici l’anno con una

capacità di uso compresa tra i 25.000 e i 35.000 km.

III)

La probabilità che un pneumatico abbia una durata di vita inferiore ai 28.000 km è data,

analogamente ai casi appena visti, da:

1151,0)2,1(000.10

000.40000.28000.28

ZPZPXP

Perciò il costo totale che l’azienda dovrà sostenere per il risarcimento è pari a:

000.151.100,51151,0000.000.2 €

IV)

65,195,005,01)(05,0)(1)()( zzZPzZPzZPxXP

40.0001,65 10.000 1,65 40.000 56.500

10.000

xz x km

Quindi, ci si può aspettare che un pneumatico che si colloca nel miglior 5% percorra almeno

56.500 km.

Esempio 1.28

L’Ufficio del Personale dell’azienda Beta sta riconsiderando la sua politica di assunzione.

Ciascun candidato per un certo lavoro deve superare un esame tecnico e psico-attitudinale

iniziale. Da un’analisi svolta si è rilevato che i punteggi conseguiti dai vari candidati si

distribuiscono normalmente con media pari a 525 e deviazione standard pari a 55.

L’attuale politica di assunzione si svolge in due fasi. Durante la prima fase i candidati vengono

separati in tre categorie: candidati automaticamente accettati, candidati automaticamente

rifiutati, candidati incerti. L’accettazione automatica si ha quando il punteggio conseguito è

perlomeno pari a 600; il rifiuto automatico si ha quando il punteggio conseguito non supera

425. In merito agli incerti, il responsabile del personale procede alla seconda fase della

selezione, basando la sua scelta su vari elementi, quali eventuali precedenti esperienze di

lavoro, attitudini e conoscenze particolari ecc.

Il responsabile del personale dell’azienda Beta vuole conoscere:

I) la percentuale di candidati che automaticamente vengono accettati o rifiutati;

II) vuole conoscere come varierebbero i punteggi di discriminazione, nel caso in cui si

decida di accettare automaticamente il 15% dei migliori candidati e di rifiutare

automaticamente il 10% dei peggiori.

Indicando con X la v.c. punteggio conseguito e rifacendosi alle tavole della distribuzione

Normale standardizzata, si ottengono le seguenti soluzioni:




86

I)

%45,3)82,1(55

525425)425(

ZPZPXP

%63,8)36,1(1)36,1(55

525600)600(

ZPZPZPXP

Quindi, il 3,45% circa dei candidati sarà automaticamente rifiutato, mentre l’8,63% sarà

automaticamente accettato.

II)

4555255527,127,110,0)(55

525)(

xzzZP

xZPxXP

85,0)()(115,0)(55

525)(

zZPzZPzZP

xZPxXP

1,04 1,04 55 525 582z x .

Pertanto, se l’azienda Beta vuole incrementare sia il numero di candidati accettati

automaticamente (dall’8,63% al 15%) che quello dei candidati rifiutati automaticamente (dal

3,45% al 10%) dovrà restringere l’intervallo degli “incerti” innalzando il punteggio limite del

rifiuto automatico da 425 a 455 e abbassando il punteggio dell'accettazione automatica da 600

a 582.

Esempio 1.29

Da un’indagine di mercato risulta che circa il 70% dei clienti adulti che entrano in un grande

magazzino effettua un acquisto. Per verificare questo dato, il management di un certo centro

commerciale seleziona casualmente 200 adulti all’uscita del negozio chiedendo loro se hanno

effettuato almeno un acquisto. Assumendo l’affidabilità del dato acquisito dalla ricerca di

mercato, calcolare la probabilità che almeno 150 soggetti del campione selezionato abbiano

effettuato un acquisto?

Indicando con X la v.c. numero di clienti che hanno effettuato almeno un acquisto, allora X ha

una distribuzione Binomiale con parametri n = 200 e p = 0,70. La probabilità ricercata si

ottiene dalla relazione

200200

150

200( 150) 0,70 0,30x x

x

P Xx

Ricorrendo all’approssimazione tramite la v.c Normale, di media 14070,0200 np e

deviazione standard (1 ) 200 0,7 0,3 6,5np p , si ha:

54,15,6

140150

z

( 1,54) 1 ( 1,54) 1 0,9382 6,18%P Z P Z

Quindi, la probabilità che almeno 150 clienti tra i 200 selezionati casualmente abbiano

effettuato almeno un acquisto all’interno del centro commerciale è pari al 6,18% che

costituisce una buona approssimazione al vero valore che è pari al 6,95%.




87

1.8.2 Teorema del limite centrale

La versione proposta in queste note è quella usualmente attribuita a Lindberg-Levy.

Teorema del limite centrale - Sia X1, X2, …, Xn, … una successione di variabili casuali

indipendenti ed identicamente distribuite (i.i.d.) di media e varianza 2 > 0 finita;

si consideri la variabile casuale (media aritmetica dei primi n elementi della

successione)

n

i

in Xn

X1

1

che avrà valore medio e varianza, rispettivamente, )( nXE e ,)(2

nXVar n

allora

la variabile casuale standardizzata

n

XZ n

n/

per n + tende alla distribuzione normale (standardizzata).

Dimostrazione

Si indichi con 2

2

t

m t e la funzione generatrice dei momenti della v.c. Normale

standardizzata e con nzm t la funzione generatrice dei momenti di Zn. si vuol

dimostrare che nzm t tende a m(t) al crescere di n.

Per l’indipendenza delle v.c. Xi, vale

1

1

1 1

( ) ( ) exp exp exp/ / /

exp exp/

n

n

n

i nnt Z ii

z

i

n ni i

i i

XX t X

m t E e E t E t Enn n n

t X t XE E

n n n

Se si pone Yi = (Xi - )/ , la funzione generatrice dei momenti di Yi, cioè ym t , è

indipendente da i poiché tutti gli Yi hanno la stessa distribuzione. Quindi

1 1 1

( ) exp expn

nn n n

iz i z z

i i i

t X t t tm t E E Z m m

n n n n

La se si considera lo sviluppo in serie della funzione generatrice dei momenti della

variabile casuale

XZ

n

si ha




88

2 3

1 2 3

2 3 2 3 2 2

33 3

2 3 33 3

1 1( ) exp 1 ....

2! 3!

1 ..... 1 ..... 1

2 2 22! 3! 3!

z

t X t t tm t E

n n n n

t t t t t t

n n nn n n

o

dove 2

2

t

n

o rappresenta per n un infinitesimo di ordine superiore a 2

2

t

n, da cui

2 2 ( ) 1

2 2n

nn

z z

t t tm t m

n nn

o

dove 2 2

, per , sta ad indicare un infinitesimo di ordine superiore a 2 2

t tn

n n

o ,

quindi

2

2 2 2

2

lim lim 1 lim 12 2 2n

n n t

zn n n

t t tm t e

n n n

o

ma

2

2

t

e è la funzione generatrice dei momenti della v.c. normale standardizzata, quindi,

la v.c. Zn , per n ha la stessa funzione generatrice dei momenti della v.c.

normale standardizzata, cioè, stessa funzione di distribuzione e stessa funzione di

densità.

In altre parole, il teorema del Limite Centrale afferma che, se si dispone di variabili

casuali indipendenti X1, X2, …, Xn, …, ognuna con la stessa distribuzione dotata di

media e varianza, allora la variabile casuale 1

n i

i

X Xn

ha, per n abbastanza grande,

una distribuzione approssimativamente normale con media e varianza n

2 . La

bontà dell’approssimazione dipende dal tipo di distribuzione comune. L’elemento

essenziale da osservare è che non importa quale distribuzione comune abbiano le v.c.

X1, X2, …, Xn, …, purché esse abbiano una media ed una varianza finite e siano

indipendenti.

Quindi, ogni volta che un fenomeno reale può essere interpretato come la somma

oppure la media di un gran numero di cause indipendenti, nessuna delle quali ha la

prevalenza sulle altre, è ragionevole attendersi che la distribuzione di probabilità di quel

fenomeno sia approssimabile mediante la distribuzione della v.c. Normale. Per es., il

punteggio che si riceve sottoponendosi ad una serie numerosa di test a risposta multipla

è la risultante di numerose cause, tra cui: la preparazione generale del soggetto, la

conoscenza degli argomenti specifici selezionati dall’esaminatore, l’attitudine verso la

materia, i fattori psicologici ecc. Anche se difficili da quantificare, questi effetti




89

determinano con pesi differenti l’esito e il voto finale che si distribuisce

approssimativamente come una v.c. Normale.

In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella

in cui non si richiede più che le variabili casuali della successione abbiano identica

distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi

generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) =

(i) e le varianze 0)( 2 iiXVar siano finite. In questo caso, naturalmente, la

variabile che tende alla variabile casuale normale standardizzata è

n

XZ n

n/

dove:

n

i

i

n

i

in

i

in en

Xn

X1

22

1

)(

1

1,

1 .

1.8.3 Distribuzione log-normale

La distribuzione log-normale denominata anche distribuzione di Galton è definita nel

semiasse reale positivo con funzione di densità di probabilità

2

2

log

2 2 1

( ; , ) 2

y

f y ey

2per 0 , 0 e 0y

doveXY e e X è una v.c. normale con media 2 e varianza .

Anche se la v.c. log-normale ha momenti rispetto all’origine di qualunque ordine, la

funzione generatrice dei momenti è infinita t Y

ym t E e per qualunque t > 0 .

La funzione caratteristica

2 2 / 2

0

!

n

i t Y n n

y

n

i tm i t E e e

n

consente la facile derivazione dei momenti di qualunque ordine7

7 Si richiamano due significative proprietà di questa v.c.:

1. Poiché il logaritmo di una v.c. log-normale è simmetrico ed i quantili sono invarianti rispetto a

trasformazioni monotone, la media geometrica e la mediana della v.c. log-normale sono uguali.

2. A ragione della mancata convergenza della funzione generatrice dei momenti della v.c log-normale (non

esiste), l’insieme di tutti i momenti non identificano univocamente la variabile stessa.




90

2 2

2 2 2

2 2

2

/2

0 0

0

2

/2 2 2 /2

0

2 22 /2

0 02 2

0

22 /2 2

2

| |

!

1 |

2!

| |

!

1

2!

n

n n

y t t

n

t

n

n n

y t t

n

i td dE Y m i t e

dit dit n

i tdi t e e e

dit

i td dE Y m i t e

nd it d it

i tdi t e e

d it

2 2

22 2 2

2 2 2

0

2 /22 2 2 2

2 1

|

1 .

t e

Var Y e e e e

Gli ambiti applicativi di questa distribuzione sono molto numerosi, da quello

economico a quello medico, da quello idrologico a quello demografico. Hanno

distribuzione log-normale il reddito, gli indici di borsa, i tassi di cambio, gli indici dei

prezzi, la dimensione delle città e delle imprese, i valori massimi mensili e annuali delle

piogge, alcune misure relative allo stato di salute degli individui quali la pressione

sanguigna il peso, distintamente per donne e uomini, ecc.

1.8.4 Distribuzione di Cauchy

Un’altra interessante distribuzione, soprattutto per le sue caratteristiche analitiche

negative è la distribuzione di Cauchy o anche di Cauchy-Lorentz; in statistica è spesso

trattata come esempio di distribuzione “patologica”.

La v.c. di Cauchy non ha funzione generatrice dei momenti, la sua media (momento

primo rispetto all’origine) non esiste e la sua varianza è infinita. La funzione di densità

di probabilità di questa variabile è

2 2

1( ; , )f x

x

per , e 0.x

Per α = 0 e β = 1 si si ottiene la distribuzione di Cauchy nella sua forma standard

2

1( ;0,1) .

1f x

x

La funzione caratteristica della distribuzione di Cauchy è

| |

2 2

1 = .i t X i t x i t t

xm i t E e e dx ex

La rilevanza applicativa della v.c. di Cauchy è da attribuire soprattutto ai lavori di

Lorentz in ambito fisico.




91

1.8.5 Distribuzione gamma

La distribuzione gamma viene utilizzata nella generalità dei casi come modello per

descrivere fenomeni dipendenti dal tempo o, in termini più generali, per fenomeni di

durata (di vita, di resistenza, di funzionamento ecc.). Essa può essere più facilmente

compresa se si fa riferimento alla distribuzione discreta di Poisson. Infatti, nella

distribuzione di Poisson la variabile casuale X rappresenta il numero di successi,

mentre lo spazio di riferimento è fissato (unità di tempo o di spazio o di volume).

Viceversa, nella distribuzione continua gamma la variabile casuale diventa lo spazio di

riferimento, mentre il numero di successi è fissato. In altri termini, mentre la Poisson

fornisce la probabilità che x successi si manifestino in un certo intervallo di tempo (o di

spazio o di volume), noto il numero medio di successi = β per unità di tempo (o di

spazio o di volume), la distribuzione gamma fornisce la probabilità che un tempo X = x

sia necessario affinché si manifesti un certo numero prefissato α di successi, noto il

tasso di manifestazione β di successi per unità di tempo. I parametri della distribuzione

gamma sono, quindi, due: il numero α di successi che si desidera ottenere e il tasso di

manifestazione medio β di successi per unità di tempo.

La funzione di densità di probabilità della v.c. gamma è data da:

11

( ; , )( )

x

f x x e

0 e 0 ,0per x

dove

1

0

( ) xx e dx

Procedendo ad una integrazione per parti si dimostra facilmente l’uguaglianza

( ) 1 ( 1)

Inoltre, se α è un numero intero si ha ( ) 1 ! , (1) 0! 1 e (1 2) .

La funzione generatrice dei momenti è

1

0

1

1

0

1

0 0

22

2 02

2 2

2 1

1( ) ( )

( )

11

( )

da cui

| 1 |

| 1

var( )

x

tX t x

x

tx

x t t

x t

m t E e e x e dx

x e dx t

dm t t

dt

dm t

dt

X




92

1.8.6 Distribuzione di Pareto (I° tipo)

La v.c. di Pareto si è rivelata un modello soddisfacente per la rappresentazione di

fenomeni in svariati contesti di ricerca, in particolare nelle scienze sociali, in quelle

geofisiche ed nell’ambito attuariale. Questa distribuzione è stata introdotta

dall’economista italiano Vilfredo Pareto per misurare la distribuzione del reddito. La

base della distribuzione è rappresentata dal fatto che un’elevata proporzione della

popolazione possiede un basso reddito mentre una bassa proporzione possiede un

reddito elevato. La funzione di densità di questa v.c è

1

( ; , )f x

x

, x

dove 0 e 0 , è il minimo assumibile dalla v.c. X.

Media e varianza sono

2

2

per > 1 = per > 2.

1 1 2E X Var X

La funzione generatrice dei momenti è definita per i soli valori di 0 t

X , e per 0, 0 1t

x xm t E e t t t m

dove 1

-

, t

t

t t e dt

è la funzione matematica Gamma incompleta.

Il parametro 0 viene utilizzato, tra l’altro, come indice per la misura di

concentrazione del reddito.

1.8.7 Distribuzione di Weibull

La distribuzione di Weibull, anche per la sua estrema versatilità, trova largo impiego in

ambito ingegneristico per rappresentare fenomeni di affidabilità e di durata dei prodotti.

Questa v.c. ha funzione di densità

1( ; , )

x

f x x e

, 0 x

dove 0 e 0 , x indica il tempo di rottura (guasto, difetto, fallimento nel contesto

economico, morte nel contesto biologico, ecc.). Per 1 , la v.c. di Weibull coincide

con la v.c. esponenziale negativa che verrà introdotta al punto successivo; mentre per

2 , si ottiene la v.c. di Rayleigh; inoltre, per che tende a + la variabile tende

alla distribuzione di Dirac centrata sul valore x .

Il parametro rappresenta il tasso di rottura, tasso che, con il trascorrere del tempo,

decresce se 1 , cresce per 1 mentre rimane costante per 1 . Per 0 1 la

densità tende a + per x che tende a 0.

La media e la varianza sono




93

2

21 2 1 1+ , = 1+ 1 .E X Var X

La funzione generatrice dei momenti, che può essere espressa in diverse forme, è

analiticamente troppo complicata per risultare di qualche utilità.

1.8.8 Distribuzione esponenziale negativa

La funzione di densità di probabilità della distribuzione esponenziale negativa si ottiene

ponendo 1 nella funzione di densità di probabilità della v.c gamma:

1( ; )

x

f x e

0 ,0per x


1 ( ) ( ) 1 t X

xm t E e t

2

da cui

( )

E X

Var X

Il parametro β viene usualmente denominato parametro di sopravvivenza (survival

parameter) e la variabile X sta ad indicare la durata in vita e E X indica il tempo

medio di sopravvivenza8.

La distribuzione esponenziale negativa può essere anche intesa come la controparte

continua della distribuzione geometrica che, come già sottolineato, descrive il numero

di prove bernoulliane necessarie per ottenere un cambiamento di stato (x insuccessi

prima di ottenere 1 successo). L'esponenziale negativa descrive il tempo continuo

necessario affinché si realizzi un cambiamento di stato.

Un modo alternativo di definizione della v.c. esponenziale negativa è dato

dall'introduzione del reciproco del parametro ponendo 1

, usualmente detto rate

parameter; in tal caso si ha

( ; ) xf x e per 0 , 0x

1

1 21( ) ( ) 1 da cui ( ) , ( ) .tX

xm t E e t E X Var X

La distribuzione esponenziale negativa in questa seconda formulazione può essere

utilizzata per determinare la probabilità che sia necessario un intervallo di tempo X = x

affinché si abbia la prima manifestazione dell’evento d’interesse.

La funzione delle probabilità cumulate dell’esponenziale negativa

xexXPxF 1

8 Questa distribuzione può, come sopra sottolineato, derivare dalla distribuzione di Weibull, sostituendo con .




94

assume particolare significato quando l’evento d’interesse è il guasto di un macchinario

o di una sua parte. In tal caso, ponendo

1

, diventa il tasso di rottura di quel

macchinario per unità di tempo e la funzione delle probabilità cumulate fornisce la

probabilità che il macchinario si guasti prima del tempo X = x. In realtà, è di maggiore

interesse conoscere la probabilità che il macchinario non si guasti prima di un certo

tempo x: tale probabilità è semplicemente xexF )(1 . Tale funzione è spesso

chiamata “funzione di attendibilità” ed è usata per determinare l’attendibilità o,

analogamente, la probabilità che non si verifichi nessun guasto entro tempi specificati

per certi tipi di macchinario. Affinché la funzione di attendibilità sia un buon modello è,

però, necessario che il macchinario d’interesse abbia un tasso di rottura costante nel

tempo; in caso contrario l’esponenziale non fornisce un buon modello per verificare

l’affidabilità del macchinario.

Un aspetto interessante della funzione di attendibilità è che tramite essa è possibile

conoscere l’affidabilità di un intero sistema produttivo costituito da una serie di

macchinari M1, M2, ...., Mn, aventi, rispettivamente, tassi di fallimento 1, 2, ..., n

costanti, così da valutare oggettivamente la possibilità di ultimare una certa produzione

entro il termine di consegna x. Infatti, l’affidabilità A dell’intero sistema è data da:

1

n

i

i

A exp x

e il tasso di fallimento dell’intero sistema è semplicemente la somma dei tassi di

fallimento delle singole componenti.

Esempio 1.30

Si consideri un’azienda che sta per lanciare sul mercato un nuovo tipo di stampante: uno dei

principali fattori critici per il successo di questo nuovo prodotto è stato individuato dai

manager dell’azienda nel suo effettivo corretto funzionamento. Infatti, se la stampante dovesse

rompersi, ne risentirebbe negativamente la soddisfazione del consumatore e, quindi, il livello

delle vendite future di tutti i prodotti dell’azienda. Prima del lancio sul mercato, il management

dell’azienda necessità di maggiori informazioni sul grado di affidabilità del nuovo prodotto, in

termini di guasti che lo stesso prodotto potrebbe presentare entro un anno dall’acquisto da

parte del cliente. A tal proposito il responsabile tecnico della produzione sa che tutte le

componenti della stampante sono già state ampiamente usate da anni su altri prodotti

dell’azienda e sono risultate altamente affidabili; l’unica eccezione è rappresentata da un

sensore elettrico che entra in funzione ogni volta che la stampante viene predisposta per un tipo

di carta più grande del classico A4. Egli stima che il dispositivo venga attivato in media 10

volte all’anno. Il modello esponenziale fornisce, in questo caso, la probabilità di

“sopravvivenza” del singolo prodotto, tramite l’espressione xexXP )( , dove x

rappresenta una misura del tempo di sopravvivenza. Poiché il tempo è misurato in termini di

numero di volte in cui il dispositivo elettrico viene attivato, cioè 10, allora si può porre x = 10.

L’unico parametro sconosciuto è , il tasso di fallimento; il responsabile tecnico acquista un

certo numero di dispositivi elettrici e li sottopone a 10.000 cicli di accendimento e spegnimento:




95

il numero di guasti osservati è di 7 sul totale di 10.000 cicli. Dunque, il responsabile tecnico

stima il tasso di fallimento del sensore pari a 0007,0000.10/7 . Di conseguenza,

0,0007 10 0,007( ) 0,993 99,3% x P X x e e e ,

cioè la probabilità che una stampante funzioni adeguatamente per almeno un anno senza

presentare guasti è pari al 99,3%.

1.8.9 Distribuzione 2 (di Pizzetti-Pearson)

Se nella distribuzione Gamma si pone 2

n (n intero positivo) e 2 si ottiene una

importante v.c generalmente indicata con il simbolo 2

n (distribuzione chi quadro) la

cui funzione di densità è:

2/1)2/(

2/ )2/(2

1);()( xn

nex

nnxfxf

per x 0

dove il parametro n rappresenta i gradi di libertà della distribuzione 2.

La curva della distribuzione 2 è monotona per n = 1 e n = 2; per n > 2 ha un

massimo nel punto x = n 2.

La funzione generatrice dei momenti, la media e la varianza sono date da

2( ) ( ) 1 2 e , ( ) 2 n

t X

xm t E e t n Var X n

Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale

normale con media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2 ,

definita nell’intervallo (0 , +), è una variabile del tipo 2 (chi quadro) con un grado

di libertà. Infatti, se si considera la funzione di densità della v.c. normale standardizzata

2

2

1

2

z

f z e

e si opera la trasformazione 2Z X , la funzione di distribuzione della v.c. X è

2

2

2

0

=

12 0 2

2

zx

F x P X x P Z x P x Z x

P Z x e dz

Se si trasforma la variabile d’integrazione ponendo2 z v

1

2

1 1

22 2 2 2

0 0

2

1

1da cui 0 0, e si ha

2

1 1 1 2

22 2

che è la funzione di distribuzione di una v.c. con 1 grado di libertà.

v vx x

z v z x v x dz v dv

F x e v dv e v dv F z




96

Tenendo presente questo risultato e che la funzione generatrice dei momenti di una

v.c. X di tipo 2

1 è data da 1

2( ) ( ) 1 2 t X

xm t E e t

ne deriva che la somma di n

variabili casuali normali standardizzate indipendenti al quadrato ha una distribuzione di

tipo 2 n con n gradi di libertà. Infatti, ponendo 2

1

n

i

i

X Z

si ha

2

21

1 2 2

1 1

( ) ( ) ( ) ( ) 1 2 1 2 .

n

i

i i

n nt Z nt Zt X

x

i i

m t E e E e E e t t

Da questo risultato deriva, inoltre, che la somma di k variabili casuali del tipo 2,

stocasticamente indipendenti e con gradi di libertà rispettivamente pari a n1, n

2, ...,n

k, è

ancora una variabile casuale 2 con

k

i

ing1

gradi di libertà (proprietà additiva o

riproduttiva del 2). Infatti, date k v.c. indipendenti X1, X2, ….. , Xk di tipo 2 con gradi

di libertà rispettivamente pari a n1, n

2, ...,n

k, la v.c. somma

1

k

i

i

Y X

ha funzione

generatrice dei momenti

1 1 2

1 2 1

2 2 2 2 2

( ) ( ) ( ) ( ) ( ) ( )

1 2 1 2 1 2 1 2 1 2

k

i

k

k

i

k

t Xt Xt X t Xt Y

y

nnn n g

m t E e E e E e E e E e

t t t t t

dove

k

i

ing1

.

Si dimostra che la variabile casuale 2

n standardizzata tende, al crescere di n, alla

distribuzione normale standardizzata, ne deriva quindi una possibilità di

approssimazione della v.c. 2 mediante la v.c. normale per n sufficientemente elevato.

Esempio 1.31

Sia X una variabile casuale del tipo 2

n con 5 gradi di libertà (n=5). Si vogliono determinare le

costanti c, c1 e c

2 in modo che sia:

a) P (X c) = 0,10

b) P (X > c) = 0,05

c) P (c1 < X c2) = 0,95 per c1 < c2

Utilizzando le tavole della distribuzione 2

5 si avrà

a) - P (X c) = F(c) = 0,10 => c = 1,61

b) - P (X > c) = 1 - p (X c) = 1 - F(c) = 0,05 => c = 11,1

c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c

2)

capaci di soddisfare la condizione posta, si potrebbe ad esempio suddividere la probabilità 0,05




97

in modo da avere un livello pari a 0,01 alla sinistra di c1 ed un intervallo 0,04 alla destra di c2,

oppure 0,02 a sinistra di c1 e 0,03 a destra di c2 ecc.; usualmente, a meno che non vi siano

particolari ragioni per specificare altrimenti, si suddivide la probabilità in parti uguali, così

facendo si avrà

P (X c1

) = F(c1 ) = 0,025 => c

1 = 0,831

P (X > c2

) = 1 - P (X c2 ) = 0,025 => c

2 = 12,8

da cui

P (c1 < X c

2 ) = P (0,831 < X 12,8) = 0,95.

1.8.10 Distribuzione beta

La distribuzione beta è considerata la distribuzione base per le variabili casuali limitate

inferiormente e superiormente, è definita su un intervallo finito a,b, dipende da quattro

parametri (a, b, 0 e 0 ) ed ha la seguente funzione di densità di probabilità:

1 1

1

1 ( ) ( )( ; , , , )

( , ) ( )

x a b xf x a b

B b a

per 0 0a x b, e

L’espressione analitica della funzione matematica beta è 1

1 1

0( , ) (1 )B x x dx per 0 0 e

La funzione beta (integrale di Eulero) è in relazione con la funzione matematica

gamma (.)

( ) ( )

,B

Per α e β interi si ha9

1 ! 1 !,

1 !B

La funzione generatrice dei momenti della v.c. beta ha una espressione algebrica

tutt'altro che semplice e si rivela quindi scarsamente utile; comunque, i momenti

possono essere facilmente derivati ricorrendo alla funzione di densità di probabilità.

Nella generalità dei casi, la variabile casuale beta viene definita sull’intervallo

unitario 0,1, cioè per a = 0 e b = 1. In questo caso la funzione di densità diventa:

1 11 11 ( 1)!( ; , ) 1 1

( , ) ( 1)! ( 1)!f x x x x x

B

con 10 x

9 Altre espressioni analitiche per rappresentare la funzione matematica beta sono:

0

,

n

n

nB

n

;

1

0

,1

yB

y

;

1

1

, 1

n + +nn

B

;

2 1 2 1

2

0, 2 B sen x cos x d x




98

La media e la varianza della distribuzione beta sono date da:

e

2

2

1

Al variare del valore dei parametri e , la funzione di densità beta può

assumere un gran numero di forme diverse. L’estrema flessibilità di questa v.c. la rende

idonea a rappresentare molti fenomenti in svariati ambiti disciplinari; inoltre, come si

avrà modo di illustrare nel Cap. 6, gioca un ruolo molto rilevante nel contesto

dell’inferenza statistica bayesiana.

La figura riportata10

nelle pagine successive rappresenta un esempio di impiego della

v.c. beta. I grafici evidenziano il diverso metro di valutazione impiegato nelle facoltà: a

fronte di un’attribuzione di voti prossima alla simmetria nelle facoltà di Economia,

Giurisprudenza e Ingegneria, si collocano facoltà quali Lettere e Filosofia, Scienze della

Formazione e Farmacia, con una asimmetria molto pronunciata e per le quali risulta in

modo molto evidente uno sbilanciamento verso l’attribuzione di voti più elevati. Infatti,

se si ritorna alla classica votazione in 30-esimi si registrano le seguenti votazioni medie.

Economia 26, Giurisprudenza 25,9, Ingegneria 26,2, Lettere e Filosofia 28, Scienze

della Formazione 28,4, Farmacia 26,6. Relativamente alle votazioni attribuite si segnala

che anche altre facoltà evidenziano un’attitudine all’attribuzione di voti elevati. A

completamento del quadro informativo si riportano le votazioni medie attribuite nelle

altre facoltà. Agraria 26,5, Architettura 27, Medicina e Chirurgia 26,9, Scienze

Matematiche, Fisiche e Naturali 26,7, Scienze Politiche 26,5.

10 I grafici sono stati ripresi dal volume Chiandotto, Bacci, Bertaccini (2004). I laureati e diplomati dell’Ateneo

Fiorentino dell’anno 2000: Profilo e sbocchi occupazionali (pp. I-XLIX, 1-532). Università degli Studi di Firenze.




99

Fig. 1.6 – Laureati dell’Ateneo fiorentino nell’anno solare 2000: voto medio agli esami in

110esimi, per facoltà (distribuzioni di frequenza)

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

% ATENEO

Beta ATENEO (α = 5,63 ; β = 2)

Asimmetria = -0,64

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%Agraria

Beta Agraria (α = 9,79 ; β = 3,5)Beta Ateneo

Asimmetria = -0,27

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Architettura

Beta Architettura (α = 17,96 ; β = 6,01)

Beta Ateneo

Asimmetria = -0,4

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Economia

Beta Economia (α = 8,15 ; β = 4,11)

Beta Ateneo

Asimmetria = -0,17

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Farmacia

Beta Farmacia (α = 4,64 ; β = 1,8)

Beta Ateneo

Asimmetria = -1,41

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Giurisprudenza

Beta Giurisprudenza (α = 5,87 ; β = 3,01)

Beta Ateneo

Asimmetria = -0,15




100

Fig. 1.6 – (continua)

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%Ingegneria

Beta Ingegneria (α = 8,42 ; β = 3,88)

Beta Ateneo

Asimmetria = -0,19

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Lettere e Filosofia

Beta Lettere e Filosofia (α = 11,72 ; β = 1,7)

Beta Ateneo

Asimmetria = -1,00

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Medicina e Chirurgia

Beta Medicina e Chirurgia (α = 7,38 ; β = 2,31)

Beta Ateneo

Asimmetria = -0,55

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Scienze Formaz

Beta Scienze Formaz (α = 11,01 ; β = 1,36)

Beta Ateneo

Asimmetria = -0,80

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

Scienze Politiche

Beta Scienze Politiche (α = 7,51 ; β = 3,16)

Beta Ateneo

Asimmetria = -0,50

0

3

6

9

12

15

71 74 77 80 83 86 89 92 95 98 101 104 107 110

%

SMFN

Beta SMFN (α = 7,46 ; β = 2,77)

Beta Ateneo

Asimmetria = -0,44




101

1.8.11 Distribuzione uniforme

La distribuzione Uniforme Continua si configura come caso particolare della

distribuzione Beta ponendo = = 1. Tale distribuzione viene impiegata per

descrivere situazioni in cui la variabile X è distribuita uniformemente in un certo

intervallo. Questo comporta che sottointervalli di pari ampiezza hanno tutti la stessa

probabilità, così che la funzione di densità di probabilità assume una forma rettangolare,

esplicitata dalla seguente relazione.

1( ; , )f x a b

b a

con bxa

La funzione di ripartizione F(x) è pari a:

ab

axxF

)( con bxa

e la media e la varianza: 2

)(ba

XE

;

2

( )12

b aVar X

.

1.8.12 Distribuzione t (di Student)

La c.d. distribuzione t è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo

pseudonimo di "Student".

La v.c t di Student è definita dalla relazione

nY

ZX

/

dove:

Z è una variabile casuale normale standardizzata;

Y è una variabile casuale 2 con n gradi di libertà;

Z e Y sono variabili stocasticamente indipendenti.

La funzione di densità di probabilità di una variabile casuale X di tipo t di Student ha

funzione di densità di probabilità definita dalla relazione:

1 22

1 2 1( ) ( ; )

2 1n

nf x f x n

n n x n

per x

è simmetrica ed ha un massimo nel punto t = 0. La media è = 0 per n 2 , mentre

non esiste per n = 1; la varianza non esiste per n = 1, 2 mentre per n 3 la varianza è

data da 2

2

n

n .

Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata;

un buona approssimazione si ottiene anche per n relativamente piccolo ( n 30 ).

La funzione generatrice dei momenti della v.c. t di Student non esiste.




102

Esempio 1.32

Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono determinare i

valori della costante c che soddisfano le relazioni: a) P(X > c) = 0,05; b) P(X < c) = 0,05;

c)P(-c < X c) = 0,99; d) P(0 < X c) = 0,475.

Utilizzando le tavole della distribuzione t e ricordando la simmetria di tale distribuzione, si

ottiene:

a)- P (X > c) = 1 - P (X c) = 1 - F(c) = 0,05 => c = 1,83

b)- P (X c) = F(c) = 0,05 => c = -1,83

c)- P (-c < X c) = P (X < c) - P (X c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] =

0,99 => c = 3,25

d)- P (0 < X c) = P (X c) - P (X 0) = F(c) - 0,5 = 0,475 => c = 2,26.

1.8.13 Distribuzione F (di Fisher- Snedecor)

La distribuzione F è relativa alla variabile

2

1

/

/

nY

nVX

dove, V e Y sono due variabili casuali del tipo 2, con gradi di libertà rispettivamente

pari a n1

e n2, distribuite indipendentemente.

Si noti che l'ordine dei gradi di libertà n1 e n2 è fondamentale, e si verifica

facilmente che le due variabili casuali 21 ,nnF e 1

, 12

nnF hanno la stessa distribuzione.

La funzione di densità di probabilità di una variabile casuale X di tipo F di Fisher-

Snedecor, con n1 e n2 gradi di libertà, è:

1 2

1

1 2

/2 /21 2( /2) 11 2

1 2 ( )/21 2 1 2

2( ) ( ; , )

( )

2 2

n n

n

n n

n nn n

xf x f x n n

n n n x n

per 0 x +

La media e la varianza sono date da: 2

22 2 1

2

2 1 2 2

2 ( 2);

2 ( 2) ( 4)

n n n n

n n n n

La funzione generatrice dei momenti della v.c. F di Fisher-Snedecor non esiste.

Esempio 1.33

Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si vogliono

determinare i valori della costante c che soddisfa le relazioni:

a) P (X c) = 0,95 ; b) P (X c) = 0,01.

Utilizzando la tavola della distribuzione F si ottiene

a) P (X c) = F7,10(c) = 0,95 => c = 3,14

b) - Per quanto detto nel testo risulta l'uguaglianza

F7,10(c) = 1 - F10,7(1/c), per cui




103

P (X c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 => 1

c = 6,62 => c = 0,15.

1.8.13 Variabili casuali continue: riepilogo11

Di seguito è riportato riepilogo delle variabili casuali continue considerate.

V.c. Normale

Descrizione: una vasta serie di esperimenti casuali ha associata una variabile casuale la

cui distribuzione è approssimativamente normale;alcune variabili casuali che non sono

distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente

semplici; alcune distribuzioni relativamente complicate, possono essere approssimate

sufficientemente bene dalla distribuzione normale. E’ la distribuzione su cui è basata

principalmente tutta l’inferenza statistica soprattutto grazie al teorema del limite centrale

Parametri caratteristici: e 2 che rappresentano, rispettivamente, media e varianza

della distribuzione.

Supporto della v.c. X: x (-,+)

Funzione di densità di probabilità 2

x

2

1

2

2 e2

1),;x(f)x(f

Forma – Simmetrica, centrata sulla media μ e con indice di curtosi pari a 3. Cfr.

https://www.xycoon.com/contdistroverview.htm.

1

2

E X μ

Var(X) σ

2/22

)( tt

x etm

V.c. Log-normale

Descrizione: Molti fenomeni possono essere adeguatamente descritti dalla

distribuzione log-normale: il reddito, gli indici di borsa, i tassi di cambio, gli

indici dei prezzi, la dimensione delle città e delle imprese, i valori massimi

mensili e annuali delle piogge, ecc

Parametri caratteristici: e 2

Supporto della v.c. X: x (0,+)

Funzione di densità di probabilità

2

2

log

2 2 1

( ; , ) 2

y

f y ey

Forma - Cfr. https://www.xycoon.com/contdistroverview.htm.

11 Si consiglia la consultazione del sito:” https://www.xycoon.com/contdistroverview.htm” dove è riportata una

panoramica pressoché completa delle v.c. continue.

https://www.xycoon.com/contdistroverview.htm




104

2

2 2

/2

2 1

E Y e

Var Y e e

2 2 /2

0

!

n

i t Y n n

y

n

i tm i t E e e

n

V.c. di Cauchy

Descrizione: Trova le maggiori applicazioni in ambito fisico.

Parametri caratteristici: α e β



2 2

1( ; , )f x

x


| | i t t

xm i t e

V.c. di Pareto (I° tipo)

Descrizione: Introdotta per misurare la distribuzione del reddito, anche a ragione di

successive generalizzazioni, trova applicazione in diversi contesti applicativi quali quello

geofisico e quello attuariale.


Supporto della v.c. X: x (0,+)


1

( ; , )f x

x


2

2

per > 1

1

= per > 2

-1 - 2

E X

Var X

La funzione generatrice dei momenti è definita per i soli valori di 0 t

X - ,- e per 0, 0 1t

x xm t E e t t t m

V.c. di Weibull

Descrizione: E’ estremamente versatile e trova largo impiego nell’analisi di fenomeni di

durata.


Supporto della v.c. X: x (0, +)





105

1( ; , )x

f x x e


2

2

1 1+

2 1= 1+ 1

E X

Var X

xm t non utile

V.c. Gamma

Descrizione - Fornisce la distribuzione del tempo necessario affinché si realizzino k

eventi indipendenti quando il tasso di realizzazione è costante. Utilizzata spesso come

modello per descrivere fenomeni di durata (in vita, resistenza, funzionamento

ecc.).

Parametri caratteristici - α, il numero di successi desiderati; =1/β, il tasso di

realizzazione di un successo per unità di tempo



11

( ; , )( )

x

f x x e

Forma - Quando α 1, la funzione è asimmetrica positiva con una moda; quando α = 1,

la funzione decresce monotonicamente a partire dall’origine. Cfr.

https://www.xycoon.com/contdistroverview.htm.

2

2

1

E X

Var(X)

1

( ) 1 1 xm t t t

V.c. Esponenziale negativa

Descrizione: Deriva dalla v.c. Gamma quando α = 1. Fornisce la probabilità

dell’intervallo di tempo necessario affinché si realizzino due eventi indipendenti con

tasso di realizzazione costante

Parametri caratteristici: , il tasso di realizzazione di un successo per unità di tempo



1( ; )

x

f x e




106


2

E X

Var(X)

1

11( ) 1 1 xm t t t

V.c. 2 di Pizzetti-Pearson

Descrizione: Deriva dalla v.c. Gamma per 2

n (n intero positivo) e 2 e anche

dalla somma di n variabili casuali normali standardizzate indipendenti elevate al

quadrato.

Parametri caratteristici: n, il numero di gradi di libertà



2/1)2/(

2/ )2/(2

1);()( xn

nex

nnxfxf

Forma - Asimmetrica positiva con indice di curtosi maggiore di 3. Per n tendente ad ,

assume una forma sempre più vicina alla Normale.

Cfr. https://www.xycoon.com/contdistroverview.htm.

2

E X n

Var(X) n

2( ) 1 2 g

ym t t

V.c. Beta

Descrizione: Distribuzione base per le variabili casuali limitate inferiormente e

superiormente. E’ impiegata come modello per descrivere la distribuzione degli stimatori

dei parametri di alcune variabili casuali

Supporto della v.c. X: x (a, b)

Parametri caratteristici: e , che definiscono la forma e i momenti caratteristici della

funzione


1 1

1

1 ( ) ( )( ; , , , )

( , ) ( )

x a b xf x a b

B b a

Forma - Varia notevolmente al variare di ed . Per es., se = , la funzione è

simmetrica rispetto ad x = ½; altrimenti è asimmetrica. Scambiando con si riflette la

forma della distribuzione rispetto al suo asse di simmetria. Se che sono entrambi

maggiori di 1, allora la funzione mostra una moda, se sono entrambi minori di 1,

presenta una forma ad U e, quindi, una “antimoda”. Quando (-1) (-1) 0, la funzione

presenta una forma a “J”.

Cfr. https://www.xycoon.com/contdistroverview.htm.




107

2

1

E X

Var (X)

xm t non utile

V.c. Uniforme (rettangolare)

Descrizione:E’ un caso particolare della v.c. Beta. Fornisce la probabilità del realizzarsi

di eventi all’interno di un certo intervallo, quando la probabilità di realizzazione è

proporzionale all’ampiezza dell’intervallo.

Parametri caratteristici: a e b, che delimitano l’intervallo di variabilità di x

Supporto della v.c. X: x (a, b)


1( ; , )f x a b

b a

Forma della funzione di densità: è un segmento parallelo all’asse delle ascisse

nell’intervallo (a, b).

2

2

12

a bE X

b aVar(X)

V.c. t di Student

Descrizione: Deriva dal rapporto tra una Normale standardizzata e la radice quadrata di

una v.c. Chi – quadrato divisa per i suoi gradi di libertà con le due variabili indipendenti.

Parametri caratteristici: n, il numero di gradi di libertà



2

1

2

1

1

2

2

1

);()(

n

n

xnn

n

nxfxf

Forma - Simmetrica con media nel punto 0 (se n = 1 però la media non esiste). Per n

tendente ad +, assume una forma sempre più vicina alla Normale.

1

0 2

1 2

32

E X non esiste per n

E X per n

Var(X) non esiste per n e n

nVar(X) per n

n





108

xm t non esiste

V.c. F di Fisher-Snedecor

Descrizione:Deriva dal rapporto di due v. c. Chi – quadrato indipendenti, ciascuna

divisa per i rispettivi gradi di libertà (n1 ed n2)

Parametri caratteristici: n1 ed n2, i gradi di libertà



1 2

1

1 2

/ 2 / 21 2( / 2) 11 2

1 2 ( ) / 21 2 1 2

2( ) ( ; , )

( )

2 2

n n

n

n n

n nn n

xf x f x n n

n n n x n

22

2

2

2 1 2

22

1 2 2

1 2

22

1 2

2 2 4

( 2) 4

E X non esiste per n e n

nE X per n

n

Var(X) non esiste per n e n

n n nVar(X) per n

n n n

xm t non esiste

1.9 - Variabili casuali multidimensionali

Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè delle

funzioni che soddisfano a certe condizioni e che associano a ciascun evento elementare

(punto dello spazio campionario) ω Ω un numero reale.

L’estensione al caso multidimensionale non presenta difficoltà di ordine logico, si

tratta, infatti, di definire un’analoga funzione che associa a ciascun evento elementare

non più un numero ma una k-upla (k 2) ordinata di numeri reali.

Definizione 9 - Si dice variabile casuale (vettore casuale) a k dimensioni una funzione

X() 1 2( ) , ,..., 'kX x x x x12

a valori reali in Rk (spazio euclideo

a k 2 dimensioni) definita su per la quale vale la relazione

: ( ) A X B x per ogni x Rk

dove

12 Da rilevare che il vettore x è stato definito come vettore colonna mentre x’ indica il vettore riga (trasposto di x).




109

1

2

k

x

x

x

x

è un vettore di k numeri reali.

Quindi la variabile casuale a k dimensioni è una funzione a k componenti che fa

corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre,

essendo A B elemento dell’algebra di Boole costruita sugli eventi ( ) è possibile

determinare la sua misura di probabilità

1 1 2 2 1 2

/ ( ) ( )

, ,......,k k k

P A P X P X P

P X x X x X x F x x x F

x x X x

x

che definisce la funzione di distribuzione o funzione di ripartizione o funzione delle

probabilità cumulate della variabile casuale a k dimensioni (vettore casuale)

1

2

k

X

X

X

X

La variabile casuale multipla (v.c.m.) 1 2, ,....., k' X X XX = è discreta se tutte le

componenti possono assumere soltanto un numero finito o un’infinità numerabile di

valori reali distinti, è invece continua se tutte le componenti possono assumere

un’infinità non numerabile di valori (tutti i valori in intervalli dell’asse reale); si parla di

variabili casuali miste, quando alcune componenti sono discrete, altre continue.

La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a

proposito della funzione di distribuzione per variabili casuali semplici F(x). Infatti, la

funzione di distribuzione:

1. è monotona non decrescente rispetto a tutti gli argomenti;

2. valgono i limiti:

1

2

1 2

1 2

1 2 1 2 1 1

lim ( , ,..., ,..., ) 0 ; per 1, 2,....,

lim ( , ,..., ) 1

lim ( , ,..., ,..., ) ( , ,..., , ,..., ); per 1, 2,....,

i

k

i

i kx

kxx

x

i k i i kx

F x x x x i k

F x x x

F x x x x F x x x x x i k

dove ),...,,,...,,( 1121 kii xxxxxF è la funzione di distribuzione della variabile

casuale a k-1 dimensioni 1 2 1 1, , ..., , ,..., i i kX X X X X




110

1 2 1 2 1 1 1 1

lim ( , ,..., ,..., ) ( , ,..., , ,..., , ,..., )

per 1, 2,...., ,ecc.;

i

j

i k i i j j kxx

F x x x x F x x x x x x x

i j k

3. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è

assolutamente continua, cioè continua e derivabile, rispetto a tutti gli argomenti

nel caso continuo.

Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione di

distribuzione possono essere ricavate in modo univoco, rispettivamente

nel caso discreto, la funzione di massa di probabilità

1 2 1 1 2 2( , ,..., ) i j ks i j k ksf x x x P X x X x X x

che rappresenta, appunto, la probabilità che ha il vettore casuale

1 2, X , , XkX'X di assumere la determinazione '

1 2, , , i i j ksx x x x

nel caso continuo la funzione di densità di probabilità13

),...,,(),...,,( 21

21

21 k

k

k

k xxxFxxx

xxxf

ed anche

1 2 1 2 1 2

1 1 1 1 2 2 2 2

( , ,..., ) ( , ,..., ) .....

( ) ( ) ...... ( )

k k k

k k k k

d F x x x f x x x dx dx dx f d

P x X x dx x X x dx x X x dx

x x

che rappresenta la probabilità che ha il vettore casuale di assumere una

determinazione nell’ipercubo infinitesimo a k dimensioni

1 1 1 2 2 2( , ),( , ),......,( , )k k kx x dx x x dx x x dx

Per la funzione di massa di probabilità valgono le proprietà:

0 1 2i j ksf(x ,x ,...,x ) 1; s ksjii j

)x,...,x,f(x... 1 21

mentre per la funzione di densità valgono le proprietà

1 2( , ,..., ) 0kf x x x ; 1 2 1 2... ( , ,..., ) ... 1k kf x x x dx dx dx

Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso

discreto, di densità di probabilità, nel caso continuo, esiste una corrispondenza

biunivoca e le funzioni stesse identificano completamente la variabile casuale

multipla (vettore casuale) 1 2, X , , XkX'X .

Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale

multipla 1 2, X , , XkX , si dicono indipendenti in probabilità o statisticamente

indipendenti se vale la relazione

F(x1, x2, ..., xk) = F(x1) F(x2) ... F(xk)

13 Si sottolinea che è stata esplicitata la derivazione della funzione di densità di probabilità per la sua semplicità

analitica mentre, come si avrà modo di chiarire successivamente, non risulta altrettanto facile la derivazione della

funzione di massa di probabilità.




111

od anche

f(x1i, x2j, ..., xks) = f(x1i) f(x2j) ... f(xks) nel discreto

f(x1, x2, ..., xk) = f(x1) f(x2) ... f(xk) nel continuo

Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale

multipla 1 2, X , , XkX , si dicono mutualmente indipendenti se per ogni

sottoinsieme finito di variabili la funzione di ripartizione (o di massa o di densità di

probabilità) dell’insieme è uguale al prodotto delle funzioni di ripartizione (o di massa o

di densità di probabilità) delle singole variabili costituenti l’insieme.

Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale a

due dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è

posto X1 = X e X2 = Y . La variabile casuale doppia (X, Y) è completamente

individuata dalla sua funzione di distribuzione

( , ) ( ) ( )F x y P X x Y y

od anche:

i) dalla sua funzione di massa di probabilità nel caso discreto

1 1 1 1( , ) ( , ) ( , ) ( , ) ( , )

( ) ( )

i j i j i j i j i j

i j ij ij

f x y F x y F x y F x y F x y

P X x Y y p f

per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +);

ii) dalla sua funzione di densità di probabilità nel caso continuo

),(),(2

yxFyx

yxf

per a x b e c y d (a e/o c possono tendere al valore -, b e/o d

possono tendere al valore +).

Valgono, ovviamente, le relazioni

0 f(xi , yj) 1 ,

h

i

k

j

ji yxf1 1

1),(

f(x , y) 0 ,

d

c

b

a

dydxyxf 1),(

inoltre

h

i

jji kjyfyxf1

,...,2,1)(),(

k

j

iji hixfyxf1

,...,2,1;)(),(

dycyfdxyxf

b

a

;)(),(

bxaxfdyyxf

d

c

;)(),(




112

che definiscono le funzioni di massa e di densità di probabilità delle variabili casuali

semplici (variabili casuali marginali) componenti la variabile casuale doppia.

Una variabile casuale doppia discreta viene usualmente rappresentata in una tabella a

doppia entrata del tipo

Y

X y1 y2 ... yj ... yk

x1 p11 p12 ... p1j ... p1k p1.

x2 p21 p22 ... p2j ... p2k p2.

xi pi1 pi2 ... pij ... pik pi.

xh ph1 ph2 ... phj ... phk ph.

p.1 p.2 ... p.j ... p.k 1

Tab. 1.1 - Schema di tabella a doppia entrata per la variabile casuale doppia

discreta (Xi,Yj)

dove:

( , ) ( ) ( )ij ij i j i jp f f x y P X x Y y

k

j

iji pp1

. per i = 1,2,...,h

h

i

ijj pp1

. per j = 1,2,...,k

11 1

..

h

i

k

j

ijpp

Le due variabili casuali semplici X ed Y, componenti la variabile casuale doppia (X,

Y), sono indipendenti statisticamente, o indipendenti in probabilità se:

. . ( ) ( ) ( ) ( ) ( , ) ( ) ( )ij i j i j i j i j i jp p p P X x Y y P X x P Y y f x y f x f y

Se le due componenti, come avviene nella generalità dei casi, non sono indipendenti,

interesserà, per un verso, misurare l’eventuale relazione tra le due variabili, per altro

verso, analizzare le cosiddette variabili casuali condizionate che, riferendosi per

semplicità sempre al caso discreto, sono definite dalle relazioni:

variabili casuali condizionate X/

(X/Y = yj) = X/yj per j = 1,2,...,k

con funzioni di massa condizionata

f(xi/yj) = )(

),(

j

ji

yf

yxf per i = 1,2,...,h ; j = 1,2,...,k




113

variabili casuali condizionate Y/

(Y/X = xi) = Y/xi per i = 1,2,...,h

con funzioni di massa condizionata

f(yj/xi) = )(

),(

i

ji

xf

yxf per i = 1,2,...,h ; j = 1,2,...,k

Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità della

variabile condizionante Y ) e h variabili condizionate Y/xi (tante quante sono le

modalità della variabile condizionante X ).

Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y e

(Y/X = x) = Y/x sono in numero infinito.

Se le due variabili casuali componenti la variabile doppia sono indipendenti, cioè se

( , ) ( ) ( ) o ( , ) ( ) ( )i j i jf x y f x f y f x y f x f y , non esiste il condizionamento, quindi

tutte le variabili casuali condizionate sono uguali alle variabili marginali,

La funzione di distribuzione o le funzioni di massa o di densità di probabilità

descrive in modo completo la variabile casuale doppia e quindi anche le variabili casuali

semplici (variabili casuali marginali) componenti la variabile casuale doppia e le

variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali

semplici può risultare comunque conveniente una descrizione sintetica (e quindi

parziale) delle variabili casuali doppie.

Un modo per procedere nella sintesi, analogamente a quanto si è fatto per le variabili

casuali semplici, è quello di calcolare il valore atteso di opportune trasformazioni delle

variabili casuali doppie; ovviamente, le trasformazioni devono essere tali da rendere

significativo (finito) il computo del valore atteso.

1.10 - Valore atteso di funzioni di variabili casuali multidimensionali

Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito da

continuo neldy dx ,, ,

discreto nel ,, ,,

b

a

d

c

1 11 1

yxfyxgYXgE

pyxgyxfyxgYXgE ij

h

i

k

j

jiji

h

i

k

j

ji

Momenti misti rispetto all’origine

Ponendo g(X , Y) = Xr Ys

, per r,s = 0,1,2,..., si ha

continuo nel

discreto nel

b

a

d

c

1 1

dx dyx,yfy xYXE

pyxYXE

srsr

rs

ij

s

j

h

i

k

j

r

i

sr

rs




114

che viene detto momento misto di ordine rs rispetto all’origine.

Risulta facile verificare che i momenti misti 10 e 01 sono i momenti primi (cioè

le medie aritmetiche) delle variabili casuali marginali semplici X ed Y ; infatti, si ha:

1 0

10 .

1 1 1 1 1

1 0

10

= nel discreto

, nel continuo

h k h k h

i ij i ij i i x

i j i j i

b d b

xa c a

E X Y x p x p x p

E X Y x f x y dx dy x f x dx

Analoghe considerazioni possono essere fatte nei confronti dei momenti 01, 20,

02, 30, 03, ecc.

Il momento misto rispetto all’origine di ordine 1,1 più significativo ed interessante è

quello del primo ordine 11 = xy

1 1

11

1 1

1 1

11

= nel discreto

, nel continuo.

h k

i j ij xy

i j

b d

xya c

E X Y x y p

E X Y x y f x y dx dy

Momenti misti rispetto alla media o momenti misti centrali

Ponendo

g(X Y) = s

y

r

x YX )()( per r, s = 0,1,2,…

si ha

( ) ( )r s

rs x yE X Y

che viene detto momento misto centrale, o momento misto rispetto alla media, di

ordine rs .

I momenti misti 00 10 01 , , non sono significativi essendo sempre uguali a uno e

zero, mentre risulta particolarmente interessante il momento misto di ordine 11 :

11 11 10 01( ) ( )x y xy yxE X Y

che viene detto covarianza.

La covarianza è un indice assoluto di concordanza tra le due v.c. componenti la v.c.

doppia. Si tratta, cioè, di un indice che misura l’associazione tra le due componenti X

ed Y e potrà assumere valore positivo, negativo o nullo. Assumerà un valore positivo

quando le due componenti della variabile casuale doppia variano tendenzialmente nella

stessa direzione, al crescere dei valori assunti dalla X crescono i valori assunti dalla Y ,

ed anche, al diminuire dei valori assunti dalla X diminuiscono i valori assunti dalla Y.

In questo caso si avrà che a scarti positivi (negativi) (X x) corrisponderanno,

usualmente, scarti positivi (negativi) (Y y) ed il prodotto degli scarti risulterà positivo.

La covarianza assume invece valore negativo quando le due variabili variano in

direzione opposta, cioè quando al crescere dei valori assunti da una variabile i valori




115

assunti all’altra variabile diminuiscono e viceversa. In questo caso nella formula per il

computo della varianza si troveranno, usualmente, prodotti tra uno scarto positivo di

una variabile ed uno scarto negativo dell’altra variabile e viceversa.

Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo ordine

delle due variabili casuali marginali, cioè le due varianze:

2 0 2 2

20 ( ) ( ) ( )x y x xE X Y E X

0 2 2 2

02 ( ) ( ) ( )x y y yE X Y E Y

Momenti misti standardizzati

Se si pone

g(X,Y) =

s

y

y

r

x

xYX

per r,s = 0,1,2,…

si ha

sr

yxrs

x y

YXE

che viene detto momento misto standardizzato di ordine rs .

Il momento misto più significativo è il momento misto standardizzato di ordine 1,1

11

y xyxxy yx

x y x y

YXE

usualmente detto coefficiente di correlazione (di Bravais-Pearson).

Il coefficiente di correlazione è un indice relativo di concordanza, si dimostra,

infatti, la relazione

xy x y

dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y

sono linearmente dipendenti cioè quando Y = a+b X . In questo caso xy = yx = 1

ed il segno dipenderà dal segno del coefficiente angolare b della retta Y = a+b X.

Teorema. 1xy , yx = 1 se e solo se y = a + b x

Si consideri il seguente valore atteso di una combinazione lineare delle v.c. scarto

e x x y yS X S Y :

22

22 2

2 2 2

2

2 0

x y x y

x y x y

x y xy

E S S E X Y

E X E Y E X Y

La disuguaglianza può anche essere nella forma




116

2 2 22 0y xy x

espressione che evidenzia chiaramente che si tratta di una disequazione di 2° grado che

ammette soluzione solo se il discriminante 2 4 b a c assume un valore minore o

uguale a 0, cioè se 2 2 22 4 0 xy y x , da cui

2

22 2

2 22 4 1 1 1

xy xy

xy y x xy yx

y x x y

Condizione sufficiente: se y = a + b x allora yx = 1

infatti, se y = a + b x si ha

2 22 2 2

2

2 2 42 2

2 2 2 2 2

da cui

= 1 1

y y x x

xy x y x x x

xy x

x y x x

Var Y E Y E a bX a b b

Cov X Y E X Y E X b X b

b

b

Condizione necessaria: yx = 1 solo se y = a + b x

infatti, yx = 1 solo se nella disequazione vale il segno di uguaglianza, cioè, se

2

0 0

1

1dove, e .

x y x y

xy

xy

E X Y X Y

Y X a b X

a b

Per quanto sopra riportato deriva che il coefficiente di correlazione potrà assumere

soltanto valori compresi tra –1 e +1, ed è pari a –1 o +1 sse tra le due v.c. esiste una

relazione lineare perfetta; il segno – o + dipende dal valore del coefficiente angolare b

della retta, se negativo o positivo14

. Se xy = yx = 0 (cioè se xy = yx = 0) si dice che

le due componenti X ed Y sono linearmente indipendenti. Questa forma di

indipendenza è una forma molto particolare di mancanza di associazione tra variabili e

non esclude affatto la presenza di un possibile legame di natura diversa tra le due

componenti X ed Y della variabile casuale doppia (X,Y). Infatti potrebbe sussistere tra

le due componenti un legame funzionale molto stretto, ad es. Y = a+b X2 , e risultare

xy = 0.

14 Si segnala che quanto riportato non rappresenta altro che una specifica particolarizzazione della disuguaglianza di

Cauchy-Schwarz. Tale disuguaglianza è espressa dalla relazione 2

, , , a' b a' a b b

dove ,a' b indica il prodotto scalare (interno) tra i due vettori di uguale dimensione e a b , se la dimensione è n

la diseguaglianza è quindi espressa dalla relazione 2

2 2

1 1 1

.

n n n

i i i i

i i i

a b a b




117

Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo di

concordanza) è un indice di dipendenza o meglio interdipendenza (essendo xy = yx)

lineare.

Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi altra

forma di indipendenza). Infatti, se le due componenti X ed Y sono statisticamente

indipendenti f(x,y) = f(x)f(y) e quindi (senza perdere in generalità si considera il solo

caso continuo)

11

10 01

( ) ( ) ( )( ) ( , )

a ragione dell'indipendenza tra e si ha

( )( ) ( ) ( )

( ) ( ) ( ) ( ) 0

b d

xy x y x y

a c

b d

x y

a c

b d

x y

a c

E X Y x y f x y dx dy

x y

x y f x f y dx dy

x f x dx y f y dy

L’indipendenza lineare, come già sottolineato, non implica l’indipendenza statistica a

meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione

nelle righe seguenti ed è quello particolarmente rilevante della variabile casuale normale

doppia.

Momenti delle distribuzioni condizionate

La derivazione dei momenti delle distribuzioni condizionate non comporta alcuna

difficoltà, basterà fare riferimento, nel calcolo del valore atteso, alla funzione di massa o

di densità di probabilità condizionate. Ad esempio, per media (momento primo rispetto

all’origine) e varianza (momento secondo rispetto alla media) nel caso continuo si ha

/ // / ; / /y x x yE Y x y f y x dy E X y x f x y dx

2 2 2

/ / /

2 2 2

/ / /

/ ( ) ( ) /

/ ( ) ( ) /

y x y x y x

x y x y x y

Var Y x E Y y f y x dy

Var X y E X x f x y dx




118

Funzione generatrice dei momenti

La funzione generatrice dei momenti di una variabile casuale doppia è definita dalla

relazione

, , x yt X t Y

x y x ym t t E e

La funzione generatrice dei momenti, quando esiste, identifica completamente la v.c.

doppia (X , Y) e consente di ottenere facilmente sia le funzioni generatrici dei momenti

delle distribuzioni marginali sia i momenti misti rispetto all’origine; infatti

Distribuzioni marginali

,0 0

,0 0

lim , lim

lim , lim

x y x

y y

x y y

x x

t X t Y t X

x y x y x xt t

t X t Y t Y

x y x y y yt t

m t t E e E e m t

m t t E e E e m t

Momenti

, 0, 0 0, 0 0 10

, 0, 0 0, 0 0 01

2 2

, 0, 0

, / / /

, / / /

, /

x y x

x y x y x

x y y

x y x y

x

x y

t X t Y t X

x y x y t t t t t x

x x x

t X t Y t Y

x y x y t t t t ty y

y y y

t X

x y x y t t

x y x y

d d dm t t E e E e

dt dt dt

d d dm t t E e E e

dt dt dt

d dm t t E e

dt dt dt dt

0, 0 11

2 32

0, 02

2 2 2 22

0, 02

/

1 /

2! 3!

21 /

2!

y

x y

x y

x y

t Y

t t xy

x y x y

x y t t

x

x y x y

x y t t

x

t X t Y t X t YdE t X t Y

dt

E t X E t Y E t t XYdt E X t E Y

dt




119

2 2220 02 11

0, 0 202

2 32

0, 02

2 2 2 22

2

21 /

2!

1 /

2! 3!

21

2!

x y

x y

x y x y

x x y y t t

x

x y x y

x y t t

y

x y x y

x y

y

t t t tdt t

dt

t X t Y t X t YdE t X t Y

dt

E t X E t Y E t t XYdt E X t E Y

dt

0, 0

2 2220 02 11

0, 0 022

/

21 /

2!

x y

x y

t t

x y x y

x x y y t t

y

t t t tdt t

dt

Quanto detto per le v.c. doppie (k = 2) può essere facilmente esteso al caso più

generale per un k > 2 qualsiasi, restando cosi definite le variabili casuali multiple

(v.c.m.) o vettori casuali a k dimensioni. Si possono definire, quindi, le variabili

marginali e quelle condizionate di qualsiasi ordine ed i momenti di qualsiasi natura e

ordine.


1 21 2

1 2 1 2

....

, ,....., , ,....., x x x kk

k k

t X t X t X

x x x x x xm t t t E e

Da tale funzione si derivano facilmente le distribuzioni marginali e, quindi, le

distribuzioni condizionate ed i momenti di qualsiasi ordine.

1.11 - Variabili casuali discrete e continue a k dimensioni

In questo paragrafo si procederà alla descrizione delle sole variabile casuali doppie

(k=2) binomiale (detta usualmente variabile casuale trinomiale) e normale e la loro

estensione al caso k >2; si procederà, inoltre, alla definizione della v.c. ipergeometrica

a k dimensioni e della v.c. di Dirichlet, verranno, infine, introdotte tre variabili casuali

multiple multivariate (matrici casuali), le prime due derivano, rispettivamente dalla

generalizzazione della v.c normale multipla e della v.c. gamma multipla, mentre la

terza, la distribuzione di Wishart, che è una specifica sottofamiglia della gamma

multipla multivariata, viene trattata separatamente per la sua rilevanza in quanto

distribuzione campionaria della matrice di varianze e covarianze (matrice di

dispersione) di una variabile casuale multinormale.

1.11.1 Distribuzione trinomiale (binomiale doppia)

Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova

sia 1 o 2 o 3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna

prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato




120

esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate

ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).

Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di numeri

reali in cui la prima componente X rappresenta il numero delle volte in cui si è

presentato il risultato 1 nelle n prove, mentre Y rappresenta il numero delle volte in

cui si è presentato il risultato 2. Ovviamente, il numero delle volte in cui si presenta il

risultato 3 non può essere inserito come terza variabile essendo tale numero

univocamente determinato per differenza (n – x – y).

Se, per semplicità di notazione, si pone

1 1

2 2

3 3

( ) ( 1)

( ) ( 1)

( ) ( 0) ( 0) 1

x

y

x y

p P P X p

p P P Y p

p P P X Y p p q

si avrà

!

( , ; , , ) ( ) ( )! !( )!

x y n x y

x y x y

nf x y n p p P X x Y y p p q

x y n x y

dove: x rappresenta il numero delle volte in cui si è presentato il risultato 1 nelle n

prove ed y il numero delle volte in cui si è presentato il risultato 2 ; x potrà, pertanto,

assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n–x ,

oppure x,y = 0, 1, 2, …, n con il vincolo x+y n .

La funzione generatrice dei momenti della v.c. trinomiale è data da

0 0

!

! !( )!

x y x y yx

n n x nt X t Y t x t y ttx y n x y

x y x y

x y

nE e e p p q p e p e q

x y n x y

.

Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono

variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto

riportate relative ad alcuni momenti misti

10 = x = n px , 01 = y = n py

2 2

20 02(1 ) , (1 )x x x y y yn p p n p p

11 11,(1 ) (1 )

x y

xy yx x y xy yx

x y

p pn p p

p p

y

x

x

y

p

pynyXE

p

pxnxYE

1)()/(,

1)()/(

L’espressione analitica delle due distribuzioni condizionate è yxn

x

y

x

y

p

q

p

p

yxny

xnxyf

11)!(!

)!()/(

yxn

y

x

y

x

p

q

p

p

yxnx

ynyxf

11)!(!

)!()/(




121

Esempio 1.34

Si supponga che il diametro dei tubi prodotti da un certo processo produttivo possa essere

classificato come accettabile se 21 xXx , sovradimensionato se X > x2 oppure

sottodimensionato se X < x1. Le probabilità per ciascun tipo di classificazione sono,

rispettivamente, 0.7, 0.2 e 0.1. Qual è la probabilità che, da una sequenza di 10 prove

statisticamente indipendenti, si ottengano come risultato 6 pezzi accettabili, 1

sovradimensionato e 3 sottodimensionati?

Tale probabilità può essere calcolata come il prodotto delle probabilità di due eventi, ciascuno

dei quali segue una distribuzione binomiale.

Il primo evento è dato dall’estrazione di 6 pezzi accettabili (e quindi 4 difettosi), dato un

campione di 10 unità:

6 410

( 6) 0,7 0,3 0,2001 20,01%6

P X

Tale evento non fa alcuna distinzione tra pezzi sottodimensionati e pezzi sovradimensionati.

Il secondo evento, invece, è relativo all’estrazione di un pezzo sovradimensionato e 3 pezzi

sottodimensionati, dati 4 pezzi al di fuori dei limiti di accettabilità. La probabilità di tale evento

è data da: 1 3

4 0,2 0,1( 1) 0,099 9,90%

1 0,3 0,3P Y

,

dove la probabilità che un pezzo sia sovradimensionato dato che è difettoso è pari, in base al

principio delle probabilità condizionate, al rapporto tra la probabilità di ottenere un pezzo

sovradimensionato, cioè 0.2, e la probabilità di ottenere un pezzo che sia difettoso, quindi o

sovradimensionato o sottodimensionato, che è data da (0.2+0.1) = 0.3.

La manifestazione congiunta dell’evento X “6 pezzi accettabili in 10 prove” e dell’evento Y “1

pezzo sovradimensionato in 4 prove” è proprio l’evento di cui stiamo cercando la probabilità.

Tale probabilità è data dal prodotto della probabilità di X = 6 per la probabilità condizionata

di Y = 1 dato X = 6, quindi: 1 3

6 410! 4! 0,2 0,1( 6 1) 0,7 0,3

6! 4! 1! 3! 0,3 0,3P X Y

,

semplificando si ottiene:

6 1 310!( 6 1) 0,7 0,2 0,1 0,2001 0,0990 1,98%.

6! 1! 3!P X Y

L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove

indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k+1

risultati necessari ed incompatibili 1, 2, …, k, k+1 . Si potrà introdurre la variabile

casuale multinomiale a k dimensioni (X1, X2, …, Xk) , dove le componenti

rappresentano il numero delle volte in cui, nelle n prove, si è presentato,

rispettivamente il risultato 1, 2, …, k . Il numero delle volte in cui si presenta il

risultato k+1 non viene considerato risultando il suo valore per differenza

k

i

ixn1

.




122

1.11.2 Distribuzione multinomiale e ipergeometrica a k dimensioni

Se con

1 2 1

1

, , ..., 1k

k k i

i

p p p e p q p

si indicano le probabilità dei risultati (punti campionari) 1, 2, …, k+1 , la funzione di

massa di probabilità della variabile casuale multinomiale è

11 2

1 2 1 2 1 2

1 2

1

!( , , ... ; ... ) ( ; ) ...

! ! ... ! !

k

i

k i

n xxx x

k k kk

k i

i

nf x x x p p p f p p p q

x x x n x

x p

dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo nxk

i

i 1

.

La funzione generatrice dei momenti della v.c. multinomiale a k dimensioni è data da

1

11

11 2

1 2

1 2

1 2

0 0 01 2

1

1 2

!

! ! ( )!

k

ki

i i

k i

k

k

n xn xn n x

xx x

kk

x x xi

i

ntt t

k

nE e e p p p q

x x n x

p e p e p e q

' 'X xt t

dove, , , ,1 2 k it t t per -h t h con h 0, i =1,2, ,k. 't

.... ....

1

.1 1

i

i j

i j

oo i o i x i

i i i

i j x x i j i j

i j

i j x x i j

i j

E X n p

Var X n p p

Covar X X n p p

p pCorr X X

p p

Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti

che, rifacendosi allo schema di estrazione da un’urna, si procede ad n estrazioni senza

ripetizione da un’urna contenente N palline, si deriva la versione a k dimensioni della

variabile casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di

probabilità

11 2

1 2

1

1 2 1 2

...

( , ,..., ; , , , , )

k

i

ik

kk

i

i

k k

N NNN N

xx xn x

f x x x n N N NN

n




123

dove N1, N2, …, Nk, Nk+1 (

k

i

ik NNN1

1 ) rappresentano le palline, rispettivamente,

del colore 1,2,…,k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore

numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo

1

k

i

i

x n N

anche dai valori N1, N2,…, Nk.

Si possono, senza eccessiva difficoltà, derivare le distribuzioni marginali e le

distribuzioni condizionate della v.c. multinomiale e ipergeometrica a k dimensioni

verificando l’appartenenza alla stessa famiglia di origine.

1.11.3 Distribuzione normale doppia

La funzione di densità della variabile casuale normale doppia o variabile casuale

normale bivariata è data da 22

2

1 22(1 )

2

1( , ; , , , , )

2 1

y yx xxy

x x y yxy

y yx x

x y x y xy

x y xy

f x y e

per x + e y + e dove i parametri che caratterizzano la

distribuzione coincidono con gli indici caratteristici più significativi della distribuzione

stessa

yx YEXE )(,)( 0110

22

02

22

20 )(,)( yyxx YEXE

11 10 0111

y xyxxy yx

x y x y x y

YXE

E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti

2

2

1( )

2

2

1( ) ( , )

2

x

x

x

x

f x f x y dy e

2

2

1( )

2

2

1( ) ( , )

2

y

y

y

y

f y f x y dx e

2

2 2

1 ( )2 (1 )

2 2

( , ) 1( / )

( ) 2 (1 )

xx xy y

yx xy

x y

x xy

f x yf x y e

f y

2

2 2

1( )

2 (1 )

2 2

( , ) 1( / )

( ) 2 (1 )

yy xy x

xy xy

y x

y xy

f x yf y x e

f x




124

che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni

condizionate.

Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle

distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni

marginali e dal coefficiente di correlazione. Se xy = yx = = 0, le due variabili

casuali componenti la v.c. doppia sono statisticamente indipendenti

)()(),( yfxfyxf e le distribuzioni condizionate, per l’indipendenza, non

risentono più del condizionamento e risultano uguali alle distribuzioni marginali.

Nella Fig. 1.7 è riportata la forma della funzione di densità e le sezioni orizzontali e

verticali della variabile casuale normale doppia le cui componenti sono incorrelate

(indipendenti) ed hanno uguale varianza.

Nella Fig. 1.8 sono riportate le sezioni orizzontali di variabili casuali normali doppie

incorrelate (xy = 0) con relazione diversa tra le varianze delle due distribuzioni

marginali. Nella Fig. 1.9 sono riportate le sezioni orizzontali di una variabile casuale

normale doppia, le cui componenti hanno stessa varianza 122 yx , per diversi

livelli di correlazione; mentre nella Fig. 1.10 le sezioni sono relative a diversi livelli di

correlazione e diversa varianza ( )14 22 yx e .




125

Fig. 1.7 – Funzione di densità di una variabile casuale normale bivariata

Osservando le Figg. 1.8, 1.9 e 1.10 si rileva l’incidenza del valore assunto dai

parametri caratteristici sulla forma della funzione di densità. La forma campanulare

perfetta si ha solo quando xy = yx = 0 e 22

yx . Se xy = yx = = 1 , cioè se

esiste un legame lineare tra le due componenti, si avrà un completo schiacciamento

della distribuzione doppia che degenera in una distribuzione semplice. Cosa questa

peraltro desumibile immediatamente anche per via analitica; infatti, valendo la relazione

Y = a + b X non ha più senso parlare di variabilità su due componenti essendo la

variabilità dell’una (es. la Y) strettamente determinata dalla variabilità dell’altra.

= 0,7 ; 2 2 2

.x y = 0,9 ; 2 2 2

.x y

= 0 ; 2 2 2

.x y




126

Fig. 1.8 - Sezioni orizzontali di una variabile casuale normale doppia con xy = yx = 0

Fig. 1.9 – Sezioni orizzontali di una variabile casuale normale bivariata con2 2 1x y




127

Fig. 1.10 - Sezioni orizzontali di una variabile casuale normale bivariata con

2 24 1x ye

Di seguito si riportano le dimostrazioni di quanto sopra affermato ed evidenziato

graficamente nelle figure.

La funzione specificata è una funzione di densità, infatti: 22

2

1 22(1 )

2

10

2 1

y yx xxy

x x y yxy

y yx x

x y xy

e

e

, 1f x y dx dy

La prima disuguaglianza è immediata, si dimostra la seconda relazione.

22

2

1 2 2(1 )

2

( , ; , , , , )

1

2 1

y yx x

x x y y

x y x y

y yx x

x y

f x y dx dy

e dx dy

Se si operano le trasformazioni

e si ha yx

x y x y x y

x y

yxz z dx dy dz dz

quindi




128

22

2

2 2

2

1 2 2(1 )

2

1 2 2(1 )

2

1

2 1

1

2 1

y yx x

x x y y

x x y y

y yx x

x y

z z z z

x y

e dx dy

e dz dz

Se si completa nell’esponente il quadrato in xz si ha

2 2

2

2 2 2 2 2 2

2

2 2 2

2

1 2 2(1 )

2

1 2 2(1 )

2

1 12(1 )

2

1

2 1

1

2 1

1

2 1

x x y y

x x y y y y

x y y

z z z z

x y

z z z z z z

x y

z z z

x y

e dz dz

e dz dz

e dz dz

Se si effettua la trasformazione 1 2

2

2 si ha 1 , quindi

1

x y

x

z zv dz dv

2 2 2

2

22

1 12(1 )

2

2 2

1

2 1

1 1 1

2 2

x y y

y

z z z

x y

zv

y

e dz dz

e dv e dz

La funzione generatrice dei momenti è definita dalla relazione

2 2 2 21

2 2, ,

x x y y x x x y x y y yx y

t t t t t tt X t Y

x y x ym t t E e e

Infatti, se si effettuano le trasformazioni

e da cui e yx

x y x x x y y y

x y

yxz z x z y z

si ha




129

2 2

2

2 2 2

2

,

1 2 2(1 )

2

1 2 2 12(1 )

2

,

1

2 1

1

2 1

x x x x y y y y x x y y x x x y y y

x x y yx x y y x x x y y y

x x y y x x xx x y y

t z t z t t t z t z

x y x y

z z z zt t t z t z

x y

z z z z t zt t

m t t E e e E e

e e e dz dz

e e

22 1

y y yt z

x ydz dz

se si completano i quadrati in e x yz z ad esponente si ottiene

2 2 2 2

2

2 22 2 2 2 2 2 2

2

1 2 2 1 2 1

2(1 )

1 2 1 1 1 2

2(1 )

1

22 1

1

22 1

x x y y x x x y y y

x x y y

x y x x y x x y y x x x y x y y yx x y y

z z z z t z t zt t

xy x y

z z t z t t t t t tt t

m e e d z d z

e e

2 22 22 2 2 2

2

11 1 1 22(1 )2 1

22 1

x y x x y x x y yx x y y x x x y x y y y

x y

z z t z t tt t t t t t

x y

d z d z

e e d z d z

effettuando le trasformazioni

2

2

2

1 e si ha 1

1

x y x x

y x x y y x x

z z tu v z t t dz dz du dv

si ha

2 22 2 2 2

2 2 2 2

12

2 2 2,

12

2

1 1

2 2,

x x y y x x x y x y y y

x x y y x x x y x y y y

u vt t t t t t

x y x y

t t t t t t

m t t e e du e dv

e

Le distribuzioni marginali sono normali

La distribuzione marginale X della v.c. doppia (X,Y) è normale con parametri 2 .x xe

Infatti

22

2

1 2 2(1 )

2

1,

2 1

y yx x

x x y y

y yx x

x y

f x f x y dy e dy

se si opera la trasformazione y

y

y

yz

da cui y ydy dz si ha




130

22

2

2

2

2

1 2 2(1 )

2

1 2 2(1 )

2

1

2 1

1

2 1

y yx x

x x y y

x xy y

x x

y yx x

x y

x xz z

y

x

e dy

e dz

completando il quadrato di yz ad esponente si ha

2

2

2

2 2 2

2 2 2

2

1 2 2(1 )

2

1 2 2(1 )

2

1 2

1

2 1

1

2 1

1

2

x xy y

x x

x x x xy y

x x x x

x xz z

y

x

x x x xz z

y

x

x

f x e d z

e d z

e

2

2

22

1 2(1 )

2

1

2 1

xyx

xx

xzx

ye d z

ma

2

2

2

1 2(1 )

2

2

1

1 1 per la trasformazione

2 1

da cui 1 pertanto

xy

x

xy

x

xz

y

xz

y

e d z

v d z d v

2

2

1 21

2

x

x

x

x

f x e

Ragionamento analogo vale per f y che è data da

2

2

1 21

2

y

y

y

y

f y e




131

Le distribuzioni condizionate sono normali

22

2

2

2

2

2 2

1 2 2(1 )

2

1 2

1 2(1 )

2

1

2 1,/

1

2

1

2 1

y yx x

x x y y

y

y

xx y

yx

y yx x

x y

y

y

x y

x

ef x y

f x yf y

e

e

Analogamente

22

2

2

2

2

2 2

1 2 2(1 )

2

1 2

1 2(1 )

2

1

2 1,/

1

2

1

2 1

y yx x

x x y y

x

x

yy x

xy

y yx x

x y

x

x

y x

y

ef x y

f y xf x

e

e

Da sottolineare che se le due distribuzioni marginali di una v.c. doppia sono normali

non necessariamente la v.c. di origine è normale; ovviamente, se le due v.c. marginali

normali sono indipendenti è normale anche la v.c. doppia di origine.

1.11.4 Distribuzione normale a k dimensioni

La funzione di densità della variabile casuale normale a k dimensioni o variabile

casuale normale k-dimensionale è data da

11 2

1/2/2

1( ; , )

(2 ) kf e

'x x

x

dove tutte le componenti del vettore '

1 2( , ,...., )kx x x x variano tra -∞ e +∞ e

1 1

2 2

; ;

k k

x

x

x

x

1

2

12 111 12 1

221 22 2 21 2 2

21 2 1 2 k

kk

k k

k k kk k k

inoltre, 1 2, ,...., kx x xx' rappresenta una possibile determinazione del vettore casuale

1 2, ,...., kX X X'X , 1 2, ,...., k ' il vettore medio, cioè il vettore delle k medie

aritmetiche (momenti di ordine 1 rispetto all’origine) relative alle k v.c. semplici




132

componenti la v.c. multipla e la matrice k×k di varianze e covarianze (matrice di

dispersione); se non è definita positiva la v.c. multipla non esiste e si parla di v.c.

multipla a k dimensioni degenere, in altri termini la dimensione del vettore casuale

1 2, ,...., kX X X'X è inferiore a k.

Il termine 1' x x - - viene usualmente detto distanza generalizzata o

distanza di Mahalanobis di da x .

Si dimostra, senza eccessiva difficoltà, che tutte le v.c. marginali e condizionate,

semplici e multiple, si distribuiscono normalmente.

La funzione generatrice dei momenti è definita dalla relazione

1 2

, , , 1 2, , , k

1

2x x x km t t t E e e

' '

' Xt μ t t

t

dove, , , ,1 2 k it t t per -h t h con h 0, i = 1,2, ,k. 't

Un modo diverso per rappresentare la funzione di densità di probabilità della

variabile casuale multinormale è quello di fare riferimento alle correlazioni anziché alle

varianze e covarianze, in questo caso si ha

' 11

21

2 2

1( ; , )

(2 )

( )

kf e

x DRD x

xDRD

dove

12 1

21 2

1 2

1

1 per

1

k

ijk

ij

i j

k k

R è detta matrice di correlazione

e dove

1

2

0 0

0 0

0 0 k

D è detta matrice di dispersione.

La matrice di correlazione si può ottenere dalla matrice di dispersione e viceversa 1 1 e R D D D R D

Le v.c. marginali e condizionate di ogni ordine hanno distribuzione normale ma se

tutte le v.c. marginali semplici di una v.c. a k dimensioni hanno distribuzione normale

non necessariamente la varibile k-upla di origine è normale. Quest’ultima implicazione

vale se le v.c marginali semplici sono indipendenti, in questo caso le covarianze sono

tutte nulle e la matrice di dispersione è una matrice diagonale.




133

1.11.5 Distribuzione di Dirichlet

La distribuzione di Dirichlet è una v.c. a k dimensioni (vettore casuale) caratterizzato da

k+1 parametri positivi che deriva da una generalizzazione al caso multivariato della v.c.

Beta (k=1). Questa distribuzione è spesso usata come distribuzione a priori della v.c.

multinomiale nell’inferenza statistica bayesiana.

1

1

1 1

1

1

1

( ; ) i

k

i k

i

ik

ii

i

f x

x

dove, 1 1 2 1 2 1

1 1

1 , 1 , , ,....., > 0 e , ,....., .

k k

k i i k k

i i

x x x x x x

La media e la varianza delle distribuzioni marginali sono

1

1

1 21 1

11 1

, = .

1

k

i i i

iii ik

k k

ii i

ii i

E X Var X

Un caso particolare di questa distribuzione è rappresentato dall’uguaglianza

1 2 1 ..... = = .k k In tale caso si parla di distribuzione di Dirichlet

simmetrica la cui funzione di densità diventa

1

1

1

1

1( ; )

k

ik

i

kf x

x .

1.12 - La famiglia esponenziale

Una v.c. semplice X, caratterizzata da un solo parametro , con funzione di densità o

massa di probabilità ;f x appartiene alla famiglia esponenziale se può essere

espressa nella forma (standard)

;

t xf x a h x e

per 0 , 0 a h x e

dove, può essere definito come parametro standard e come spazio parametrico

standard.

Se il supporto della v.c. X non dipende da la famiglia è detta regolare altrimenti

si parla di famiglia irregolare.

Modi equivalenti per rappresentare la famiglia esponenziale sono

; ; ;

t x d t x d g xf x h x e f x e




134

dove logd a e logg x h x

Una v.c. caratterizzata da r parametri con funzione di densità o massa di probabilità

1 2 ; , ,...., ;rf x f x , dove, 1 2, ,...., r θ , appartiene alla famiglia

esponenziale se può essere espressa nella forma:

1

;

r

i i

i

t x

f x a h x e

dove, 0 , 0 e a h x Θ

o anche

1

;

r

i i

i

t x d

f x h x e

;

1

;

r

i i

i

t x d g x

f x e

dove logd a e logg x h x .

L’espressione analitica della funzione di massa o di densità della famiglia

esponenziale nel caso multivariato è:

1

;

r

i i

i

t

f a h e

x

x x

dove 1 2, ,....., kx x x'x rappresenta un vettore casuale a k dimensioni.

Modi equivalenti per rappresentare la famiglia esponenziale nel caso multivariato

multiparametrico sono

1 1

; ; ;

r r

i i i i

i i

t d t d g

f h e f e

x x x

x x x

dove logd a e logg h x x .

Nella generalità dei casi la famiglia esponenziale non viene presentata nei termini

sopra riportati (formulazione standard). Una diversa rappresentazione della famiglia

esponenziale, che agevola gli sviluppi teorici, è quella che si ottiene, attraverso una

specifica riparametrizzazione, usualmente detta naturale o canonica e i nuovi parametri

(spazio parametrico naturale) vengono detti parametri naturali o canonici.

Nel caso univariato e di un solo parametro l’espressione in forma naturale è

;

t xf x b h x e

per 0 , 0 b h x e

od anche

; ; ;

t x d t x d g xf x h x e f x e

Nel caso univariato multiparametrico l’espressione in forma naturale è

1

;

r

i

i

t x

f x h x c e

dove i i

od anche

1 1

; ; ;

r r

i i i i

i i

t x d t x d g x

f x h x e f x e

Nel caso multivariato multiparametrico la rappresentazione in forma naturale è




135

1

;

r

i i

i

t

f c h e

x

x x

od anche

1 1

; ; ;

r r

i i i i

i i

t d t d g

f h e f e

x x x

x x x

Specificando opportunamente le funzioni a valori reali riportate nelle diverse

espressioni analitiche sopra introdotte si derivano molte delle distribuzioni illustrate

nelle pagine precedenti; infatti, appartengono alla famiglia esponenziale, la v.c.

binomiale per n noto (bernoulli come caso particolare della binomiale), la v.c. binomiale

negativa per k noto e la v.c. multinomiale per n noto, la v.c. di poisson, la v.c. di

Pareto per valore minimo noto, la v.c. di Weibull per noto, la v.c. gamma, la v.c.

beta, le v.c. casuali normale, log-normale e normale multivariata. Non appartengono

alla famiglia esponenziale la v.c. ipergeometrica, la v.c. uniforme quando gli estremi di

variabilità non sono noti, la v.c. di Cauchy, la v.c. logistica, la v.c. t di student e la v.c. F

di Fisher-Snedecor; più in generale, non appartengono alla famiglia esponenziale tutte

le distribuzioni il cui supporto dipende da parametri caratteristici (famiglia irregolare) a

meno che questi non vengano assunti come noti.

Esempio 1.35

Di seguito si riportano a titolo esemplificativo le rappresentazione in forma naturale (canonica)

di alcune distribuzioni tra quelle sopra elencate.

v.c. Binomiale (v.c. di Bernoulli, come caso particolare della binomiale)

La funzione di massa di probabilità della v.c. binomiale è caratterizzata dai due parametri n e

p , assumendo noto il valore di n l’unico parametro di interesse è θ=p. Operando opportune

trasformazioni si deriva facilmente la rappresentazione in forma esponenziale della funzione di

massa di probabilità.

log

1 ; , 1 1

px

n x n p p t xx x n xn n n

f x n p p p p q p e h x a p ex x x

dove: 1 0n

a p p , 0n

h xx

, log1

pp

p

, t(x) = x.

Poisson

La funzione di massa di probabilità della v.c. di Poisson è caratterizzata dal solo parametro .

Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma

esponenziale della funzione di massa di probabilità.

log1( ) ( ; )

! !

xxe

f x f x e ex x

dove, 1

, , log , !

h x e a t x xx

.




136

Normale

La funzione di densità di probabilità della v.c. normale è caratterizzata dai due parametri 2 e . Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma

esponenziale della funzione di densità di probabilità. 2 2

2

2 2 2

1 1 x

2 2 2 2

2 2

1 1( ) ( ; , )

2 2

xx

f x f x e e e

dove

2

2 2 221 2 1 22 22

1 1 , , 1 , , , ,

22e a h x x t x x t x

Multinomiale

La funzione di massa di probabilità della v.c. multinomiale a k dimensioni è caratterizzata da

k+1 parametri n e 1 2, ,......, kp p p , assumendo noto il valore di n, i parametri di interesse

sono 1 2, ,......, kp p p'

p . Operando opportune trasformazioni si deriva facilmente la

rappresentazione in forma esponenziale della funzione di massa di probabilità.

1

1

1

11

log log

11

!( ; )

! !

!

! !

k

i

i i

ki

i

i

k n xx

ik k

i

i i

ii

px

qn q

k k

i i

ii

nf p q

x n x

ne e

x n x

x p

dove 1

log 1 log

1 1

!, , log ,

! !

k

i

i

n pn q i

i i ik k

i i

i i

n ph e e h t x

qx n x

x p x.

1.13 - Distribuzioni multiple multivariate (matrici casuali)

Ai punti precedenti sono state illustrate alcune tra le v.c. a k ≥ 2 dimensioni di uso più

comune, introducendo il termine di vettore casuale. Un’ulteriore generalizzazione è il

passaggio dal vettore casuale alla matrice casuale; nelle righe successive verranno

introdotte tre generalizzazioni di particolare interesse utilizzando la terminologia

variabile casuale multipla multivariata (v.c.m.m.). In particolare verranno considerate

le generalizzazioni della v.c normale, della v.c. gamma, della v.c. beta e la distribuzione

di Wishart che è una sottofamiglia della gamma multipla multivariata.

Distribuzione normale multipla multivariata

La funzione di densità di probabilità di una matrice casuale normale X di dimensione

n×k è data da




137

1 1

/2 /2 /2

1exp tr '

2( , , )

2n kn k

f

V X M U X M

X; M U VV U

Dove M (matrice dei momenti) è, ovviamente di dimensione n×k , e le due matrici di

varianze e covarianze U, di dimensione n×n, e V , di dimensione k×k , possono essere

definite dalle relazioni

'

' / /

E tr

E c tr c

U X M X M U V

V X M X M V U

c è una costante che dipende da U tale da consentire la derivazione della costante di

normalizzazione della funzione di densità.

La v.c.m.m normale può essere posta in relazione con la v.c.m. normale se e solo se

,vec N vec X M V U15

se vale questa relazione, cioè se il vettore vec (X) di dimensione nk×1 si distribuisce

normalmente con vettore medio vec(M), di dimensione nk×1 e matrice di dispersione

V U , di dimensione nk×nk, si ha

, .n kMN X M U,V

Distribuzione gamma multipla multivariata

La funzione di densità di probabilità di una matrice casuale gamma X simmetrica e

definita positiva di dimensione k×k , , ,k kM X è data da

11

1 /2

( ; , , ) , < <

ktrk

k

k kk

k

ef

X

XX 0 X 1

dove 0 , 0 , k è una matrice simmetrica definita positiva di dimensione k×k e

1

1 /2 1 /4 1 1

2

k

i

ktr k k

k ie d

X

X X =

dove rappresenta l'insieme di tutte le matrici X definite positive di dimensione k×k .

Distribuzione beta multipla multivariata

La funzione di densità di probabilità di una matrice casuale Beta X simmetrica e

definita positiva di dimensione k×k , ,kMBe X è data da

1 /2 1 /2

( ; , ) , < < ,

k k

k

k

k

fBe

X I - X

X 0 X 1

dove 1 / 2k , 1 / 2k e

15 Si ricorda che l’operatore vec(X) indica l’operazione di vettorizzazione della matrice X (i vettori colonna della

matrice vengono allineati sulla prima colonna) mentre l’operatore indica il prodotto di Konecker tra matrici

(ciascun elemento della prima matrice viene moltiplicato per la seconda matrice definite nel prodotto).




138

1 /2 1 /2

< <

,

k

k k

k kBe d

0 X 1

X I - X X

ed anche

,

k k

k

k

Be

è la funzione matematica beta multivariata.

Distribuzione di Wishart e Wishart inversa

La funzione di densità di probabilità di una matrice casuale di Wishart X simmetrica e

definita positiva di dimensione k×k , ,k kW X è data da

11 /2 1 /22

/2

( ; , ) , < <

/ 2 2

ktrk

k

k kk

k

ef

X

XX 0 X 1

dove 1k , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della

distribuzione, k è una matrice simmetrica e definita positiva di dimensione k×k.

Una prima osservazione da fare su questa distribuzione è che essa rappresenta una

sottofamiglia della distribuzione Gamma multipla multivariata per / 2 e =2 ;

inoltre, la distribuzione di Wishart può essere interpretata come una generalizzazione

della v.c 2 . Infatti, se si pone k = 1 e 1k , la matrice X si riduce ad uno scalare

quindi 1 ,1x W , da cui

1 2 2

/2

( ; )

/ 2 2

x

x ef x

che rappresenta la funzione di densità di probabilità di una v.c. 2 con gradi di

libertà.

La funzione di densità di probabilità di una matrice casuale di Wishart inversa X

simmetrica e definita positiva di dimensione k×k , ,k kInvW X è data da

11 + 1 /2 22

/2

( ; , ) , < <

/ 2 2

kk tr

k

k kk

k

ef

X

XX 0 X 1

dove 1k , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della

distribuzione, k è una matrice simmetrica e definita positiva di dimensione k×k.




139

1.14 - Distribuzioni a priori coniugate16

La formula di Bayes introdotta nelle pagine precedenti consente, come già sottolineato,

di esprimere il processo di apprendimento dall’esperienza e, quindi, dà la possibilità di

aggiornare le informazioni (a priori) che il soggetto possiede in merito ad uno specifico

fenomeno di interesse sulla base delle nuove informazioni acquisite o acquisibili

(informazioni campionarie). Nell’illustrazione della formula sono stati introdotti i

concetti di probabilità a priori, di probabilità probativa o verosimiglianza e di

probabilità a posteriori.

Se anziché far riferimento alla probabilità si fa riferimento, senza perdere in

generalità, alla funzione di densità di probabilità per un modello caratterizzato da un

solo parametro assunto variabile (perché incognito) nel continuo17

, valgono le relazioni

( , ) ( ) ( ) ( / ) ( )f x f x / f f x f x ,

dove, avendo attribuito al parametro la natura di variabile a ragione della mancata

conoscenza del suo valore, è stata utilizzata la simbologia ( , )f x anziché ( )f x; , la

formula di Bayes è espressa dalla relazione

( ) ( ) ( ) ( )( / )

( ) ( ) ( )

f x / f f x / ff x

f x f x / f d

e, utilizzando la simbologia di più largo impiego, anche

( ) ( ) ( ) ( )( / )

( ) ( ) ( )

f x / f x /x

f x f x / d

dove, ( / )x rappresenta la distribuzione di probabilità a posteriori del parametro ,

( ) la sua distribuzione a priori e ( )f x / la probabilità probativa.

Quando la distribuzione di probabilità a posteriori appartiene alla stessa famiglia

della distribuzione a priori, quest’ultima viene detta distribuzione di probabilità a priori

coniugata.

Definizione 10 – Data la relazione

( ) ( )( / )

( ) ( )

f x /x

f x / d

16 Il concetto di distribuzione a priori coniugata è stato formalizzato da Raiffa e Schlaifer (1961); concetto questo che

trova una chiara interpretazione nella frase: “distribution closed under sampling”. 17 Ragionamento del tutto analogo vale anche quando si considerano più parametri, definiti nel discreto o nel

continuo, per la funzione di massa di probabilità e per la funzione di distribuzione.




140

() è detta distribuzione a priori coniugata di ( , )f x se la

corrispondente distribuzione a posteriori (/x) appartiene alla

medesima famiglia di ().

Alcuni esempi di distribuzioni a priori coniugate sono riportati nella tabella seguente.

dove N indica la distribuzione Normale, la distribuzione Gamma, B la Binomiale, Be

la Beta, P la distribuzione di Poisson e BinNeg la distribuzione Binomiale Negativa.

Distrib. campionaria

f(x/)

Distrib. a priori

()

Distrib. a posteriori

(/x)

N(,2) N(,2

) N

22

22

22

22

,

x

(,) (,) (+,+x)

B(n, p) e(,) Be(x+,n+)

P() (,) (+x,+1)

BinNeg(,1/) (, ) B(+r, +x)

Per comprendere meglio l’utilità del concetto di distribuzione a priori coniugata, si

consideri un processo di tipo Bernoulliano; in questo caso la distribuzione campionaria

è di tipo Binomiale. Poiché p è il parametro sconosciuto della popolazione (la causa che

genera l’evento), coerentemente a quanto riportato nella precedente tabella, si assuma

che la distribuzione a priori di p sia di tipo Beta con parametri e .

11

1 11 1

1; , 1

,

( 1)! 1 1

1 ! 1 !

p p p pB

p p p p

poiché

/ ; , (1 ) (1 )x n x x n xn

f x p f x n p p p p px

dalla formula di Bayes risulta che la distribuzione a posteriori è proporzionale18

al

prodotto della verosimiglianza per la distribuzione a priori, pertanto si ha:

1 11 1/ / 1 (1 ) 1

n xx n x xp x p f x p p p p p p p

18 Il simbolo sta ad indicare la relazione di proporzionalità tra le quantità poste a confronto.




141

che, a meno della costante di normalizzazione, è una distribuzione di tipo beta con

parametri pari a x+α e n+β; cioè, la distribuzione a priori e quella a posteriori

appartengono alla stessa famiglia. La costante di normalizzazione risulta essere

1 ! 1 !1

, 1 !

x n x n

B x n x n x n

.

quindi la funzione di densità a posteriori è

111

/ 1,

n xxp x p pB x n

cioè, una distribuzione di tipo Beta con prametri e .x n

Considerazioni del tutto analoghe possono essere svolte nei confronti della v.c.

multinomiale a k dimensioni per n noto. Come già anticipato, in questo caso, la

distribuzione a priori coniugata della v.c. multinomiale è la v.c. di Dirichlet.

La funzione di massa di probabilità della v.c. multinomiale è

1

1

11

1 1

1

1 1

1

1 1

1 1

!/ ( ; , )

! !

!

!

dove

1

k

i

i i

i i

k n xx

ik k

i

i i

ii

k k

x x

i ik

i ii

i

k k

k i k i

i i

nf f n p q

x n x

np p

x

x n x e p q p

x p x p

mentre, la funzione di densità di probabilità della v.c. di Dirichlet è

1

1 1

1 1 1

1

1 1

1

( ) ( ; ) i i

k

i k k

i

i ik

i ii

i

p p

p p

da cui 1 1 1

1 1

1 1 1

( / ) ( ; , , ) i i i i

k k k

x x

i i i

i i i

n p p p

p x p x

che, a meno della costante di proporzionalità (normalizzazione)

1

1

1

1

k

i i

i

k

i i

i

x

x

è la funzione di densità di probabilità di una v.c di Dirichlet; cioè la distribuzione a

priori e quella a posteriori appartengono alla stessa famiglia.

142

Documents

CAP. 1 – CALCOLO DELLE PROBABILITA’...B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità 19 cioè da numeri reali non negativi, dato che la durata