93
. Universita’ di Roma ’Sapienza’ Dispense per il corso di Segnali Deterministici e Stocastici Corso di Laurea in Ingegneria Clinica Calcolo delle probabilita’ Lorenzo Piazzo AA 2014/15 Versione: 4/1/2015 1

LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Embed Size (px)

Citation preview

Page 1: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

.

Universita’ di Roma ’Sapienza’

Dispense per il corso di Segnali Deterministici e Stocastici

Corso di Laurea in Ingegneria Clinica

Calcolo delle probabilita’

Lorenzo Piazzo

AA 2014/15

Versione: 4/1/2015

1

Page 2: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Contents

1 Richiami 4

1.1 Funzioni e successioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Sommatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Traslazione e scalatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Insiemi 10

2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Operazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Famiglie, intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Sigma-Algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Probabilita’ 15

3.1 Fenomeni aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 Risultati, eventi e probabilita’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3 Approccio frequentistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4 Operazioni sugli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.5 Spazi di probabilita’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.6 Proprieta’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.7 Spazi discreti, probabilita’ uniformi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.8 Eventi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.9 Bayes e probabilita’ totali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.10 Indipendenza e prove ripetute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.11 Spazi continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Variabili aleatorie 31

4.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.3 Variabili e densita’ discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.4 Densita’ binomiale e geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.5 Variabili e densita’ continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.6 Densita’ esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.7 Teorema di esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.8 Funzioni di variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.9 Distribuzioni e densita’ condizionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2

Page 3: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

5 Variabili multidimensionali 53

5.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.2 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.3 Variabili e densita’ discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.4 Variabili e densita’ continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.5 Esistenza e funzioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.6 Variabili e densita’ marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.7 Densita’ condizionate, indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.8 Alcune conseguenze dell’ indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6 Valore atteso 71

6.1 Definizione e proprieta’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.2 Momenti, media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.3 Correlazione e covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.4 Variabili complesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.5 Valori attesi condizionati e parziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

7 Densita’ Gaussiana 80

7.1 Monodimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7.2 Multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.3 Teorema del limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

8 Legge dei grandi numeri 86

8.1 La legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8.2 Stima di momenti e probabilita’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

8.3 Stima di densita’ e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

9 Appendice 90

9.1 Formule utili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

9.2 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

9.3 Convoluzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

9.4 Funzione di distribuzione Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3

Page 4: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 1

Richiami

Allo scopo di introdurre la notazione che verra’ usata nel seguito delle dispense, in questo capitolo

richiamiamo alcuni concetti di base che si suppongono comunque noti al lettore.

1.1 Funzioni e successioni

Una funzione e’ una associazione fra gli elementi di un insieme A (detto insieme di definizione) e un

insieme B. In particolare la seguente scrittura f : A → B, indica che la funzione f associa ad ogni

elemento di A uno ed un solo elemento di B. Una seconda maniera per indicare la funzione e’ tramite

la scrittura f(x), nella quale la x e’ una variabile che assume valori sull’ insieme A, detta l’ argomento

della funzione. La scrittura f(x) ha anche un secondo significato, quando x e’ inteso come un particolare

elemento di A; in questo caso la scrittura f(x) indica il valore dell’ insieme B che la funzione f associa

ad x. Quando gli insiemi A e B sono numerici, tipicamente, ma non necessariamente, una funzione viene

specificata tramite una formula, nella quale compare la variabile. Per esempio la funzione f : ℜ → ℜ,dove ℜ indica l’ insieme dei numeri reali, specificata da f(x) = x2 e’ una funzione che associa ad ogni

numero reale il suo quadrato.

Quando l’ insieme A e’ il prodotto scalare di due o piu’ insiemi, la funzione e’ funzione di due o piu’

variabili scalari. Per esempio la funzione s : ℜ2 → ℜ, specificata da s(x, y) = x+ y associa a due numeri

la loro somma.

Un caso particolare si ha quando l’ insieme di definizione e’ un insieme discreto, per esempio i numeri

naturali o i numeri interi. In questo caso la funzione viene detta una successione e, nella la scrittura della

funzione, si preferisce indicare le variabili con i simboli n, i o j. Inoltre a volte si racchiude la variabile

fra parentesi quadre anziche’ tonde oppure la si scrive a pedice anziche’ fra parentesi. Per esempio la

successione r : ℑ → ℜ, dove ℑ e’ l’ insieme dei numeri interi, definita da s(n) =√

|n|, che associa ad ogni

intero la radice quadrata del suo valore assoluto, si puo’ anche indicare come s[n] oppure sn. Infine, la

variabile viene detta anche ”indice”.

Anche per le successioni il simbolo sn puo’ avere due significati. Se si pensa n come variabile indica

l’ intera successione. Se si pensa n come un numero assegnato indica il valore che la successione assume

in corrispondenza all indice n, detto anche l’elemento di indice n.

Introduciamo alcune funzioni che useremo nel testo. La funzione rettangolare rect : ℜ → ℜ e’ definita

dalla seguente espressione

rect(x) =

1 |x| < 1/2

1/2 |x| = 1/2

0 |x| > 1/2

(1.1)

ed e’ tracciata in figura 1.1. Come si vede dal grafico questa funzione presenta due discontinuita’, per

4

Page 5: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 1.1: Funzioni rettangolare e triangolare.

x = −1/2 e per x = 1/2. Il valore della funzione in questi due punti viene convenzionalemente fissato a

rect(−0, 5) = rect(0, 5) = 0, 5.

La funzione triangolare tri : ℜ → ℜ e’ definita dalla seguente espressione

tri(x) =

1− |x| |x| ≤ 1

0 |x| > 1(1.2)

ed e’ tracciata in figura 1.1.

Una funzione f : ℜ → ℜ definita da

f(x) = a

dove a e’ un numero reale e’ detta una funzione costante di valore o ampiezza a.

1.2 Integrali

Data un funzione f : ℜ → ℜ sono note, dai corsi di analisi, le operazioni di integrazione definita ed

indefinita, secondo la definizione di Riemann. Le operazioni sono indicate rispettivamente con

∫ b

a

f(x)dx

f(x)dx

L’ operazione di integrazione indefinita restituisce una funzione F (x) detta una primitiva di f(x) e tale

che dF (x)dx = f(x). L’ operazione di integrazione definita restituisce un numero, pari all’area sottesa dalla

funzione f nell’ intervallo [a, b].

L’ integrale di una funzione su tutto l’ asse reale e’ definito come il limite di un integrale definito e

cioe’∫ ∞

−∞

f(x)dx = lima→−∞,b→∞

∫ b

a

f(x)dx.

Per semplificare la notazione, a volte, nell’ integrale esteso a tutto l’ asse si lasciano cadere gli estremi,

cioe’ si scrive∫ ∞

−∞

f(x)dx =

f(x)dx.

Questo crea una ambiguita’ con l’integrale indefinito, che viene risolta valutando il contesto.

E’ possibile valutare l’ integrale di una funzione anche su un insieme diverso da un intervallo. In

particolare, assegnato un insieme E ⊂ ℜ, la scrittura

E

f(x)dx

indica l’ integrale della funzione esteso all’ insieme E, che e’ pari all’ area della funzione su questo insieme.

Naturalmente l’ integrale puo’ non esistere, non convergere oppure non essere calcolabile, a seconda della

5

Page 6: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

funzione e dell’ insieme E. Un caso particolare importante e’ quello in cui E e’ una unione numerabile di

intervalli disgiunti. In questo caso, indicando con Ai per i = 1, 2, ...,∞ questi intervalli, dalle proprieta’

degli integrali si ricava la seguente formula

E

f(x)dx =∞∑

i=1

Ai

f(x)dx (1.3)

nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di una successione di integrali sugli intervalli

Ai.

Nel caso di funzioni a due o piu’ variabili gli integrali diventano multipli. Per esempio la scrittura

∫ ∫

E

f(x, y)dxdy

indica l’ integrale della funzione f(x, y) esteso all’ insieme E ⊂ ℜ2. Di solito, per semplicita’, user-

emo un singolo simbolo di integrale negli integrali multipli e cioe’ indicheremo il precedente integrale

semplicemente con∫

E

f(x, y)dxdy.

Infine notiamo che esistono altre definizioni per l’ operazione di integrazione, piu’ generali di quella di

Riemann, per esempio quella di Lebesgue. Queste definizioni alternative sono di interesse principalmente

teorico, hanno le stesse proprieta’ e coincidono con l’ integrale di Riemann ovunque questo sia applicabile.

1.3 Sommatorie

Data una successione sn con n ∈ ℑ e due numeri interi a e b > a con il simbolo

b∑

n=a

sn

si indica la somma di tutti i valori della successione di indice compreso fra a e b (inclusi). Per esempio,

data la successione sn = n2, risulta3∑

n=1

sn = 1 + 4 + 9.

Un caso particolare e’ quello in cui a = −∞ e b = ∞, nel quale si sommano tutti i valori della successione.

In questo caso spesso si usa una notazione semplificata in cui non si indicano gli estremi:

∞∑

n=−∞

sn =∑

n

sn.

E’ possibile anche sommare gli elementi di una successione su insieme non contiguo di indici. In

particolare, dato un qualsiasi insieme di numeri interi A ⊂ ℑ, la seguente scrittura

n∈A

sn

indica la somma degli elementi della successione il cui indice e’ contenuto nell’ insieme A. Per esempio,

data una successione sn = 10n e l’ insieme A = −2, 1, 4∑

n∈A

sn = −20 + 10 + 40.

6

Page 7: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Piu’ in generale, dato un generico insieme E ed una funzione f : E → ℜ, possiamo sommare i valori

che la funzione assume sugli elementi di un qualsiasi sottoinsieme discreto A ⊂ E ed indicare questo

valore con∑

x∈A

f(x).

Per esempio, se f(x) = x2 e A = 1, 5, 3∑

x∈A

f(x) = 1 + 25 + 9 = 35.

Nel caso in cui la successione abbia due o piu’ indici, le sommatorie diventano multiple. In questo

caso, quando possibile, per semplificare la notazione useremo un solo simbolo di sommatoria. Per esempio

i

j

si,j =∑

i,j

si,j .

1.4 Traslazione e scalatura

Introduciamo alcune operazioni definite sulle funzioni che associano numeri reali a numeri reali. La prima

e’ quella di scalatura di una funzione. E’ possibile considerare un operazione di scalatura dell’ asse delle

ordinate (scalatura delle ampiezze) e una di scalatura dell’ asse delle ascisse. In particolare una funzione

g(x) si dice ottenuta per scalatura delle ampiezze di una seconda funzione f(x) quando viene ottenuta

moltiplicando f(x) per una costante reale a (detta fattore di scala) e cioe’ quando

g(x) = af(x).

La funzione g(x) ha la stessa forma della funzione f(x) ma ha una ampiezza che e’ moltiplicata per a. In

modo simile una funzione g(x) si dice ottenuta per scalatura delle ascisse da una seconda funzione f(x)

quando viene ottenuto moltiplicando l’ argomento di f(x) per una costante reale a 6= 0 (ancora detta

fattore di scala) e cioe’ quando

g(x) = f(ax).

La funzione g(x) ha la stessa forma della funzione f(x) ma risulta compressa o espansa (a seconda che

|a| > 1 o che |a| < 1) rispetto a f(x). Per convincersene si consideri il valore che g(x) assume per un certo

valore x0 dell’ argomento. Questo e’ pari al valore che f(x) assume nel punto ax0 che risulta, rispetto a

x0, piu’ lontano o piu’ vicino allo zero a seconda che |a| > 1 o che |a| < 1. Se a < 0 la funzione viene

anche ribaltata rispetto all’ asse delle ordinate.

Esempio 1 In figura 1.2A e’ tracciato il grafico della funzione f(x) = rect(x/2) e cioe’ di una funzione

rettangolo scalata sull’ asse delle ascisse di fattore a = 1/2. Come si vede la funzione risulta espansa di

un fattore due. Per verificare che la forma di f(x) e’ effettivamente quella riportata in figura si ricordi

che la funzione rettangolare presenta una discontinuita’ quando il suo argomento vale ±1/2. La funzione

f(x) invece presenta una discontinuita’ quando il suo argomento vale ±1, infatti f(±1) = rect(±1/2).

Ripetendo il ragionamento con un valore parametrico per il fattore di scala si conclude che la funzione

rect(x/a) e’ un rettangolo nell’ intervallo [−a/2, a/2].

Sempre in figura 1.2A e’ mostrato la funzione g(x) = 2tri(x/4) che e’ una funzione triangolare di

ampiezza doppia e scalata di un fattore quattro e quindi e’ diversa da zero nell’ intervallo [−4..4]. Per

convincersi che la forma di g(x) e’ effettivamente quella riportata in figura si si ricordi che la funzione

triangolare si distacca dallo zero quando il suo argomento vale ±1. La funzione g(x) invece si distacca dallo

zero quando il suo argomento vale ±4, infatti g(±4) = 2tri(±1). Per x = 0 risulta g(0) = 2tri(0) = 2.

7

Page 8: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

t

2

1

0−1 14 4

2 tri(t/4)

rect(t/2)

t

1

0−2 32 4

tri(t−3)rect(t+2)

Figure 1.2: A: Scalatura. B: Traslazione

Un’altra operazione utile e’ la traslazione. Una funzione g(x) si dice ottenuta per traslazione di

una seconda funzione f(x) quando viene ottenuta sottraendo all’ argomento una costante reale a e cioe’

quando

g(x) = f(x− a).

La funzione g(x) ha la stessa forma della funzione f(x) ma risulta traslata verso destra di una quantita’

a (quindi se a < 0 viene traslata a sinistra). Infatti notiamo che g(a) = f(a − a) = f(0), ovvero che il

valore che f(x) assume per x = 0 viene assunto da g(x) per x = a. La funzione viene dunque traslata a

destra se a > 0.

Esempio 2 In figura 1.2B e’ mostrata la funzione f(x) = tri(x − 3) che e’ una funzione triangolare

centrata su 3. Nella stessa figura e’ mostrata la funzione g(x) = rect(x+2) che e’ una funzione rettangolare

centrata su −2. Quando le operazioni di scalatura e traslazione vengono combinate occorre usare qualche

cautela. Consideriamo per esempio la funzione y(x) = rect( x10 − 4). Potrebbe sembrare che la funzione

sia un rettangolo di lunghezza 10 centrato su 4 ma non e’ cosi’. La confusione nasce dal fatto che la

traslazione non e’ applicata direttamente alla variabile indipendente bensi’ ad una sua versione scalata.

Per studiare la funzione la si puo’ riscrivere come y(x) = rect(x−4010 ) e si puo’ introdurre una funzione

h(x) = rect( x10 ) e cioe’ un rettangolo di lunghezza 10. Dalle ultime due scritture si ottiene y(t) = h(x−40)

che mostra che y(x) e’ un rettangolo di lunghezza 10 centrato su 40. Il grafico e’ riportato in figura 1.3A.

Le operazioni di scalatura delle ampiezze e di traslazione si estendono immediatamente alle successioni.

In particolare la successione fn = ayn (dove a e’ una costante reale o complessa) si dice ottenuta scalando

l’ ampiezza di yn e la successione fn = yn−M (dove M e’ un numero intero) si dice ottenuta traslando

la successione yn. Anche l’ operazione di scalatura dell’ asse dei tempi si estende alle successioni ma

presenta qualche differenza ed ha un nome diverso. In particolare, data una successione fn, la successione

yn si dice ottenuta per decimazione della successione fn se le due hanno la seguente relazione

yn = fnM

dove M e’ un numero intero diverso da 0. Il nome dato all’ operazione si capisce analizzando un esempio.

Supponiamo M = 2. Allora risultera’ y0 = f0, y1 = f2, y2 = f4, eccetera. Quindi la succesione yn si

ottiene prendendo un elemento ogni 2 (in generale, uno ogni M) della successione fn. Inoltre, se M < 0 la

successione yn e’ una versione decimata e ribaltata della successione fn. Si noti che in questa operazione

si perde informazione, nel senso che dalla successione yn non e’ piu’ possibile ricostruire la successione

xn.

8

Page 9: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

t

1

0 35 4540

rect(t/10−4)

n

0 1 2 3 4 5 6 7 8 9 10 11 12

n

0 1 2 3 4 5 6 7 8 9 10 11 12

xn

yn

Figure 1.3: A: Scalatura e traslazione. B: Decimazione.

9

Page 10: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 2

Insiemi

In questo capitolo richiamiamo alcuni concetti di base di teoria degli insiemi, che utilizzeremo nel seguito

del corso. Una trattazione piu’ approfondita si puo’ trovare in un qualsiasi testo sulla teoria della misura,

per esempio [2].

2.1 Definizioni

Un insieme e’ una collezione di elementi distinti. Un insieme puo’ essere specificato in diverse maniere.

La maniera piu’ semplice e’ quella di specificarlo a parole, per esempio possiamo considerare l’ insieme di

tutti i numeri reali oppure l’ insieme di tutti i numeri interi, che saranno insiemi molto utili nel seguito e

che verrano indicati con ℜ e ℑ. Conviene anche introdurre un insieme che non contiene nessun elemento,

detto insieme vuoto ed indicato con ∅. Una seconda maniera di specificare un insieme e’ quella di elencare

i suoi elementi fra parentesi graffe, per esempio vero, falso, 1, 2, 3, 4, 5, 6. Naturalmente questo e’

possibile solo se il numero di elementi dell’ iniseme, detto la cardinalita’ dell’ insieme ed indicato, per un

insieme A, con |A|, e’ finito. Fra poco vedremo altre maniere di specificare un insieme.

Nel seguito diremo che a appartiene a A, e scriveremo a ∈ A, per indicare che a e’ uno degli elementi

dell’ insieme A. Diremo che a non appartiene a A, e scriveremo a /∈ A, per indicare che a non e’ uno degli

elementi dell’ insieme A. Diremo che un insieme e’ numerabile o discreto se i suoi elementi possono essere

posti in corrispondenza biunivoca con i numeri interi o naturali. Dati due insiemi A e B, diremo che sono

uguali, e scriveremo A = B, se hanno gli stessi elementi. Inoltre se ogni elemento di A appartiene anche

a B diremo che A e’ un sottoinsieme di B oppure che e’ contenuto in B e scriveremo A ⊂ B. Si noti che,

per un qualsiasi insieme A, ovviamente A ⊂ A e per definizione ∅ ⊂ A.

Dati due insiemi A e B il loro prodotto scalare, indicato con A × B, e’ un insieme i cui elementi

sono tutte le possibili coppie ordinate (a, b) in cui a ∈ A e b ∈ B. Un caso particolare e’ il prodotto

di un insieme con se stesso, che si indica con A2 = A × A. Per esempio l’ insieme ℜ2, e’ costituito da

tutte le coppie (x, y) dove x e y sono numeri reali. Questi concetti si estendono immediatamente al caso

del prodotto di n insiemi. Per esempio gli elementi di ℜn sono i vettori con n elementi, indicati con

(x1, x2, ..., xn).

Un insieme B sottoinsieme di A puo’ essere specificato indicando una o piu’ condizioni che un elemento

di A deve verificare per appartenere anche a B. In questo caso useremo la scrittura B = x ∈ A|·, incui · indica le condizioni, espresse sulla variabile x. Per esempio l’ insieme dei numeri reali maggiori di

o uguali a zero si puo’ specificare come ℜ+ = x ∈ ℜ|x ≥ 0 . Oppure, l’ insieme dei numeri naturali,

e cioe’ degli interi positivi, si puo scrivere come N = i ∈ ℑ|i ≥ 1. Nel caso in cui l’ insieme A sia il

prodotto vettoriale di altri insiemi, la variabile potra’ essere scritta come vettore. Per esempio l’ insieme

B = (x, y) ∈ ℜ2|x = y e’ la retta passante per l’ origine ed inclinata di 45 gradi del piano cartesiano.

Dove non sorgono confusioni, la notazione verra’ semplificata. In primo luogo si puo’ dare per sottinteso

10

Page 11: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 2.1: Esempi di insiemi nel piano.

l’ insieme di appartenenza. Per esempio la retta appena vista si puo’ scrivere come (x, y)|x = y. In altri

casi daremo per sottintesi sia la variabile che l’ insieme di appartenenza e conserveremo solo le condizioni.

Per esempio possiamo scrivere ℜ+ = x ≥ 0. Oppure indicare l ’insieme dei numeri reali compresi fra

zero e uno come B = 0 ≤ x ≤ 1. Inoltre, quando le condizioni sono piu’ di una e devono essere tutte

verificate, verranno indicate separandole con virgole. Per esempio le scritture B = x ∈ ℜ|0 ≤ x ≤ 1 e

B = x ∈ ℜ|x ≥ 0, x ≤ 1 sono equivalenti.

Esempio 3 Consideriamo un piano con un riferimento cartesiano. I punti del piano sono specificati

dalle coppie (x, y) di numeri reali e quindi possono essere pensati come elementi di ℜ2. L’ intero piano

coincide con ℜ2 stesso mentre i sottoinsiemi di ℜ2 identificano sottinsiemi corrispondenti nel piano. Alcuni

esempi sono mostrati in figura 2.1. A sinistra e’ mostrata una retta per l’ origine con pendenza unitaria,

corrispondente all’ insieme A = (x, y) ∈ ℜ2|x = y. Al centro e’ mostrato una cerchio di raggio unitario

centrato sull’ origine, corrispondente all’ insieme B = (x, y) ∈ ℜ2|x2+ y2 = 1. A destra e’ mostrato un

quadrato corrispondente all’ insieme C = (x, y) ∈ ℜ2|0 ≤ x ≤ 1, 0 ≤ y ≤ 1.

2.2 Operazioni

Dati due insiemi A e B la loro unione, indicata con A ∪ B, e’ l’ insieme i cui elementi appartengono ad

A oppure a B oppure ad entrambi. E la loro intersezione, indicata con AB oppure A ∩B, e’ l’ insieme i

cui elementi appartengono sia ad A che a B. Queste operazioni si visualizzano facilmente considerando

sottoinsiemi di ℜ2. Un esempio e’ mostrato in figura 2.2 in cui A e’ l’ insieme tratteggiato verticalmente

e B l’ insieme tratteggiato orizzontalmente. La loro unione e’ l’ iniseme con un tratteggio qualsiasi e la

loro intersezione e’ l’ insieme a tratteggio sia orizzontale che verticale. Si noti che quando gli insiemi A

e B non hanno elementi in comune risulta AB = ∅ ed i due insiemi si dicono disgiunti.

Le operazioni di unione e intersezione godono della proprieta’ commutativa

A ∪B = B ∪A AB = BA

e associativa

(A ∪B) ∪ C = A ∪ (B ∪ C) (AB)C = A(BC).

Inoltre, vale la proprieta distributiva

A(B ∪ C) = AB ∪AC.

La situazione di maggior interesse per il nostro corso e’ quella in cui tutti gli insiemi che si considerano

sono sottoinsiemi di un insieme assegnato, indicato con Ω e detto lo spazio. In questo caso si definisce

il complementare di un insieme A ⊂ Ω, indicato con A, come l’ insieme di tutti gli elementi di Ω che

non appartengono ad A. Un esempio e’ mostrato in figura 2.2 dove lo spazio e’ un rettangolo nel

piano, l’ inisieme A e’ la parte di rettangolo non tratteggiata ed il complementare quella tratteggiata.

11

Page 12: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 2.2: Le operazioni di unione, intersezione e complementazione fra insiemi.

Naturalmente il complementare di un insieme A ⊂ Ω e’ ancora un sottoinsieme di Ω. Inoltre si ha Ω = ∅e ∅ = Ω.

Considerata una successione di insiemi Ai per i ∈ ℑ, con le scritture

b⋃

i=a

Ai

b⋂

i=a

Ai

si indicano l’ unione o l’intersezione di tutti gli elementi della successione di indice compreso fra a e b.

Per concludere notiamo che vale la seguente identita’

∞⋃

i=1

Ai =

∞⋂

i=1

Ai, (2.1)

detta formula di de Morgan [2], che sara’ utile in seguito. La relazione precedente vale naturalmente

anche nel caso di un numero finito di insiemi e, in particolare, per due insiemi si ottiene

A1 ∪A2 = A1 ∩ A2, (2.2)

2.3 Famiglie, intervalli

Dato un insieme Ω possiamo considerare insiemi di sottoinsiemi di Ω. Questo tipo di insiemi, anche detti

famiglie su Ω, e’ importante per il nostro corso. Un primo esempio di famiglia e’ dato dall’ insieme di

tutti i sottoinsiemi di Ω, compresi Ω stesso e ∅. Questo insieme e’ detto l’ insieme delle parti di Ω e viene

indicato con P(Ω). Consideriamo ora alcune famiglie su ℜ che saranno utili nel seguito.

Per cominciare definiamo alcuni tipi di sottoinsiemi di ℜ. In primo luogo consideriamo gli intervalli

chiusi, i cui elementi sono tutti i numeri reali compresi fra un valore finito a, detto estremo inferiore, ed

un valore finito b, detto estremo superiore, tali che a ≤ b. Un intervallo chiuso A si puo’ quindi scrivere

come1 A = a ≤ x ≤ b e verra’ indicato con la notazione [a, b]. Alcuni esempi sono mostrati in figura

2.3. Notiamo che se a = b risulta che [a, b] contiene il solo punto a.

In secondo luogo consideriamo gli intervalli aperti, che sono intervalli non contenti gli estremi. Quindi

un intervallo aperto A si puo’ scrivere come A = a < x < b, in cui a e b sono valori reali oppure ±∞e tali che a ≤ b, e verra’ indicato con la notazione (a, b). Alcuni esempi sono mostrati in figura 2.3.

Notiamo esplicitamente che uno od entrambi gli estremi possono essere infiniti2, nel qual caso l’ intervallo

sara’ infinito su uno o su entrambi i lati. Per esempio (−∞,∞) = ℜ. Inoltre se a = b allora (a, b) = ∅.Consideriamo l’ insieme di tutti i possibili intervalli chiusi, indicato con Ic, e l’ insieme di tutti i

possibili intervalli aperti, indicato con Ia. Indichiamo la loro unione con I = Ic ∪ Ia. Cio’ posto diamo

la seguente

1La notazione completa e’ A = x ∈ ℜ | a ≤ x ≤ b .2Piu’ precisamente a puo’ essere −∞ e b puo’ essere ∞.

12

Page 13: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 2.3: Esempi di intervalli sull’ asse reale: A = (−∞, a), B = (b, c) e C = [d, e].

Definizione 1 Unione di intervalli disgiunti. Una unione di intervalli disgiunti U e’ un sottoinsieme di

ℜ che si puo’ scrivere come

U =

∞⋃

i=1

Ai dove Ai ∈ I e AiAj = ∅ per i 6= j (2.3)

ed e’ quindi l’ unione di una infinita’ numerabile di intervalli chiusi o aperti, fra loro disgiunti. Nat-

uralmente anche il caso di un numero finito n di intervalli e’ contemplato nella definizione, come si

ricava ponendo pari a ∅ tutti gli insiemi Ai per i > n. Possiamo ora introdurre l’ insieme di tutti gli

insiemi di questo tipo, che si dice la famiglia delle unioni di intervalli disgiunti e verra’ indicata con U .Questa famiglia sara’ utile nel seguito del corso e comprende tutti i sottoinsiemi di ℜ che interessano

nelle applicazioni.

2.4 Algebre

Per lo sviluppo della teoria siamo interessati a famiglie che siano chiuse rispetto alle operazioni di unione,

intersezione e complementazione, nel senso che quando queste operazioni sono applicate a insiemi della

famiglia il loro risultato appartiene ancora alla famiglia. Un primo esempio di famiglie di questo tipo e’

specificata nella seguente

Definizione 2 Algebra. Dato un insieme Ω e una famiglia Φ di sottoinsiemi di Ω, si dice che Φ e’ una

algebra su Ω se sono verificate le seguenti condizioni

1) ∅,Ω ∈ Φ

2) Se A ∈ Φ allora A ∈ Φ

3) Se A,B ∈ Φ allora A ∪B ∈ Φ

4) Se A,B ∈ Φ allora AB ∈ Φ

A parole, la condizione 1) richiede che l’ insieme vuoto ed Ω stesso siano contenuti in Φ. La condizione

2) che il complementare di un elemento di Φ appartenga a Φ. La 3) che l’ unione di due elementi di Φ

appartenga a Φ. E la 4) che l’ intersezione di due elementi di Φ appartenga a Φ. Notiamo che la 3) e la

4) sono ridondanti, nel senso che una si ricava dall’ altra usando la 2) e la (2.2).

Sulla base della definizione, in un’algebra l’ unione e l’ intersezione di due elementi producono ancora

un elemento dell’ algebra. E’ facile verificare3 che questo vale anche per le unioni e le intersezioni di un

numero qualsiasi n di elementi, e cioe’ che in un’ algebra valgono le

3’) Se Ai ∈ Φ per i = 1, ..., n allora⋃n

i=1 Ai ∈ Φ

4’) Se Ai ∈ Φ per i = 1, ..., n allora⋂n

i=1 Ai ∈ Φ .

Piu’ in generale una qualsiasi sequenza finita di operazioni di unione, intersezione e complementazione

fatta a partire da elementi di Φ produce ancora un risultato appartenente a Φ. Non e’ pero’ vero, in

generale, che anche una sequenza infinita di operazioni produce un risultato appartenente a Φ. Questo

risultato vale invece per una classe piu’ ristretta di famiglie, quelle specificate dalla seguente

3Per induzione.

13

Page 14: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Definizione 3 Sigma-Algebra. Dato un insieme Ω e un insieme Φ di sottoinsiemi di Ω, si dice che Φ e’

una sigma-algebra su Ω se sono verificate le seguenti condizioni

1) ∅,Ω ∈ Φ

2) Se A ∈ Φ allora A ∈ Φ

3) Se Ai ∈ Φ per i = 1, ...,∞ allora⋃∞

i=1 Ai ∈ Φ

4) Se Ai ∈ Φ per i = 1, ...,∞ allora⋂∞

i=1 Ai ∈ Φ

A parole, la condizione 3) richiede che l’ unione di infiniti elementi di Φ appartenga a Φ. E la 4) che

l’ intersezione di infiniti elementi di Φ appartenga a Φ. Notiamo che la 3) implica che anche l’unione di

un numero finito di elementi di Φ appartiene a Φ (si ricava ponendo gli altri elementi dell’ unione a ∅).Analogamente la 4) implica che anche l’intersezione di un numero finito di elementi di Φ appartiene a Φ

(basta porre gli altri elementi dell’ intersezione a Ω). Infine notiamo che la 3) e la 4) sono ridondanti, nel

senso che una si ricava dall’ altra usando la 2) e la (2.1) e che ogni sigma-algebra e’ anche un’ algebra.

Notiamo che, dato un qualsiasi insieme Ω, l’ insieme delle parti P(Ω) e’ sia un’ algebra che una

sigma-algebra su Ω.

2.5 Sigma-Algebra di Borel

Introduciamo una sigma-algebra su ℜ che e’ importante nello sviluppo della teoria. A questo scopo

premettiamo la seguente

Proposizione 1 Dato un insieme Ω ed una famiglia Φ di sottoinsiemi di Ω, esiste una sigma-algebra che

contiene Φ (cioe’ Φ e’ un suo sottoinsieme) e che e’ contenuta in tutte le sigma-algebre che contengono

Φ. Questa sigma-algebra e’ detta la (minima) sigma-algebra generata da Φ ed e’ indicata con σ(Φ).

Dimostrazione. Per prima cosa notiamo che esiste almeno una una sigma-algebra che contiene Φ, data

da P(Ω). Ora indichiamo con A l’ insieme di tutte le sigma algebre su Ω che contengono Φ. A questo

punto possiamo costruire σ(Φ) come

σ(Φ) =⋂

α∈A

α

cioe’ come l’ intersezione di tutte le sigma-algebre che contengono Φ.

Ora consideriamo l’ insieme di tutti gli intervalli infiniti a sinistra e chiusi a destra, cioe’ del tipo

x ≤ b = (−∞, b], ed indichiamo questo insieme con Id. La sigma algebra che ci interessa introdurre e’

quella generata da Id, cioe’ σ(Id). Viene detta la sigma-algebra o l’ insieme di Borel e verra’ indicata

con B. I suoi elementi sono sottoinsiemi di ℜ detti insiemi Borelliani. Questa sigma-algebra comprende

tutti i sottoinsiemi di ℜ di interesse nelle applicazioni. Inoltre i Borelliani sono insiemi misurabili, sui

quali e’ possibile definire l’ integrale di una funzione4.

Vediamo alcuni esempi di insiemi Borelliani. Consideriamo la successione di elementi di Id data da

An = x ≤ b − 1/n = (−∞, b − 1/n]. Visto che sono tutti Borelliani, la loro unione, ∪∞n=1An, che

coincide con l’intervallo (−∞, b), appartiene a B, che quindi comprende anche gli intervalli infiniti a

sinistra e aperti a destra. I loro complementari sono gli intervalli del tipo [b,∞) ed appartengono a B.Visto che un intervallo chiuso [a, b] si puo’ ottenere come [a, b] = (−∞, b]∩ [a,∞) anche gli intervalli chiusi

appartengono a B. Con gli stessi ragionamenti si verifica che tutti gli intervalli aperti (a, b) sono elementi

di B. Inoltre qualsiasi insieme ottenibile a partire da quelli detti tramite una sequenza numerabile di

operazioni di unione, intersezione e complementazione e’ ancora Borelliano, il che implica che U ⊂ B.

4A patto di usare l’ integrale di Lebesgue, che e’ una definizone di integrale piu’ generale dell’ integrale di Riemann.

14

Page 15: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 3

Probabilita’

3.1 Fenomeni aleatori

Nel mondo reale si incontrano processi o operazioni che danno luogo a risultati non noti a priori. Esempi

immediati sono il lancio di un dado a sei facce, che produce un risultato compreso fra uno e sei, o il

lancio di una moneta, che produce un risultato di testa o croce. Questi processi vengono detti fenomeni

aleatori (o esperimenti aleatori). Il risultato di un fenomeno aleatorio non e’ noto prima dell’esecuzione

e puo’ essere conosciuto con certezza solo dopo l’ esecuzione del fenomeno stesso ma cio’ non vuol dire

che a priori (cioe’ prima dell’ escuzione) non abbiamo nessuna informazione sul risultato. Per esempio,

consideriamo il fenomeno aleatorio descritto qui di seguito.

Esempio 4 Un’ urna contiene dieci palline bianche ed una pallina nera. Le palline vengono mescolate

ed una persona bendata estrae una pallina dall’ urna. Il risultato del fenomeno e’ il colore della pallina

estratta, quindi bianco o nero.

Nell’ esempio precedente, anche se a priori non sappiamo se il risultato sara’ bianco o nero, e’ pero’

piu’ verosimile che la pallina estratta sia bianca piuttosto che nera. In questo caso quindi abbiamo

informazione a priori sull’ esito. Questa informazione a priori e’ spesso di interesse pratico. Per esempio,

nel caso precedente, se ci venisse chiesto di scommettere un euro sul risultato, sarebbe chiaramente

conveniente scommetere sull’ uscita del bianco, che e’, intuitivamente, il risultato piu’ probabile.

Non sempre pero’ la situazione e’ cosi’ definita come nel caso precedente. Per esempio se ci venisse

proposto di scommettere un euro sull’ uscita del nero, ricevendone dieci in premio se effettivamente esce

il nero e perdendo la posta se il risultato e’ bianco, non e’ immediatamente chiaro se ci convenga o meno

accettare la scommessa. Per chiarirlo, e’ necessario disporre di una approccio formale e quantitativo per

descrivere la conoscenza a priori che abbiamo su un fenomeno aleatorio e questo approccio e’ fornito dal

calcolo delle probabilita’.

3.2 Risultati, eventi e probabilita’

Per l’analisi formale di un fenomeno aleatoro e’ necessario introdurre un modello matematico che descriva

il fenomeno stesso. Con questo obbiettivo, il passo preliminare da compiere e’ quello di introdurre un

insieme Ω, detto insieme dei (possibili) risultati, i cui elementi sono tutti i possibili esiti del fenomeno1.

Per esempio, nel caso del lancio di un dado avremo Ω = 1, 2, 3, 4, 5, 6 mentre nel caso del lancio di una

moneta Ω = Testa, Croce.1Questo insieme e’ chiamato anche spazio campionario.

15

Page 16: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Come secondo passo notiamo che siamo interessati ad attribuire una misura di probabilita’ non solo

ai singoli risultati di un fenomeno aleatorio, ma anche a affermazioni di verita’ o falsita’ che possono

essere fatte sul risultato. Per esempio, nel caso del dado, non siamo solo interessati alla probabilita’ che

il risultato sia uno, due, etc. Siamo anche interessati a misurare la probabilita’ di affermazioni come

”Il risultato e’ pari” oppure ”Il risultato e’ maggiore di quattro”. A questo scopo, notiamo che queste

affermazioni sono associabili a sottoinsiemi di Ω. In particolare possiamo associare una affermazione al

sottoinsieme di Ω che comprende tutti i risultati per cui l’ affermazione risulta verificata. Per esempio

l’ affermazione ”Il risultato e’ pari” e’ associata al sottoinsieme 2, 4, 6 ⊂ Ω mentre l’ affermazione ”Il

risultato e’ maggiore di quattro” e’ associata al sottoinsieme 5, 6 ⊂ Ω. Visto che ogni affermazione e’

associata ad un sottoinsieme di Ω nel seguito potremo usare scritture del tipo ”Esce un numero pari” =

2, 4, 6.Possiamo a questo punto introdurre il secondo elemento del modello matmatico di un fenomeno

aleatorio, che e’ una famiglia su Ω, indicata con Φ e detta insieme degli eventi. Questa famiglia contiene

tutti i sottoinsiemi di Ω per i quali siamo interessati a valutare la probabilita’, che vengono detti eventi.

Notiamo che, per lo sviluppo rigoroso della teoria, l’ insieme degli eventi non puo’ essere scelto in modo

del tutto arbitrario, ma deve rispettare alcune condizioni che verrano discusse in seguito. In linea generale

si puo’ pensare che Φ contenga tutti i possibili sottinsiemi di Ω, visto che questa e’ la scelta piu’ semplice

ed utile, ma vedremo che non e’ sempre possibile. Inoltre, normalmente, tutti gli elementi di Ω, pensati

come sottoinsiemi di Ω con un solo elemento, appartengono a Φ e vengono detti eventi elementari.

Il terzo elemento del modello matematico che stiamo sviluppando e’ l’ indicazione di come asseg-

nare a ciascun evento una misura numerica delle possibilita’ che ha di realizzarsi. Questa misura viene

detta la probabilita’ dell’ evento ed e’ una funzione P : Φ → R. Dato un evento A ∈ Φ la sua prob-

abilita’ verra’ indicata con P (A). Per esempio, nel lancio di un dado, possiamo considerare l’ evento

A = ”Esce un numero pari” = 2, 4, 6 ed indicare la sua probabilita’ come P (A) = P (2, 4, 6) =

P (”Esce un numero pari”).

Circa l’ assegnazione della probabilita’, storicamente sono state proposte diverse soluzioni. Nel seguito

ne consideriamo due. La prima, detta approccio frequentistico, e’ semplice ed intutitiva ma pone dei

problemi nello sviluppo della teoria. La seconda, detta approccio assiomatico, e’ astratta e meno intuitiva

ma permette di sviluppare la teoria in modo rigoroso e sara’ quella che seguiremo in queste dispense.

3.3 Approccio frequentistico

Consideriamo un fenomeno aleatorio ed i corrispondenti insiemi dei risultati Ω e degli eventi Φ. Nell’

approccio frequentistico la probabilita’ di un evento A ∈ Φ viene definita nel modo seguente. Si suppone

di ripetere il fenomeno n volte. Per ciascuna ripetizione si ottiene un risultato ω ∈ Ω e si puo’ valutare

se il risultato e’ favorevole all’ evento, il che succede quando ω ∈ A, o contrario, il che succede quando

ω /∈ A. E’ quindi possibile contare quante volte, sulle n ripetizioni, il risultato e’ stato favorevole all’

evento ed indicare questo numero con nA. Si definisce poi il rapporto di frequenza per l’ evento A sulle n

prove, indicato con f(A), come il rapporto fra il numero di prove favorevoli su quelle totali. Il rapporto

di frequenza e’ quindi dato da

f(A) =nA

n.

Infine si definisce la probabilita’ dell’ evento A come il limite del rapporto di frequenza quando il numero

di prove tende all’ infinito, e cioe’

P (A) = limn→∞

nA

n.

Esempio 5 Consideriamo il lancio di una moneta per il quale Ω = Testa, Croce. La probabilita’

assegnata all’ evento ”esce testa” si ottiene effettuando n lanci e dividendo il numero di lanci in cui e’

uscito testa per il numero totale di lanci. E intuitivo che, al crescere di n, il numero di lanci in cui esce

16

Page 17: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

testa sara’ sempre piu’ vicino alla meta’ del totale dei lanci. Quindi

P (”Testa”) =1

2.

Notiamo che, sulla base della definizione frequentistica, la probabilita’ e’ un numero compreso fra zero

e uno. Inoltre un evento che non si verifica mai, detto un evento impossibile, ha una probabilita’ pari a

zero, mentre un evento che si verifica sempre, detto evento certo, ha probabilita’ uno.

L’ approccio frequentistico e’ semplice ed intutivamente soddisfacente, nel senso che cattura le nostre

aspettative sul significato di probabilita’. Per esempio permette di affermare che, su n ripetizioni di

un fenomeno aleatorio, un evento A si verifichera’ un numero di volte nA ≈ nP (A), che e’ un risultato

intuitivamente corretto. L’ approccio si presta pero’ ad alcune critiche. La prima e’ che il limite che

compare nella definizione della probabilita’ non puo’ essere calcolato con metodi analitici. Infatti l’

espressione di cui si prende il limite non puo’ essere scritta come funzione di n, visto che nA e’ un numero

casuale, non legato ad n in modo noto. Non e’ neanche ipotizzabile di ripetere effettivamente il fenomeno

un numero infinito di volte. L’ esistenza del limite deve quindi essere postulata ed il suo calcolo svolto

con considerazioni intuitive, come abbiamo fatto nell’ ultimo esempio.

I problemi appena citati non permettono di fondare una teoria rigorosa sull’ approccio frequentistico

che quindi non sara’ sviluppato ulteriormente in queste dispense. Questo approccio rimane pero’ impor-

tante per la sua intuitivita’ e quindi verra’ usato come supporto negli esempi e per spiegare in modo

semplificato alcuni argomenti.

3.4 Operazioni sugli eventi

Visto che gli eventi sono sottoinsiemi di Ω, su di essi restano definte le operazioni di unione, intersezione

e complementazione. Dati due eventi A e B possiamo quindi costruire gli eventi unione C = A ∪ B,

intersezione C = AB oppure C = A ∩B e complementare C = A.

Come sappiamo ogni evento e’ legato ad una affermazione di verita’ o falsita’ sul risultato. Allora

dati due eventi e le corrispondenti affermazioni, l’ evento unione sara’ verificato quando una oppure l’

altra delle due affermazioni e’ vera. A livello logico quindi l’ operazione di unione corrisponde ad un or.

Analogamente l’ evento intersezione sara’ verificato quando entrambe le affermazione sono vere. A livello

logico quindi l’ operazione di intersezione corrisponde ad un and. Infine, l’ evento complementare sara’

verificato quando l’ affermazione e’ falsa. A livello logico quindi l’ operazione di corrisponde ad un not.

Esempio 6 Consideriamo il lancio di un dado e gli eventi A = ”Il risultato e’ pari” = 2, 4, 6 e B =

”Il risultato e’ maggiore di quattro” = 5, 6. L’ evento unione e’

A ∪B = ”Il risultato e’ pari o maggiore di quattro” = 2, 4, 5, 6.

L’ evento intersezione e’

AB = ”Il risultato e’ pari e maggiore di quattro” = 6.

Il complementare di A e’

A = ”Il risultato non e’ pari” = 1, 3, 5.

Consideriamo ora l’ insieme degli eventi Φ di un fenomeno aleatorio. Visto che, dati due eventi

A,B ∈ Φ, possiamo costruire nuovi insiemi usando le operazioni viste prima, e’ utile richiedere che anche

il risultato di queste operazioni appartenga a Φ, ovvero sia un evento del quale possiamo valutare la

17

Page 18: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

probabilita’. Questo e’ garantito se Φ e’ una sigma-algebra su Ω nel senso della definizione 3 e quindi

nel seguito richiederemo che questa condizione sia verificata. Una maniera generale di garantire questa

condizione e’ quella di scegliere Φ = P(Ω) e cioe’ di scegliere come insieme degli eventi l’ insieme delle

parti di Ω, costituito da tutti i possibili sottoinsiemi di Ω, compresi l’ insieme vuoto e Ω stesso. Questa

scelta e’ la piu’ semplice ma non e’ sempre possibile o conveniente, come vedremo meglio in seguito.

3.5 Spazi di probabilita’

Per presentare l’ approccio assiomatico ricordiamo che due insiemi si dicono disgiunti se la loro intersezione

coincide con l’insieme vuoto. Se gli insiemi sono eventi si dice che gli eventi sono disgiunti oppure

mutuamente esclusivi. Cio’ posto, diamo la seguente

Definizione 4 Probabilita’. Dato un insieme Ω e un insieme Φ sigma-algebra su Ω, diremo che una

funzione P : Φ → ℜ e’ una probabilita’ su Φ se risulta che

1) P ≥ 0, P (Ω) = 1

2) Se Ai ∈ Φ per i = 1, ...,∞ e’ una successione di eventi a due a due disgiunti e cioe’ tali che AiAj = ∅per i 6= j, allora (sigma-additivita’)

P

(

∞⋃

i=1

Ai

)

=

∞∑

i=1

P (Ai). (3.1)

Si noti che la 2) comprende anche il caso di un numero finito di eventi (basta porre gli altri a ∅).Nell’ approccio assiomatico, messo a punto da Kolmogorov intorno al 1930, il modello matematico di

un fenomeno aleatorio viene chiamato uno spazio di probabilita’ ed e’ costruito come segue.

Definizione 5 Spazio di Probabilita’. Uno spazio di probabilita’ e’ una terna < Ω,Φ, P > in cui Ω e’ un

insieme, Φ e’ una sigma-algebra su Ω e P e’ una probabilita’ su Φ.

Esempio 7 Costruiamo uno spazio di probabilita’ che descriva il lancio di un dado a sei facce. L’ insieme

dei risultati e’ Ω = 1, 2, 3, 4, 5, 6. Come insieme degli eventi Φ prendiamo l’ insieme delle parti di Ω.

Per ricavare P , la probbailita’, introduciamo una funzione p : Ω → ℜ, che chiameremo una densita’ di

probabilta’ e che associa a ogni elemento di Ω un numero reale. In particolare poniamo

p(i) = 1/6 i ∈ Ω.

Cio posto la probabilita’ di un evento A viene calcolata come segue

P (A) =∑

i∈A

p(i).

E’ facile verificare che la funzione appena definita soddisfa le condizioni della definizione 4 ed e’ quindi

una probabilita’.

Con la definizone della probabilita’ la costruzione dello spazio e’ completa e siamo in grado di calcolare

la probabilita’ degli eventi. Per esempio la probabilita’ dell’ evento A = ”Esce un numero maggiore

di quattro” = 5, 6 si puo’ calcolare come

P (A) =∑

i∈5,6

p(i) = p(5) + p(6) = 1/3.

18

Page 19: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Notiamo che nell’ approccio frequentistico la definizione di probabilita’ fornisce anche un metodo

di calcolo della probabilita’ stessa. Questo non succede nell’ approccio assiomatico, dove ci si limita a

postulare l’ esistenza della probabilita’ ed a specificare alcune sue proprieta’, quelle della definizione 4,

che sono le uniche necessarie per sviluppare in modo rigoroso la teoria. Inoltre l’ approccio frequentistico

fornisce anche una interpretazione del significato di probabilita’ ed in particolare indica che un evento

con probabilita’ P (A) si verifica circa nP (A) volte su n ripetizioni del fenomeno. Questa interpretazione

continua naturalmente a valere nell’ approccio assiomatico, come vedremo meglio nel capitolo 8, ma non

segue immediatamente dalla definizione 4.

Lo studio di un fenomeno aleatorio nell’ approccio assiomatico e’ diviso in due passi logici. Per prima

cosa e’ necessario costruire lo spazio di probabilita’. In particolare, bisogna identificare una probabilita’

che verifichi definizione 4 e che sia adeguata al fenomeno aleatorio che si sta’ modellando. Questa prob-

abilita’ non viene ricavata nell’ ambito dell’ approccio assiomatico ma sulla base di altre considerazioni,

come abbiamo fatto nell’esempio precedente. Il secondo passo e’ invece l’ applicazione del calcolo delle

probabilita’ allo spazio cosi’ costruito ed e’ l’ argomento principale di questo corso.

Visto che l’ approccio assiomatico non fornisce indicazioni su come ricavare la probabilita’ possono

verificarsi dei paradossi. Per esempio, possiamo costruire uno spazio di probabilita’ per il lancio di un dado

ottenuto come segue: lo spazio e’ identico a quello dell’ esempio 7 con l’ unica differenza che poniamo

P (i) = 1/4 per i = 1, ..., 4 e P (i) = 0 per i = 5, 6.. Intuitivamente, questa scelta e’ sbagliata ma la

probabilita’ che si ottiene con questa scelta verifica la definizione 4 e quindi lo spazio costruito e’ corretto

dal punto di vista assiomatico e non c’e’ nessun modo di dimostrare che la scelta della probabilita’ sia

errata.

Anche se l’ approccio assiomatico non permette di verificare la correttezza o meno di una funzione

probabilita’, questo puo’ farsi in altre maniere. In particolare l’ obbiettivo ultimo del calcolo delle

probabilita’ e’ quello di fare previsioni sugli esiti di un fenomeno aleatorio. Allora, per verificare la bonta’

o meno di uno spazio di probabilita’ e’ possibile utilizzarlo per fare queste previsioni e confrontare i

risultati ottenuti con la realta’. Questo e’ un terzo passo che occorre sempre prevedere nell’ analisi di un

fenomeno aleatorio tramite l’ approccio assiomatioco. Per esempio, usando lo spazio precedente si ricava

che il risultato del lancio non puo’ essere mai cinque o sei, che e’ un fatto immediatamente smentito dalla

realta’ e che indica che lo spazio non e’ adeguato. Al contrario, usando lo spazio dell’ esempio 7, tutte le

previsioni che si ottengono sono in accordo con i risultati effettivi, il che indica che lo spazio e’ un buon

modello per il fenomeno aleatorio, che corrisponde alle nostre aspettative.

Esempio 8 Consideriamo ancora il lancio di un dado a sei facce ma supponiamo di essere interessati solo

a sapere se il risultato sara’ pari o dispari, per esempio perche’ dobbiamo scommettere su questo fatto.

Per analizzare il fenomeno possiamo usare uno spazio in cui Ω = pari, dispari, Φ = P(Ω) e costruiamo

la probabilita’ assegnando la probabilita’ al seguente modo: P (Ω) = 1, P (∅) = 0, P (pari) = 1/2 e

P (dispari) = 1/2. Questo stesso spazio, sostituendo ”pari” con ”testa” e ”dispari” con ”croce” sarebbe

adeguato come modello per il lancio di una moneta bilanciata.

L’ ultimo esempio mostra che a uno stesso fenomeno aleatorio possono essere associati diversi spazi

di probabilita’ e che uno stesso spazio di probabilita’ puo’ essere usato per descrivere diversi fenomeni

aleatori.

3.6 Proprieta’

Esaminiamo alcune proprieta’ elementari. Dato uno spazio < Ω,Φ, P > consideriamo due eventi A,B ∈Φ. Visto che Φ e’ una sigma-algebra avremo che A ∈ Φ. Inoltre e’ sempre vero che A ∪ A = Ω e che

B = BΩ. Dalle ultime due relazioni si ricava B = B(A∪ A) = (BA)∪ (BA) e, visto che i due insiemi fra

parentesi nell’ ultima espressione sono disgiunti, usando la 3.1 possiamo scrivere

P (B) = P (BA) + P (BA). (3.2)

19

Page 20: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

A questo punto, usando la formula precedente con B = Ω e visto che P (Ω) = 1, ricaviamo

P (A) = 1− P (A) (3.3)

la quale fornisce una formula per il calcolo della probabilita’ dell’ evento complementare. Usando A = Ω

nell’ ultima equazione ricaviamo

P (∅) = 0 (3.4)

e cioe’ che la probabilita’ dell’ evento vuoto (impossibile) e’ zero.

Consideriamo due eventi A,B tali che A ⊂ B cioe’ che A e’ contenuto o coincidente con B. Ovviamente

risulta A = AB. Usando questo fatto nella (3.2) e notando che P (BA) ≥ 0 si ricava

P (B) ≥ P (A) (3.5)

ovvero che un evento ha probabilita’ maggiore o uguale di tutti gli altri eventi che contiene.

Consideriamo due eventi A,B non necessariamente disgiunti. E’ facile verificare che vale la seguente

identita’ A ∪ B = A ∪ (BA) e che i due eventi a destra dell’ uguale sono disgiunti. Allora, per la (3.1),

P (A ∪B) = P (A) + P (BA) ed usando la (3.2) si ottiene

P (A ∪B) = P (A) + P (B)− P (AB) (3.6)

che fornisce una formula di calcolo della probabilita’ dell’ unione di due eventi2 non necessariamente

disgiunti.

3.7 Spazi discreti, probabilita’ uniformi

Gli spazi di probabilita’ possono essere classificati sulla base dell’ insieme dei risultati. Una classe im-

portante e’ quella degli spazi discreti. Uno spazio e’ discreto quando Ω e’ un insieme di cardinalita’

finita oppure discreto, e cioe’ i cui elementi possono essere messi in corrispondenza con i numeri interi

o naturali. Tutti gli spazi che abbiamo visto finora sono di questo tipo. Gli spazi discreti sono sono un

caso semplice e utile e nel seguito ne studiamo alcune caratteristiche.

In uno spazio discreto < Ω,Φ, P > l’ insieme dei risultati si puo’ scrivere come Ω = ω1, ω2, .... dove

gli ωi per i = 1, ...,∞ sono i possibili risultati, numerabili. In questo spazio l’ insieme degli eventi Φ

puo’ sempre essere preso pari a P(Ω), cioe’ a tutti i sottoinsiemi di Ω, che e’ ovviamente una sigma-

algebra. Per quanto riguarda la probabilita’, consideriamo un evento A = a1, a2, ..., introduciamo gli

eventi elementari Ai = ai e notiamo che A = A1 ∪ A2 ∪ ...... Cioe’, a parole, ogni evento puo’ essere

scritto come unione di eventi elementari corrispondenti ai suoi elementi. D’ altra parte gli insiemi Ai

sono disgiunti, quindi, usando la sigma-additivita’, ricaviamo

P (A) = P (A1) + P (A2) + ...

L’ ultima espressione mostra che, in uno spazio discreto, la probabilita’ di un evento si puo’ calcolare

sommando le probabilita’ degli eventi elementari che lo compongono. Questa circostanza permette di

introdurre una espressione canonica per la probabilita’. Per discutere questa espressione, premettiamo la

seguente

Definizione 6 Densita’ discreta. Dato un insieme discreto Ω e una funzione p : Ω → ℜ diciamo che p e’

una densita’ di discreta se risulta che

p(x) ≥ 0 perx ∈ Ω∑

x∈Ω

p(x) = 1. (3.7)

2La formula si estende facilmente al caso dell’ unione di n eventi. Si veda [3].

20

Page 21: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 3.1: Visualizzazione dell’ insieme dei risultati di uno spazio discreto.

Ora possiamo introdurre la forma canonica per la probabilita’ di uno spazio discreto. Questa forma si

ottiene assegnando una densita’ discreta p(x) e calcolando la probabilita’ di un evento A come la somma

dei valori che p(x) assume sugli elementi di A, cioe’ come

P (A) =∑

x∈A

p(x). (3.8)

E’ facile verificare che, se p(x) e’ una densita’, la funzione P (A) definta in (3.8) e’ una probabilita’ nel

senso della definizione 43. Inoltre, e’ facile verificare che p(x) = P (x), cioe’ che la densita’ valutata in

x fornisce la probabilita’ dell’ evento elementare x.Per visualizzare la probabilita’ in uno spazio discreto si puo’ pensare che la probabilita’ sia un peso.

In questa interpretazione la densita’ fornisce il peso di tutti gli eventi elementari, mostrati in figura 3.1

come punti nel piano, con la condizione che la somma di tutti i pesi sia unitaria. Gli altri eventi sono

sottoinsiemi di Ω e quindi unioni di eventi elementari, ed il loro peso e’ pari alla somma dei pesi degli

eventi elementari che contengono. E chiaro, come mostrato in figura, che se due eventi A e B sono

disgiunti, il peso della loro unione sara’ pari alla somma dei loro pesi, e quindi la sigma-additivita’ e’

garantita.

Esempio 9 Un mazzo di carte da gioco italiane e’ composto da 40 carte divise in quattro semi, bastoni,

denari, spade e coppe. Per ogni seme ci sono 10 carte, numerate da 1 (l’ asso) a dieci (il re). Consideriamo

il fenomeno aleatorio consistente nel mescolare accuratamente il mazzo e poi estrarre una carta a caso.

Costruiamo lo spazio relativo. Un possibile risultato puo’ essere indicato con una coppia (n, s) in cui n e’

un numero fra uno e dieci ed s e’ una lettera dell’ insieme S = B,O, S,C che indica il seme. Per esempio

(9, C) e’ il nove (il cavallo) di coppe. L’ insieme dei risultati e’ quindi Ω = (n, s)|s ∈ S, n = 1, ..., 10 e

Φ = P(Ω). Dobbiamo ora introdurre una densita’ p(n, s) che, al variare di s e n da’ la probabilita’ dell’

evento elementare (n, s). A questo fine notiamo che, se il mazzo e’ ben mescolato, tutte le carte hanno

la stessa probabilita’ di essere estratte. Visto che ci sono 40 eventi elementari e che la somma delle loro

probabilita’ deve essere unitaria, possiamo porre

p(n, s) =1

40per (n, s) ∈ Ω.

3E’ ovviamente maggiore di o uguale a zero. Inoltre

P (Ω) =∑

x∈Ω

p(x) = 1.

Infine, se gli eventi An per n = 1, ...,∞ sono disgiunti e quindi non hanno elementi in comune

P (

∞⋃

n=1

An) =∑

x∈⋃

∞n=1 An

p(x) =

∞∑

n=1

x∈An

p(x) =

∞∑

n=1

P (An).

La funzione rispetta quindi le condizioni della definizone 4.

21

Page 22: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Quando Ω e’ un insieme finito, con cardinalita’ N , una densita’ importante e’ quella data da

p(x) =1

Nx ∈ Ω.

Con questa scelta tutti gli eventi elementari hanno la stessa probabilita’, pari a 1/N . Questa densita’

viene detta uniforme e ricorre spesso in pratica. E’ quella usata nell’ esempio precedente ed e’ la scelta

naturale quando non ci sono motivi perche’ un risultato sia piu’ probabile di un altro. Con questa densita’,

la probabilita’ degli eventi e’ facile da calcolare. Infatti dalla (3.8) si ottiene

P (A) =∑

x∈A

p(x) =∑

x∈A

1

N=

|A|N

(3.9)

cioe’ la probabilita’ di A si ottiene dividendo la cardinalita’ di A per il numero di possibili risultati.

Un caso particolare importante e’ quello uno spazio intero. Uno spazio e’ intero quando Ω ⊂ ℑn. In

questo spazio, visto che Ω e’ contenuto in un prodotto scalare, gli elementi di Ω hanno una struttura. In

particolare sono n-uple (vettori) di numeri interi e si possono scrivere come x = (i1, i2, ..., in). Questa

struttura si riflette sulla densita’, che si puo’ scrivere come p(i1, ..., in) ed e’ una funzione definita sui

numeri interi, una semplificazione rispetto al caso generale, in cui e’ definita su un generico insieme.

Inoltre e’ pratico pensare che la densita’ sia definta su tutte le n-uple di interi, naturalmente ponendola

a zero per le n-uple non comprese in Ω. In questo modo le condizioni che la funzione deve verificare per

essere una densita’ si scrivono

p(i1, ..., in) ≥ 0 i1, ..., in ∈ ℑ∞∑

i1,...,in=−∞

p(i1, ..., in) = 1. (3.10)

Esempio 10 Consideriamo un fenomeno aleatorio consistente nel lanciare una coppia di dadi a sei facce

ed osservare i risultati. L’ insieme dei possibili risultati e’ costituito da tutte le coppie di numeri (i, j)

per i, j = 1, ..., 6 e si puo’ scrivere come Ω = (i, j)|i, j = 1, ..., 6. Questo e’ quindi uno spazio discreto e

finto, visto che |Ω| = 36. Possiamo considerare un evento un qualsiasi sottoinsieme di Ω e specificare la

probabilita’ introducendo una una densita’ discreta p(i, j). Visto che tutti i risultati sono equiprobabili,

la scelta naturale e’ quella di una densita’ uniforme e quindi poniamo

p(i, j) =1

36i, j = 1, ..., 6 p(i, j) = 0 altrove.

Cio’ posto, la probabilita’ di un evento A ⊂ Ω si calcola come

P (A) =∑

(i,j)∈A

p(i, j) =|A|36

.

Per calcolare la probabilita’ di un evento quindi e’ sufficente valutarne la cardinalita’ cioe’ valutare da

quanti elementi di Ω e’ composto. Questa operazione viene semplificata visualizzando l’ insieme Ω come

mostrato in tabella 3.1 e cioe’ come una matrice sei per sei, in cui l’ndice di riga corrisponde al risultato

del primo dado e quello di colonna al secondo dado.

Come esempio calcoliamo la probabilita’ dell’ evento A = ”esce almeno un uno”. I risultati favorevoli

a questo evento sono tutti quelli sulla prima riga o sulla prima colonna e quindi A e’ la loro unione e

risulta |A| = 11. La probabilita’ e’ quindi

P (A) = P (”esce almeno un uno”) =|A|36

=11

36= 0, 306.

Calcoliamo la probabilita’ dell’ evento B = ”la somma dei dadi e’ 4”. Ci sono tre risultati favorevoli

a questo evento, quindi

P (B) = P (”la somma dei dadi e’ 4”) =3

36.

22

Page 23: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Table 3.1: Spazio dei risultati del lancio di una coppia di dadi.

3.8 Eventi condizionati

Consideriamo un fenomeno aleatorio ed il relativo spazio di probabilita’ e supponiamo di avere infor-

mazione a priori sull’ esito del fenomeno. In particolare supponiamo di sapere che si e’ verificato un

certo evento A. E’ molto utile, sia in pratica che in teoria, avere una maniera per tenere conto di questa

informazione ed in particolare per ricalcolare le probabilita’ degli eventi sapendo che A si e’ verificato.

Con questo scopo, nell’ approccio assiomatico viene data la seguente

Definizione 7 Probabilita’ condizionata. Siano dati uno spazio di probabilita’ < Ω,Φ, P > e due eventi

A e B con P (A) > 0. Si definisce la probabilta’ condizionata di B dato A come

P (B|A) = P (BA)

P (A)(3.11)

Notiamo che, nell’equazione precedente, possiamo pensare che A sia un evento fisso e noto mentre B e’ un

qualsiasi evento di Φ. In questo modo l’ equazione definisce una funzione P (.|A) : Φ → ℜ ed e’ il metodo

adottato nell’ approccio assiomatico per ricalcolare la probabilita’ di un qualsiasi evento sapendo che A

si e’ verificato. E’ facile verificare4 che questa funzione e’ una probabilita’ nel senso della definizione 4.

Quindi la funzione puo’ essere usata per costruire un secondo spazio, dato da < Ω,Φ, P (.|A) >, che ha

gli stessi risultati ed eventi dello spazio di partenza, ma in cui la probabilita’ e’ ricalcolata sulla base del

fatto che si verifica A. Questo spazio e’ detto lo spazio condizionato. Notiamo anche che dalla definizione

si ottiene una espressione per la probabilita’ dell’ intersezione di due eventi e cioe’

P (AB) = P (B|A)P (A). (3.12)

Esempio 11 Consideriamo ancora il lancio di una coppia di dadi, di cui abbiamo ricavato lo spazio

nell’ esempio 10 ed il cui insieme dei risultati e’ riportato in tabella 3.1. Calcoliamo la probabilita’ dell’

evento B =”La somma dei due risultati e’ due”. A questo fine occorre contare sulla tabella quanti eventi

elementari sono favorevoli ad B e si vede subito che |B| = 1 e quindi P (B) = 1/36. Ora calcoliamo la

probabilita’ dell’ evento A =”Il risultato del primo dado e’ uno”. A questo evento sono favorevoli tutti

gli eventi elementari della prima riga della tabella, quindi |A| = 6 e P (A) = 6/36 = 1/6.

Calcoliamo ora la probabilita’ che la somma sia due se sul primo dado e’ uscito uno, cioe’ la probabilita’

condizionata di B dato A, P (B|A). Intuitivamente, se il risultato del primo dado e’ noto e pari a uno

la somma sara’ due se anche il secondo lancio ha come risultato uno. Il secondo lancio e’ un numero

casuale fra uno e sei e sara’ pari a uno solo una volta su sei. Quindi la probabilita’ condizionata di B

e’ P (B|A) = 1/6. Lo stesso risultato si ottiene applicando la definizione. Per calcolare la probabilita’

4Infatti ovviamente P (B|A) ≥ 0 e P (Ω|A) = P (ΩA)/P (A) = P (A)/P (A) = 1. Inoltre se gli eventi Bi sono disgiunti,

P

[(

∞⋃

i=1

Bi

)

|A]

=P[(⋃∞

i=1 Bi

)

A]

P (A)=

P[(⋃∞

i=1 ABi

)]

P (A)=

∞∑

i=1

P (ABi)

P (A)=

∞∑

i=1

P (Bi|A).

23

Page 24: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

con la definizione, notiamo che l’ evento intersezione AB, e cioe’ che il primo lancio valga uno e che la

somma dei lanci sia due, contiene un solo elemento AB = (1, 1) e quindi P (AB) = 1/36. A questo

punto, applicando la definizione

P (B|A) = P (BA)

P (A)=

1/36

1/6=

1

6

come ci aspettavamo. Si noti come varia la probabilita’ di B che e’ un 1/36 a priori, mentre cresce fino

a 1/6 quando si verfica A. In altre parole, se sul primo dado e’ uscito uno, e’ molto piu’ probabile che la

somma faccia due.

Come ulteriore esempio consideriamo l’ evento C =”Esce uno su almeno uno dei due dadi” e calcoliamo

P (B|C). All’evento C sono favorevoli tutti i risultati sulla prima riga o sulla prima colonna della tabella

3.1 e quindi P (C) = |C|/36 = 11/36. Risulta inoltre BC = (1, 1) e quindi P (BC) = 1/36. Dalla (3.11)

si ottiene

P (B|C) =P (BC)

P (C)=

1/36

11/36=

1

11.

Nell’ ambito dell’ approccio assiomatico non e’ possibile ne’ necessario dimostrare che la (3.11) sia

un buon metodo per ricalcolare la probabilita’ degli eventi sapendo che A si e’ verificato. L’equazione e’

una definizione e come tale va presa. Il suo uso e’ giustificato dal fatto che i risultati a cui porta sono

in accordo con le nostre aspettative. E’ comunque possibile comprendere il senso della definizione con

ragionamenti intuitivi oppure lavorando con l’ approccio frequentistico.

Nell’ approccio frequentistico, il problema di ricalcolare le probabilita’ degli eventi sapendo che un

certo evento A si e’ verificato puo’ essere affrontato come segue. Effettuiamo n ripetizioni del fenomeno,

contiamo le volte in cui si e’ verificato l’ evento A e le indichiamo con nA e contiamo le volte in cui

si e’ verificato l’evento BA e le indichiamo con nBA. Poi definiamo un nuovo fenomeno aleatorio, che

chiamiamo il fenomeno condizionato all’ evento A, scartando dalla sequenza dei risultati tutti quelli in

cui non si e’ verificato A. In altre parole, per avere un risultato del fenomeno condizionato dobbiamo

eseguire il fenomeno originale fino a che il risultato non verifica A. A questo punto possiamo calcolare,

con l’approccio frequentistico, la probabilita’ di un evento B nel fenomeno condizionato, che scriviamo

P (B|A). Visto che, nel fenomeno condizionato, il numero di risultati e’ nA ed il numero di risultati

favorevoli a B e’ nBA, il rapporto di frequenza sara’

f(B|A) = nAB

nA=

nAB

n

n

nA

e, quando n → ∞, otteniamo

P (B|A) = limn→∞

nAB

n

n

nA= P (BA)

1

P (A)=

P (BA)

P (A).

L’ ultima equazione mostra che si ottiene la (3.11) anche lavorando nell’ approccio frequentistico e quindi

giustifica la definizone 7. Potrebbe sembrare che l’ approccio frequentistico permetta di ricavare la

probabilita’ condizionata mentre quello assiomatico la debba dare per definizione. In realta’ anche nell’

approccio frequentistico la probabilita’ condizionata e’ basata su una definizione, quella di fenomeno

aleatorio condizionato, che ha pero’ il pregio di essere piu’ intuitiva della definizione 7 usata dall’ approccio

assiomatico.

Come gia’ detto, il concetto di probabita’ condizionata e’ fondamentale perche’ permette di includere

nel calcolo di una probabilita’ eventuali informazioni aggiuntive che si hanno sull’ esito del fenomeno.

Come terminologia notiamo che la probabilita’ P (B) viene chiamata la probabilita’ a priori dell’ evento B

ed e’ quella che assegniamo a B in mancanza di altre informazioni. La probabilita’ P (B|A) viene invece

detta la probabilita’ a posteriori dell’ evento, ricalcolata dopo aver saputo che si e’ verificato l’ evento A.

24

Page 25: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 3.2: Esempio della partizione di Ω in cinque insiemi disgiunti Ai. Sulla fgura di destra e’ aggiunto

un insieme B che si ottiene come unione disgiunta delle sue intersezioni con gli insiemi della partizione.

3.9 Bayes e probabilita’ totali

In questa sezione ricaviamo altre formule elementari ma utili. Premettiamo una definizione:

Definizione 8 Partizione. Dato un insieme Ω, una successione di suoi sottoinsiemi Ai per i = 1, ..., n si

dice una partizione di Ω se sono verificate due condizioni. La prima e’ AiAj = ∅ per i 6= j, e cioe’ che i

sottoinsiemi siano mutuamente disgiunti. La seconda e’

n⋃

i=1

Ai = Ω

e cioe’ che l’ unione di tutti gli insiemi della successione sia pari a Ω. La definizione vale anche per n = ∞.

Un esempio di partizione e’ mostrato in figura 3.2.

Dati uno spazio di probabilita’, una partizione Ai ed un evento B, la seguente equazione e’ nota col

nome di teorema delle probabilita’ totali

P (B) =n∑

i=1

P (B|Ai)P (Ai) (3.13)

e permette di calcolare la probabilita’ di un evento a partire dalle probabilita’ dell’ evento condizionate

agli elementi della partizione. Vale anche per n = ∞. Dimostrazione: visto che Ai e’ una partizione,

possiamo scrivere

B = BΩ = B(

n⋃

i=1

Ai) =

n⋃

i=1

BAi

e notare che gli eventi BAi, mostrati in figura 3.2, sono disgiunti. Usando la (3.1), si ricava

P (B) = P (

n⋃

i=1

BAi) =

n∑

i=1

P (BAi).

Infine, usando la (3.12), si nota che P (BAi) = P (B|Ai)P (Ai) e quindi dall’ ultima espressione segue la

(3.13).

Esempio 12 Consideriamo una popolazione composta da fumatori al 40% e da non fumatori al 60%.

Da misure si sa che il 25% dei fumatori e’ affetto da una malattia respiratoria mentre solo il 7% dei non

fumatori soffre della stessa patologia. Ci chiediamo quale e’ la probabilita’ che una persona scelta a caso

abbia la malattia. Per rispondere, introduciamo i seguenti eventi: F =”l’ individuo scelto e’ fumatore”,

N =”l’ individuo scelto non e’ fumatore” e M =”l’ individuo scelto e’ malato”. Per rispondere alla

domanda che ci siamo posti dobbiamo calcolare P (M). La situazione e’ mostrata in figura 3.3 dove viene

mostrato l’ insieme Ω costituito da tutti gli individui, e gli eventi considerati e si nota che F e N formano

25

Page 26: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 3.3: Partizione della popolazione Ω in fumatori e non fumatori. L’ insieme M sono gli individui

malati.

una partizione. Dai dati del problema si ricava che P (F ) = 0, 4, P (N) = 0, 6, P (M |F ) = 0, 25 e che

P (M |N) = 0, 07. Quindi, usando la (3.13) possiamo scrivere

P (M) = P (M |F )P (F ) + P (M |N)P (N) = 0, 142.

Dati uno spazio di probabilita’ e due eventi A,B, la seguente equazione e’ nota col nome di formula

o regola di Bayes

P (A|B) =P (B|A)P (A)

P (B). (3.14)

La dimostrazione e’ immediata notando che, per la (3.11), possiamo scrivere P (A|B) = P (AB)/P (B) e

P (B|A) = P (AB)/P (A), e ricavando P (AB) della seconda e sostituendo nella prima si ottiene la (3.14).

Esempio 13 Proseguiamo l’ esempio 12 e calcoliamo la probabilita’ che una persona malata sia un

fumatore. Con le notazioni di prima questa probabiita’ e’ P (F |M) e usando la formula di Bayes otteniamo

P (F |M) =P (M |F )P (F )

P (M)=

0, 25 · 0, 40, 142

= 0, 704.

Come commento notiamo che gli ultimi due esempi mostrano che non e’ necessario costruire esplicita-

mente lo spazio di probabilita’ per svolgere i calcoli. In effetti negli esempi ci siamo limitati a descrivere

l’insieme dei risultati ed alcuni eventi. Non sarebbe difficile costruire in modo completo lo spazio ma,

visto che e’ inutile, si puo’ evitare di farlo, dandolo per sottinteso. Questo approccio e’ pratico e lo

useremo ancora.

Dati uno spazio di probabilita’, un evento B ed una partizione Ai, la seguente equazione e’ nota col

nome di teorema da Bayes

P (Ai|B) =P (B|Ai)P (Ai)

∑nk=1 P (B|Ak)P (Ak)

(3.15)

e si ricava immediatamente dalla (3.14) e dalla (3.13).

Esempio 14 Medico Bayesiano Consideriamo una popolazione in cui il generico individuo puo’ essere

affetto da una e una sola malattia presa da un insieme di n diverse malattie. In particolare indichiamo

con Mi per i = 0, ..., n l’ evento

Mi = ”L’ individuo e’ affetto dalla i-esima malattia”

con la convenzione che M0 indica che l’ individuo e’ sano. Supponiamo che l’ individuo possa presentare

uno o piu’ sintomi presi da un insieme di m diversi sintomi. In particolare indichiamo con Sj per

j = 1, ...,m l’ evento

Sj = ”L’ individuo presenta il j-esimo sintomo”.

26

Page 27: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Supponiamo anche di conoscere, per esempio grazie a misure, le probabilita’ (a priori) che una generica

persona sia affetta dalla i-esima malattia, P (Mi) per i = 0, ..., n, e la probabilita’ che in una persona

affetta dalla i-esima mallattia insorga il j-esimo sintomo, P (Sj |Mi) per i = 0, ..., n e j = 1, ...,m.

Consideriamo ora un medico dal quale si presenta un paziente con un sintomo, per esempio il j-esimo.

Per effettuare la diagnosi, cioe’ indicare quale e’ la malattia che il paziente potrebbe avere, il medico puo’

ricalcolare la probabilita’ delle varie malattie sulla base del fatto che il paziente presenta il j-esimo sintomo

ed indicare la piu’ probabile. In altre parole il medico deve calcolare la probabilita’ (a posteriori) delle

varie malattie dato il sintomo, cioe’ P (Mi|Sj). A questo fine notiamo che gli eventi Mi sono disgiunti,

cioe’ tali che MiMh = ∅ (perche’ abbiamo supposto che il paziente sia sano o affetto da una sola malattia).

Inoltre per ogni individuo uno degli eventi e’ necessariamente verificato e quindi l’ unione degli eventi

copre tutta la popolazione. Gli eventi Mi definiscono dunque una partizione della popolazione. Allora,

applicando il teorema di Bayes, si ricava

P (Mi|Sj) =P (Sj |Mi)P (Mi)

∑nk=1 P (Sj |Ak)P (Ak)

.

Esempio 15 Medico Bayesiano Anche se non e’ necessario, e’ istruttivo studiare lo spazio di probabilita’

relativo all’ultimo esempio. Intanto il fenomeno aleatorio consiste nell’ estrarre a caso un individuo dalla

popolazione e verificare se presenta malattie o sintomi. Il risultato del fenomeno e’ quindi l’ indicazione

della (eventuale) malattia e dei sintomi. Per descrivere il risultato possiamo intorodurre un vettore

ω = (k, s1, s2, ..., sm) in cui k = 0, ..., n indica la malattia riscontrata (zero se non ci sono malattie)

mentre sj = 1/0 se il paziente presenta/non presenta il j-esimo sintomo. L’ insieme dei risultati e’

costituito da tutti i vettori di questo tipo: Ω = (k, s1, ..., sm) ⊂ ℑm+1|k ∈ 0, 1, 2, ..., n, sj ∈ 0, 1.L’ evento Mi corrisponde a tutti i vettori di Ω in cui la prima componente, k, e’ pari a i. L’ evento Sj

corrisponde a tutti i vettori in cui sj = 1.

3.10 Indipendenza e prove ripetute

Definizione 9 Eventi indipendenti. Dato uno spazio di probabilita’ e n eventi Ai per i = 1, ..., n, gli

eventi si dicono (statisticamente) indipendenti se, assegnati in qualsiasi modo k ≤ n numeri n1, n2, ..., nk

tutti diversi e compresi fra 1 ed n risulta

P (An1An2

· · ·Ank) = P (An1

)P (An2) · · · P (Ank

). (3.16)

In particolare, due eventi A e B sono indipendenti se

P (AB) = P (A)P (B). (3.17)

Per comprendere il significato della definizione valutiamo le probabilita’ condizionate dei due eventi.

Se A e B sono indipendenti allora

P (A|B) =P (AB)

P (B)=

P (A)P (B)

P (B)= P (A)

e, analogamente,

P (B|A) = P (B).

Le ultime due equazioni ci dicono che se due eventi sono indipendenti, il verificarsi dell’ uno non ha

impatto sulla probabilita’ dell’ altro.

27

Page 28: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Esempio 16 Consideriamo ancora il lancio di una coppia di dati come in esempio 10. Consideriamo i

due eventi A =”sul primo dado esce due” e B =”sul secondo dado esce tre”. Valutando i casi favorevoli

dalla tabella 3.1 otteniamo P (A) = 6/36 = 1/6 e P (B) = 6/36 = 1/6. Considerando poi l’ evento

AB, questo contiene solo il risultato elementare (2, 3), e dunque P (AB) = 1/36 = P (A)P (B). I due

eventi sono quindi indipendenti. Piu’ in generale si puo’ verificare che tutte le affermazioni sul risultato

del primo dado sono statisticamente indipendenti dalle affermazioni sul risultato del secondo, come e’

intuitivo.

In alcuni fenomeni aleatori e’ possibile assumere l’ indipendenza di alcuni eventi, per ragioni fisiche o

come approssimazione pratica, e questa assunzione normalmente semplifica la costruzione dello spazio e

il calcolo delle probabilita’.

Esempio 17 Medico Bayesiano Proseguiamo l’ esempio 14 e supponiamo che dal medico si presenti un

paziente con due sintomi, per esempio il j-esimo e l’ h-esimo. Naturalmente questo evento corrisponde

all’ intersezione di Sj e di Sh, indicata con SiSh. Per effettuare la diagnosi il medico puo’ calcolare la

probabilita’ a posteriori delle varie malattie dati i sintomi, cioe’ P (Mi|SjSh). Applicando il teorema di

Bayes si ricava

P (Mi|SjSh) =P (SjSh|Mi)P (Mi)

∑nk=1 P (SjSh|Ak)P (Ak)

.

Quindi in teoria il calcolo e’ possibile, ma per svolgerlo dobbiamo conscere le probabilita’ P (SjSh|Mi),

che potremmo non avere a disposizione. Per ovviare al problema possiamo supporre che i vari sintomi

siano indipendenti. Cioe’ supporre che, se il paziente ha, per esempio, la febbre, questo fatto non abbia

impatto sulla probabilita’ di avere, sempre per esempio, le bolle o i dolori addominali. In questa ipotesi

risulta

P (SjSh|Mi) = P (Sj |Mi)P (Sh|Mi)

il che’ mostra che possiamo svolgere il calcolo a partire dalla conoscenza delle sole P (Sj |Mi). Notiamo

che la cosa si estende anche a tre o piu’ sintomi. Notiamo anche che, naturalmente, l’ ipotesi che i sintomi

siano indipendenti e’ una approssimazione: per esempio la febbre rende piu’ probabile il mal di testa e

quindi questi due sintomi non sono effettivamente indipendenti.

Consideriamo un fenomeno aleatorio che puo’ dare luogo a due soli risultati, convenzionalmente detti

un successo e un insuccesso. Ripetendo questo fenomeno n volte si ottiene un nuovo fenomeno aleatorio,

che viene detto uno schema successo/insuccesso. Se i risultati delle varie ripetizioni si possono assumere

indipendenti, l’ analisi dello schema e’ relativamente semplice, come mostrato nel prossimo esempio.

Esempio 18 Schema successo/insuccesso. Consideriamo uno schema successo/insuccesso che consiste

nel lanciare n volte una moneta non bilanciata, in cui la probabilita’ che esca testa e’ q e quella che esca

croce (1 − q). Costruiamo lo spazio relativo. Associando testa e croce ai numeri uno e zero possiamo

rappresentare il risultato del fenomeno come un vettore binario di n elementi, (x1, x2, ..., xn), dove xi =

1/0 indica che all’ i-esimo lancio e’ uscita testa/croce. L’ insieme dei risultati Ω e’ costituito da tutti i

vettori di questo tipo, che sono 2n, si scrive Ω = (x1, x2, ..., xn) ∈ ℑn|xi = 1, 0 e lo spazio risulta intero.

Visto che lo spazio e’ intero la probabilita’ resta definita assegnando una densita’ discreta p(x1, x2, ..., xn).

Per assegnare la densita’ ricordiamo che la densita’ p(x1, x2, ..., xn) e’ pari alla probabilita’ dell’evento

elementare

E = (x1, x2, ..., xn) = ” Il primo risultato e’ x1, il secondo x2, il terzo x3, ...”

e cioe’ risulta P (E) = p(x1, x2, ..., xn). Allora possiamo calcolare la densita’ calcolando la probabilita’

degli eventi elementari. A questo fine, per ogni assegnato evento elementare (x1, x2, ..., xn), introduci-amo i seguenti eventi, per i = 1, ..., n,

Ei = ” Il risultato dell’ i-esimo lancio e’ xi”,

28

Page 29: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

costituiti da tutti i vettori di Ω in cui la i-esima componente e’ pari a xi. Poi notiamo che E si verifica se

e solo se si verificano tutti gli eventi Ei e quindi E = E1E2...En, e’ pari all’ intersezione degli Ei. Allora

P (E) = P (E1E2...En). D’ altra parte gli eventi Ei sono relativi a lanci diversi e possono essere assunti

statisticamente indipendenti. Quindi

P (E) = P (E1)P (E2)....P (En).

Infine notiamo che le probabilita’ degli eventi Ei sono facili da calcolare. In particolare risulta

P (Ei) = q se xi = 1 (testa)

P (Ei) = (1− q) se xi = 0 (croce) .

Allora, indicando con k =∑n

i=1 xi il numero di teste, si ricava

P (E) = qk(1− q)n−k.

La densita’ e’ dunque

p(x1, x2, ..., xn) = qk(1− q)n−k (3.18)

per (x1, x2, ..., xn) ∈ Ω ed e’ zero altrove. L’ ultima equazione e’ intuitiva. A parole dice che la probabilita’

di una sequenza con k teste e (n−k) croci e’ pari alla probabilita’ di fare testa elevata a k per la probabilita’

di fare croce elevata a (n−k). Per esempio la probabilita’ di fare sempre testa e’ p(1, 1, ..., 1) = qn mentre

quella di fare sempre croce e’ p(0, 0, ..., 0) = (1− q)n.

Piu’ in generale, dato un qualsiasi fenomeno aleatorio con spazio < Ω,Φ, P >, si puo’ pensare di

ripeterlo n volte e considerare l’ insieme delle ripetizioni come un altro fenomeno aleatorio, che viene

detto un fenomeno di prove ripetute e avra’ uno spazio < Ω, Φ, P > in cui Ω = Ωn. Abbiamo gia’

considerato fenomeni di questo tipo, per esempio il lancio di due dadi. Questi fenomeni sono interessanti

sia teoricamente che praticamente e si analizzano con le stesse tecniche che abbiamo usato nell’ ultimo

esempio. In particolare, nel caso di uno spazio discreto in cui la probabilita’ P e’ costruita a partire da

una densita’ p(x) definita per x ∈ Ω, ripetendo il ragionamento e’ facile far vedere che la probabilita’ P

del fenomeno ripetuto si puo’ costruire usando la seguente densita’

p(x1, x2, ..., xn) = p(x1)p(x2)....p(xn).

Si noti che l’ equazione (3.18) e’ un caso particolare della precedente espressione, per p(1) = q, p(0) =

(1− q).

3.11 Spazi continui

Un secondo tipo di spazio di probabilita’ importante per le applicazioni e’ quello degli spazi continui.

Uno spazio e’ continuo quando Ω e’ un insieme continuo, e cioe’ i cui elementi possono essere messi in

corrispondenza biunivoca con i numeri reali ℜ.

Esempio 19 Consideriamo un apparecchio, per esempio meccanico o elettrico, che viene acceso e lasciato

in funzione. Dopo un certo tempo l’ apparecchio si guastera’. Il tempo di funzionamento e’ diverso da

apparecchio ad apparecchio e non e’ noto a priori. Possiamo schematizzare il processo come un fenomeno

aleatorio in cui il risultato e’ il tempo di funzionamento, che puo’ essere un qualsiasi numero reale fra 0

e ∞. Quindi l’ insieme dei risultati e’ Ω = ℜ+, che puo’ essere messo in corrispondenza biunivoca con ℜ.Lo spazio e’ quindi continuo.

29

Page 30: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Analizziamo piu’ a fondo un caso particolare ma importante, quello di uno spazio < Ω,Φ, P > in cui

Ω = ℜ, cioe’ in cui l’ insieme dei risultati coincide con l’ insieme dei numeri reali. In questo caso non

possiamo, come per gli spazi discreti, scegliere Φ = P(ℜ), perche’ sull’ insieme delle parti dei numeri

reali risulta impossibile definire una funzione che rispetti i requisiti per essere una probabilita’. Si puo’

invece porre Φ = B e cioe’ scegliere l’ insieme degli eventi come la sigma-algebra di Borel. Con questa

scelta, per la probabilita’ esiste una forma canonica. Per dare questa forma canonica premettiamo una

definizione.

Definizione 10 Densita’ continua. Una funzione p : ℜ → ℜ si dice una densita’ continua se risulta

p(x) ≥ 0 x ∈ ℜ∫ ∞

−∞

p(x)dx = 1. (3.19)

A questo punto la probabilita’ si puo’ costruire assegnando una densita’ continua e ponendo5, per un

qualsiasi evento E ∈ B,P (E) =

E

p(x)dx. (3.20)

Non e’ difficile verificare6 che la funzione appena definita e’ una probabilita’ nel senso della definzione 4.

Anche nel caso continuo, per comprendere intuitivamente la probabilita’, si puo’ pensare che la proba-

bilita’ sia un peso, assegnato agli insiemi di ℜ. La densita’ fornisce appunto la densita’ di peso per unita’

di lunghezza di ogni punto dell’ asse reale e, per ciascun insieme, il peso totale si ottiene integrando la

densita’ sull’ insieme stesso. Questa interpretazione e’ simile a quella per il caso discreto con la differenza

che, nel caso discreto, la densita’ non fornisce la densita’ di peso, ma un peso vero e proprio. Il termine

densita’ sarebbe quindi appropriato solo nel caso continuo ma viene usato per semplicita’ in tutte e due

le situazioni7.

5Notiamo che nella (3.20) si deve supporre, in generale, che l’ integrale sia un integrale di Lebesgue. D’ altra parte, in

tutti i casi di interessi applicativo, e’ sufficiente utilizzare integrali di Riemann.6Per le (3.19) e’ ovviamente maggiore di o uguale a zero e

P (Ω) =

∫ ∞

−∞p(x)dx = 1.

Inoltre, se gli eventi An per n = 1, ...,∞ sono disgiunti e quindi non hanno elementi in comune

P (∞⋃

n=1

An) =

⋃∞n=1 An

p(x)dx =∞∑

n=1

An

p(x)dx =∞∑

n=1

P (An).

La funzione rispetta quindi le condizioni della definizone 4.7Nella terminologia inglese si tiene conto della differenza: le densita’ discrete sono spesso dette ’probability mass func-

tions’ e quelle continue ’probability density functions’.

30

Page 31: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 4

Variabili aleatorie

4.1 Definizione

Consideriamo un fenomeno aleatorio ed il relativo spazio. Come sappiamo, l’ esecuzione del fenomeno

determina un risultato non noto a priori, che viene analizzato probabilisticamente. Un ampliamento

di questo punto di vista e’ quello di analizzare probabilisticamente una funzione del risultato invece del

risultato stesso. Naturalmente, visto che dipende dal risultato, il valore della funzione non e’ noto a priori

e puo’ essere determinato solo dopo l’ esecuzione del fenomeno. La funzione puo’ quindi essere pensata

come un ulteriore valore casuale determinato dal fenomeno. In questo senso viene detta una variabile

aleatoria mentre il valore che assume dopo l’ esecuzione del processo viene detto la sua determinazione.

Esempio 20 Consideriamo ancora il lancio di una moneta sbilanciata ripetuto n volte. Nell’ esempio 18

abbiamo introdotto una spazio modellare per questo fenomeno. In particolare il generico risultato e’ un

vettore binario ω = (x1, ..., xn) in cui xi = 1/0 indica che nell’ i-esimo lancio e’ uscita testa/croce. Una

variabile aleatoria e’ una funzione che accetta come argomento ω, per esempio X = X(ω) =∑n

i=1 xi che

e’ pari al numero di teste presenti nel risultato.

Diamo ora un definizione piu’ precisa di variabile aleatoria, contenente una condizione sulla funzione

che verra’ discussa meglio in seguito.

Definizione 11 Variabile aleatoria. Dato uno spazio < Ω,Φ, P > una variabile aleatoria X e’ una

funzione X : Ω → ℜ tale che, per qualsiasi assegnato valore x ∈ ℜ, l’ insieme ω ∈ Ω|X(ω) ≤ x ⊂ Ω sia

un evento e cioe’ un elemento di Φ.

Una variabile aleatoria e’ quindi una funzione che associa un numero reale ad ognuno dei risultati come

mostrato in figura 4.1 in cui sono schematicamente mostrati l’ insieme Ω, l’ insieme ℜ ed alcune delle

associazioni (le frecce) stabilite da X fra gli elementi dei due insiemi. La condizione che ω ∈ Ω|X(ω) ≤x ∈ Φ e’ un tecnicismo che puo’ essere ignorato per il momento.

Esempio 21 Consideriamo ancora il fenomeno aleatorio costituito dal lancio di una coppia di dadi, per il

quale abbiamo costruito uno spazio di probabilita’ nell’ esempio 10. In particolare l’ insieme dei possibili

risultati e’ costituito da elementi del tipo ω = (i, j) dove i e j sono interi compresi fra uno e sei. Su

questo spazio possiamo considerare una variabile aleatoria X(ω) = X(i, j) = i+ j e cioe’ pari alla somma

dei due risultati.

Una osservazione fondamentale e’ che una variabile aleatoria X stabilisce una associazione fra sottoin-

siemi di ℜ e sottoinsiemi di Ω. In particolare per ogni assegnato insieme A ⊂ ℜ e’ possibile identificare

tutti gli elementi di Ω che, tramite laX, vengono associati ad un elemento di A. Questo puo farsi seguendo

31

Page 32: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.1: Rappresentazione schematica di una variabile aleatoria.

a ritroso le frecce di figura 4.1. L’ insieme E ⊂ Ω di questi elementi si scrive E = ω ∈ Ω|X(ω) ∈ A.Inoltre e’ facile verificare che le operazioni di unione, intersezione e complementazione sui sottoinsiemi di

ℜ sono isomorfe alle operazioni corrispondenti sui sottoinsiemi di Ω. Per esempio se E1 = ω ∈ Ω|X(ω) ∈A1 e E2 = ω ∈ Ω|X(ω) ∈ A2, allora E = ω ∈ Ω|X(ω) ∈ A1 ∪A2 = E1 ∪ E2.

L’ associazione fra sottoinsiemi di ℜ e di Ω realizzata da una variabile aleatoria fornisce una maniera

aggiuntiva di specificare gli eventi. In particolare, ad un insieme A ⊂ ℜ resta associato l’ evento1

E = ω ∈ Ω|X(ω) ∈ A, che di solito indicheremo in forma compatta, come E = X ∈ A e che puo’

dirsi un evento definito sulla variabile aleatoria. Gli eventi di questo tipo possono essere specificati come

una affermazione di verita’ o falsita’ sulla determinazione della variabile aleatoria, per esempio E=”La

determinazione e’ minore di tre”. Inoltre, visto che la variabile aleatoria assume valori sui numeri reali,

questi eventi sono spesso specificati tramite una o piu’ equazioni o disequazioni che coinvolgono la variabile

aleatoria, per esempio E = ω ∈ Ω|X(ω) < 3. In quest’ultimo caso e’ semplice ricavare l’ insieme A dell’

asse reale che corrisponde all’ evento: basta riscrivere l’ insieme considerando la X una variabile reale e

non piu’ una variabile aleatoria, e cioe’ come A = X ∈ ℜ|X < 3. Notiamo che anche per questi insiemi

e’ piu’ comoda la scrittura compatta A = X < 3 e che pero’ in questo modo si crea una ambiguita’: in

particolare X < 3 puo’ indicare un sottoinsieme E di Ω, se X e’ pensata come una variabile aleatoria,

oppure un sottoinsieme A di ℜ, se X e’ pensata come una variabile reale. Quindi, quando c’e’ pericolo di

confusione useremo le scritture complete. Notiamo anche che, quando serve, l’ insieme A si puo’ indicare

usando una variabile diversa da X, per esempio come A = x ∈ ℜ|x < 3 = x < 3.Come abbiamo visto, dato un insieme sui reali A ⊂ ℜ, resta identificato un sottoinsieme di Ω cor-

rispondente, E = ω ∈ Ω|X(ω) ∈ A e questa circostanza permette di assegnare una probabilita’ ad

eventi definiti sulla variabile aleatoria, del tipo X ∈ A. Pero’ questo e’ possibile solo se E ∈ Φ, cioe’

se E e’ un evento. E’ quindi di interesse chiedersi quali siano i sottoinsiemi A di ℜ che corrispondono

ad eventi. Per rispondere a questa domanda notiamo che, per l’ isomorfia delle operazioni di unione,

intersezione e complementazione, e visto che Φ e’ una sigma-algebra, dati due sottoinsiemi di ℜ che sono

eventi, anche la loro unione, intersezione e complementazioni sono eventi. Piu’ in generale, gli insiemi

di ℜ corrispondenti ad eventi formano una sigma-algebra su ℜ. Inoltre notiamo che, per definizione di

variabile aleatoria, gli insiemi del tipo X ≤ x, e cioe’ l’insieme degli intervalli infiniti a sinistra e chiusi

a destra Id, sono eventi e quindi compresi nella sigma-algebra. Allora, ricordando la sezione 2.5, possi-

amo affermare che tutti i sottoinsiemi di ℜ compresi nella sigma-algebra di Borel B sono eventi. Questo

insieme comprende tutti i sottoinsiemi di interesse nelle applicazioni, per esempio tutti i punti, le unioni

di punti, gli intervalli e tutti gli insiemi ottenibili da questi con una sequenza numerabile di operazioni

di unione, intersezione e complementazione.

1Non sempre E e’ un evento, come meglio discusso nel paragrafo successivo.

32

Page 33: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Esempio 22 Consideriamo il dimensionamento di un ufficio postale, in una citta’ di n abitanti. Sup-

poniamo di sapere, per esempio grazie ad una serie di interviste telefoniche, che ogni persona effettua in

media 15 operazioni postali all’ anno e quindi indichiamo con p = 15/365 = 0, 041 la probabilita’ che

una generica persona vada all’ ufficio in un particolare giorno. Per studiare la cosa da un punto di vista

probabilistico dobbiamo costruire uno spazio che descriva il fenomeno. In primo luogo consideriamo un

generico abitante e un fenomeno aleatorio che ha due possibili risultati: l’ abitante va oppure non va all’

ufficio postale (in un certo giorno). Associamo questi due risultati ai numeri zero (non va) e uno (va).

Per descrivere il fenomeno possiamo introdurre lo spazio < Ω,P(Ω), P > dove Ω = 0, 1, P (1) = p

e P (0) = 1 − p. A questo punto, supponendo che gli abitanti vadano alla posta indipendentemente l’

uno dall’ altro, si puo’ facilmente costruire uno spazio che comprenda l’ intera popolazione, considerando

un fenomeno costituito da n ripetizioni (una per ciascun abitante) del fenomeno che abbiamo gia’ in-

trodotto. Il fenomeno complessivo, che e’ uno schema successo/insuccesso, sara’ associato ad uno spazio

< Ωn,P(Ωn), F > in cui Ωn = Ω × Ω × ... × Ω e’ un insieme di vettori binari a n elementi del tipo

ω = (x1, x2, ...., xn) dove xk ∈ 0, 1. Lo spazio e’ stato analizzato in sezione 3.10.

Notiamo che ogni possibile risultato indica quali utenti vanno all’ ufficio postale nel giorno considerato.

Per esempio il risultato (1, 1, 0, 0, ...., 0) indica che i primi due utenti sono andati alla posta e gli altri no.

D’ altra parte una simile informazione e’ ridondante e inutile. Per esempio, se dovessimo decidere quanti

impiegati assegnare all’ ufficio, ci interessa piu’ sapere quanti utenti ci dobbiamo aspettare in un certo

giorno. Per semplificare possiamo definire sullo spazio una variabile aleatoria X = X(ω) =∑n

k=1 xk che

dice proprio quanti utenti vanno alla posta. Questa variabile puo’ assumere valori interi compresi fra zero

ed n ed e’ una descrizione piu’ comoda del fenomeno. Per esempio l’ evento X = 0 si realizza quando

nessun utente va all’ ufficio postale e corrisponde all’ unico vettore nullo di Ωn. Invece l’ evento X = 1si realizza quando un utente va all’ ufficio e corrisponde a tutti i vettori di Ωn contenenti un uno e tutti

zeri. L’ evento X > 120 si realizza quando piu’ di 120 utenti accedono all’ ufficio nello stesso giorno.

E’ chiaro che calcolare la proabilita’ di eventi definiti sulla variabile aleatoria e’ utile. Per esempio,

supponendo che un impiegato sia in grado di gestire 40 utenti al giorno e di allocare all’ ufficio tre

impiegati, la probabilita’ di riuscire a servire tutti gli utenti e’ P (X ≤ 120). Se la probabilita’ risulta

troppo bassa sara’ necessario allocare altri impiegati.

Il concetto di variabile aleatoria apre un nuovo punto di vista sui fenomeni aleatori che spesso e’ utile

in pratica e semplifica l’ analisi. In particolare visto che una variabile aleatoria assume valori su ℜ e

non su un generico insieme Ω e’ possibile introdurre strumenti analitici potenti per la sua analisi, come

vedremo nelle prossime sezioni.

4.2 Funzione di distribuzione

Introduciamo un primo strumento analitico utile per lo studio delle variabili aleatorie.

Definizione 12 Funzione di distribuzione. Data una variabile aleatoria X, la sua funzione di dis-

tribuzione e’ una funzione f : ℜ → ℜ definita come segue

f(x) = P (X ≤ x) (4.1)

A parole, la funzione di distribuzione2 da’ la probabilita’ dell’ evento X ≤ x =”La determinazione

della variabile aleatoria e’ minore di o uguale a x”. Si noti che questo insieme e’ sempre un evento come

esplicitamente previsto nella definizione di variabile aleatoria.

2Anche detta funzione di ripartizione.

33

Page 34: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

−1 0 1 2 3 4 5 6 7 8 9

0

0.2

0.4

0.6

0.8

1

x

Prob

abilit

à

Funzione di distribuzione per il lancio di un dado

Figure 4.2: La funzione di distribuzione f(x) per il caso del lancio di un dado a sei facce.

Esempio 23 Consideriamo ancora il fenomeno aleatorio costituito dal lancio di un dado, per il quale

abbiamo costruito uno spazio nell’ esempio 7. L’ insieme dei possibili risultati e’ Ω = 1, 2, 3, 4, 5, 6. Suquesto spazio possiamo definire una variabile aleatoria specificata come segue: X(ω) = ω. In altre parole

la X associa ad ogni risultato il risultato stesso3. Vogliamo ora ricavare f(x), la funzione di distribuzione

di questa variabile.

La funzione di distribuzione f(x) e’ riportata in figura 4.2 e si ricava con le seguenti considerazioni.

Innanzi tutto notiamo che f(x) = P (X ≤ x) = 0 per x < 1, visto che il minimo risultato e’ 1. Consid-

eriamo ora il valore di f(1) = P (X ≤ 1). Questo evento si verifica solo quando il risultato e’ 1, il che

avviene con probabilita’ 1/6, e quindi f(1) = 1/6. Aumentando ancora x la probabilita’ che X ≤ xnon cambia e rimane pari a un sesto finche’ x < 2. Invece per x = 2 i risutati favorevoli all’ evento sono 1

oppure 2 e la probabilita’ dell’ evento e’ 2/6; quindi f(2) = 2/6. Proseguendo questo ragionamento ci si

rende conto che f(x) e’ una funzione costante a tratti, che cambia valore in corrispondenza dei possibili

risultati, come mostrato in figura 4.2. In particolare in corrispondenza ad ogni risultato la funzione cresce

di un valore pari alla probabilita’ del risultato stesso.

Proposizione 2 Proprieta’ della funzione di distribuzione. La funzione di distribuzione ha le seguenti

proprieta’

f(x) ∈ [0, 1] (4.2)

limx→−∞

f(x) = 0 (4.3)

limx→∞

f(x) = 1 (4.4)

E’ non decrescente: f(x1) ≥ f(x0) se x1 ≥ x0 (4.5)

Dimostrazione. La (4.2) e’ ovvia perche’ f(x) e’ una probabilita’ e quindi compresa fra zero e uno.

La (4.3) si ottiene notando che f(x) = P (X ≤ x), che quando x → −∞ l’ evento X ≤ x → ∅ e

che P (∅) = 0. Analogamente la (4.4) si ottiene notando che quando x → ∞ l’ evento X ≤ x → Ω

e che P (Ω) = 1. La (4.5) si ottiene notando che f(x1) = P (X ≤ x1), che f(x0) = P (X ≤ x0), che

X ≤ x0 ⊂ X ≤ x1 quando x1 ≥ x0 ed usando la (3.5).

Proposizione 3 Data una variabile aleatoria X gli insiemi indicati qui sotto sono eventi e le loro prob-

abilita’ quelle riportate, dove la scrittura f(a−) indica il limite di f(x) quando l’ argomento tende ad a

da sinistra (per valori piu’ piccoli) e cioe’ f(a−) = limx→a− f(x):

P (X ≤ a) = f(a) (4.6)

3Una variabile aleatoria del tipo X(ω) = ω, detta una variabile identita’, puo’ essere definita su qualsiasi spazio in cui

Ω ⊂ ℜ.

34

Page 35: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

P (X > a) = 1− f(a) (4.7)

P (X < a) = f(a−) (4.8)

P (X ≥ a) = 1− f(a−) (4.9)

P (a ≤ X ≤ b) = f(b)− f(a−) per a ≤ b (4.10)

P (a < X < b) = f(b−)− f(a) per a ≤ b (4.11)

Dimostrazione. Gli insiemi sono tutti eventi perche’ sono tutti Borelliani. Per quanto riguarda le

probabilita’, la (4.6) segue dalla definizione di funzione di distribuzione. Per la (4.7) si nota che X > ae’ il complementare dell’evento X ≤ a e quindi la (4.7) segue dalle (3.3) e (4.6). Per la (4.8) si nota

che X < a = limn→∞X ≤ a− 1/n e quindi

P (X < a) = limn→∞

P (X ≤ a− 1/n) = limn→∞

f(a− 1/n) = limx→a−

f(x) = f(a−).

Per la (4.9) si nota che X ≥ a e’ il complementare dell’evento X < a e la sua probabilita’ segue dalle

(3.3) e (4.8). Per verificare la (4.10) conviene calcolare il complementare dell’ insieme a ≤ X ≤ b che

e’ l’ insieme X < a ∪ X > b. Visto che a ≤ b, il complementare e’ l’ unione di due eventi disgiunti,

la sua probabilita’ e’ data da

P (X < a ∪ X > b) = P (X < a) + P (X > b) = f(a−) + 1− f(b)

e la (4.10) seque dalla espressione precedente e dalla (3.3). La dimostrazione della (4.11) e’ analoga alla

precedente e viene lasciata come esercizio.

Proposizione 4 Data una variabile aleatoria X e una unione di intervalli disgiunti U ∈ U , l’ insieme

X ∈ U e’ un evento, la cui probabilita’ si puo’ calcolare tramite la funzione di distribuzione.

Dimostrazione. Visto che U ∈ B, X ∈ U e’ un evento. Inoltre, usando la 2.3, U si puo’ scrivere come

U =∞⋃

i=1

Ai dove Ai ∈ I e AiAj = ∅ per i 6= j

e quindi, per la sigma-additivita’,

P (X ∈ U) =∞∑

i=1

P (X ∈ Ai).

Visto che gli Ai sono intervalli chiusi o aperti, le probabilita’ P (X ∈ Ai) si possono calcolare tramite la

funzione di distribuzione con le (4.10) e (4.11).

L’ ultima proposizione mostra che se si conosce la funzione di distribuzione e’ possibile calcolare la

probabilita’ di eventi del tipo X ∈ U dove U e’ una unione di intervalli disgiunti e questi eventi coprono

tutti i casi di interesse pratico. La funzione di distribuzione e’ quindi uno strumento importante. In teoria

la funzione si puo’ calcolare una volta specificati lo spazio e la variabile aleatoria, ma in pratica il calcolo

puo’ essere complesso o impossibile. Se il calcolo e’ impossibile si puo’ aggirare il problema misurando la

funzione, come vedremo meglio in sezione 8.3.

4.3 Variabili e densita’ discrete

Come gia’ fatto per gli spazi, le variabili aleatorie possono essere classificate sulla base dell’ insieme dei

valori che possono assumere, oppure, equivalentemente, sulla base della loro funzione di distribuzione.

Un caso importante e’ quello delle variabili aleatorie discrete.

35

Page 36: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Definizione 13 Una variabile aleatoria e’ discreta quando l’ insieme dei valori che puo’ assumere e’ un

insieme numerabile, e cioe’ i cui elementi possono essere messi in corrispondenza con i numeri interi o

naturali.

Quindi per una variabile discretaX e’ possibile identificare un insieme di numeri reali ΩX = ω1, ω2, ....che contiene tutte le possibili determinazioni. Ovviamente tutte le variabili aleatorie definite su spazi

di probabilita’ discreti sono discrete, come per esempio quelle considerate negli esempi della sezione

precedente. Pero’ e’ anche possibile definire variabili discrete su spazi continui.

Esempio 24 Consideriamo un fenomeno aleatorio consistente nel lanciare un trottola. Il risultato e’

il tempo per il quale la trottola gira. Quindi i possibili risultati sono tutti i numeri reali positivi e

questo fenomeno dovra’ essere descritto tramite uno spazio continuo, con Ω = ℜ+. Possiamo definire una

variabile aleatoria discreta che vale 1 se la trottola gira piu’ di un minuto e zero altrimenti.

Come abbiamo visto, per una generica variabile aleatoria X, gli insiemi del tipo X ∈ A con A ∈B sono eventi, di cui vogliamo calcolare la probabilita’, P (X ∈ A). Quando la variabile e’ discreta,

per un qualsiasi insieme A ∈ B possiamo notare che elementi di A non compresi anche in ΩX non

possono verificarsi. Quindi, introducendo l’ insieme C = A ∩ ΩX , risulta che P (X ∈ A) = P (X ∈ C).

Naturalmente C e’ un sottoinsieme di ΩX e quindi, nel caso discreto, possiamo limitarci a calcolare la

probabilita’ degli eventi X ∈ C per C ∈ P(ΩX).

Una classe di eventi che sara’ utile nel seguito e’ quella costituita dagli eventi del tipo X = x dove

x e’ un numero reale, che sono detti eventi elementari4. Questa classe e’ importante perche’ per qualsiasi

C ∈ P(ΩX) l’evento X ∈ C si puo’ scrivere come unione di eventi elementari. Infatti, se C ⊂ ΩX e

quindi C = x1, x2, .... con xi ∈ ΩX , allora X ∈ C = X = x1 ∪ X = x2 ∪ .... . Inoltre eventi

elementari diversi sono disgiunti e quindi X ∈ C si puo’ scrivere come unione di eventi elementari

disgiunti.

Introduciamo ora un secondo strumento utile nell’ analisi delle variabili aleatorie, la densita’ di prob-

abilita’ discreta. A questo fine notiamo che la probabilita’ di un evento elementare si calcola con la 4.10

ed e’

P (X = x) = f(x)− f(x−).

Naturalmente la probabilita’ sara’ zero se x /∈ ΩX , visto che in questo caso x non e’ un risultato possibile.

Cio’ posto, la densita’ di probabilita’ di una variabile aleatoria discreta e’ una funzione p : ℜ → ℜ definita

come segue

p(x) = P (X = x) = f(x)− f(x−) per x ∈ ℜ. (4.12)

A parole, la densita’ in un punto x e’ pari alla probabilita’ dell’ evento X = x e questa funzione sara’

quindi zero quasi dappertutto tranne che in corrispondenza ai valori di ΩX . La funzione e’ analoga alla

densita’ di uno spazio discreto, introdotta in sezione 3.7, ed e’ utile perche’ permette di esprimere in

modo semplice la probabilita’ di un evento del tipo X ∈ A dove A ∈ P(ΩX). Infatti in questo caso

X ∈ A si ottiene come unione numerabile di eventi elementari e visto che gli eventi elementari sono

disgiunti risulta

P (X ∈ A) =∑

x∈A

P (X = x) =∑

x∈A

p(x). (4.13)

E’ possibile verificare che p(x) e’ una densita’: infatti p(x) ≥ 0 poiche’ P (X = x) ≥ 0; inoltre e’ facile

verificare5 che∑

x∈ΩX

p(x) = 1. (4.14)

4Si noti che in sezione 3.2 abbiamo chiamato eventi elementari anche i sottoinsiemi di Ω con un solo elemento. Questi

si possono chiamare eventi elementari definiti sul risultato, mentre quelli del tipo X = x si possono chiamare eventi

elementari definiti sulla variabile aleatoria.5Perche’ per qualsiasi ω ∈ Ω risulta vero che X(ω) ∈ ΩX. Quindi l’evento ω ∈ Ω|X(ω) ∈ ΩX coincide con Ω stesso

ed ha probabilita’ uno.

36

Page 37: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

−1 0 1 2 3 4 5 6 7 8 9

0

0.2

0.4

0.6

0.8

1

i

Prob

abilit

à

Densità uniforme

Figure 4.3: La densita’ per il caso del lancio di un dado a sei facce.

Un caso particolare e’ quello in cui ΩX contiene solo numeri interi. Questo caso e’ importante perche’

si incontra spesso in pratica e si analizza con notazioni piu’ semplici rispetto al caso generale. In questo

caso possiamo limitarci a calcolare la probabilita’ degli eventi del tipo X ∈ A dove A ⊂ ℑ e’ un insieme

di numeri interi. Infatti tutti i sottoinsiemi di ΩX sono anche sottoinsiemi di ℑ. Notiamo che un evento

del tipo X ∈ A con A ⊂ ℑ si puo’ sempre scrivere come unione di eventi elementari del tipo X = idove i e’ un intero. Possiamo quindi considerare la densita’ come una funzione p : ℑ → ℜ e cioe’ come

una successione, definita sui numeri interi, data da

p(i) = P (X = i) = f(i)− f(i−) per i ∈ ℑ (4.15)

ed e’ facile verificare6 che p(i) e’ una densita’ (monodimensionale) discreta cioe’ che verifica le (3.10).

Per gli eventi del tipo X ∈ A con A ⊂ ℑ il calcolo della probabilita’ puo’ farsi ancora usando la (4.13)

pero’ con la semplificazione che x e’ un numero intero e non un numero reale e che l’ insieme A e’ un

insieme di interi.

Esempio 25 Consideriamo lo spazio di probabita’ relativo al lancio di un dado. Ricordiamo che in

questo spazio Ω = 1, 2, 3, 4, 5, 6. Inoltre abbiamo definito, nell’ esempio 23, la variabile aleatoria

identita’, X(ω) = ω, e ne abbiamo calcolato la funzione di distribuzione. Calcoliamo ora la densita’ di

questa variabile. Visto che Ω e’ un insieme di interi, la densita’ si puo’ scrivere come una successione

p(i). Sulla base della definizione, possiamo calcolarla in due modi diversi. Possiamo usare il fatto

che p(i) = f(i) − f(i−) e ricavarla dalla funzione di distribuzione. Oppure possiamo usare il fatto che

p(i) = P (X = i) e ricavarla calcolando le probabilita’ degli eventi elementari. Questa seconda via e’ la piu’

semplice visto che, poiche’ X e’ una variabile identita’, la probabilita’ dell’evento X = i coincide con

quella che il risultato sia i e quindi, come visto nell’ esempio 7, risulta P (X = i) = 1/6 per i = 1, 2, ..., 6

e zero altrove. Quindi

p(i) = 1/6 per i = 1, 2, ..., 6 p(i) = 0 altrove.

La densita’ e’ mostrata in figura 4.3.

Notiamo che quando ΩX e’ un insieme finito, con cardinalita’ |ΩX | = n, si dice densita’ uniforme la

seguente densita’

p(x) =1

nper x ∈ ΩX p(x) = 0 altrove.

Visto che p(x) = P (X = x), questa densita’ assegna la stessa probabilita’ a tutti gli eventi elementari

X = x per x ∈ ΩX ed e’ quindi una scelta corretta tutte le volte che gli eventi elementari sono

equiprobabili. Abbiamo gia’ incontrato questa densita’, nell’ ultimo esempio.

6E’ ovviamente maggiore o uguale a zero. Che si sommi a uno segue immediatamente dalla (4.14).

37

Page 38: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

0 2 4 6 8 10 12 140

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

k

p(k)

Densità per la variabile somma dei due dadi

Figure 4.4: La densita’ per la somma di due dadi.

Per quanto riguarda la nomenclatura, notiamo che quando una variabile aleatoria ha densita’ uniforme

si dice anche che la variabile e’ uniforme oppure che ha distribuzione uniforme. Per esempio la variabile

dell’ ultimo esempio era a distribuzione uniforme. Naturalmente questa terminologia si estende alle altre

densita’ notevoli (binomiale, geometrica, esponenziale etc.) che introdurremo nel seguito delle dispense.

Esempio 26 Consideriamo il lancio di due dadi gia’ studiato nell’esempio 10 e lo spazio di probabita’

relativo. Il generico risultato e’ del tipo ω = (i, j) dove i e’ il risultato del primo lancio e j del secondo.

Definiamo la variabile X = X(ω) = i+ j, pari alla somma dei due risultati. Ricaviamo la densita’ di X.

Per prima cosa notiamo che le possibili determinazioni sono ΩX = 2, 3, ..., 12 e quindi X e’ una variabile

discreta a valori interi. La densita’ e’ la successione p(k) = P (X = k) per k ∈ ΩX mentre e’ nulla per

k /∈ ΩX . Le probabilita’ degli eventi elementari definiti sulla variabile si calcolano facilmente contando

i risultati favorevoli in tabella 3.1. Per esempio all’ evento X = 2 e’ favorevole solo il risultato (1, 1)

e quindi p(2) = 1/36. All’ evento X = 3 sono favorevoli le caselle (1, 2) e (2, 1) e quindi p(3) = 2/36.

Procedendo in questo modo si calcola tutta la densita’ che e’ riportata in figura 4.4. Avendo ricavato la

densita’ possiamo calcolare la probabilita’ di eventi definiti sulla variabile. Per esempio l’ evento X < 4coincide con il sottoinsieme di ΩX dato da A = 2, 3. Allora, usando la (4.13) ricaviamo

P (X < 4) = P (X ∈ A) =∑

x∈A

p(x) = p(2) + p(3) = 3/36 = 1/12.

Studiamo ora piu’ a fondo la funzione di distribuzione per il caso delle variabili discrete. Consideriamo

quindi una variabile aleatoriaX che assume valori in un insieme discreto di numeri reali ΩX e notiamo che,

ripetendo i ragionamenti gia’ fatti nell’ esempio 23, e’ possibile verificare che la funzione di distribuzione

e’ costante a tratti e cambia valore solo in corrispondenza ai possibili risultati, cioe’ nei punti di ΩX ,

dove compie dei salti di ampiezza pari alla probabilita’ del risultato. Questa osservazione puo’ essere

usata per dare una seconda definizione, equivalente a quella gia’ data, di variabile aleatoria discreta ed

in particolare

Definizione 14 Una variabile aleatoria e’ discreta quando la sua funzione di distribuzione e’ una funzione

costante a tratti con al piu’ una infinita’ numerabile di discontinuita’.

Nel caso particolare di una variabile che assume valori interi, l’ osservazione precdente implica che

f(i−) = f(i− 1), visto che la funzione di distribuzione e’ costante nell’ intervallo [i− 1, i). Allora, dalla

(4.15), per la densita’ possiamo scrivere

p(i) = f(i)− f(i− 1) (4.16)

38

Page 39: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

da cui segue7

f(i) =

i∑

n=−∞

p(n). (4.17)

Le ultime due equazioni chiarificano ed esprimono in modo compatto il legame esistente fra le funzioni

di distribuzione e di densita’ per una variabile discreta a valori interi.

4.4 Densita’ binomiale e geometrica

Esempio 27 Densita’ binomiale. Riprendiamo l’ esempio 18 in cui una moneta sbilanciata veniva lan-

ciata n volte. Il generico risultato e’ un vettore binario ω = (x1, x2, ...., xn) in cui xi = 1 indica che e’

uscita testa all’ i-esimo lancio mentre xi = 0 indica che e’ uscita croce. Ricordiamo che avevamo ricavato

la probabilita’ di un evento elementare E = (x1, x2, ..., xn) e che risultava

P (E) = qk(1− q)(n−k)

dove q e’ la probabilita’ di fare testa mentre k =∑n

i=1 xi e’ il numero di teste nell’ evento elementare.

Definiamo ora una variabile aleatoria X = X(ω) =∑n

i=1 xi, che associa ad ogni risultato ω il numero

di teste, e calcoliamo la sua densita’. Per prima cosa notiamo che, ovviamente, X puo’ assumere i valori

0, 1, ..., n ed e’ quindi una variabile a valori interi. Per calcolare la sua densita’, che indichiamo con p(k),

partiamo dalla definizione (4.15) che dice che p(k) = P (X = k). Dobbiamo quindi calcolare la probabilita’

dell’ evento Ek = X = k cioe’ che escano k teste. Questa probabilita’ si puo’ calcolare sommando la

probabilita’ di tutti i risultati favorevoli ad Ek, che sono tutti i risultati con k teste, cioe’ i vettori con

k uni e n− k zeri. Notiamo che questi eventi elementari hanno tutti la stessa probabilita’ di verificarsi,

data da qk(1− q)(n−k), perche’ hanno tutti lo stesso numero di teste. Per calcolare la probabilita’ di Ek

basta quindi moltiplicare questa probabilita’ per il numero di diversi risultati con k teste.

Il numero di diversi risultati con k teste e’ facile da calcolare, usando i risultati riportati nell’ appendice.

Coincide con il numero di diversi vettori binari di n elementi con k elementi pari a uno. Il generico di

questi vettori puo’ essere costruito a partire da una combinazione di k elementi estratti da un insieme

contenente i numeri da 1 a n. Basta porre a uno gli elementi del vettore di indice corrispondente agli

elementi della combinazione. Visto che il numero di combinazioni di k elementi presi da un insieme di n

e’ dato dalla (9.7), possiamo scrivere

p(k) = P (X = k) =

(

n

k

)

qk(1− q)(n−k) per k = 0, ..., n

p(k) = 0 altrove .

La densita’ che abbiamo appena ricavato, e cioe’ quella data da

p(k) =

(

n

k

)

qk(1− q)(n−k) per k = 0, ..., n p(k) = 0 altrove .

e’ detta una densita’ binomiale di parametri n e q, e si indica con il simbolo B(n, q). Come abbiamo

visto nell’ esempio, p(k) e’ la probabilita’ di avere k successi in uno schema successo/insuccesso con n

ripetizioni ed una probabilita’ di successo pari a q. Esempi di questa densita’ per alcuni valori di n e q,

sono riportati in figura 4.5. Come si vede la densita’ e’ zero per k < 0 e per k > n, presenta un massimo

vicino al valore nq che quindi e’ il numero di successi piu’ probabile.

7Infatti possiamo scrivere

f(i) = p(i) + f(i− 1) = p(i) + p(i− 1) + f(i− 2) = p(i) + p(i− 1) + p(i− 2) + f(i− 3) = ......

39

Page 40: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

−2 0 2 4 6 8 10 12

0

0.2

0.4

0.6

0.8

1

k, numero di successi

prob

abilit

à

Densità binomiale B(n,q) con n = 10

q = 0,6q=0,4

Figure 4.5: Due esempi di densita’ binomiali B(n, q) per n = 10.

Esempio 28 Calcoliamo la probabilita’ che escano meno di tre teste in una sequenza di dieci lanci di

una moneta bilanciata. Visto che la moneta e’ bilanciata q = (1− q) = 1/2. La variabile X che indica il

numero di successi avra’ quindi distribuzione

p(k) =

(

10

k

)

1

210per k = 0, ..., 10 p(k) = 0 altrove .

La probbailita’ che vogliamo calcolare e’ quella dell’ evento X < 3 che si puo’ scrivere anche come

X ∈ A dove A = 0, 1, 2. Usando la (4.13) otteniamo

P (X < 3) =∑

k∈A

p(k) =2∑

k=0

p(k) =1

210

[(

10

0

)

+

(

10

1

)

+

(

10

2

)]

= ....

Esempio 29 La variabile X considerata nell’ esempio 22, che indicava il numero di utenti che si reca

ad un ufficio postale in un paese di n abitanti in un generico giorno ha densita’ B(n, p) dove p e’ la

probabilita’ che un generico utente si rechi all’ ufficio in un generico giorno.

Esempio 30 Densita’ geometrica. Supponiamo di lanciare un dado a sei facce fino a che non esce il

primo sei. Quale e’ la probabilita’ di fare k lanci? Per rispondere alla domanda supponiamo di aver

costruito uno spazio che permetta di definire una variabile aleatoria T che da’ il numero del lancio al

quale esce il primo sei. Ovviamente T puo’ valere 1, 2, 3, ... ed e’ quindi una variabile a valori interi. La

domanda richiede in pratica di calcolare la densita’ di T , e cioe’ p(k) = P (T = k).

Per effettuare il calcolo valutiamo prima la probabilita’ dell’ evento ”Occorrono piu’ di k lanci per

avere il primo sei”= T > k. Questa probabilita’ coincide con la probabilita’ dell’evento Ak = ”Non

c’e’ neanche un sei nei primi k lanci”, che e’ pari a quella di avere zero successi in uno schema suc-

cesso/insuccesso con k ripetizioni e probabilita’ di successo q = 1/6. Quindi

P (T > k) = P (Ak) =

(

k

0

)

q0(1− q)k = (1− q)k.

Ora notiamo che T > k − 1 = T = k ∪ T > k e che i due eventi a destra dell’ uguale sono

mutuamente esclusivi. Quindi

P (T > k − 1) = P (T = k) + P (T > k).

Dalle ultime equazioni si ricava

P (T = k) = P (T > k − 1)− P (T > k) = (1− q)k−1 − (1− q)k = (1− q)k−1(1− 1 + q) = q(1− q)k−1.

40

Page 41: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

−5 0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

k

p(k)

Densità Geometrica

q = 0,1q = 0,2

Figure 4.6: Esempi di densita’ geometrica.

La densita’ che abbiamo appena ricavato, e cioe’ quella data da

p(k) = q(1− q)k−1 per k = 1, 2, ... p(k) = 0 per k ≤ 0.

e’ detta una densita’ geometrica modificata di parametro q. Come abbiamo visto nell’ esempio, fornisce la

probabilita’ di ottenere il primo successo dopo k ripetizioni se q e’ la probabilita’ di successo. Traslando

la densita’ di un passo a sinistra si ottiene la densita’ geometrica, data da

p(k) = q(1− q)k per k = 0, 1, 2, ... p(k) = 0 per k < 0

che e’ quella che si otterrebbe nell’ esempio precdente se si numerassero i lanci a partire da zero anziche’

da uno. Alcuni esempi di questa densita’ sono riportati in figura 4.6.

Esempio 31 Calcoliamo la probabilita’ che non esca nessun sei nei primi dieci lanci di un dado. Con-

sideriamo una variabile T con densita’ geometrica modificata e notiamo che la probabilita’ che cerchiamo

e’ quella dell’ evento T > 10. Questo evento si puo’ scrivere come T ∈ A dove A = 11, 12, .....Usando la (4.13) otteniamo

P (T > 10) =∑

k∈A

p(k) =

∞∑

k=11

q(1− q)k−1 = q(1− q)10∞∑

k=0

(1− q)k = (1− q)10 =

(

5

6

)10

= 0, 161

dove abbiamo usato la somma della serie geometrica (9.2). Si noti che questa e’ anche la probablita’ di

avere zero successi in uno schema successo/insuccesso con dieci ripetizioni e probabilita’ di successo 1/6.

Consideriamo una variabile aleatoria T con densita’ geometrica e, dati due interi m ≥ 0 e k ≥ 0,

consideriamo i seguenti eventi: A = T ≥ k, B = T = k + m e C = T = m. Dalla densita’

ricaviamo

P (C) = q(1− q)m P (B) = q(1− q)k+m

P (A) =

∞∑

i=k

q(1− q)i = q(1− q)k∞∑

i=0

(1− q)i = (1− q)k

dove, nell’ ultimo passaggio, abbiamo usato la (9.2). Ora calcoliamo P (B|A)

P (B|A) = P (A ∩B)

P (A)=

P (B)

P (A)=

q(1− q)k+m

(1− q)k= q(1− q)m = P (C)

dove abbiamo usato il fatto che A ∩ B = B. Riassumendo ed indicando esplicitamente gli eventi, dal

calcolo appena svolto, per una variabile con densita’ geometrica risulta

P (T = k +m|T ≥ k) = P (T = m)

41

Page 42: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

che, interpretando T come il primo successo, dice che se non si e’ avuto nessun successo fino al passo k,

la probabilita’ di avere un successo m passi piu’ avanti e’ la stessa di avere un successo dopo m passi dall’

inizio. In altre parole, se non ci sono stati successi fino al passo k la probabilita’ di avere successi nei passi

successivi non e’ modificata rispetto all’ inizio. Questa relazione si chiama la ”proprieta’ di mancanza di

memoria” della densita’ geometrica. Visto che sara’ utile in futuro, notiamo che una maniera equivalente

di scrivere questa proprieta’, che si ricava con ragionamenti analoghi, e’

P (T ≥ k +m|T ≥ k) = P (T ≥ m). (4.18)

4.5 Variabili e densita’ continue

Quando l’ insieme dei possibili risultati non e’ un insieme discreto la variabile aleatoria si dice continua.

Piu’ precisamente, ci limitiamo a considerare variabili aleatorie del tipo seguente.

Definizione 15 Una variabile aleatoria e’ continua quando la sua funzione di distribuzione e’ una fun-

zione continua e derivabile.

Notiamo che dalla definizione segue che per una variabile aleatoria continua gli eventi elementari

X = x hanno probabilita’ nulla di verificarsi. Infatti

P (X = x) = f(x)− f(x−) = 0,

dove l’ ultima uguaglianza segue dal fatto che la f(x) e’ continua e quindi f(x) = f(x−). A parole l’

ultima equazione afferma che l’ evento ”X e’ uguale ad un valore x” ha probabilita’ zero di verificarsi.

Questo puo’ sembrare un risultato paradossale, ma invece cattura un principio fisico intuitivo, sul quale

torneremo fra poco. Naturalmente puo’ essere diversa da zero la probabilita’ che la determinazione cada

in un certo intervallo di valori, per esempio che risulti a ≤ X ≤ b. Un’ altra osservazione e’ che per

una variabile continua, la probabilita’ che questa assuma valori in un intervallo chiuso o aperto (con gli

stessi estremi) e’ uguale. Infatti, visto che

[a, b] = [a, a] ∪ (a, b) ∪ [b, b]

e che i tre insiemi a destra dell’ uguale sono disgiunti, abbiamo

P (a ≤ X ≤ b) = P (X = a) + P (a < X < b) + P (X = b) = P (a < X < b). (4.19)

Come per le variabili discrete, anche per le continue e’ possibile introdurre una funzione, detta densita’

di probabilita’ continua, che risulta utile nel calcolo delle probabilita’. In particolare la densita’ di

probabilita’ di una variabile aleatoria continua e’ una funzione p : ℜ → ℜ definita come segue

p(x) =d

dxf(x) (4.20)

e cioe’ e’ pari alla derivata della funzione di distribuzione. Questa funzione e’ analoga alla densita’ di uno

spazio continuo, introdotta in sezione 3.11, ed e’ facile verificare8 che e’ una densita’ continua nel senso

della definizione 10. La funzione fornisce una maniera, spesso piu’ pratica della funzione di distribuzione,

di calcolare probabilita’. Vediamo alcuni esempi. Dalla equazione precedente e dalla (4.10), notando che

f(a) = f(a−) perche’ f(x) e’ continua, si ricava

∫ b

a

p(x)dx = f(b)− f(a) = P (a ≤ X ≤ b),

8Infatti p(x) ≥ 0 perche’ f(x) e’ non decrescente. Inoltre, visto f(−∞) = 0 e f(∞) = 1 abbiamo∫ ∞

−∞p(x)dx = f(∞)− f(−∞) = 1.

42

Page 43: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.7: Illustrazione schematica del calcolo della probabilita’. La probabilita’ che la variabile aleatoria

assuma un valore nell’ intervallo [a, b] si ottiene integrando la densita’ nell’ intervallo ed e’ pari all’ area

evidenziata in figura.

la quale mostra che la probabilita’ che la variabile aleatoria assuma un valore contenuto in un intervallo

chiuso si ottiene integrando la densita’ nell’ intervallo stesso ed e’ quindi pari all’ area della funzione

densita’ nell’ intervallo, come mostrato in figura 4.7. Inoltre, per la (4.19), risulta anche

P (a < X < b) =

∫ b

a

p(x)dx

e cioe’ che lo stesso e’ vero per gli intervalli aperti. La funzione densita’ si puo’ anche usare per calcolare

la probabilita’ di eventi del tipo X ∈ A dove A ∈ U e cioe’ quando A e’ un’ unione di intervalli

disgiunti, il che e’ importante perche’ tutti gli eventi che interessano in pratica possono essere messi in

questa forma. Per il calcolo si nota che, in questo caso, si puo’ scrivere che A = ∪∞i=1Ii dove gli Ii sono

intervalli mutuamente disgiunti. La probabilita’ dell’ evento X ∈ A si puo’ valutare come

P (X ∈ A) =

∞∑

i=1

P (X ∈ Ii) =

∞∑

i=1

Ii

p(x)dx =

A

p(x)dx,

e quindi si puo’ calcolare come una somma di integrali della densita’ sugli intervalli. Infine diciamo, senza

dimostrarlo, che dato un qualsiasi insieme A ∈ B, cioe’ un qualsiasi insieme Borelliano, la probabilita’

dell’evento X ∈ A si puo’ valutare come9

P (X ∈ A) =

A

p(x)dx. (4.21)

La formula precedente, simile alla (4.13) per le variabili discrete, mostra che la densita’ permette di

ricavare la probabilita’ di qualsiasi evento definibile sulla variabile aleatoria ed e’ quindi uno strumento

importante nel calcolo delle probabilita’.

Esempio 32 Consideriamo il dispositivo, che verra’ chiamato un puntatore, mostrato in figura 4.8, dove

una freccia e’ incardinata ad un piano tramite un asse passante per il centro della freccia. La freccia

quindi puo’ ruotare sul suo centro rimanendo nel piano e la sua punta descrive una circonferenza. Dando

un colpo forte alla freccia, questa comincera’ a girare e, dopo un certo numero di giri, tornera’ immobile e

puntera’ ad uno dei punti della circonferenza. Questo punto non e’ noto a priori e quindi il processo puo’

essere considerato un fenomeno aleatorio. Supponendo che la lunghezza della circonferenza sia unitaria

9Nella (4.21) bisogna in generale supporre che l’ integrale sia di Lebesgue. In questo modo la formula vale per qualsiasi

A ∈ B. Ma naturalmente si puo’ impiegare un normale integrale tutte le volte che la densita’ e’ integrabile sull’ insieme A

secondo Riemann.

43

Page 44: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.8: Il puntatore descritto nell’ esempio 32 (ruota della fortuna).

e fissata una origine a piacere, possiamo associare ogni punto della circonferenza ad un numero reale

compreso nell’ intervallo I = [−1/2, 1/2]. Possiamo poi considerare una variabile aleatoria X la cui

determinazione e’ il valore associato al punto della circonferenza su cui si ferma la freccia.

E’ intuitivo supporre che la freccia si fermera’ con uguale probabilita’ su tutti i punti della circon-

ferenza. Infatti non c’e’ motivo di ritenere alcuni punti piu’ probabili di altri. Questo fatto puo’ essere

incorporato nel modello probabilistico imponendo che la densita’ di probabilita’ della variabile sia uguale

per tutti i punti dell’ intervallo I. Allora, indicando con p(x) la densita’, poniamo

p(x) = rect(x)

e notiamo che questa e’ effettivamente una densita’ visto che e’ non negativa e il suo integrale e’ unitario.

La densita’ e’ mostrata in figura 4.9. Visto che abbiamo la densita’ siamo ora in grado di calcolare la

probabilita’ di qualsiasi evento definito sulla variabile. Per esempio, se la meta’ di destra della circon-

ferenza e’ associata ai punti dell’ intervallo D = [0, 1/2], la probabilita’ che la freccia si fermi su questa

meta’ e’ l’ evento X ∈ D la cui probabilita’ si ottiene usando la (4.21) come

P (X ∈ D) =

D

p(x)dx =

∫ 1/2

0

rect(x)dx = 1/2.

Questa probabilita’ coincide con l’ area della densita’ nell’ intervallo D, mostrata a tratteggio in figura

4.9.

Sull’ esempio precedente possiamo fare alcune osservazioni importanti. In primo luogo notiamo che

abbiamo introdotto ed analizzato una variabile aleatoria senza specificare lo spazio di probabilita’ su cui

e’ definita. Questo modo di procedere e’ lecito, ed e’ giustificato dal teorema di esistenza, che verra’

dato in sezione 4.7. In secondo luogo notiamo che, pur essendo la densita’ definita come la derivata della

distribuzione, non sempre (anzi, piuttosto raramente) la densita’ si ricava applicando questa definizione.

Figure 4.9: Densita’ e distribuzione uniformi.

44

Page 45: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

In particolare nell’ esempio precedente la densita’ e’ stata ricavato sulla base di considerazioni sulla natura

del fenomeno in esame, e cioe’ supponendo che i risultati fossero equiprobabili. Come terza osservazione,

consideriamo un evento elementare, per esempio l’ evento X = 0 che indica che la freccia si e’ fermata

in posizione verticale, e notiamo che non sara’ mai possibile stabilire esattamente se questo evento si e’

verificato oppure no. Infatti, per quanto appuntita possa essere la freccia e accurato lo strumento di

misura che usiamo, ci sono dei limiti fisici alla precisione con cui possiamo determinare la posizione della

freccia. Questa circostanza si riflette nel fatto che l’ evento elementare ha probabilita’ zero di verificarsi

e spiega questo paradosso. Un’ altra interpretazione utile e’ quella di pensare che l’ evento elementare

X = x ha una probabilita’ infinitesima di verificarsi, data da p(x)dx, e sommando una infinita’ continua

di eventi elementari (tramite l’ integrale) si ottiene una probabilita’ finita.

Tutte le volte che una variabile aleatoria X assume valori su un intervallo I ⊂ ℜ, di lunghezza a, si

dice densita’ uniforme la seguente densita’

p(x) =1

aper x ∈ I p(x) = 0 altrove.

Questa scelta assegna la stessa densita’ a tutti i possibili risultati e quindi e’ corretta tutte le volte che

i risultati sono equiprobabili. Abbiamo gia’ incontrato questa densita’, nell’ ultimo esempio. Piu’ in

generale, la densita’ uniforme si puo’ definire per un qualsiasi insieme A ⊂ ℜ, di misura a finita, al

seguente modo

p(x) =1

aper x ∈ A p(x) = 0 altrove.

Per concludere, riscriviamo la definizione di densita’ nel caso continuo

p(x) =d

dxf(x)

e notiamo che da essa segue

f(x) =

∫ x

−∞

p(u)du (4.22)

come si verifica facilmente valutando l’ integrale e ricordando che f(−∞) = 0. Le ultime due equazioni

esprimono in modo compatto il legame fra distribuzione e densita’ nel caso continuo. Si osservi la

somiglianza con le formule equivalenti per il caso discreto, e cioe’ le (4.16) e (4.17).

Esempio 33 Consideriamo ancora il puntatore studiato nell’ esempio 32. Per la variabile aleatoria che

abbiamo introdotto in quell’ esempio, e cioe’ quella la cui determinazione e’ la posizione della punta della

freccia dopo un colpo, abbiamo ricavato una densita’ pari a p(x) = rect(x). La funzione di distribuzione

per questa variabile aleatoria si ricava usando la 4.22 ed e’

f(x) =

∫ x

−∞

rect(y)dy.

Questo integrale vale zero per x ≤ 1/2, vale

f(x) =

∫ x

−1/2

dy = 1/2 + x per x ∈ [−1/2, 1/2]

e vale 1 per x ≥ 1/2. La funzione f(x) e’ quindi quella mostrata in figura 4.9.

4.6 Densita’ esponenziale

Un dispositivo non soggetto ad usura e’ un dispositivo che non si logora durante il funzionamento. Sono

di questo tipo, entro certi limiti, tutti gli apparecchi elettronici mentre quelli meccanici si usurano. I

dispositivi non soggetti ad usura si guastano come tutti gli altri, ma la mancanza di logoramento si

45

Page 46: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

traduce nel fatto che, se hanno funzionato fino ad un certo momento, la probabilita’ che si guastino da

quel momento in poi e’ la stessa che si guastino da quando sono accesi in poi. In altre parole per questi

dispositivi esiste una proprieta’ di mancanza di memoria analoga a quella gia’ introdotta nella sezione

4.4. Allora, indicando con X una variabile aleatoria la cui determinazione indica il tempo passato fra l’

accensione e la rottura del dispositivo, e cioe’ tale che un evento elementare del tipo X = t indica che

il dispositivo si guasta t secondi dopo l’ accensione, dobbiamo richiedere che la densita’ della variabile

sia tale da rendere vera una relazione analoga alla (4.18), che esprimeva la mancanza di memoria. In

particolare, dati due numeri t ≥ 0 ed s ≥ 0 possiamo richiedere che la densita’ sia tale da rendere vera la

seguente relazione

P (X ≥ t+ s|X ≥ t) = P (X ≥ s). (4.23)

E’ facile verificare che, per λ > 0, la seguente densita’

p(x) = λe−λx per x ≥ 0 p(x) = 0 per x < 0, (4.24)

che e’ detta una densita’ esponenziale di parametro λ, e’ tale da rendere vera la (4.23). Infatti per

qualsiasi valore y ≥ 0 risulta

P (X ≥ y) =

∫ ∞

y

λe−λxdx = −∫ ∞

y

e−λxd(−λx) = −∫ −∞

−λy

ezdz = e−λy.

Cio’ posto risulta

P (X ≥ t+ s|X ≥ t) =P (X ≥ t+ s ∩ X ≥ t)

P (X ≥ t)=

P (X ≥ t+ s)

P (X ≥ t)=

e−λ(t+s)

e−λt= e−λs = P (X ≥ s)

e quindi la (4.23) e’ verificata.

La densita’ esponenziale e’ dunque un buon modello per descrivere il tempo di guasto di dispositivi

non soggetti ad usura. La densita’ e’ mostrata in figura 4.10. E’ facile verificare che e’ una densita’.

Infatti e’ maggiore o uguale di zero e ha integrale unitario:∫ ∞

−∞

p(x)dx =

∫ ∞

0

λe−λxdx = P (X ≥ 0) = e−λ0 = 1.

La corrispondente funzione di distribuzione e’

f(x) = P (X ≤ x) = 1− P (X > x) = 1− P (X ≥ x) = 1− e−λx

per x ≥ 0 mentre f(x) = 0 per x < 0.

Esempio 34 Consideriamo un sistema non soggetto a usura ed indichiamo con T il suo tempo di fun-

zionamento. Assumiamo che T abbia densita’ esponenziale e calcoliamo la probabilita’ che il sistema

funzioni almeno fino al tempo t0 > 0. Questa e’ la probabilita’ dell’ evento E = T ≥ t0 che abbiamo

gia’ calcolato: P (T ≥ t0) = e−λt0 .

4.7 Teorema di esistenza

Teorema 1 Data una densita’ continua p(x) esiste sempre uno spazio di probabilita’ su cui e’ possibile

definire una variabile aleatoria la cui densita’ e’ p(x).

Dimostrazione La dimostrazione e’ semplice. Consideriamo uno spazio < Ω,Φ, P > dove Ω = ℜ, Φ = Be la probabilita’ di un qualsiasi evento E ∈ Φ e’ data da

P (E) =

E

p(x)dx.

Su questo spazio definiamo la variabile identita’, X(ω) = ω. E’ facile verificare che questa variabile ha

densita’ p(x).

46

Page 47: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

−2 0 2 4 6 8 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

p(x)

Densità esponenziale

λ = 1λ = 2

Figure 4.10: Esempi di densita’ esponenziali.

Teorema 2 Data una densita’ discreta a valori sui numeri interi p(i) esiste sempre uno spazio di prob-

abilita’ su cui e’ possibile definire una variabile aleatoria la cui densita’ e’ p(i).

Dimostrazione Consideriamo uno spazio < Ω,Φ, P > dove Ω = ℑ, Φ = P(Ω) e la probabilita’ di un

qualsiasi evento E ∈ Φ e’ data da

P (E) =∑

E

p(i).

Su questo spazio definiamo la variabile identita’, X(ω) = ω. E’ facile verificare che questa variabile ha

densita’ p(i).

I due teoremi precedenti, detti i teoremi di esistenza, sono importanti perche’ permettono di anal-

izzare un fenomeno aleatorio direttamente tramite una variabile aleatoria, senza costruire lo spazio di

probabilita’ relativo, che e’ normalmente un approccio piu’ semplice e pratico. Infatti, per una qualsiasi

variabile e relativa distribuzione, garantiscono che lo spazio esiste e quindi ci evitano di doverlo costruire

esplicitamente.

Abbiamo gia’ implicitamente sfruttato questi teoremi, negli esempi 32 e 27, dove abbiamo considerato

una variabile senza costruire lo spazio. In quei casi, comunque, lo spazio non sarebbe stato difficile da

costruire ed era intuitivo che la variabile fosse ben definita. Esistono pero’ altri casi in cui la costruzione

dello spazio e’ complicata o impossibile, mentre e’ relativamente semplice identificare una variabile aleato-

ria, ed in questi casi i teoremi appena esposti ci autorizzano a lavorare direttamente sulla variabile.

Esempio 35 Rumore termico. Si consideri una resistenza. Se si connette uno strumento di misura molto

sensibile ai suoi capi, si rileva che attraverso la resistenza scorre una piccola corrente elettrica, che varia

in maniera casuale nel tempo. Questo puo’ sembrare sorprendente, visto che la resistenza e’ un elemento

passivo e quindi non e’ in grado di generare una corrente. Pero’ una resistenza reale e’ fatta di atomi

i cui elettroni sono in movimento casuale e si muovono tanto piu’ velocemente quanto piu’ e’ alta la

temperatura. Nel loro moto casuale alcuni elettroni possono attraversare i contatti con lo strumento di

misura e generare una piccola corrente e la relativa tensione ai capi della resistenza.

Per analizzare la cosa dal punto di vista probabilistico potremmo pensare di costruire uno spazio in

cui i possibili risultati indichino la posizione e la velocita’ degli elettroni della resistenza. Su questo spazio

potremmo poi costruire una variabile aleatoria che conta quanti elettroni attraversano il contatto in un

certo istante e che quindi misura la corrente. D’altra parte e’ chiaro che costruire un simile spazio e’

impossibile. E’ invece possibile invocare il teorema di esistenza e lavorare direttamente sulla variabile

aleatoria, cercando di ricavarne la distribuzione con altri metodi, per esempio misurandola.

47

Page 48: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.11: Rappresentazione schematica dell’ applicazione della funzione f : ℜ → ℜ alla variabile

aleatoria X. Si ottiene la nuova variabile aleatoria Y

4.8 Funzioni di variabile aleatoria

Dato uno spazio di probabilita’ < Ω,Φ, P >, una variabile aleatoria X = X(ω) e una funzione f : ℜ → ℜpossiamo considerare la funzione Y = f ·X che si ottiene dall’ applicazione successiva prima di X e poi

di f . Questa e’ una funzione Y = f(X) che viene detta una funzione di variabile aleatoria. Notiamo che

Y = f(X(ω)) = Y (ω) e quindi Y : Ω → ℜ mappa l’ insieme dei risultati sui numeri reali, come mostrato

in figura 4.11. Quindi la Y e’ una variabile aleatoria essa stessa10. In particolare se X e’ una variabile

aleatoria discreta sara’ discreta anche Y , mentre se X e’ continua la Y puo’ essere discreta o continua. In

questa sezione studiamo come si calcola la probabilita’ di eventi definiti sulla Y a partire dalla conoscenza

della densita’ (o della distribuzione) della X.

Visto che la Y e’ una variabile aleatoria, per ogni insieme Ey ⊂ ℜ resta definito un insieme E = ω ∈Ω|Y (ω) ∈ Ey che si indica in modo compatto come E = Y ∈ Ey. Notiamo che l’ insieme E si puo’

ottenere in una seconda maniera. In particolare possiamo considerare l’ insieme Ex = X ∈ ℜ|f(X) ∈Ey, dato da tutti i punti dell’ asse reale che, mappati tramite la funzione f , finiscono nell’ insieme Ey.

Ovviamente11 l’ insieme E si ottiene anche come E = ω ∈ Ω|X(ω) ∈ Ex che si indica in modo compatto

con E = X ∈ Ex.Come abbiamo appena mostrato, dato un evento specificato sulla variabile Y del tipo E = Y ∈ Ey,

esiste un modo per specificare lo stesso evento sulla variabile X, ed in particolare risulta E = X ∈ Exdove Ex = X ∈ ℜ|f(X) ∈ Ey. Allora possiamo calcolare la probabilita’ di eventi del tipo Y ∈ Eyricavando l’ insieme Ex e poi valutando la probabilita’ di X ∈ Ex. Questo approccio e’ generale ma

macchinoso. Un approccio piu’ elegante e’ quello di ricavare la densita’ (o la distribuzione) della Y a

partire dalla densita’ della X. Nel caso generale, questo e’ un problema piuttosto complicato e noi non

lo affronteremo. Il lettore interessato puo’ consultare altri testi, per esempio [1]. In queste dispense ci

limiteremo a considerare il problema nel caso semplice in cui la funzione f e’ biiettiva e quindi realizza una

corrispondenza biunivca da ℜ a ℜ. In questo caso esiste la funzione inversa della f , che verra’ indicata

con f−1 ed e’ tale che f−1[f(x)] = x. Inoltre, per il caso continuo, faremo l’ ipotesi che la funzione f sia

continua, monotona e derivabile.

Consideriamo prima il caso in cui X e’ discreta e quindi lo e’ anche la Y e ricaviamo la densita’ della

Y , indicata con pY , a partire da quella della X, indicata con pX . Dalla definizione di densita’ (4.12)

abbiamo che pY (y) = P (Y = y) = P (E) e cioe’ che la densita’ in un punto y e’ la probabilita’ dell’ evento

elementare E = Y = y. Questo evento si puo’ anche esprimere sulla X, come E = X = f−1(y) e

quindi P (E) = P [X = f−1(y)] = pX [f−1(y)]. Uguagliando le due espressioni di P (E) si ricava

pY (y) = pX [f−1(y)]

che fornisce il legame fra le densita’.

10A patto che gli insiemi del tipo ω ∈ Ω|Y (ω) ≤ y siano eventi. Nel seguito assumiamo che questa condizione sia

verififcata per ipotesi. Notiamo che la condizione e’ sempre verificata se X e’ discreta. Ed e’ verificata per tutti i casi di

interesse pratico se X e’ continua.11Basta notare che X(ω) ∈ Ex implica che f(X(ω)) ∈ Ey e quindi che Y (ω) ∈ Ey .

48

Page 49: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.12: I due casi di f crescente (A) e decrescente (B).

Consideriamo ora il caso in cui X e’ una variabile continua e assumiamo che la funzione f sia continua,

monotona e derivabile. In queste ipotesi sara’ continua anche la variabile Y e vogliamo ricavare la sua

funzione di distribuzione, indicata con fY (y) = P (Y ≤ y). Distinguiamo i casi in cui la f e’ crescente e

decrescente. Nel primo caso, osservando la figura 4.12, possiamo scrivere

fY (y) = P (Y ≤ y) = P [X ≤ f−1(y)] = fX [f−1(y)]

dove fX(x) e’ la funzione di distribuzione della X. Nel caso in cui la f e’ decrescente, osservando la figura

4.12, possiamo scrivere

fY (y) = P (Y ≤ y) = P [X > f−1(y)] = 1− fX [f−1(y)].

Per quanto riguarda le densita’, derivando le espressioni precedenti e notando che quando f e’ decrescentedf−1(y)

dy ha valore negativo, si ricava facilmente che

pY (y) =

df−1(y)

dy

pX [f−1(y)].

Vediamo alcune applicazioni immediate di quanto appena visto.

Consideriamo una variabile Y = X+a dove a e’ un numero reale. Questa e’ ottenuta per applicazione

della funzione f(x) = x+a alla variabile X. La funzione inversa della f e’ f−1(x) = x−a ed ha derivata

pari a uno. Allora sia nel caso discreto che in quello continuo risulta

pY (y) = pX(y − a). (4.25)

Come si vede la densita’ della Y si ottiene traslando la densita’ della X di una quantita’ a.

Consideriamo una variabile Y = aX dove a 6= 0 e’ un numero reale. Questa e’ ottenuta per appli-

cazione della funzione f(x) = ax alla variabile X. La funzione inversa della f e’ f−1(x) = x/a e la sua

derivata e’ 1/a. Allora nel caso discreto risulta

pY (y) = pX

(y

a

)

.

Nel caso continuo risulta

pY (y) =

1

a

pX

(y

a

)

. (4.26)

Come si vede la densita’ della Y si ottiene scalando (sull’ asse delle ascisse) la densita’ della X, di una

quantita’ a. Nel caso continuo la densita’ subisce anche una scalatura sull’ asse delle ampiezze, necessaria

per mantenere unitario il suo integrale.

Esempio 36 Consideriamo una variabile continua X con densita’ uniforme nell’ intervallo [−1/2, 1/2]

data da pX(x) = rect(x). La variabile Y = X + 1/2 ha densita’ pY (x) = pX(x − 1/2) = rect(x − 1/2),

uniforme nell’ intervallo [0, 1]. La variabile Z = 2X ha densita’ pZ(x) =12pZ(

x2 ) =

12rect(

x2 ), uniforme

nell’ intervallo [−1, 1].

4.9 Distribuzioni e densita’ condizionate

Consideriamo uno spazio di probabilita’ < Ω,Φ, P >, una variabile aleatoria X ed un evento B con

probabilita’ P (B) > 0. Chiamiamo funzione di distribuzione della variabile dato l’ evento B oppure

condizionata all’ evento B, indicata con f(·|B) : ℜ → ℜ, la seguente funzione

f(x|B) =P (X ≤ x,B)

P (B).

49

Page 50: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.13: ....

Indicando con A l’ evento X ≤ x si puo’ scrivere

f(x|B) =P (A,B)

P (B)=

P (AB)

P (B)= P (A|B)

e, ricordando la (3.11), l’ ultima espressione mostra che la funzione f(x|B) e’ la probabilita’ dell’ evento

X ≤ x posto che si e’ verificato l’ evento B. In altre parole questa e’ la funzione di distribuzione della

variabile X ricalcolata sulla base del fatto che si e’ verificato l’ evento B. Il prossimo esempio chiarisce

questo concetto.

Esempio 37 Riprendiamo l’ esempio 23 in cui abbiamo introdotto la variabile X la cui determinazione

e’ pari al risultato del lancio di un dado a sei facce. Consideriamo l’ evento B =”Il risultato e’ pari” e

calcoliamo la funzione di distribuzione condizionata a questo evento. Ricordiamo che Ω = 1, 2, 3, 4, 5, 6e che l’ evento B e’ il sottoinsieme B = 2, 4, 6 ed ha probabilita’ P (B) = 1/2. Per calcolare la funzione

di distribuzione procediamo come nell’ esempio 23. Innanzi tutto notiamo che f(x|B) = P (X ≤ x,B) = 0

per x < 1, visto che il minimo risultato del dado e’ 1. Consideriamo ora il valore di f(1|B) = P (X ≤1, B)/P (B). Notiamo che X ≤ 1, B = X ≤ 1 ∪ 2, 4, 6 = ∅ e quindi f(1|B) = 0. Aumentando x l’

evento X ≤ x,B rimane pari all’ insieme vuoto fino a x < 2, e quindi f(x|B) = 0 per x < 2. Quando

x = 2 abbiamo f(2|B) = P (X ≤ 2, B)/P (B). L’ evento X ≤ 2, B = X ≤ 2 ∪ 2, 4, 6 = 2 e’

diverso dall’ insieme vuoto ed ha probabilita’ P (2) = 1/6. Quindi f(2|B) = P (2)/P (B) = 2/6 = 1/3.

Proseguendo il ragionamento si verifica che f(x|B) rimane pari a 1/3 fino a x < 4 mentre compie un altro

salto, di ampiezza 1/3, in corrispondenza del valore x = 4. Ed il salto successivo, sempre di ampiezza

1/3, viene compiuto per x = 6. La funzione f(x|B) e’ dunque quella mostrata in figura 4.13.

Notiamo che, per qualsiasi evento B con P (B) > 0, e’ facile verificare che la funzione f(x|B) e’ una

funzione di distribuzione nel senso che gode delle proprieta’ elencate nella proposizione 2. A partire da

questa funzione e’ quindi possibile replicare tutti i ragionamenti svolti sulla funzione di distribuzione non

condizionata. In particolare, nel caso in cui X e’ una variabile discreta, estendendo la (4.12) e’ possibile

definire una densita’, indicata con p(x|B) e detta la densita’ della variabile condizionata all’ evento B,

data da

p(x|B) = P (X = x|B) = f(x|B)− f(x−|B) per x ∈ ℜ.Analogamente, nel caso continuo, la densita’ condizionata si definisce estendendo la (4.20) ed e’ data da

p(x|B) =d

dxf(x|B).

E’ facile verificare che queste densita’ sono maggiori di o uguali a zero e hanno somma oppure integrale

unitario. Queste densita’ sono le densita’ della variabile aleatoria ricalcolate sulla base del fatto che si e’

50

Page 51: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 4.14: ....

verificato l’ evento B e sono quindi quelle da usare nel calcolo della probabilita’ di eventi quando si ha

questa informazione aggiuntiva. In altre parole queste densita’ permettono il calcolo di probabilita’ del

tipo P (X ∈ A|B) ovvero la probabilita’ dell’evento X ∈ A condizionato all’ evento B. In particolare,

nel caso discreto, estendendo la (4.13) si ottiene

P (X ∈ A|B) =∑

x∈A

p(x|B)

mentre nel caso continuo, estendendo la (4.21), si ottiene

P (X ∈ A|B) =

A

p(x|B)dx.

Esempio 38 Proseguiamo l’ esempio 37 e calcoliamo la densita’ p(x|B) della variabile X. Applicando la

definizione possiamo scrivere p(x|B) = f(x|B) − f(x−|B) dove f(x|B) e’ la funzione mostrata in figura

4.13. Quindi la densita’ e’ zero dappertutto tranne nei punti di discontinuita’ della f(x|B) e cioe’ per

x = 2, 4, 6. In questi punti la densita’ e’ pari al salto compiuto dalla funzione di distribuzione e quindi e’

pari a 1/3. La densita’ e’ quindi quella mostrata in figura 4.13.

Esempio 39 Consideriamo la variabile X vista nell’ esempio 32, la cui determinazione e’ pari alla po-

sizione del puntatore dopo un colpo, e l’ evento B =”Il puntatore si e’ fermato nella meta’ piu’ alta della

circonferenza”. Questo evento si puo’ esprimere come B = X ∈ [−1/4, 1/4]) e la sua probabilita’ e’

P (B) = 1/2. Per ricavare la densita’ p(x|B) condizionata a questo evento possiamo procedere in modo

intuitivo e notare che, se B e’ vero, la determinazione di X cade con uguale probabilita’ in tutti i punti

dell’ intervallo [−1/4, 1/4]. Quindi la densita’ p(x|B) e’ una densita’ uniforme in questo intervallo, data

da p(x|B) = 2rect(2x) e riportata in figura 4.14.

Per concludere, consideriamo una partizione Ai per i = 1, ..., n di Ω ed una variabile aleatoria X

continua o discreta. E’ facile verificare che

p(x) =n∑

i=1

p(x|Ai)P (Ai). (4.27)

L’ ultima equazione, che e’ una estensione del teorema delle probabilita’ totali, mostra che si puo’ cal-

colare la densita’ di una variabile a partire dalla conoscenza delle densita’ condizionate agli insiemi

della partizione e delle probabilita’ degli insiemi della partizione. Dimostrazione: nel caso di una

variabile discreta la (4.27) segue direttamente dalla (3.13), visto che, introducendo l’evento elementare

B = X = x, abbiamo p(x) = P (B) e p(x|Ai) = P (B|Ai). Nel caso continuo, possiamo scrivere

f(x) =

n∑

i=1

f(x|Ai)P (Ai)

51

Page 52: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

che segue ancora dalla (3.13), introducendo l’evento B = X ≤ x e notando che f(x) = P (B) e

f(x|Ai) = P (B|Ai). Derivando l’ ultima equazione si ottiene la la (4.27).

Esempio 40 Quantizzazione ...

52

Page 53: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 5

Variabili multidimensionali

5.1 Definizioni

Definizione 16 Variabile Bidimensionale. Dato uno spazio < Ω,Φ, P > una variabile aleatoria bidi-

mensionale e’ un vettore a due elementi Z = (X,Y ) dove le X e Y sono variabili aleatorie definite sullo

spazio.

Le variabili bidimensionali sono una naturale estensione del concetto di variabile aleatoria e verranno

studiate in questo capitolo. Piu’ in generale e’ possibile considerare variabili a piu’ di due dimensioni:

Definizione 17 Variabile Multidimensionale. Dato uno spazio < Ω,Φ, P > una variabile aleatoria n-

dimensionale e’ un vettore X = (X1, X2, ..., Xn) dove le Xi sono variabili aleatorie definite sullo spazio.

Visto che l’ analisi del caso multidimensionale e’ una estensione abbastanza immediata del caso bidimen-

sionale, in questo capitolo ci concentriamo sul caso bidimensionale, che e’ piu’ semplice, presentando l’

estensione al caso multidimensionale solo dove ritenuto utile.

Ricordiamo che una variabile aleatoria X = X(ω) e’ una funzione X : Ω → ℜ che associa ad ogni

elemento di Ω un numero reale. Allora una variabile bidimensionale Z = (X,Y ) e’ una funzione Z : Ω →ℜ2 che associa ad ogni elemento di Ω una coppia di numeri reali, ovvero un punto sul piano ℜ2. Questa

interpretazione e’ illustrata in figura 5.1 in cui sono schematicamente mostrati l’ insieme Ω, l’ insieme ℜ2

ed alcune delle associazioni (le frecce) stabilite da Z fra gli elementi dei due insiemi.

Sulle variabili bidimensionali si possono ripetere le considerazioni gia’ fatte per quelle unidimensionali.

In particolare notiamo che una variabile bidimensionale Z stabilisce una associazione fra sottoinsiemi di

ℜ2 e sottoinsiemi di Ω. In particolare per ogni assegnato inisieme A ⊂ ℜ2 e’ possibile identificare tutti

gli elementi di Ω che, tramite la Z, vengono associati ad un elemento di A. Questo puo farsi seguendo a

ritroso le frecce di figura 5.1. L’ insieme E ⊂ Ω di questi elementi si scrive E = ω ∈ Ω|Z(ω) ∈ A. Inoltree’ facile verificare che le operazioni di unione, intersezione e complementazione sui sottoinsiemi di ℜ2 sono

isomorfe alle operazioni corrispondenti sui sottoinsiemi di Ω. Infine, per semplificare la notazione, quando

non c’e’ confusione indicheremo l’insieme E = ω ∈ Ω|Z(ω) ∈ A in forma piu’ compatta, e precisamente

come E = Z ∈ A.Come per una variabile unidimensionale, l’ associazione fra sottoinsiemi di ℜ2 e di Ω realizzata da

una variabile bidimensionale fornisce una maniera alternativa di specificare gli eventi. In particolare ad

ogni evento E ∈ Φ corrisponde un insieme A ⊂ ℜ2. Non e’ pero’ vero in generale il contrario, ovvero che

ad ogni sottoinsieme di ℜ2 corrisponda un evento, perche’ il sottoinsieme di Ω associato potrebbe non

essere in Φ. E’ quindi necessario chiedersi quali siano i sottoinsiemi di ℜ che corrispondono ad eventi.

Per una risposta completa a questa domanda dovremmo considerare la sigma-algebra di Borel su ℜ2,

cosa che rinunciamo a fare per non complicare la trattazione. Diciamo comunque che tutti gli insiemi

53

Page 54: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.1: Esempio della associazione fra Ω e ℜ2 realizzata da una variabile aleatoria bidimensionale.

A ⊂ ℜ2 di interesse pratico corrispondono a un evento, mentre quelli per cui questo non e’ vero sono solo

di interesse matematico e molto difficili da trovare.

Esempio 41 Nel gioco del lotto alcuni numeri vengono estratti in sequenza pescandoli casualmente da

un’ urna contenente i numeri da uno a novanta. Consideriamo l’ estrazione di due numeri e costruiamo

uno spazio per analizzarla. L’ insieme dei risultati e’ costituito da tutte le coppie di numeri fra uno

e novanta diversi fra loro: Ω = (i, j)|i, j = 1, ..., 90, i 6= j. Dato un risultato ω = (i, j) possiamo

considerare due variabili aleatorie: X(ω) = i e Y (ω) = j che sono pari al primo ed al secondo numero

estratto, rispettivamente, e la corrispondente variabile bidimensionale1 Z = (X,Y ).

Esempio 42 Ai capi di una resistenza a vuoto esiste una piccola tensione che varia casualmente nel

tempo, dovuta al moto caotico degli elettroni presenti nella resistenza. Considerati due istanti t0 e t1possiamo considerare due variabili aleatorie, X e Y , che danno la tensione ai capi della resistenza negli

istanti considerati e la relativa variabile bidimensionale Z = (X,Y ).

5.2 Funzione di distribuzione

Consideriamo una variabile bidimensionale Z = (X,Y ). Visto che X e’ una variabile aleatoria, l’ insieme

X ≤ x e’ un evento. Visto che Y e’ una variabile aleatoria, anche l’ insieme Y ≤ y e’ un evento.

Visto che l’insieme degli eventi e’ una σ-algebra, sara’ un evento anche la loro intersezione E = X ≤x ∩ Y ≤ y = X ≤ x, Y ≤ y. Cio’ posto, introduciamo la funzione di distribuzione per il caso

bidimensionale.

Definizione 18 Funzione di distribuzione bidimensionale2. Data una variabile aleatoria bidimensionale

Z = (X,Y ) la sua funzione di distribuzione e’ una funzione f : ℜ2 → ℜ definita come segue

f(x, y) = P (X ≤ x, Y ≤ y) (5.1)

Dunque la funzione di distribuzione e’ pari alla probabilita’ dell’ evento E = ω ∈ Ω|X(ω) ≤ x, Y (ω) ≤y. Introducendo un insieme I ⊂ ℜ2 dato da I = (X,Y ) ∈ ℜ2|X ≤ x, Y ≤ y, mostrato in figura 5.2,

l’evento si puo’ anche scrivere come E = ω ∈ Ω|Z(ω) ∈ I oppure, in forma compatta, E = Z ∈ I.

Proposizione 5 Proprieta’ della funzione di distribuzione. La funzione di distribuzione ha le seguenti

proprieta’

f(x, y) ∈ [0, 1]

1In questo caso Z e’ la variabile identita’ Z(ω) = ω.2Nel caso n-dimensionale la funzione di distribuzione e’ definita come f(x1, ..., xn) = P (X1 ≤ x1, ..., Xn ≤ xn).

54

Page 55: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.2: L’ insieme I tale che f(x, y) = P (Z ∈ I).

limx→−∞

f(x, y) = 0 (5.2)

limy→−∞

f(x, y) = 0 (5.3)

limx,y→∞

f(x, y) = 1 (5.4)

f(x1, y) ≥ f(x0, y) se x1 ≥ x0 (5.5)

f(x, y1) ≥ f(x, y0) se y1 ≥ y0 (5.6)

Dimostrazione. Simile a quella per il caso mododimensionale. Vedi [1].

Proposizione 6 Data una variabile aleatoria Z = (X,Y ) e quattro numeri reali x0, x1, y0, y1 tali che

x0 ≤ x1 e y0 ≤ y1, l’ insieme E = Z ∈ I dove I = x0 < X ≤ x1, y0 < Y ≤ y1 e’ un evento con

probabilita’

P (E) = P (x0 < X ≤ x1, y0 < Y ≤ y1) = f(x1, y1)− f(x0, y1)− f(x1, y0) + f(x0, y0). (5.7)

Dimostrazione. Consideriamo la figura 5.3 dove sono mostrati gli insiemi I0 = X ≤ x0, Y ≤ y0,I1 = X ≤ x1, Y ≤ y0 e I2 = x0 < X ≤ x1, Y ≤ y0. Notiamo che I1 = I0∪ I2 e che I0∩ I2 = ∅. Allora

P (Z ∈ I1) = P (Z ∈ I0) + P (Z ∈ I2)

e quindi

P (Z ∈ I2) = P (Z ∈ I1)− P (Z ∈ I0) = f(x1, y0)− f(x0, y0).

Consideriamo ora la figura 5.4 dove e’ mostrato di nuovo I2 insieme agli insiemi I3 = x0 < X ≤ x1, Y ≤y1 e I. Notiamo che I3 = I2 ∪ I e che I ∩ I2 =. Allora

P (Z ∈ I) = P (Z ∈ I3)− P (Z ∈ I2) = f(x1, y1)− f(x0, y1)− f(x1, y0) + f(x0, y0).

Notiamo che non abbiamo verificato che I2, I3 e I siano eventi. La dimostrazione e’ facile e viene lasciata

per esercizio.

L’ insieme I = x0 < X ≤ x1, y0 < Y ≤ y1, mostrato in figura 5.4 e’ detto un intervallo su

ℜ2. Consideriamo l’ insieme di tutti i possibili intervalli, al variare in tutti i modi di x0, x1, y0 e y1,

e indichiamo questo insieme con il simbolo I2. Estendiamo la definizione 1 al caso bidimensionale e

consideriamo insiemi che si possono scrivere come

U =∞⋃

i=1

Ai dove Ai ∈ I2 e AiAj = ∅ per i 6= j. (5.8)

Questi insiemi sono quindi unioni di intervalli bidimensionali disgiunti. Possiamo considerare la famiglia

di tutti gli insiemi di questo tipo ed indicarla con U2. Cio posto:

55

Page 56: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.3: Gli insiemi considerati nella prima parte della dimostrazione della proposizione 6.

Figure 5.4: L’ intervallo I e gli altri insiemi considerati nella dimostrazione della proposizione 6.

Proposizione 7 Data una variabile aleatoria Z = (X,Y ) e un insieme U ∈ U2, l’ insieme E = Z ∈ Ue’ un evento la cui probabilita’ si puo’ calcolare tramite la funzione di distribuzione.

Dimostrazione. Gli insiemi Ei = Z ∈ Ai sono eventi di cui possiamo calcolare la probabilita’ con la

funzione di distribuzione, perche’ gli Ai sono intervalli bidimensionali. L’ insieme E si puo’ scrivere come

E = ∪iEi ed e’ un evento in quanto unione di eventi. Inoltre visto che gli Ai sono disgiunti, gli Ei sono

disgiunti e allora, per la sigma additivita’ P (E) =∑

i P (Ei).

L’ ultima proposizione mostra che se si conosce la funzione di distribuzione e’ possibile calcolare la

probabilita’ di eventi del tipo X ∈ U dove U e’ una unione di intervalli bidimensionali disgiunti e questi

eventi coprono tutti i casi di interesse pratico.

5.3 Variabili e densita’ discrete

Una variabile aleatoria Z = (X,Y ) si dice discreta se X e Y sono variabili discrete3. Le determinazioni

della variabile bidimensionale sono quindi un insieme ΩZ = ΩX ×ΩY , dato dal prodotto scalare di ΩX e

ΩY . Gli elementi di questo insieme sono coppie di numeri reali.

Estendendo quanto gia’ fatto nel caso unidimensionale consideriamo due classi di eventi che saranno

utili. In primo luogo gli eventi elementari, che sono insiemi del tipo X = x, Y = y = Z = (x, y). Laseconda classe e’ quella degli eventi del tipo Z ∈ A dove A ∈ P(ΩZ) e quindi e’ un insieme numerabile

di coppie di numeri reali, A = (x1, y1), (x2, y2), (x3, y3), ... con xi ∈ ΩX e yi ∈ ΩY . Notiamo che P(ΩZ)

comprende tutti gli insiemi di cui interessa calcolare la probabilita’.

3Con ovvia estensione nel caso n-dimensionale.

56

Page 57: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Anche in questo caso si puo’ introdurre una funzione p : ℜ2 → ℜ, detta densita’ discreta bidimensionale

e definita come segue

p(x, y) = P (X = x, Y = y) per (x, y) ∈ ℜ2.

A parole la densita’ p(x, y) e’ la probabilita’ dell’ evento elementare X = x, Y = y e naturalmente

sara’ nulla se (x, y) /∈ ΩX × ΩY . La densita’ e’ utile perche’ permette di calcolare in modo semplice

la probabilita’ di un evento del tipo Z ∈ A dove A ∈ P(ΩZ). In particolare, dato un insieme A =

(x1, y1), (x2, y2), ..., introducendo gli insiemi Ai = (xi, yi) possiamo scrivere A = A1 ∪ A2... e visto

che gli Ai sono disgiunti abbiamo che l’evento Z ∈ A = ∪iZ ∈ Ai si ottiene come unione numerabile

di eventi elementari disgiunti. Quindi, usando la sigma additivita’, risulta P (Z ∈ A) =∑

i P (Z ∈ Ai) e

cioe’

P (Z ∈ A) =∑

(x,y)∈A

p(x, y) (5.9)

che fornisce un modo semplice di calcolare la probabilita’ a partire dalla densita’ ed estende la (4.13) al

caso bidimensionale. Il ragionamento si ripete in modo ovvio per il caso n-dimensionale4.

Un caso particolare che ricorre spesso e’ quello in cui ΩX e ΩY sono insiemi di numeri interi. In questo

caso ci si puo’ limitare a definire la densita’ solo per valori interi, cioe’ porre

p(i, j) = P (X = i, Y = j) per (i, j) ∈ ℑ2,

e ci si puo’ limitare al calcolo della probabilita’ di eventi del tipo Z ∈ A dove A ∈ P(ℑ2) e’ un insieme

numerabile di coppie di interi, visto che questi insiemi coprono tutti i possibili sottoinsiemi di ΩZ . E’

facile verificare5 che p(i, j) e’ una densita’ (bidimensionale) discreta nel senso che verifica le (3.10).

Esempio 43 Consideriamo la variabile bidimensionale introdotta nell’ esempio 41, data da Z = (X,Y )

dove X e Y sono due numeri estratti al lotto. Per assegnare una densita’ alla variabile Z notiamo che

i possibili risultati sono tutte le coppie (i, j) dove i e j sono numeri fra uno e novanta diversi fra loro.

Visto che il primo numero e’ estratto fra 90 possibili ed il secondo e’ estratto fra 89 possibili numeri ci

sono in tutto 90 ·89 diverse coppie e non ci sono motivi per ritenere un risultato piu’ probabile degli altri.

Quindi possiamo assegnare una densita’ uniforme del tipo

p(i, j) =1

90 · 89 = q per i, j = 1, ..., 90 i 6= j,

p(i, j) = 0 altrove .

Con la densita’ siamo in grado di calcolare la probabilita’ di qualsiasi evento. Per esempio calcoliamo

la probabilita’ che vengano estratti due numeri consecutivi, cioe’ dell’ evento E = Y = X + 1. L’

evento si puo’ scrivere E = Z ∈ A dove l’insieme A ⊂ ℑ2 e’ formato da tutte le coppie del tipo (i, i+1)

per qualsiasi i. A questo punto notiamo che la densita’ e’ diversa da zero (e pari a q) solo per le coppie

con i compreso fra uno e 89 e quindi, usando la (5.9), scriviamo

P (Z ∈ A) =∑

(i,j)∈A

p(i, j) =89∑

i=1

p(i, i+ 1) = 89q =1

90.

Quindi in media una volta ogni 90 estrazioni vengono estratti due numeri consecutivi.

4Si pone p(x1, ...xn) = P (X1 = x1, ..., Xn = xn) e, per qualsiasi insieme A ∈ P(ΩZ), si ricava

P (Z ∈ A) =∑

(x1,...,xn)∈A

p(x1, ..., xn).

5E’ ovviamente maggiore di o uguale a zero. Inoltre∑∞

i,j=−∞ p(i, j) corrisponde alla probabilita’ dell’ evento ω ∈Ω|Z(ω) ∈ ℑ2 che coincide con Ω e quindi ha probabilita’ uno.

57

Page 58: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Con ragionamenti simili a quelli gia’ svolti per il caso unidimensionale, non e’ difficile verifcare che

anche nel caso bidimensionale la funzione di distribuzione e’ costante a tratti e cambia valore solo in

corrispondenza dei possibili risultati. In questo modo e’ possibile riformulare la definizione di variabile

discreta, come gia’ fatto nel caso unidimensionale. Inoltre, nel caso di variabili a valori interi, e’ facile

ricavare le seguenti formule

p(i, j) = f(i, j)− f(i− 1, j)− f(i, j − 1) + f(i− 1, j − 1),

f(i, j) =

i∑

n=−∞

j∑

m=−∞

p(n,m).

Le ultime due equazioni chiarificano ed esprimono in modo compatto il legame esistente fra le funzioni di

distribuzione e di densita’ per una variabile discreta a valori interi ed estendono al caso bidimensionale

le (4.16) e (4.17).

5.4 Variabili e densita’ continue

Un secondo tipo di variabile bidimensionale utile nelle applicazioni e’ quello delle varibili continue, che si

possono definire cosi’

Definizione 19 Una variabile aleatoria bidimensionale e’ continua quando la sua funzione di distribuzione

e’ una funzione continua e derivabile.

Come nel caso unidimensionale, per queste variabili si puo’ introdurre una funzione p : ℜ2 → ℜ che e’

detta densita’ di probabilita’ e che consente il calcolo della probabilita’ di eventi definiti sulla variabile.

Nel caso bidimensionale6 la funzione e’ definita come segue

p(x, y) =∂2

∂x∂yf(x, y) (5.10)

e cioe’ e’ pari alla derivata della funzione di distribuzione. Per capire l’ utilita’ della funzione consideriamo

l’ integrale della densita’ sull’ intervallo I = x0 < x ≤ x1, y0 < y ≤ y1: si ha7∫

I

p(x, y)dxdy =

∫ x1

x0

∫ y1

y0

p(x, y)dxdy = f(x1, y1)− f(x0, y1)− f(x1, y0) + f(x0, y0). (5.11)

Confrontando l’ ultima equazione con la (5.7) concludiamo che la probabilita’ di un evento del tipo

E = Z ∈ I dove I e’ un intervallo bidimensionale si ottiene integrando la densita’ sull’ intervallo e cioe’

P (Z ∈ I) =

I

p(x, y)dxdy.

L’ ultima equazione consente di usare la densita’ anche per calcolare la probabilita’ di eventi del tipo

Z ∈ U dove U ∈ U2 e’ una unione di intervalli digiunti. Infatti se U = ∪iIi e IiIj = ∅ per i 6= j allora,

per la sigma additivita’, P (Z ∈ U) =∑

i P (Z ∈ Ii) e quindi

P (Z ∈ U) =

∞∑

i=1

Ii

p(x, y)dxdy =

U

p(x, y)dxdy.

6Nel caso n-dimensionale

p(x1, ..., xn) =∂n

∂x1....∂xn

f(x1..., xn).

7Infatti∫ x1

x0

∫ y1

y0

p(x, y)dxdy =

∫ x1

x0

∫ y1

y0

∂2

∂x∂yf(x, y)dxdy =

=

∫ x1

x0

d

dxf(x, y1)dx−

∫ x1

x0

d

dxf(x, y0)dx = f(x1, y1)− f(x0, y1)− f(x1, y0) + f(x0, y0).

58

Page 59: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.5: Supporto e densita’ considerate nell’ esempio 44.

Piu’ in generale diciamo, senza dimostrarlo8, che dato un qualsiasi insieme A su cui la densita’ risulta

integrabile allora abbiamo9

P (Z ∈ A) =

A

p(x, y)dxdy. (5.12)

Visto che gli insiemi di questo tipo coprono la totalita’ dei casi di interesse pratico, la densita’ di proba-

bilita’ risulta essere uno strumento molto utile.

Notiamo che dalla (5.11) e dalle (5.2) e (5.3) si ricava

∫ x

−∞

∫ y

−∞

p(u, v)dudv = f(x, y) (5.13)

che e’ utile per ricavare la distribuzione se si conosce la densita’. Infine notiamo che dalla formula

precedente e dalle (5.2), (5.3) e (5.4) si ottiene

∫ ∞

−∞

∫ ∞

−∞

p(x, y)dxdy = 1

e che dalla (5.10) e dalle (5.5) e (5.6) segue

p(x, y) ≥ 0.

Le ultime equazioni stabiliscono due proprieta’ che tutte le densita’ bidimensionali10 continue verificano

e che sono analoghe a quelle del caso monodimensionale viste in definizione 10.

Esempio 44 Consideriamo due puntatori, identici a quello considerato nell’ esempio 32 ed indichiamo

con X e Y due variabili aleatorie che danno, rispettivamente, la posizione del primo e del secondo

puntatore dopo che sono stati fatti girare. Ricaviamo la densita’ p(x, y) della variabile Z = (X,Y ). Visto

che ciascun puntatore puo’ dare un risultato solo nell’ intervallo [−1/2, 1/2] la densita’ sara’ nulla al di

fuori dell’ intervallo I = −1/2 ≤ x ≤ 1/2,−1/2 ≤ y ≤ 1/2, mostrato in figura 5.5, che viene detto il

supporto della densita’. Inoltre in questo intervallo tutti i punti sono egualmente probabili e quindi la

densita’ sara’ costante. Imponendo che l’ integrale della densita’ sia unitario si ricava che la densita’ deve

essere il reciproco dell’ area di I che e’ unitaria. Quindi la densita’ e’ data da

p(x, y) = 1 per (x, y) ∈ I p(x, y) = 0 altrove.

La densita’ e’ mostrata in figura 5.5 e si puo’ scrivere in modo piu’ compatto come p(x, y) = rect(x)rect(y).

8La dimostrazione si basa sul fatto che qualsiasi insieme di interesse su ℜ2 puo’ essere ottenuto come il limite di una

unione di intervalli disgiunti.9Con ovvia estensione al caso n-dimensionale.

10Con ovvia estensione al caso n-dimensionale.

59

Page 60: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.6: Rappresentazione schematica dell’ applicazione di una funzione f : ℜ2 → ℜ2 a una variabile

aleatoria bidimensionale. Si forma una nuova variabile aleatoria, Y , bidimensionale.

Calcoliamo ora la probabilita’ che entrambi i puntatori si fermino sul lato destro e cioe’ diano un

risultato positivo. Questo evento si puo’ scrivere come E = Z ∈ A dove A = X ≥ 0, Y ≥ 0. La

probabilita’ si ottiene integrando la densita’ di figura 5.5 su A e quindi

P (E) =

A

p(x, y)dxdy =

∫ 1/2

0

∫ 1/2

0

1dxdy = 1/4.

L’ integrale si puo’ anche calcolare con considerazioni geometriche.

Come abbiamo nell’ultimo esempio la densita’ di una variabile aleatoria puo’ essere ricavata diretta-

mente, senza necessariamente calcolarla come la derivata della funzione di distribuzione. Questo approccio

e’ normalmante il piu’ pratico ed e’ giustificato nella prossima sezione.

5.5 Esistenza e funzioni di variabili aleatorie

I concetti visti nelle sezioni 4.7 e 4.8, relativi all’ esistenza e alle funzioni di una variabile aleatoria si

estendono immediatamente al caso n-dimensionale. In particolare diciamo, senza dimostrarlo, che per

il caso n-dimensionale esistono gli analoghi dei teoremi 1 e 2. Quindi, comunque siano assegnate una

variabile n-dimensionale e la sua densita’, e’ possibile costruire uno spazio sul quale quella variabile puo’

essere definita. Questo autorizza ad analizzare un fenomeno direttamente tramite una o piu’ variabili,

scegliendo le loro densita’ in modo appropriato.

Per quanto riguarda le funzioni di variabili aleatorie notiamo che, dato uno spazio di probabilita’

< Ω,Φ, P >, una variabile aleatoria n-dimensionale X = X(ω) e una funzione f : ℜn → ℜm, possiamo

considerare la funzione Y = f ·X che si ottiene dall’ applicazione successiva prima di X e poi di f . Come

per il caso undimensionale, la funzione Y = f(X) e’ una variabile aleatoria essa stessa, m-dimensionale,

che mappa l’ insieme dei risultati su ℜm, come mostrato in figura 5.6. Per questa variabile si possono

ripetere le considerazioni gia’ fatte per il caso monodimensionale. Naturalmente anche in questo caso e’

molto utile ricavare la densita’ della Y a partire dalla densita’ della X, cosa in teoria sempre possibile.

Nel caso generale questo problema e’ complicato e, per brevita’, non lo analizziamo, rimandando il lettore

a testi piu’ approfonditi. In queste dispense ci limiteremo a discutere alcuni casi specifici a mano a mano

che si presenteranno. Sottolineiamo pero’ l’ importanza del concetto di funzione di variabili aleatorie.

Questo concetto da’ un significato a qualunque espressione contenente una o piu’ variabili aleatorie, che

e’ appunto una funzione e quindi una variabile essa stessa. In altre parole con questo concetto e’ possibile

definire nuove variabili aleatorie applicando operazioni matematiche ad altre variabili, cosa che e’ spesso

utile e naturale in pratica.

Esempio 45 Per allungare il tempo di vita di un apparecchio si puo’ costruire un sistema ridondato, in

cui due apparecchi identici vengono connessi in modo che quando si guasta il primo comincia a funzionare

il secondo. In questo modo si allunga il tempo di funzionamento complessivo (ma raddoppiando il

60

Page 61: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.7: Esempi di eventi marginali.

costo del sistema). Probabilisticamente, un sistema ridondato puo’ essere descritto introducendo due

variabili aleatorie D1 e D2 che danno la durata di funzionamento del primo e del secondo apparecchio.

Naturalmente e’ utile definire la variabile

T = D1 +D2

che e’ pari alla durata totale di funzionamento e che si ottiene applicando la funzione f(x, y) = x+ y alla

variabile (D1, D2).

Un caso particolare e’ quello di una variabile aleatoria Z = X + jY , dove j =√−1 e’ l’ unita’

immaginaria. La variabile Z si dice una variabile aleatoria complessa e puo’ pensarsi come ottenuta

dalle variabili X e Y applicando la funzione f(x, y) = x + jy. Le proprieta’ statistiche della Z sono

completamente specificate dalla densita’ p(x, y).

5.6 Variabili e densita’ marginali

Dato uno spazio di probabilita’ < Ω,Φ, P >, consideriamo una variabile bidimensionale Z = (X,Y ) con

densita’ p(x, y). Per definizione di Z, le X e Y sono a loro volta due variabili aleatorie unidimensionali,

che vengono dette le variabili marginali, mentre Z viene anche detta la variabile congiunta.

Consideriamo un insieme dell’ asse reale A ⊂ ℜ ed un evento del tipo X ∈ A. Questo evento, visto

che coinvolge la sola variabile X, viene detto un evento marginale sulla variabile X. Analogamente, un

evento del tipo Y ∈ A e’ un evento marginale sulla variabile Y . Naturalmente gli eventi marginali

possono anche essere espressi sulla variabile congiunta. Per esempio l’ evento X ∈ A si puo’ anche

esprimere come Z ∈ B dove B = (X,Y ) ∈ ℜ2|X ∈ A e’ l’ insieme del piano mostrato in figura 5.7,

che interseca l’ asse X in corrispondenza di A e si estende all’ infinito lungo la direzione Y .

Le variabili marginali hanno naturalmente le proprie densita’, che vengono dette marginali e che

indicheremo con pX(x) e pY (y). Per chiarezza anche la densita’ congiunta viene etichettata e si puo’

scrivere, equivalentemente, pZ(x, y) oppure pXY (x, y). E’ naturale chiedersi se esista una relazione fra le

densita’ marginali e la densita’ congiunta. Abbiamo le seguenti proposizioni:

Proposizione 8 Sia data una variabile aleatoria discreta Z = (X,Y ) che assume valori sui numeri

interi11, con densita’ pXY (i, j). Le densita’ marginali si ottengo dalla densita’ congiunta come

pX(i) =

∞∑

j=−∞

pXY (i, j) pY (j) =

∞∑

i=−∞

pXY (i, j)

11L’ estensione al caso generale e’ semplice.

61

Page 62: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Dimostrazione. Assegnato un qualsiasi valore intero i, per definizione pX(i) = P (X = i) e cioe’ pX(i)

e’ la probabilita’ dell’ evento X = i. Questo e’ un evento marginale che si puo’ esprimere anche sulla

variabile congiunta, come X = i, Y ∈ ℑ, e quindi la probabilita’ dell’ evento si ottiene dalla (5.9)

usando un insieme A = (x, j) ∈ ℑ2|x = i, j ∈ ℑ. Allora

pX(i) =∑

(x,j)∈A

pXY (x, j) =∞∑

j=−∞

pXY (i, j).

La dimostrazione della seconda relazione e’ identica.

Proposizione 9 Sia data una variabile aleatoria continua Z = (X,Y ), con densita’ pXY (x, y). Le

densita’ marginali si ottengo dalla densita’ congiunta come

pX(x) =

∫ ∞

−∞

pXY (x, y)dy pY (y) =

∫ ∞

−∞

pXY (x, y)dx (5.14)

Dimostrazione. Calcoliamo la funzione di distribuzione della variabile marginale X. Per definizione si

ha f(x) = P (X ≤ x) e cioe’ che f(x) e’ pari alla probabilita’ dell’ evento marginale X ≤ x. Questo

evento puo’ essere espresso anche sulla variabile congiunta e la sua probabilita’ e’ pari alla probabilita’

dell’ evento Z ∈ A dove A = (X,Y ) ∈ ℜ2|X ≤ x, Y ∈ ℜ. Allora, usando la (5.12), ricaviamo

f(x) =

A

pXY (u, y)dudy =

∫ x

u=−∞

[∫ ∞

y=−∞

pXY (u, y)dy

]

du.

Confrontando l’ espressione precedente con la (4.22) si nota che il termine compreso fra le parentesi

quadre e’ pari a pX(u) e cioe’

pX(u) =

∫ ∞

y=−∞

pXY (u, y)dy

da cui la tesi segue sostituendo u con x. La dimostrazione della seconda relazione e’ identica.

Le ultime due proposizioni mostrano che le densita’ marginali si possono ricavare dalla densita’ con-

giunta. Si noti pero’ che non e’ vero il contrario ovvero che non e’ in generale possibile ricavare la densita’

congiunta dalle due densita’ marginali. Le proposizioni indicano che la densita’ marginale di una variabile

si ottiene integrando o sommando la densita’ congiunta sull’ altra variabile. L’ operazione di sommare o

integrare una densita’ congiunta su una variabile marginale si chiama la ”saturazione” della densita’.

Esempio 46 Consideriamo ancora lo spazio visto nell’ esempio 43. Ricordiamo che abbiamo calcolato

la densita’ della variabile Z = (X,Y ) dove X e Y sono due numeri estratti al lotto e che risultava

pX,Y (i, j) =1

90 · 89 = q per i, j = 1, ..., 90 i 6= j,

pX,Y (i, j) = 0 altrove .

Calcoliamo la densita’ marginale della X, il che si fa saturando la congiunta sulla Y . Abbiamo

pX(i) =∞∑

j=−∞

pXY (i, j) =90∑

j=1

pXY (i, j).

Per calcolare la somma basta notare che, per 1 ≤ i ≤ 90, vengono sommati 89 termini uguali a q (per

j 6= i) e un termine pari a zero (per j = i). Allora la somma e’ 89q = 1/90 e ricaviamo

pX(i) = 1/90 per i = 1, ..., 90 pX(i) = 0 altrove

Quindi la variabile marginale X ha una distribuzione uniforme, fra 1 e 90. Lo stesso risultato si ricava

facilmente per la Y .

62

Page 63: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

L’ operazione di saturazione per ricavare le densita’ marginali si estende anche al caso n-dimensionale,

sia discreto che continuo. Pero’ in questo caso l’ insieme delle possibilita’ e’ piu’ ricco. Infatti, data

una densita’ congiunta pX1,...,Xn(x1, ..., xn) e’ possibile saturare diversi insiemi di variabili marginali ed

ottenere diverse densita’. Per esempio, saturando le variabili da 2 a n si ottiene la densita’ marginale

della variabile X1:

pX1(x1) =

∫ ∞

−∞

pX1,...,Xn(x1, ..., xn)dx2...dxn.

Invece saturando le variabili da 3 a n si ottiene

pX1,X2(x1, x2) =

∫ ∞

−∞

pX1,...,Xn(x1, ..., xn)dx3...dxn

e cioe’ la densita’ congiunta delle prime due variabili marginali.

Esempio 47 Consideriamo ancora lo spazio visto nell’ esempio 44 relativo ad una coppia di puntatori.

Ricordiamo che abbiamo calcolato la densita’ della variabile Z = (X,Y ), dove X e Y sono le posizioni

dei due puntatori dopo un colpo, e che risultava pX,Y (x, y) = rect(x)rect(y). Calcoliamo la densita’

marginale della X, usando la (5.14). Abbiamo

pX(x) =

∫ ∞

−∞

pXY (x, y)dy =

∫ ∞

−∞

rect(x)rect(y)dy = rect(x)

∫ ∞

−∞

rect(y)dy = rect(x).

Quindi, come era lecito aspettarsi, la variabile X, che da’ la posizione del primo puntatore dopo un colpo,

ha una densita’ uniforme fra −1/2 e 1/2.

5.7 Densita’ condizionate, indipendenza

Come abbiamo visto in sezione 4.9, data una variabile X ed un evento A, possiamo definire la densita’

di X condizionata all’ evento, pX|A(x|A). Questo concetto si puo’ estendere al caso bidimensionale, in

cui sono assegnate due variabili aleatorie X e Y e la variabile congiunta Z = (X,Y ). In particolare, una

estensione immediata e’ quella di considerare una densita’ congiunta condizionata all’evento, indicata

con pZ|A(x, y|A). La definizione di questa densita’ e’ uno sviluppo ovvio dei risultati di sezione 4.9 e

non verra’ presentata. Invece, in questa sezione, consideriamo una seconda estensione, meno ovvia e piu’

interessante. In particolare, vogliamo definire la densita’ di una delle due variabili quando e’ assegnato il

valore dell’ altra.

Consideriamo uno spazio di probabilita’ e due variabili aleatorie X e Y , discrete oppure continue. Cio’

posto, per qualsiasi numero reale y tale che pY (y) > 0, si chiama la densita’ condizionata della variabile

X posto che Y = y, la seguente funzione12 di x

pX|Y (x|y) =pXY (x, y)

pY (y)per x ∈ ℜ. (5.15)

Per comprendere il senso della definizione consideriamo delle variabili aleatorie discrete. In questo caso,

per la definizione di densita’, risulta che pY (y) = P (Y = y) e’ la probabilita’ dell’ evento A = Y = y.Per un qualsiasi valore x possiamo introdurre l’ evento B = X = x e notare che pXY (x, y) = P (X =

x, Y = y) = P (BA). A questo punto, confrontando con la (3.11), si vede che pX|Y (x|y) = P (B|A), e cioe’che la funzione restituisce la probabilita’ condizionata di B dato A, ovvero la probabilita’ che X = xricalcolata sulla base del fatto che Y = y. Quindi al variare di x, fornisce una densita’ per la variabile

X ricalcolata sulla base del fatto che Y = y. Una interpretazione simile esiste anche per il caso delle

veriabili aleatorie continue, ma e’ complicata dal fatto che gli eventi elementari hanno in questo caso

12Nel caso n-dimensionale, data una variabile X = (X1, ...., Xn), si possono considerare le densita’ condizionate di un

sottoinsieme delleXi posto che le altre assumono valori assegnati. Per esempio pX1...Xm|Xm+1...Xn(x1, ..., xm|xm+1, ..., xn).

63

Page 64: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

probabilita’ zero e quindi rinunciamo a darla. Notiamo che e’ semplice controllare13 che pX|Y (x|y) sia

effettivamente una densita’.

Esempio 48 Continuiamo l’ esempio 46. Supponiamo di sapere che Y = 52, cioe’ che il secondo numero

estratto e’ 52. Calcoliamo la densita’ della X condizionata a questa informazione. Abbiamo

pX|Y (i|52) =pX,Y (i, 52)

pY (52).

Ora notiamo che pY (52) = 1/90 come abbiamo calcolato nell’ esempio 46. Inoltre pX,Y (i, 52) = q per

i = 1, .., 90 e i 6= 52. Quindi

pX|Y (i|52) = 90q = 1/89 per i = 1, ..., 90 i 6= 52 pX(i) = 0 altrove .

La densita’ e’ ancora uniforme ma assume solo 89 valori diversi, quelli fra 1 e 90 con 52 escluso. Corretta-

mente il valore X = 52 non puo’ verificarsi perche’ questo numero e’ gia’ uscito nella seconda estrazione.

Nella (5.15) abbiamo supposto che y fosse un numero reale assegnato, tale che pY (y) > 0. Nulla

vieta pero’ di considerare anche y una variabile, che assume valori sui reali. In questo caso la (5.15)

definisce una funzione di due variabili, x e y, che diremo la densita’ condizionata di X dato Y . Questa

funzione (che viene convenzionalmente posta a zero quando pY (y) = 0) fornisce la densita’ condizionata

di X per qualsiasi y ed e’ un altro strumento utile, che si aggiunge alla densita’ congiunta, nell’ analisi

delle variabili bidimensionali. Per esempio, permette di ricavare la densita’ congiunta se si conosce la

marginale della Y , visto che dalla (5.15) si ricava

pXY (x, y) = pX|Y (x|y)pY (y). (5.16)

Inoltre, nel caso continuo, integrando l’ ultima equazione sulla variabile y si ricava

pX(x) =

∫ ∞

−∞

pX|Y (x|y)pY (y)dy, (5.17)

mentre nel caso discreto, assumendo risultati interi e sostituendo per chiarezza (x, y) con (i, j), sommando

su j si ottiene

pX(i) =∞∑

j=−∞

pX|Y (i|j)pY (j).

Le ultime due formule sono una estensione della (3.13) al caso delle densita’ e possono essere chiamate i

teoremi delle probabilita’ totali per densita’ continue e discrete.

Due variabili aleatorie X e Y si dicono indipendenti se risulta

pXY (x, y) = pX(x)pY (y). (5.18)

A parole, due variabili sono indipendenti se la loro distribuzione congiunta si ottiene dal prodotto delle

distribuzioni marginali14. Il significato della definizione si puo’ apprezzare notando che, nel caso di

variabili indipendenti,

pX|Y (x|y) = pX(x) pY |X(y|x) = pY (y)

come si verfica facilmente, e quindi, se le variabili sono indipendenti, le densita’ condizionate sono uguali

alle marginali, il che significa che la determinazione di una delle due non ha impatto sulla determinazione

dell’ altra.13E’ ovviamente maggiore di o uguale a zero. Inoltre

pX|Y (x|y)dx =

pXY (x, y)

pY (y)dx =

pY (y)

pY (y)= 1.

.14Analogamente, n variabili X1, ..., Xn si dicono indipendenti se, comunque assegnati k ≤ n indici n1, ..., nk risulta

pXn1,Xn2

...(xn1 , xn2 , ...) = pXn1(xn1 )pXn2

(xn2 ).....

64

Page 65: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Esempio 49 Il signor Rossi chiama tutti i giorni sua moglie in un istante casuale fra le quattro e mezza e

le cinque e mezza. La telefonata ha una durata casuale compresa fra 0 e 15 minuti, che non dipende dall’

istante in cui inizia. Costruiamo uno modello probabilistico per questo fenomeno. Misuriamo i tempi in

ore e consideriamo due variabili aleatorie: T che da’ l’ ora in cui il signor rossi chiama e D che da’ la

durata della conversazione. Per la prima possiamo assumere una densita’ uniforme fra 4, 5 e 5, 5. Per

la seconda possiamo assumere una densita’ uniforme fra zero e 0, 25. Le densita’ si ricavano imponendo

integrale unitario e sono pT (t) = rect(t− 5) e pD(d) = 4rect[4(d− 0, 125)].

Per una descrizione completa del fenomeno dobbiamo ricavare la densita’ congiunta della variabile

Z = (T,D), indicata con pT,D(t, d). Questa si puo’ ricavare sulla base dell’ ipotesi fatta prima e cioe’

che la durata della telefonata non dipende da quando questa ha inizio. In altre parole l’ ipotesi e’ che le

variabili T e D siano indipendenti. Quindi la congiunta si ricava dal prodotto delle marginali ed e’

pTD(t, d) = 4rect(t− 5)rect[4(d− 0, 125)].

Questa densita’ e’ mostrata in figura 5.8 assieme al suo supporto, cioe’ la parte di piano in cui e’ diversa

da zero. Come si nota questa densita’ e’ costante e pari a 4 all’ interno del supporto.

Ora che abbiamo la densita’ congiunta possiamo calcolare la probabilita’ di eventi definiti sul fenomeno

aleatorio. Per esempio consideriamo un generico istante h e calcoliamo la probabilita’ di trovare occupato

in questo istante. Questo evento si verifica se si verificano contemporaneamente questi altri due eventi

T < h e T +D > h e cioe’ se h cade dopo l’ inizio ma prima della fine della telefonata. Per calcolare

la probabilita’ consideriamo quindi il piano (T,D) e introduciamo i due insiemi A = (T,D) ∈ ℜ2|T < he B = (T,D) ∈ ℜ2|T + D > h e la loro intersezione I = AB. Questi insiemi sono mostrati in figura

5.9. La probabilita’ che vogliamo calcolare si puo’ scrivere come P (Z ∈ I) e ricavare usando la (5.12).

Pero’ in questo caso semplice, visto che la densita’ e’ costante e pari a 4 all’ interno del supporto, per

calcolare l’ integrale basta valutare l’area dell’ intersezione di I col supporto e moltiplicarla per 4. L’

intersezione fra I ed il supporto e’ mostrata in figura 5.9 per tre valori di h. Dal disegno si vede che, se

4, 75 < h < 5, 5, l’ area dell’ intersezione e’ 1/32 e la probabilita’ di trovare occupato e’ pari a 4/32 = 1/8.

La probabilita’ decresce e tende a zero al di fuori di questo intervallo.

Esempio 50 Consideriamo l’ esempio 45 relativo ad un sistema ridondato e ricaviamo la probabilita’

che funzioni almeno fino al tempo t0. A questo scopo indichiamo con X e Y le variabili aleatorie la cui

determinazione indica la durata di funzionamento del primo e del secondo sistema, rispettivamente, e

ricaviamo la densita’ della variabile congiunta Z = (X,Y ). Assumiamo che gli apparecchi siano identici,

e quindi che le variabili X e Y abbiano la stessa distribuzione, che assumiamo esponenziale con parametro

λ. Indichiamo la densita’ esponenziale con ǫ(x) e cioe’ poniamo

ǫ(x) = λe−λx per x ≥ 0 ǫ(x) = 0 per x < 0. (5.19)

Le densita’ marginali sono dunque pX(x) = ǫ(x) e pY (y) = ǫ(y). Visto che i sistemi sono fisicamente

separati e’ ragionevole assumere che le due variabili siano indipendenti e quindi per la densita’ congiunta

possiamo scrivere

pXY (x, y) = ǫ(x)ǫ(y).

La densita’ e’ mostrata in figura 5.12 assieme al suo supporto. Cio’ posto notiamo che l’ evento E =”Il

sistema funziona almeno fino al tempo t0” coincide con l’ insieme E = X + Y ≥ t0 ovvero E = X ≥t0−Y . Allora consideriamo l’ insieme nel piano (X,Y ) dato da A = (X,Y ) ∈ ℜ2|X ≥ t0−Y . Questo

insieme e’ quello dei punti che si trovano a destra della retta X = t0 − Y ed e’ mostrato in figura 5.13.

Per calcolare la probabilita’ dell’evento E dobbiamo integrare la densita’ su A. E’ pero’ piu’ semplice

calcolare la probabilita’ dell’evento complementare E corrispondente all’ insieme A. Visto che la densita’

e’ nulla al di fuori del supporto basta calcolare l’ integrale sull’ insieme B dato dall’ intersezione di A col

supporto, mostrato in figura 5.13. Possiamo quindi scrivere

P (E) = P (Z ∈ A) =

B

ǫ(x)ǫ(y)dxdy =

∫ t0

x=0

∫ t0−x

y=0

ǫ(x)ǫ(y)dxdy.

65

Page 66: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.8: Supporto (a sinistra) e densita’ (a destra) per le variabili T eD, inizio e durata della telefonata

(figura non in scala).

Per valutare l’ integrale riscriviamolo come

P (E) =

∫ t0

x=0

ǫ(x)

[∫ t0−x

y=0

ǫ(y)dy

]

dx =

∫ t0

x=0

ǫ(x)

[∫ t0−x

y=0

λe−λydy

]

dx

e notiamo che, con qualche passaggio, si ottiene

∫ t0−x

y=0

λe−λydy = 1− e−λ(t0−x).

Usando l’ ultima espressione ed esplicitando ǫ(x) ricaviamo

P (E) =

∫ t0

x=0

λe−λx[1− e−λ(t0−x)]dx

che, con qualche passaggio, si valuta come

P (E) = 1− e−λt0 − λt0e−λt0 = 1− e−λt0(1 + λt0)

e quindi

P (E) = 1− P (E) = e−λt0(1 + λt0).

Per concludere notiamo che, ovviamente, possiamo anche scambiare il ruolo di X e Y nella (5.15) e

considerare pY |X(y|x), la densita’ di Y data X. E’ facile verificare15 che vale la seguente equazione

pY |X(y|x) = pX|Y (x|y)pY (y)pX(x)

che estende la formula di Bayes (3.14) al caso delle densita’.

5.8 Alcune conseguenze dell’ indipendenza

Consideriamo alcune conseguenze dell’ indipendenza di due variabili. Per semplicita’ ci limitiamo al caso

continuo, ma tutti i risultati valgono anche per quello discreto. Prima di tutto notiamo che, usando la

15Basta scrivere

pY |X(y|x) = pXY (x, y)

pX(x)

ed usare la (5.16).

66

Page 67: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.9: Insiemi considerati nell’ esempio 49.

(5.13), e’ facile far vedere che se le variabili sono indipendenti, per le funzioni di distribuzione risulta

fXY (x, y) = fX(x)fY (y) e cioe’ che anche la funzione di distribuzione si fattorizza nel prodotto di due

funzioni. Inoltre vale il viceversa, cioe’ se si fattorizza la funzione di distribuzione allora si fattorizza

anche la densita’ e le variabili sono indipendenti, come si vede a partire dalla definizione di densita’.

Consideriamo ora due eventi marginali definiti su due variabili, X e Y . In particolare consideriamo

gli eventi EX = X ∈ Ax ed EY = Y ∈ Ay, dove Ax, Ay ⊂ ℜ. Possiamo poi considerare l’ evento

E = EX ∩ Ey = (X,Y ) ∈ A = Ax × Ay. Cio’ posto, supponendo che le variabili siano indipendenti

ricaviamo

P (E) =

A

pXY (x, y)dxdy =

Ax

pX(x)dx

Ay

pY (y)dy = P (Ex)P (Ey).

Ricordando la (3.17), l’ ultima equazione dimostra che eventi marginali definiti su variabili indipendenti

sono eventi indipendenti. Anche in questo caso e’ vero anche il contrario e cioe’ se gli eventi marginali

su due variabili sono sempre indipendenti allora le variabili sono indipendenti16.

Consideriamo una variabile aleatoria U = g(X) funzione della variabile X ed una seconda variabile

V = h(Y ) funzione della Y . E’ facile verificare17 che se X e Y sono indipendenti lo sono anche U e V .

Consideriamo due variabili X e Y ed assumiamo che siano statisticamente indipendenti. In questa

ipotesi e’ possibile ricavare una espressione per la densita’ della loro somma, Z = X + Y , in funzione

16Perche’ in questo caso, considerato l’ evento X ≤ x, Y ≤ y avremmo

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y)

e cioe’ fXY (x, y) = fX(x)fY (y). Visto che la distribuzione si fattorizza le variabili sono indipendenti.17In questo caso l’ evento U ≤ u, V ≤ v si puo’ scrivere come g(X) ≤ u, h(Y ) ≤ v e risulta l’ intersezione di eventi

marginali sualla X e sulla Y . Se queste sono indipendenti

P (U ≤ u, V ≤ v) = P [g(X) ≤ u, h(Y ) ≤ v] = P [g(X) ≤ u]P [h(Y ) ≤ v]

e cioe’ fUV (u, v) = fU (u)fV (v). Visto che la distribuzione si fattorizza le variabili sono indipendenti.

67

Page 68: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.10: Supporto (a sinistra) e densita’ (a destra) per le variabili T e F , inizio e fine della telefonata

(figura non in scala).

Figure 5.11: Insiemi considerati nell’ esempio 52.

delle densita’ marginali, pX(x) e pY (y). La densita’ di Z, che indichiamo con pZ(x), si puo’ ricavare

calcolando la densita’ di Z condizionata a Y , indicata con pZ|Y (x|y). Questa e’ la densita’ di Z supposto

che Y = y. In questa ipotesi Z = y +X e’ una funzione della variabile X e la sua densita’ puo’ essere

ricavata usando la (4.25) a partire da quella di X. Visto che abbiamo supposto Y assegnato, la densita’

da usare nel calcolo e’ quella di X dato Y , cioe pX|Y (x|y), ma visto che le variabili sono indipendenti

pX|Y (x|y) = pX(x). Allora dalla (4.25) si ottiene pZ|Y (x|y) = pX(x − y) e usando la (5.17) possiamo

68

Page 69: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 5.12: Supporto e densita’ per l’ esempio 50 (figura non in scala).

Figure 5.13: Insiemi relativi all’ esempio 50.

scrivere

pZ(x) =

∫ ∞

−∞

pZ|Y (x|y)pY (y)dy =

∫ ∞

−∞

pX(x− y)pY (y)dy.

Confrontando questa espressione con la (9.8) si puo’ dire che la densita’ della somma di due variabili

indipendenti si ottiene dalla convoluzione delle loro densita’.

Esempio 51 Consideriamo ancora un sistema ridondato, del tipo descritto nell’ esempio 50 e calcoliamo

la probabilita’ che funzioni almeno fino al tempo t0 per altra via. Indichiamo con X il tempo di fun-

zionamento del primo sistema, con Y quello del secondo. Entrambe queste variabili hanno distribuzione

esponenziale, indicata con ǫ(x) come nella (5.19). Cio’ posto consideriamo la variabile che da’ il tempo

di funzionamento totale, T = X + Y , e ricaviamo la sua densita’. Visto che X e Y sono indipendenti,

per la densita’ di T abbiamo

pT (t) = pX(t) ∗ pY (t) = ǫ(t) ∗ ǫ(t) =∫ ∞

−∞

ǫ(t− x)ǫ(x)dx.

Per risolvere l’ integrale notiamo che, visto che ǫ(x) = 0 per x < 0, l’ integrale e’ nullo se t < 0. Inoltre

per t > 0 la funzione integranda e’ diversa da zero solo nell’ intervallo [0, t]. Allora, per t > 0

pT (t) =

∫ t

0

ǫ(t− x)ǫ(x)dx =

∫ t

0

[λe−λ(t−x)][λe−λ(x)]dx = λ2e−λt

∫ t

0

dx = λ2te−λt.

69

Page 70: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Avendo ricavato la densita’ siamo ora in grado di calcolare la probabilita’ di eventi definiti su T . Cal-

coliamo la probabilita’ che il sistema ridondato funzioni almeno fino al tempo t0. Questa e’ la probabilita’

che T > t0 e si calcola integrando la densita’ che abbiamo ricavato

P (T > t0) =

∫ ∞

t0

pT (t)dt =

∫ ∞

t0

λ2te−λtdt = −∫ ∞

t0

λt de−λt

e usando la regola di integrazione per parti si ottiene

P (T > t0) = −[λt e−λt]∞t0 +

∫ ∞

t0

e−λtd(λt) = (1 + λt0)e−λt0 .

Esempio 52 Consideriamo ancora l’ esempio 49 in cui il signor Rossi telefona alla moglie e costruiamo un

altro modello per descrivere probabilisticamente il fenomeno. In particolare introduciamo una variabile

aleatoria F che da’ l’ istante di fine della telefonata e ricaviamo la densita’ della variabile Z = (T, F ). A

questo fine ricaviamo prima la densita’ di F data T , che indichiamo con pF |T (f |t). Questa e’ la densita’

di F supposto che T = t cioe’ che la telefonata sia iniziata nell’ istante t e si puo’ ricavare con lo stesso

approccio usato nell’ esempio 51. In particolare se T = t, allora F = t + D e la sua densita’ si puo’

ricavare dalla (4.25) a partire dalla densita’ di D data T , indicata con pD|T (f |t). Pero’, visto che T

e D sono indipendenti, risulta pD|T (f |t) = pD(f) = 4rect[4(f − 0, 125)] e, usando la (4.25) si ricava

pF |T (f |t) = 4rect[4(f − t− 0, 125)]. A questo punto possiamo usare la (5.16) e scrivere

pTF (t, f) = pF |T (f |t)pT (t) = 4rect[4(f − t− 0, 125)]rect(t− 5).

La densita’ congiunta e’ mostrata in figura 5.10 assieme al suo supporto, che puo’ essere determinato

ragionando sugli argomenti delle funzioni rettangolari. Si nota che la densita’ e’ costante all’ interno

del supporto. Inoltre, visto che la densita’ congiunta non si fattorizza nel prodotto delle due densita’

marginali, le variabili T e F non sono indipendenti.

Visto che abbiamo ricavato la densita’ congiunta possiamo calcolare la probabilita’ di eventi definiti

sul fenomeno. Per esempio calcoliamo di nuovo la probabilita’ di trovare occupato in un generico istante h.

Questo evento si verifica se si verificano contemporaneamente questi altri due eventi T < h e F > h e

cioe’ se h cade dopo l’ inizio ma prima della fine della telefonata. Per calcolare la probabilita’ consideriamo

il piano (T, F ) e introduciamo i due insiemi A = (T, F ) ∈ ℜ2|T < h e B = (T, F ) ∈ ℜ2|F > h e

la loro intersezione I = AB. Questi insiemi sono mostrati in figura 5.11. La probabilita’ che vogliamo

calcolare si puo’ scrivere come P (Z ∈ I) e ricavare usando la (5.12). Come nell’ esempio 49, visto che

la densita’ e’ costante e pari a 4 all’ interno del supporto, per calcolare l’ integrale basta valutare l’ area

dell’ intesezione di I col supporto e moltiplicarla per 4. L’ intersezione fra I ed il supporto e’ mostrata

in figura 5.11 per un valore 4, 75 < h < 5, 5 e la probabilita’ e’ pari a 1/8.

70

Page 71: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 6

Valore atteso

6.1 Definizione e proprieta’

Nei capitoli precedenti abbiamo introdotto strumenti matematici utili per analizzare fenomeni e variabili

aleatorie. Lo strumento piu’ importante e’ quello della densita’ di probabilita’, che fornisce una descrizione

completa, da un punto di vista probabilistico, di una variabile aleatoria. D’ altra parte, in alcune situazioni

non e’ necessaria una conoscenza cosi’ dettagliata della variabile oppure non si riesce a ricavare la densita’

perche’ l’ analisi risulta troppo complessa. In questi casi ci si puo’ accontentare di una descrizione meno

completa e dettagliata delle caratteristche della variabile, che pero’ ha il pregio di essere piu’ semplice

da ricavare e maneggiare. Questa descrizione alternativa e’ basata su alcune quantita’ che si possono

associare alla variabile aleatoria e che ne riassumono a grandi linee il comportamento. La prima di queste

quantita’, chiamata il valore atteso della variabile e’ specificata nella seguente

Definizione 20 Valore atteso. Data una variabile aleatoria continua X con densita’ p(x) si definisce il

suo valore atteso1 il numero, indicato con EX, dato da

EX =

∫ ∞

−∞

xp(x)dx.

Analogamente, data una variabile discreta a valori interi2 con densita’ p(k), il suo valore atteso e’ dato

da

EX =∞∑

k=−∞

kp(k).

Il valore atteso di una variabile X, anche detto valore medio o speranza matematica, e indicato anche

con µX , rappresenta il valore attorno al quale si distribuiscono i possibili valori della variabile aleatoria,

come mostrato in figura 6.1. Piu’ precisamente, se la densita’ rappresentasse una densita’ di massa di un

certo oggetto lungo un asse, il valore medio sarebbe il baricentro dell’ oggetto lungo quell’ asse, e cioe’ il

punto su cui si dovrebbe poggiare l’oggetto per mantenerlo in equilibrio.

1L’ integrale e la sommatoria possono risultare infiniti, nel qual caso il valore atteso non e’ definito. Nel seguito di tutta

la sezione daremo per sottinteso che quanto diciamo vale solo in caso di convergenza degli integrali e delle sommatorie. Il

simbolo E e’ usato per via della terminologia inglese, che chiama il valore atteso ’expected value’.2Nel caso generale di una variabile discreta che assume valori in un insieme ΩX ed ha densita’ p(x), il suo valore atteso

e’ dato da

EX =∑

x∈Ωx

xp(x).

71

Page 72: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 6.1: .

E’ facile verificare che nel caso in cui la densita’ abbia un asse di simmetria verticale, passante per il

punto x = a, allora µX = a. Come caso particolare se la densita’ e’ una funzione simmetrica rispetto allo

zero e quindi tale che p(x) = p(−x), allora il valore medio e’ zero.

Esempio 53 Consideriamo una variabile continua X con densita’ uniforme nell’ intervallo [−1/2, 1/2],

data da p(x) = rect(x). Visto che p(x) e’ simmetrica rispetto a zero, µX = 0. Ora consideriamo una

variabile Y con densita’ uniforme nell’ intervallo [0, 1], data da p(x) = rect(x−1/2). Visto che la densita’

e’ simmetrica rispetto ad un asse passante per il punto x = 1/2 risulta µY = 1/2. Possiamo verificare

questo fatto calcolando il valore atteso esplicitamente:

µY =

∫ ∞

−∞

xp(x)dx =

∫ 1

0

xdx =x2

2|10 =

1

2.

Esempio 54 Consideriamo una variabile discreta X che puo’ assumere solo due valori, uno e zero, con

probabilita’ q e 1− q, rispettivamente. Quindi ΩX = 0, 1 e, per la densita’, p(0) = (1− q), p(1) = q e

p(k) = 0 in tutti gli altri casi. Dalla definizione ricaviamo:

µX =

∞∑

k=−∞

kp(k) =

1∑

k=0

kp(k) = 0 · (1− q) + 1 · q = q.

Esempio 55 Calcoliamo il valore medio di una variabile aleatoria X a distribuzione esponenziale con

parametro λ. Abbiamo

EX =

∫ ∞

−∞

xp(x)dx =

∫ ∞

0

xλe−λxdx = −∫ ∞

0

xde−λx,

da cui integrando per parti

EX = −[xe−λx]∞0 +

∫ ∞

0

e−λxdx =1

λ.

Consideriamo una variabile aleatoria n-dimensionale X = (X1, ..., Xn) con densita’ pX(x1, ..., xn) ed

una funzione f : ℜn → ℜ. Come abbiamo gia’ visto, applicando la funzione alla variabile X otteniamo

una nuova variabile aleatoria, Y = f(X) = f(X1, ..., Xn). Supponiamo di voler calcolare il valore atteso

della Y . Se lo volessimo fare applicando la definizione dovremmo ricavare la densita’ pY (y) il che puo’

essere complicato. Fortunatamente, esiste una maniera alternativa di calcolare µY , che non richiede di

ricavare la densita’. In particolare vale il seguente fondamentale teorema.

72

Page 73: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Teorema 3 Data una variabile Y = f(X1, ..., Xn) funzione di una variabile n-dimensionale continua con

densita’ pX(x1, ..., xn) risulta

EY = Ef(X1, ..., Xn) =

∫ ∞

−∞

...

∫ ∞

−∞

f(x1, ..., xn)pX(x1, ..., xn) dx1 ... dxn.

Analogamente, se la variabile X e’ discreta a valori interi3, con densita’ pX(k1, ..., kn) risulta

EY = Ef(X1, ..., Xn) =

∞∑

k1=−∞

...

∞∑

k1=−∞

f(k1, ..., kn)pX(k1, ..., kn).

Dimostrazione Vedi [1] o [4].

Il teorema precedente permette di dare un significato e di calcolare il valore atteso di qualsiasi espres-

sione contenente variabili aleatorie. Vediamone alcune applicazioni.

Proposizione 10 Linearita’ del valore atteso. Date due variabili aleatorie X e Y e due costanti a e b

risulta

EaX + bY = aEX+ bEY . (6.1)

Dimostrazione Supponiamo le variabili continue. Applicando il teorema 3 con f(x, y) = ax + by

possiamo scrivere

EaX + bY =

∫ ∫

(ax+ by)pXY (x, y)dxdy = a

∫ ∫

xpXY (x, y)dxdy + b

∫ ∫

ypXY (x, y)dxdy =

= a

xpX(x)dx+ b

ypY (y)dy = aEX+ bEY .

La dimostrazione nel caso discreto e’ analoga.

A partire dalla (6.1) e’ facile verificare che, data una combinazione lineare di n variabili aleatorie,

risulta

En∑

i=1

aiXi =

n∑

i=1

aiEXi

e cioe’ che il valore atteso e’ un operatore che puo’ essere scambiato con l’ operatore di sommatoria.

Questo risultato vale anche per n = ∞ a patto che la sommatoria converga4.

Esempio 56 Media della densita’ binomiale. Consideriamo una variabile discreta X =∑n

i=1 Xi dove

le n variabili Xi sono indipendenti e possono assumere valore uno oppure zero con probabilita’ q e

1 − q, rispettivamente. La i-esima variabile puo’ essere associata ad un fenomeno successo/insuccesso

e la sequenza delle n variabili e’ quindi uno schema successo/insuccesso di cui X riporta il numero di

successi. La variabile X ha quindi una densita’ binomiale B(n, q). Calcoliamone il valore atteso. Usando

la linearita’ del valore atteso possiamo scrivere

EX = En∑

i=1

Xi =

n∑

i=1

EXi = nq,

3Nel caso generale di una variabile discreta non a valori interi, con densita’ pX(x1, ..., xn), si ha

EY = Ef(X1, ..., Xn) =∑

x1∈ΩX1

...∑

xn∈ΩXn

f(x1, ..., xn)pX(x1, ..., xn).

4Inoltre diciamo, senza dimostrarlo, che data una famiglia di variabili aleatorie che dipendono da un parametro y ∈ ℜ,

indicate con X(y), se gli integrali convergono, risulta

E∫

a(y)X(y)dy =

a(y)EX(y)dy

e cioe’ il valore atteso e’ un operatore che puo’ essere scambiato con l’ operatore di integrazione.

73

Page 74: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

dove, nell’ultimo passaggio abbiamo usato il fatto che EXi = q come abbiamo ricavato nell’ esempio

54.

Proposizione 11 Valore atteso del prodotto di variabili indipendenti. Date due variabili aleatorie X e

Y statisticamente indipendenti risulta

EXY = EXEY . (6.2)

Dimostrazione Supponiamo le variabili continue. Applicando il teorema 3 possiamo scrivere

EXY =

∫ ∫

xypXY (x, y)dxdy =

∫ ∫

xypX(x)pY (y)dxdy =

= [

xpX(x)dx][

ypY (y)dy] = EXEY .

La dimostrazione nel caso discreto e’ analoga.

Consideriamo una costante di valore a. Questa puo’ essere pensata come una variabile aleatoria

discreta (degenere) che assume valori nell’ insieme ΩX = a, contenente un solo elemento. La densita’

della variabile e’ pX(x) = 1 per x = a ed e’ zero altrove. Allora, applicando la definizione, possiamo

calcolare il valore atteso di una costante come

Ea = a.

Altre proprieta’ ovvie, la cui dimostrazione e’ lasciata per esercizio, sono le seguenti. Se X(ω) e Y (ω)

sono due variabili aleatorie tali che X(ω) ≥ Y (ω) allora

EX ≥ EY . (6.3)

Se la variabile X(ω) ≥ 0 allora EX ≥ 0. Infine risulta E|X| ≥ |EX|.

6.2 Momenti, media e varianza

Data una variabile aleatoria X il valore EXk viene detto il momento di ordine k della variabile, mentre

il valore E(X − µX)k viene detto il momento centrato di ordine k della variabile. Per le applicazioni,

i momenti piu’ importanti sono i seguenti, per i quali si introducono anche un nome e un simbolo:

• µX = EX, valore medio,

• πX = EX2, valore quadratico medio,

• σ2X = E(X − µX)2, varianza.

Inoltre la radice quadrata della varianza, cioe’ σX , viene detta la deviazione standard. Abbiamo gia’ visto

che il valore medio rappresenta il valore attorno al quale si distribuiscono i valori della variabile aleatoria.

La varianza e la deviazione standard misurano la dispersione di questi valori rispetto al valore medio.

Piu’ sono piccole piu’ la variabile assume valori vicini al valore medio. Il valore quadratico medio misura

la dispersione dei valori della variabile rispetto allo zero. Piu’ e’ piccolo il valore quadratico medio, piu’

i valori che assume la variabile sono vicini allo zero. Notiamo che questi tre momenti non sono fra loro

indipendenti. Infatti e’ facile verificare5 che

σ2X = πX − µ2

X (6.4)

che permette di ricavare uno dei momenti a partire dagli altri due.

5Infatti

σ2X = E(X − µX)2 = EX2 + µ2

X − 2XµX = EX2+ µ2X − 2EXµX = πX − µ2

X .

74

Page 75: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Esempio 57 Consideriamo una variabile continua X con densita’ uniforme nell’ intervallo [−1/2, 1/2],

data da p(x) = rect(x). Per il valore quadratico medio si ha

πX =

∫ ∞

−∞

x2p(x)dx =

∫ 1/2

−1/2

x2dx =x3

3|1/2−1/2 =

1

12.

Per la varianza, visto che sappiamo che µX = 0, usando la (6.4) si ricava σ2X = 1/12.

Consideriamo ora una variabile continua Y con densita’ uniforme nell’ intervallo [0, 1], data da p(y) =

rect(y − 1/2). Per il valore quadratico medio si ha

πY =

∫ ∞

−∞

y2p(y)dy =

∫ 1

0

y2dy =y3

3|10 =

1

3.

Per la varianza, visto che sappiamo che µY = 1/2, usando la (6.4) si ricava σ2Y = 1/3 − (1/2)2 = 1/12.

Esempio 58 Consideriamo una variabile discreta X che puo’ assumere solo due valori, uno e zero, con

probabilita’ q e 1 − q, rispettivamente, con densita’ p(0) = (1 − q), p(1) = q e p(k) = 0 in tutti gli altri

casi. Per il valore quadratico medio si ha

πX =∞∑

k=−∞

k2p(k) =1∑

k=0

k2p(k) = 0 · (1− q) + 1 · q = q.

Visto che, come abbiamo gia’ ricavato, la variabile ha media µX = q, per la varianza si ha σ2X = q− q2 =

q(1− q).

Consideriamo alcune proprieta’ dei momenti che abbiamo introdotto che risultano utili nei calcoli.

Data una variabile aleatoria X consideriamo una seconda variabile ottenuta per scalatura, data da Y =

aX. Risulta6

µY = aµX , (6.5)

σ2Y = a2σ2

X , (6.6)

πY = a2πX .

Notiamo poi che, data una variabile aleatoria X e definita una seconda variabile come Y = X + a,

risulta7

µY = µX + a, (6.7)

σ2Y = σ2

X .

Esempio 59 Consideriamo una variabile continua Y con densita’ uniforme nell’ intervallo [−m/2,m/2],

data da p(x) = 1mrect(x/m). Questa variabile si puo’ pensare come Y = mX dove X e’ uniforme in

[−1/2, 1/2]. Allora, applicando le formule appena viste e usando i risultati dell’ esempio 59 ricaviamo:

µY = mµX = 0 πY = m2πX =m2

12σ2Y = m2σ2

X =m2

12.

6La prima relazione e’ ovvia per la linearita’ del valore atteso. Per la seconda si nota che

σ2Y = E(Y − µY )2 = E(aX − aµX)2 = Ea2(X − µX)2 = a2E(X − µX)2 = a2σ2

X .

La terza segue dalle prime due e dalla (6.4).7Per la prima relazione abbiamo

µY = EY = EX + a = EX+ a = µX + a.

Per la seconda

σ2Y = E(Y − µY )2 = E(X + a− µX − a)2 = E(X − µX)2 = σ2

X .

75

Page 76: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Consideriamo ora la variabile Y = mX dove X e’ uniforme in [0, 1]. La Y sara’ uniforme in [0,m] e

quindi avra’ densita’ p(x) = 1mrect(x−m/2

m ). Per i momenti della Y si ricava

µY = mµX =m

2πY = m2πX =

m2

3σ2Y = m2σ2

X =m2

12.

Consideriamo ora una variabile aleatoria Z = X + Y . Per la linearita’ del valore atteso risulta

µZ = µX + µY .

Inoltre, se X e Y sono indipendenti8,

σ2Z = σ2

X + σ2Y

Queste relazioni si estendo facilmente al caso di una combinazione lineare. Cioe’ se Z =∑

i aiXi allora

µZ =∑

i

aiµXi

e, se le Xi sono indipendenti,

σ2Z =

i

a2iσ2Xi

.

Esempio 60 Varianza della densita’ Binomiale. Consideriamo di nuovo la variabile a densita’ binomiale

B(n, q) considerata nell’esempio 56, che si puo’ scrivere come X =∑n

i=1 Xi dove le Xi sono indipendenti

e possono assumere valore uno oppure zero con probabilita’ q e 1− q, rispettivamente. Usando le formula

appena date e i risultati dell’ esempio 58 ricaviamo la varianza della X come segue

σ2X =

n∑

i=1

σ2Xi

=

n∑

i=1

q(1− q) = nq(1− q).

Esempio 61 Consideriamo un giocatore di roulette che punta un euro sul rosso per dieci volte e parte

da un capitale di 100 euro. Calcoliamo il valore atteso del capitale dopo le dieci giocate. Il capitale dopo

le dieci giocate puo’ essere scritto come una variabile aleatoria data da Y = 100+∑10

i=1 Xi dove la Xi e’

una variabile aleatoria che rappresenta la variazione del capitale nella i-esima giocata e quindi che vale

+1 se esce il rosso e −1 se non esce il rosso. Visto che nella roulette ci sono 37 numeri, da 0 a 36, di cui

18 rossi, 18 neri ed uno verde (lo zero), la probabilita’ dell’ evento Xi = 1 e’ q = 18/37 e quella dell’

evento Xi = −1 e’ (1− q). Allora

EY = E100 +10∑

i=1

Xi = 100 +

10∑

i=1

EXi.

Visto che

EXi = q − (1− q) = 2q − 1 = −1/37

ricaviamo

EY = 100− 10

37= 99, 73.

Quindi il giocatore, in media, perde 27 centesimi di euro ogni dieci giocate.

8Infatti

σ2Z = E(Z − µZ)2 = E[(X − µX) + (Y − µY )]2 = 2E(X − µX)(Y − µY )+ E(X − µX)2+ E(Y − µY )2 =

= 2EX − µXEY − µY + σ2X + σ2

Y = σ2X + σ2

Y .

76

Page 77: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

6.3 Correlazione e covarianza

Date due variabili aleatorie X e Y si chiama il loro momento (misto) di ordine h, k il seguente valore

atteso: EXhY k. Si chiama il loro momento centrato il seguente valore atteso: E(X−µx)h(Y −µY )

k.Nelle applicazioni sono importanti i momenti di ordine 1, 1. In particolare il momento di ordine 1, 1 e’

detto la correlazione delle variabili ed e’ dato da

RXY = EXY

mentre quello centrato e’ detto la la covarianza fra le variabili ed e’ dato da

CXY = E(X − µX)(Y − µY ).

Notiamo che, dalle definizioni, e’ facile verificare che RXY = RY X e che CXY = CY X . Questi due valori

attesi non sono indipendenti, ma sono legati dalla seguente relazione9

CXY = RXY − µXµY (6.8)

e quindi coincidono se una o entrambe le variabili aleatorie hanno media nulla. Dato il legame possiamo

concentrarci su uno dei due e decidiamo di approfondire la covarianza. La covarianza gode di queste

proprieta’

Proposizione 12 Date due variabili X e Y :

1) X e Y statisticamente indipendenti → CXY = 0.

2) Y = aX con a > 0 ↔ CXY = σXσY

3) Y = aX con a < 0 ↔ CXY = −σXσY

4) C2XY ≤ σ2

Xσ2Y

5) |CXY | ≤ σXσY

Dimostrazione Per dimostrare la 1) si usano la (6.8) e la (6.2) per scrivere

CXY = RXY − µXµY = EXY − µXµY = EXEY − µXµY = 0.

Per la 2) si nota che

CXY = E(X − µX)(Y − µY ) = E(X − µX)a(X − µX) = aE(X − µX)2 = aσ2X = σXσY .

Per la 3) si procede in modo analogo. Per la 4) si nota che, dato un qualsiasi numero a, risulta

E[a(X − µX) + (Y − µY )]2 = a2σ2

X + 2aCXY + σ2Y ≥ 0,

infatti la prima espressione e’ il valore atteso di una quantita’ positiva o nulla ed e’ quindi positiva o

nulla. Allora la seconda espressione, pensata come una equazione di secondo grado nella variabile a non

deve ammettere due soluzioni reali e distinte e quindi il suo discriminante deve essere minore o uguale di

zero, e cioe’ deve essere

C2XY − σ2

Xσ2Y ≤ 0

da cui si ottiene la 4). La 5) segue immediatamente dalla 4), prendendo la radice.

Sulla base delle proprieta’ appena esposte e’ possibile interpretare la covarianza come una misura della

somiglianza fra due variabili aleatorie. Infatti il modulo della covarianza oscilla fra un minimo pari a zero,

valore che assume quando le variabili sono indipendenti e quindi massimamente diverse una dall’ altra,

9Infatti

CXY = E(X−µX)(Y −µY ) = EXY −Y µX−XµY +µXµY = EXY −EY µX−EXµY +µXµY = RXY −µXµY .

77

Page 78: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

fino ad un massimo pari a σXσY , valore che assume quando le variabili sono linearmente legate e quindi,

in pratica, sono la stessa variabile aleatoria. Notiamo che quando CXY = 0 non e’ necessariamente vero

che le variabili X e Y sono indipendenti. Quando CXY = 0 le variabili si dicono scorrelate e possono

o meno essere dipendenti. Invece, come detto dalla 1), se le variabili sono indipendenti sono anche

scorrelate. La mancanza di correlazione fra due variabili e’ quindi una caratteristica simile ma meno

forte dell’ indipendenza. Le variabili scorrelate godono di alcune delle proprieta’ di cui godono le variabili

indipendenti. Per esempio se X e Y sono scorrelate, dalla (6.8) si ricava10

EXY = EXEY

identica alla (6.2) che vale nel caso di variabili indipendenti. Analogamente, se Z =∑

i aiXi e le Xi sono

scorrelate, allora e’ facile verificare che

σ2Z =

i

a2iσ2Xi

,

come gia’ ricavato per variabili indipendenti.

Uno strumento del tutto equivalente alla covarianza e’ il coefficente di correlazione fra due variabili,

definito da

ρXY =CXY

σXσY.

Sulla base della definizione e delle proprieta’ della covarianza e’ immediato verificare che 0 ≤ |ρXY | ≤ 1.

In particolare il coefficente vale zero se le variabili sono scorrelate o indipendenti. Vale ±1 se le variabili

sono linearmente legate. Anche il coefficente di correlazione e’ quindi una misura della somiglianza delle

variabili e risulta piu’ comodo della covarianza perche’ normalizzato fra zero e uno.

Esempio 62 Consideriamo n puntatori che vengono fatti girare ed indichiamo con Xi la variabile aleato-

ria che da’ il risultato dell’ i-esimo puntatore. Le variabili Xi sono fra loro indipendenti ed hanno uguale

distribuzione, uniforme fra −1/2 e 1/2. In particolare, per media e varianza risulta

µX = EXi = 0 σ2X = EX2

i = 1/12.

Consideriamo ora la variabile Z =∑n

i=1 Xi che da’ la somma di tutti i risultati. La media di Z e’ la

somma delle medie delle Xi e quindi µZ = 0. Inoltre visto che le Xi sono indipendenti, la varianza di Z

e’ la somma delle varianze delle Xi e quindi σ2Z = nσ2

X . Calcoliamo la correlazione fra Z e X1, il risultato

del primo puntatore. Risulta

CX1Z = EX1Z = EX21 +

n∑

i=2

XiX1 = σ2X .

Ora calcoliamo il coefficente di correlazione. Risulta

ρX1Z =CX1Z

σX1σZ

=σ2X

σX√nσX

=1√n.

Allora, per n = 1, il coefficiente ρ = 1 indica, come e’ vero, che Z e X1 coincidono. Per n = 2, ρ = 0, 7

indica una forte correlazione, catturando il fatto che, su due lanci, il risultato del primo ha un forte

impatto sulla somma. All’ aumentare di n il coefficente diminuisce e per n = ∞, ρ = 0. Questo indica,

come intuitivo, che all’aumentare del numero dei lanci, il risultato del primo lancio ha sempre meno

impatto sulla somma.

10Visto che EXY = RXY e che EXEY = µXµY .

78

Page 79: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

6.4 Variabili complesse

Le definizioni che abbiamo dato si estendono in modo naturale alle variabili aleatorie complesse. In

particolare se Z = X + jY e’ una variabile complessa si pone, per definizione,

• µZ = EZ = EX + jY = µX + jµY

• πZ = E|Z|2 = EZZ∗• σ2

Z = E|Z − µZ |2 = E(Z − µZ)(Z − µZ)∗.

Inoltre, date due variabili complesse X e Y , si definiscono al loro correlazione e la loro covarianza

come

• RXY = EXY ∗• CXY = E(X − µX)(Y − µY )

∗.Per tutte queste quantita’ valgono proprieta simili a quelle gia’ viste per il caso delle variabili aleatorie

reali, che non sono difficili da ricavare ma che non riportiamo per brevita’.

6.5 Valori attesi condizionati e parziali

Una naturale estensione del concetto di valore atteso e’ quella di considerare il valore atteso di una

variabile aleatoria condizionato ad una seconda variabile aleatoria oppure ad un evento. In particolare,

data una variabile continua X ed un evento A, possiamo considerare il valore atteso di X dato A, definito

come

EX|A =

∫ ∞

−∞

xpX|A(x|A)dx,

che rappresenta il valore medio di X quando si verifica A. Analogamente, date due variabili continue X

e Y , possiamo definire il valore atteso della X data la Y come

EX|Y =

∫ ∞

−∞

xpX|Y (x|y)dx,

che rappresenta il valore atteso della X supposto che Y = y. Si noti che mentre il valore atteso non

condizionato o condizionato ad un evento e’ un numero, la precedente espressione e’ una funzione di

y, cioe’ del valore che assume la variabile condizionante. Infatti la variabile y non viene saturata nell’

integrale e quindi il risultato e’ una funzione di y. I valori attesi condizionati sono valori attesi e godono

di tutte le propieta’ che abbiamo visto nelle sezioni precedenti. L’ estensione delle definizioni al caso

discreto e’ ovvia.

Un’ altra estensione del concetto che puo’ essere utile e’ la seguente. Consideriamo una variabile

Z = f(X,Y ) funzione di altre due variabili aleatorie, X e Y continue. Possiamo considerare il valore

atteso parziale di Z, fatto rispetto ad una sola delle due variabili, per esempio la Y . Questo valore atteso

e’ definito come

EY Z =

∫ ∞

−∞

f(X, y)pY (y)dy.

Si noti che il valore atteso parziale e’ ancora una variabile aleatoria, funzione della sola X, e rappresenta

la variabile aleatoria media che si ottiene dalla f(X,Y ), mediando sulla Y . L’ estensione della definizione

al caso discreto e’ ovvia.

79

Page 80: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 7

Densita’ Gaussiana

7.1 Monodimensionale

La funzione e−x2

, detta una Gaussiana, e’ alla base di una classe di densita’, dette le densita’ Gaussiane

o Normali. Questa classe e’ importante perche’, come vedremo in sezione 7.3, sono molti i casi pratici in

cui trova applicazione. In particolare la densita’

g(x) =1√2π

e−x2

2

e’ detta una densita’ Gaussiana a media nulla e varianza unitaria ed e’ indicata col simbolo N(0, 1).

Questa densita’ e’ mostrata in figura 7.1. Si noti che g(x) ≥ 0 e che non e’ difficile verificare1 che∫ ∞

−∞

g(x)dx = 1,

quindi g(x) e’ una densita’. Dall definizione si verifica immediatamente che g(x) = g(−x) e quindi la

media e’ nulla poiche’ la densita’ e’ simmetrica rispetto allo zero. Infine, non e’ difficle verificare che la

varianza sia effettivamente unitaria2.

Considerimo ora una variabile aleatoria X a distribuzione N(0, 1), quindi con densita’ g(x). La

variabile avra’ media nulla e varianza unitaria. Dati due numeri reali µ e σ > 0 consideriamo una

seconda variabile Y , ottenuta dalla X come Y = σX + µ. Usando le (6.5), (6.6) e (6.7) non e’ difficile

verificare che Y ha media µ e varianza σ2. Inoltre, applicando le (4.26) e (4.25) ricaviamo la che densita’

di Y e’ p(x) = 1σ g(

x−µσ ) e cioe’

p(x) =1√2πσ2

e−(x−µ)2

2σ2 .

La precedente densita’ e’ detta Gaussiana a media µ e varianza σ2 ed e’ indicata col simbolo N(µ, σ2).

Alcuni esempi sono mostrati in figura 7.1 dove si nota che la densita’ ha un massimo in corrispondenza

del valore medio e due punti di flesso posizionati in µ± σ.

1Infatti∫ ∞

−∞g(x)dx =

1√2π

∫ ∞

−∞e−

x2

2 dx =1√π

∫ ∞

−∞e−( x√

2)2

dx√2=

1√π

∫ ∞

−∞e−z2dz =

√π√π

= 1

dove, nella penultima equazione, abbiamo usato la (9.3).2Infatti

σ2 =

∫ ∞

−∞x2g(x)dx =

1√2π

∫ ∞

−∞x2e−

x2

2 dx = − 1√2π

∫ ∞

−∞xe−

x2

2 d(−x2

2) = − 1√

∫ ∞

−∞xde−

x2

2

e dall’ ultima espressione, integrando per parti, si ricava

σ2 = −[1√2π

xe−x2

2 ]∞−∞ +1√2π

∫ ∞

−∞e−

x2

2 dx =1√2π

∫ ∞

−∞e−

x2

2 dx = 1.

80

Page 81: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

−10 −5 0 5 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

x

p X(x)

Densità gaussiana

N(0,1)N(3,4)

σ

σ

3

Figure 7.1: Esempi di densita’ Gaussiane.

La funzione di distribuzione Gaussiana si indica con Φ(x) e fornisce la probabilita’ che una variabile

X a distribuzione N(0, 1) sia minore o uguale a x, cioe’ Φ(x) = P (X ≤ x). La distribuzione si puo’

ricavare usando la (4.22)

Φ(x) =

∫ x

−∞

1√2π

e−y2

2 dy.

Questa funzione non ha una forma chiusa ed e’ normalmente presente come primitiva nei sistemi di calcolo

(calcolatrici scientifiche, fogli elettronici). La funzione e’ tabellata in sezione 9.4 per x da zero a tre. Per

valori di x negativi si puo’ notare3 che Φ(−x) = 1 − Φ(x) e quindi la tabella permette di valutare la

funzione per x compreso fra meno tre e tre.

Consideriamo ora una variabile aleatoria Y con distribuzione Gaussiana a media µ e varianza σ2 e

vediamo come valutare la sua funzione di distribuzione f(y) = P (Y ≤ y). Visto che possiamo pensare

che Y = σX+µ dove X ha distribuzione N(0, 1), risulta che P (Y ≤ y) = P (σX+µ ≤ y) = P (X ≤ y−µσ )

e cioe’ risulta

f(y) = P (Y ≤ y) = Φ

(

y − µ

σ

)

.

L’ ultima formula mostra che conoscendo Φ(x) si puo’ ottenere la funzione di distribuzione di una Gaus-

siana con qualsiasi media e varianza.

Per concludere notiamo che esistono altre funzioni, equivalenti alla Φ(x) che a volte risutano piu’

comode nei calcoli e quindi a volte sono usate al posto della Φ(x). In particolare ricordiamo la funzione

d’errore complementata, definita da

erfc(x) =2√π

∫ ∞

x

e−y2

dy

e la funzione Q di Marcum, definita da

Q(x) =1√2π

∫ ∞

x

e−y2

2 dy.

Naturalmente queste funzioni sono tutte equvalenti nel senso che si ricavano l’una dall’ altra. Per esempio

e’ facile verificare che Q(x) = 1− Φ(x) e che Q(x) = (1/2)erfc(x/√2).

Esempio 63 Tutti gli strumenti di misura sono affetti da disturbi, come per esempio il rumore termico,

che fanno si’ che il risultato della misura sia un valore vicino a quello corretto ma non uguale. Inoltre

ripetendo due volte la stessa misura non si ottiene esattamente lo stesso valore, perche’ i disturbi variano

nel tempo in modo casuale. Possiamo modellare questa situazione assumendo che il risultato della misura

3Infatti, data la simmetria della g(x), possiamo scrivere che Φ(−x) = P (X ≤ −x) = P (X > x). Poi si nota che

P (X > x) = 1− P (X ≤ x) = 1− Φ(x).

81

Page 82: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

x

p X(x

)

A1

A2

A1

m ε / σ− m ε / σ

Figure 7.2: La densita’ e le aree considerate nell’ esempio 63.

sia una variabile aleatoria data M = m+N dove m e’ il valore da misurare e N e’ una variabile aleatoria

che rappresenta i disturbi. In questo modello, importante ed utile in pratica, spesso e’ possibile assumere

che il rumore sia una variabile a distribuzione Gaussiana, per i motivi che vedremo in sezione 7.3.

Supponiamo di avere uno strumento di misura affetto da rumore gaussiano a media nulla e varianza

σ2 e di dover misurare una quantita’ m > 0. Il risultato della misura e’ M = m + N e, come indice

di qualita’, possiamo considerare l’errore normalizzato alla quantita’ da misurare, dato da |M −m|/m.

Naturalmente piu’ m e’ piccolo, maggiore sara’ l’ errore normalizzato e, al di sotto di un certo limite,

le misure divengono inaffidabili e sono dominate dal rumore. Per quantificare questa osservazione ci

chiediamo quanto e’ il minimo valore di m per cui nel 99% delle misure l’ errore normalizzato e’ minore

di 1/100. Questo valore di m puo’ essere pensato come il limite di precisione dello strumento, per le

specifche appena date.

Per rispondere alla domanda per prima cosa semplifichiamo la notazione ponendo ǫ = 1/100 e δ =

0, 99. Poi notiamo che M −m = N e quindi l’ errore normalizzato e’ |N |/m. Inoltre richiedere che sia

minore di ǫ e’ un evento espresso su N , che si puo’ scrivere come |N |/m < ǫ. La domanda richiede di

calcolare m in modo che la probabilita’ di questo evento sia δ, cioe’ in modo da verificare questa equazione

P (|N |m

< ǫ) = δ.

Per proseguire notiamo che visto che N ha densita’ N(0, σ2), puo’ pensarsi come N = σN , dove N e’

una variabile con densita’ N(0, 1). Infatti la variabile σN ha esattamente la stessa distribuzione di N e

la probabilita’ non viene alterata sostituendo N con σN . Usando questo fatto l’ equazione diviene

P (|σN |m

< ǫ) = δ

e notando che P ( |σN |m < ǫ) = P (|N | < mǫ

σ ) l’ equazione diviene

P (|N | < mǫ

σ) = δ.

La probabilita’ a primo membro si ottiene integrando la densita’ N(0, 1) sull’ intervallo [−mǫσ , mǫ

σ ], ed e’

pari all’ area A2 mostrata in figura 7.2. Osservando la figura e ricordando che la densita’ e’ simmetrica

ed ha integrale unitario possiamo scrivere A2 = 1 − 2A1 dove A1 e’ l’ area mostrata in figura, pari alla

probabilita’ dell’ evento N ≤ −mǫσ e quindi pari a Φ(−mǫ

σ ). Allora l’ equazione diviene

1− 2Φ(−mǫ

σ) = δ

82

Page 83: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

da cui, usando Φ(−x) = 1− Φ(x) si ricava

Φ(mǫ

σ) =

δ + 1

2= 0, 995.

A questo punto, consultando la tavola in appendice, si nota che Φ(2, 6) = 0, 9953, un valore molto vicino

a quello desiderato. Allora, per rendere vera l’ equazione, l’ argomento della Φ(x) deve essere 2, 6 e cioe’

σ= 2, 6

da cui, sostituendo ǫ,

m = 260σ.

7.2 Multidimensionale

In questa sezione e’ necessario usare il calcolo matriciale per presentare in forma compatta i risultati e

quindi introduciamo alcune notazioni. Useremo lettere minuscole per indicare i vettori, es. x, e maiuscole

per le matrici, es. X. Useremo pedici per indicare i loro elementi es. xi e Xi,j . Un ’eccezione sono i vettori

di variabili aleatorie, che verranno indicati con una maiuscola come fatto in tutte le dispense. La scrittura

x = (x1, ..., xn) indica un vettore riga di n elementi. Usiamo un apice T per indicare la trasposizione e

quindi x = (x1, ..., xn)T e’ un vettore colonna di n elementi. La scrittura X = diag(x1, ..., xn) indica una

matrice diagonale quadrata, con n righe e colonne, e tale che Xi,i = xi.

Consideriamo una variabile aleatoria n-dimensionale, data dal vettore colonna X = (X1, X2, ..., Xn)T .

La variabile si dice una Gaussiana n-dimensionale se ha la seguente densita’

pX(x) =1

(2π)n∆e−

12 (x−µ)TC−1(x−µ)

dove x = (x1, ..., xn)T e’ un vettore colonna di variabili reali, µ = (µ1, ..., µn)

T e’ un vettore colonna detto

il valore medio, C = Ci,j e’ una matrice simmetrica, definita positiva e non singolare, detta la matrice di

covarianza, e ∆ = det(C) e’ il determinante della matrice di covarianza. Notiamo che, come verificheremo

fra poco, µi = EXi e’ il valore medio della i-esima variabile e che Ci,i = σ2i = E(Xi − µi)

2 e’ la

varianza della i-esima variabile. Inoltre diciamo, senzo dimostrarlo4, che Ci,j = E(Xi − µi)(Xj − µj)e’ la covarianza fra le variabili Xi e Xj .

Le variabili Gaussiane n-dimensionali sono importanti nelle applicazioni. Nel seguito vediamo alcune

proprieta’ di queste variabili che sono spesso utili in pratica.

Proposizione 13 Se X = (X1, ..., Xn)T e’ una Gaussiana n-dimensionale allora le Xi hanno densita’

marginali Gaussiane, date da

pXi(x) =

1√

2πσ2i

e−

x−µi

2σ2i .

Dimostrazione. Si fa’ saturando la densita’ congiunta. Vedi [1] pag. 127

Si noti che la proposizione precedente non vale, in generale, nell’ altro senso. Cioe’, date n variabili

Xi ciascuna a distribuzione Gaussiana, non e’ assicurato che la loro densita’ congiunta sia una Gaussiana

n-dimensionale, come si puo’ far vedere con un esempio (vedi [1] es. 6-1). Se cio’ succede, le variabili

si dicono congiuntamente gaussiane. Notiamo anche che, sulla base della proposizione precedente e dei

risultati visti nella sezione precedente, risulta che EXi = µi e’ il valore medio della i-esima variabile e

che E(Xi − µi)2 = σ2

i = Ci,i e’ la varianza della i-esima variabile, come avevamo anticipato.

4Per la verifica basta calcolare esplicitamente la covarianza, ma il calcolo non e’ semplice.

83

Page 84: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Proposizione 14 Se X = (X1, ..., Xn)T e’ una Gaussiana n-dimensionale, a e’ un qualsiasi vettore

colonna ed A una qualsiasi matrice non singolare, allora la variabile Y = AX+a e’ ancora una Gaussiana

n-dimensionale. Dimostrazione. Vedi [4] pag. 151.

Proposizione 15 Se X = (X1, ..., Xn) e’ una Gaussiana n-dimensionale e ai dei coefficenti reali, la

variabile Z =∑n

i=1 Xiai e’ una Gaussiana unidimensionale. Un altro modo di dire la stessa cosa e’

il seguente: la combinazione lineare di variabili congiuntamente Gaussiane e’ una variabile Gaussiana.

Dimostrazione. Basta considerare un vettore Y = AX e notare che, sulla base della proposizione 14, il

vettore Y e’ una Gaussiana n-dimensionale e che, sulla base della proposizione 13, il primo elemento del

vettore sara’ una gaussiana undimensionale. Visto che il primo elemento e’ Y1 =∑n

i=1 XiA1,i concludiamo

che la combinazione lineare di variabili congiuntamente Gaussiane e’ una Gaussiana e cioe’ la tesi.

Un caso particolare importante e’ quello in cui le Xi sono scorrelate. In questo caso risulta Ci,j = 0

per i 6= j e quindi la matrice C si semplifica e diviene una matrice diagonale: C = diag(σ21 , ..., σ

2n). Il suo

determinante e’ ∆ = Πni=1σ

2i . E la sua inversa e’ C−1 = diag(1/σ2

1 , ..., 1/σ2n). Per questo caso abbiamo i

seguenti risultati.

Proposizione 16 Se le variabili X1, ..., Xn sono congiuntamente Gaussiane e scorrelate allora sono sta-

tisticamente indipendenti. Dimostrazione. Basta sostituire la matrice di covarianza diagonale nella

densita’ e svolgere i calcoli: la densita’ si fattorizza nel prodotto di densita’ Gaussiane unidimensionali.

Sottolineiamo che questo e’ un risultato che non vale in generale e cioe’ se n-variabili non gaussiane sono

scorrelate non sono necessariamente indipendenti. Si noti anche che se le variabili Xi sono scorrelate e

marginalmente Gaussiane, non e’ detto che siano congiuntamente Gaussiane e quindi indipendenti.

Proposizione 17 Date n variabili X1, ..., Xn se queste sono marginalmente Gaussiane e statisticamente

indipendenti allora sono anche congiuntamente Gaussiane e cioe’ la variabile X = (X1, ..., Xn) e’ una

Gaussiana n-dimensionale. Dimostrazione. Basta ripetere al contrario la dimostrazione dell’ ultima

proposizione.

Proposizione 18 Date n variabili X1, ..., Xn Gaussiane e indipendenti la loro combinazione lineare e’

una variabile Gaussiana. Dimostrazione. Segue facilmente dalle proposizioni 17 e 15.

7.3 Teorema del limite centrale

Consideriamo una successione Xi di variabili aleatorie continue, indipendenti e con la stessa densita’ e

quindi la stessa varianza σ2. Una successione di questo tipo viene detta una successione di variabili iid (in-

dipenendti e identicamente distribuite). Supponiamo anche che le Xi abbiano media nulla e consideriamo

la variabile che si ottiene dalla somma normalizzata delle Xi, data da

Gn =1√n

n∑

i=1

Xi.

Questa variabile ha una densita’ che indichiamo con pGn(x). E’ possibile dimostrare, sotto ipotesi molto

generali, che per n → ∞, la densita’ tende ad una Gaussiana di media nulla e varianza σ2 e cioe’ che

pGn(x) → 1√

2πσ2e−

x2

2σ2 per n → ∞.

La relazione precedente, detta il teorema del limite centrale, e’ molto utile in pratica e vale spesso con

buona approssimazione anche per valori di n relativamente bassi, per esempio qualche decina. Trova

84

Page 85: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

quindi applicazione tutte le volte che si debba calcolare la densita’ di una variabile ottenuta come somma

di altre variabili indipendenti, una situazione che capita di frequente. Notiamo inoltre che il teorema vale

anche sotto ipotesi piu’ generali di quelle che abbiamo detto; per esempio e’ possibile estenderlo al caso

in cui le variabili Xi hanno media diversa da zero oppure distribuzioni diverse. Il lettore interessato puo’

consultare [1] o [4] per la dimostrazione del teorema e per una discussione piu’ approfondita.

Esempio 64 Ricordiamo, dall’ esempio 35, che ai capi di un resistore a vuoto e’ presente una piccola

tensione, dovuta al moto caotico degli elettroni del materiale di cui e’ fatta la resistenza. Ogni elettrone da’

un contributo casuale e la tensione e’ la somma di tutti questi contributi. Schematizzando il contributo

di un elettrone come una variabile aleatoria e supponendo, come ragionevole, che i contributi siano

indipendenti ed abbiano la stessa distribuzione, la tensione si ottiene come una somma di variabili iid ed

e’ quindi a distribuzione Gaussiana.

85

Page 86: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 8

Legge dei grandi numeri

8.1 La legge dei grandi numeri

Diamo un risultato che sara’ utile fra poco.

Proposizione 19 Disuguaglianza di Chebyshev. Data una variabile aleatoria X con media µ e varianza

σ2 finite, per un qualsiasi numero ǫ > 0 risulta

P (|X − µ| > ǫ) ≤ σ2

ǫ2(8.1)

Dimostrazione. Consideriamo una variabile Y , funzione della X, cosi’ definita

Y = ǫ2 se |X − µ| > ǫ Y = 0 se |X − µ| ≤ ǫ.

E’ chiaro che (X − µ)2 ≥ Y . Inoltre

EY = ǫ2P (|X − µ| > ǫ) + 0 · P (|X − µ| ≤ ǫ) = ǫ2P (|X − µ| > ǫ).

A questo punto basta valutare la varianza di X ed usare la (6.3)

σ2 = E(X − µ)2 ≥ EY = ǫ2P (|X − µ| > ǫ)

da cui la tesi.

Consideriamo un fenomeno aleatorio ed una variabile X definita sullo spazio relativo, con media µX

e varianza σ2X finite. Supponiamo di ripetere il fenomeno n volte e che le prove siano indipendenti. In

questo modo produciamo una sequenza di variabili Xi per i = 1, ..., n, tutte con la stessa media e varianza.

Possiamo poi considerare la variabile che si ottiene dalla somma normalizzata delle Xi, data da

Xn =1

n

n∑

i=1

Xi

e detta la media campionaria. Per questa variabile risulta

µXn= EXn = E 1

n

n∑

i=1

Xi =1

n

n∑

i=1

EXi = µX .

Inoltre visto che le Xi sono indipendenti, la varianza della loro somma e’ pari alla somma delle varianze

e, visto che Xn si ottiene dividendo la loro somma per n, risulta

σ2Xn

=1

n2

n∑

i=1

σ2X =

1

nσ2X .

86

Page 87: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Le ultime due equazioni mostrano che la media campionaria ha la stessa media di X ma una varianza n

volte minore. All’ aumentare di n la varianza di Xn diviene sempre piu’ piccola e le determinzioni di Xn

sono sempre piu’ vicine al valore µX . Queste considerazioni possono essere messe in forma piu’ precisa.

Proposizione 20 Legge dei grandi numeri. Data una variabile aleatoria X con media µX e varianza σ2X

finite e formata la sua media campionaria Xn, per qualsiasi numero ǫ > 0 risulta

limn→∞

P (|Xn − µX | > ǫ) = 0 (8.2)

Dimostrazione. Applicando la (8.1) alla variabile Xn, di cui abbiamo calcolato media e varianza, si

ottiene

P (|Xn − µX | > ǫ) ≤ σ2X

nǫ2

e la tesi segue prendendo il limite per n → ∞.

A parole la (8.2) dice che, fissato un valore ǫ piccolo a piacere, la probabilita’ che la differenza fra

la media campionaria e la media della variabile aleatoria sia maggiore di ǫ puo’ essere resa piccola a

piacere. Quindi, all’ infinito, siamo sicuri che la differenza fra Xn e µx sara’ minore di ǫ. Per n finito

ma abbastanza alto Xn sara’ vicino a µx nel senso che sara’ bassa la probabilita’ di avere una differenza

superiore a ǫ.

Come abbiamo visto, per n alto a sufficienza, la probabilita’ che Xn sia vicino a µX e’ alta. Questo

significa che una qualsiasi determinazione della media campionaria e’ vicina a µx e puo’ essere usata

come una stima di questo valore. La determinazione di Xn si ottiene sommando le determinazioni delle

variabili Xi che si sono ottenute nelle varie ripetizioni del fenomeno. Allora, indicando con xi la sequenza

delle determinazioni delle Xi, possiamo scrivere

µX ≈ 1

n

n∑

i=1

xi

dove il simbolo ≈ viene usato, qui e nel seguito del capitolo, per indicare che l’ espressione a sinistra e’

uguale a quella a destra del simbolo, nel senso specificato dalla (8.2) e cioe’ con alta probabilita’.

Da un punto di vista pratico la (8.2) e’ soddisfacente e permette di stimare la media e, come vedremo,

altre quantita’ legate alla variabile aleatoria, ma da un punto di vista matematico la (8.2) e’ un risultato

meno soddisfacente. E’ pero’ possibile dare una formulazione diversa della legge, detta la legge forte

dei grandi numeri (mentre la formulazione (8.2) e’ detta la legge debole dei grandi numeri), che e’ piu’

utile da un punto di vista analitico. Il lettore interessato puo’ consultare [1] o [4]. Notiamo anche che

la stima di quantita’ aleatorie e’ uno sviluppo importante ed utile del calcolo delle probabilita’ ed e’ uno

dei problemi affrontati dalla Statistica. Un secondo punto da approfondire sarebbe quello di quanto deve

essere alto n in pratica per avere una stima affidabile, anche questo un problema considerato e risolto in

statistica. Per brevita’ nelle dispense non consideriamo in modo approfondito questi argomenti. Nelle

prossime sezioni ci limitiamo ad illustrare schematicamente alcune importanti applicazioni della (8.2).

Esempio 65 Consideriamo di nuovo l’ apparecchio di misura gia’ visto nell’ esempio 63. Ricordiamo

che la misura si poteva scrivere come M = m + N dove m > 0 era il valore da misurare e N una

variabile Gaussiana a media nulla e varianza σ2 che rappresenta il rumore che affligge il sistema di

misura. Ricordiamo anche che, date alcune specifiche sulla qualita’ della misura, avevamo ricavato che

il minimo valore di m per cui la misura era affidabile era pari a 260σ. Consideriamo ora un metodo per

aumentare la sensibilita’ della misura, cioe’ per abbassare il minimo valore che puo’ essere misurato in

modo affidabile.

Supponiamo di ripetere la misura 25 volte. Ciascuna misura da’ luogo ad un risultato Mi = m+Ni

per i = 1, ..., 25. Le variabili aleatorie Mi sono Gaussiane, a media m e varianza σ2. Inoltre, possiamo

87

Page 88: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

supporre che le variabili Ni, che rappresentano i disturbi, siano indipendenti, cosa normalmente verificata

in pratica. Possiamo poi formare la media campionaria

M25 =1

25

25∑

i=1

Mi.

Come abbiamo visto, la media campionaria avra’ media m e varianza σ2/25. Inoltre, visto che e’ una

combinazione lineare di Gaussiane indipendenti, sara’ a densita’ Gaussiana. In altre parole possiamo

pensare che M25 = m+ N , dove N e’ un disturbo Gaussiano con media nulla e varianza σ2/25. Abbiamo

quindi realizzato uno strumento di misura con una varianza piu’ bassa. Ripetendo i ragionamenti gia’

fatti nell’ esempio 63, il nuovo strumento sara’ affidabile fino a un valore minimo dato da m = 260σ/5,

cinque volte minore del limite precedente.

8.2 Stima di momenti e probabilita’

Come abbiamo visto la media campionaria fornisce un metodo per stimare il valore medio di una variabile

X. L’ approccio puo’ essere applicato per la stima di un qualsiasi altro momento. Infatti un qualsiasi

momento puo’ essere pensato come il valore medio di una variabile Z = f(X) con f funzione opportuna.

E’ possibile allora stimare il momento stimando la media di Z. Per esempio il valore quadratico medio

di una variabile X e’ πX = EX2 e quindi e’ il valore medio della variabile Z = X2. Puo’ quindi essere

stimato come segue

πX ≈ 1

n

n∑

i=1

zi =1

n

n∑

i=1

x2i .

Lo stesso approccio si puo’ applicare ai momenti misti. Per esempio la correlazione RXY fra due variabili

aleatorie e’ il valore atteso della funzione f(X,Y ) = XY , e puo’ essere stimata come

RXY ≈ 1

n

n∑

i=1

xiyi

dove yi e’ la determinazione della variablie Y ottenuta nella i-esima ripetizione del fenomeno.

L’ approccio puo’ anche essere impiegato per stimare la probabilita’ di un generico evento. Per vedere

come, consideriamo una variabile aleatoria n-dimensionale X ed un evento A = X ∈ I dove I e’ un

generico insieme di ℜn. Definiamo poi una seconda variabile, funzione della X, come segue: Y = 1 se

X ∈ I, Y = 0 se X /∈ I. Questa variabile si chiama la funzione indicatrice dell’ evento e, visto che assume

solo i valori uno e zero, con probabilita’ P (A) e 1 − P (A), risulta che EY = P (A) e quindi possiamo

scrivere

P (A) ≈ 1

n

n∑

i=1

yi.

Notando che∑n

i=1 yi = nA e’ pari al numero di volte in cui si verifica l’ evento A nella sequenza delle n

ripetizioni, possiamo scrivere

P (A) ≈ nA

n. (8.3)

L’ ultima formula fornisce un metodo semplice per stimare la probabilita’ di un evento ed e’ analoga alla

definizione di probabilita’ che viene data nell’ approccio frequentistico. Dall’ ultima espressione si ricava

che nA ≈ nP (A) cioe’ che un evento con probabilita’ P (A) si verifica circa nP (A) volte ogni n ripetizioni

del fenomeno.

88

Page 89: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Figure 8.1: Approssimazione di una densita’ p(x) con un istogramma pk.

8.3 Stima di densita’ e distribuzioni

Consideriamo una variabile continua X con densita’ p(x). Assumiamo per semplicita’ che sia unidimen-

sionale ma notiamo che non e’ difficile estendere la discussione al caso multidimensionale. Assegnato un

passo ∆, suddividiamo l’ asse reale in infiniti intervalli di lunghezza ∆, indicati con Ik e centrati sui punti

k∆ per k ∈ ℑ, come mostrato in figura 8.1. Consideriamo ora gli eventi Ak = X ∈ Ik e notiamo che

P (Ak) e’ l’ area sottesa dalla densita’ nell’ intervallo Ik e quindi il valore pk = P (Ak)/∆ e’ un valore

che approssima la densita’ nell’ intervallo Ik. Allora, come mostrato in figura, possiamo approssimare

la densita’ tramite una funzione costante a tratti, di valore pk nell’ intervallo Ik, che viene detta un

istogramma. L’ approssimazione sara’ tanto migliore quanto piu’ piccolo e’ ∆. Vediamo ora come sia

possibile in pratica ricavare l’ istogramma.

Per ottenere l’ istogramma dobbiamo calcolare le probabilita’ P (Ak). Sulla base della (8.3) queste

probabilita’ possono essere stimate ripetendo n volte il fenomeno aleatorio che produce la determinazione

della X. In particolare, indicando con nk il numero di volte in cui la determinazione e’ caduta nell’

intervallo Ik, possiamo scrivere

pk ≈ nk

n∆.

L’ ultima formula dice che le altezze dell’ istogramma sono approssimate dal numero di determinazioni

cadute in ogni intervallo normalizzato per il numero totale di determinazioni e per la lunghezza dell’

intervallo.

Per concludere notiamo che l’ approccio appena descritto permette, naturalmente, anche la stima della

funzione di distribuzione. Per esempio, usando la (4.17), possiamo ricavare una stima della distribuzione

data da

fk =

k∑

i=−∞

pi.

89

Page 90: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Chapter 9

Appendice

9.1 Formule utili

• La somma della serie geometrica e’, per q 6= 1,

n∑

k=0

qk =1− qn+1

1− q(9.1)

da cui, per |q| < 1∞∑

k=0

qk =1

1− q. (9.2)

• La regola di integrazione per parti stabilisce che

∫ b

a

u dv = uv|ba −∫ b

a

v du.

• L’ integrale di una Gaussiana e’∫ ∞

−∞

e−x2

dx =√π. (9.3)

• La somma dei primi n interi e’n∑

i=1

i =n(n+ 1)

2. (9.4)

e quella dei quadrati dei primi n interi e’

n∑

i=1

i2 =n(n+ 1)(2n+ 1)

6. (9.5)

9.2 Calcolo combinatorio

Ricordiamo che dato un numero naturale n si chiama il suo fattoriale, e lo si indica con n!, il seguente

prodotto:

n! = 1 · 2 · ... · n.Per convenzione si pone 0! = 1. Inoltre dati due numeri naturali n e k ≤ n si chiama il loro coefficente

binomiale, e lo si indica con

(

n

k

)

, il seguente valore

(

n

k

)

=n!

k! (n− k)!. (9.6)

90

Page 91: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Sia dato un insieme I di n elementi. Formiamo un vettore estraendo k elementi distinti dall’ insieme

ed inserendoli nel vettore. Il vettore sara’ quindi (e1, e2, ..., ek) dove ei ∈ I e ei 6= ej se i 6= j. Questo

vettore viene detto una disposizione senza ripetizioni di k elementi presi da un insieme di n elementi.

Notiamo che nelle disposizioni si tiene conto dell’ ordine con cui sono disposti gli elementi, per esempio

(x, y, ..., z) e (y, z, ..., z) sono disposizioni diverse. E’ facile verificare1 che ci sono

n · (n− 1) · (n− 2)... · (n− k + 1) =n!

(n− k)!

disposizioni diverse.

Esempio 66 Consideriamo l’ insieme I = 1, 2, 3. Le disposizioni di k = 2 elementi presi da questo in-

sieme con n = 3 sono (3!)/(1!) = 6. In particolare sono questi vettori (1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2).

Un caso particolare e’ quando k = n, nel qual caso la disposizione si dice una permutazione degli n

elementi. Dall’ ultima formula segue che esistono n! permutazioni diverse di un insieme di n elementi.

Esempio 67 Le permutazioni dell’ insieme I considerato nell’ esempio prcedente sono (3!) = 6. In

particolare sono questi vettori (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1).

A partire dall’ insieme I formiamo un secondo insieme, estraendo k elementi distinti da I ed inserendoli

nel secondo insieme. Il secondo insieme sara’ quindi e1, e2, ..., ek dove ei ∈ I e ei 6= ej se i 6= j. Questo

insieme viene detto una combinazione di k elementi presi da un insieme di n elementi. Notiamo che nelle

combinazioni non conta l’ ordine con cui sono disposti gi elementi, per esempio x, y, ..., z e y, z, ..., ksono combinazioni identiche. E’ facile verificare2 che ci sono

(

n

k

)

=n!

k! (n− k)!. (9.7)

combinazioni diverse.

Esempio 68 Le combinazioni di due elementi presi da un insieme di tre sono

(

3

2

)

= 3. Per l’ esempio

gia’ visto si ottengono queste combinazioni 1, 2, 1, 3, 2, 3.

9.3 Convoluzione

Date due funzioni f(x) e g(x) il seguente integrale

∫ ∞

−∞

f(y)g(x− y)dy = h(x) (9.8)

e’ detto la convoluzione delle due funzioni.

1Il primo elemento puo’ essere scelto in n modi diversi, il secondo in n− 1, etc, fino al k-esimo che puo’ essere scelto fra

n− k + 1 elementi rimanenti.2Data una combinazione di k elementi, permutandoli posso produrre k! disposizioni diverse. Allora il numero di combi-

nazioni e’ quello di disposizioni diviso k!.

91

Page 92: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

9.4 Funzione di distribuzione Gaussiana

x Φ(x)

0.00 0.5000

0.05 0.5199

0.10 0.5398

0.15 0.5596

0.20 0.5793

0.25 0.5987

0.30 0.6179

0.35 0.6368

0.40 0.6554

0.45 0.6736

0.50 0.6915

0.55 0.7088

0.60 0.7257

0.65 0.7422

0.70 0.7580

0.75 0.7734

0.80 0.7881

0.85 0.8023

0.90 0.8159

0.95 0.8289

x Φ(x)

1.00 0.8413

1.05 0.8531

1.10 0.8643

1.15 0.8749

1.20 0.8849

1.25 0.8944

1.30 0.9032

1.35 0.9115

1.40 0.9192

1.45 0.9265

1.50 0.9332

1.55 0.9394

1.60 0.9452

1.65 0.9505

1.70 0.9554

1.75 0.9599

1.80 0.9641

1.85 0.9678

1.90 0.9713

1.95 0.9744

x Φ(x)

2.00 0.9772

2.05 0.9798

2.10 0.9821

2.15 0.9842

2.20 0.9861

2.25 0.9878

2.30 0.9893

2.35 0.9906

2.40 0.9918

2.45 0.9929

2.50 0.9938

2.55 0.9946

2.60 0.9953

2.65 0.9960

2.70 0.9965

2.75 0.9970

2.80 0.9974

2.85 0.9978

2.90 0.9981

2.95 0.9984

Table 9.1: Valori della funzione di distribuzione Gaussiana Φ(x).

92

Page 93: LorenzoPiazzo - Dipartimento Infocominfocom.uniroma1.it/~lorenz/TSC2/CDP.pdf · Calcolo delle probabilita ... nella quale il calcolo dell’ integrale e’ ricondotto al calcolo di

Bibliography

[1] A. Papoulis, Probability, random variables and stochastic processes. McGraw-Hill, second edition,

1984.

[2] H. L. Royden, Real analysis. MacMillan, 1968.

[3] S. M. Ross, Introduction to probability models. Academic Press, 2007.

[4] R. M. Gray, L. D. Davisson, An introduction to statistical signal processing, (Jan. 4, 2011). Cambrige

University Press, 2004.

93