131
Universit` a di Modena e Reggio Emilia Facolt` a di Ingegneria - sede di Modena Lezioni di STATISTICAMATEMATICA Docente: Prof. Valter Franceschini per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali - a.a. 2008/09 -

Lezioni di STATISTICA MATEMATICA

Embed Size (px)

Citation preview

Page 1: Lezioni di STATISTICA MATEMATICA

Universita di Modena e Reggio Emilia

Facolta di Ingegneria - sede di Modena

Lezioni

di

STATISTICA MATEMATICA

Docente: Prof. Valter Franceschini

per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali

- a.a. 2008/09 -

Page 2: Lezioni di STATISTICA MATEMATICA

INDICE

1 CALCOLO DELLE PROBABILITA 1

1.1 Calcolo combinatorio 1

1.2 La probabilita matematica 5Spazi di probabilita finiti 8Spazi finiti equiprobabili 9

1.3 Probabilita condizionata 14Eventi indipendenti 16Formula di Bayes 19

1.4 Variabili aleatorie 23Variabili aleatorie discrete 25Variabili aleatorie continue 26

1.5 Media e varianza 31

1.6 Variabili aleatorie bidimensionali 37

1.7 Distribuzioni binomiale, di Poisson e di Gauss 46Distribuzione binomiale 46Distribuzione di Poisson 49Distribuzione di Gauss 51

1.8 Approssimazione normale 55

1.9 Altre distribuzioni 61Distribuzione esponenziale 61Distribuzione ipergeometrica 63Distribuzione geometrica 65

2 STATISTICA DESCRITTIVA 66

2.1 Introduzione 66

2.2 Organizzazione e rappresentazione dei dati 66

2.3 Grandezze che sintetizzano i dati 71

3 STATISTICA MATEMATICA 81

3.1 Popolazioni e campioni 81

3.2 Stimatori 82

3.3 Distribuzioni chi-quadro e di Student 85

3.4 Intervalli di fiducia (o di confidenza) 87

3.5 Stima della media di una popolazione normale 87

3.6 Stima della varianza di una popolazione normale 91

3.7 Stima della differenza delle medie di due popolazioni normali 94

3.8 Stima di una proporzione 99

3.9 Basi logiche dei test 102

3.10 Formulazione di un test di ipotesi 104

3.11 Test di significativita 107

3.12 Test riguardanti la media di una popolazione normale 109

3.13 Test riguardanti la differenza delle medie di due popolazioni normali 117

3.14 Curve caratteristiche operative dei test 120

Tavole delle leggi N(0, 1), χ2n e Tn 125

Bibliografia 128

Page 3: Lezioni di STATISTICA MATEMATICA

CAPITOLO 1: CALCOLO DELLE PROBABILITA

1.1 CALCOLO COMBINATORIO

DISPOSIZIONI

Definizione Una disposizione semplice di n oggetti dati presi k alla volta e unak¡upla ordinata di k oggetti distinti scelti tra gli n (ovviamente k · n) .

Esempio 1.1.1 Le disposizioni semplici dei 3 oggetti dati a, b, c presi a coppie (per cui

k = 2, n = 3), sono

(a, b), (b, c), (c, a), (b, a), (c, b), (a, c) .

Proposizione Il numero di disposizioni semplici di n oggetti presi k alla volta, cheindichiamo con D(k;n), e il prodotto dei k numeri naturali decrescenti a partireda n:

D(k;n) = n(n¡ 1) ¢ ¢ ¢ (n¡ k + 1) =n!

(n¡ k)! .

Infatti, se riempio k caselle in ordine, nella prima ho n possibilita di scelta, nellaseconda (n¡ 1) possibilita, ..., nella k¡esima (n¡ k + 1).

Definizione Una disposizione con ripetizione di n oggetti dati presi k alla voltae una k¡upla ordinata i cui elementi, non necessariamente distinti, sono scelti fragli n.

Osservazione: differentemente dal caso delle disposizioni semplici, k puo anche esseremaggiore di n.

Esempio 1.1.2 Le diposizioni con ripetizione dei tre oggetti a, b, c a due a due (per cui

n = 3, k = 2) sono

(a, a), (a, b), (b, a), (b, b), (b, c), (c, b), (a, c), (c, a), (c, c) .

Proposizione Il numero di disposizioni con ripetizione di n oggetti presi k allavolta e

DR(k;n) = nk .

Infatti, se riempio k caselle in ordine, nella prima casella ho n possibilita di scelta,nella seconda ho ancora n possibilita, e cosı per tutte le altre caselle. Ottengo quindiil numero di oggetti elevato al numero di caselle.

Esempio 1.1.3 Il numero delle possibile schedine del totocalcio e 313; questo e infatti il

numero di disposizioni con ripetizione dei 3 simboli 1, 2, x, in 13 caselle ordinate.

Osservazione: Come si deduce da quanto appena visto, in questo contesto l’aggettivo

1

Page 4: Lezioni di STATISTICA MATEMATICA

”semplice” significa ”senza ripetizioni”.

2

Page 5: Lezioni di STATISTICA MATEMATICA

PERMUTAZIONI

Definizione Una permutazione di n oggetti dati e una n¡upla ordinata i cuielementi sono tutti gli n oggetti.

Detto altrimenti, una permutazione e una disposizione semplice degli n oggetti datiquando sono presi tutti n (si tratta del caso k = n). Di conseguenza il numero P (n)delle possibili permutazioni di n oggetti vale

P (n) = n(n¡ 1) ¢ ¢ ¢ 3 ¢ 2 ¢ 1 ´ n!

Il simbolo n! si legge “n fattoriale” e designa il prodotto dei primi n numeri naturali.Per convenzione si pone 0! = 1. Si e dunque trovato che vale la seguente

Proposizione Il numero P (n) delle permutazioni di n oggetti e uguale a n! .

Esempio 1.1.4 Le permutazioni di 5 clienti di banca (che rappresentano i possibili modi di

metterli in ordine di attesa a uno sportello) sono 5!, ossia = 5 ¢ 4 ¢ 3 ¢ 2 ¢ 1 = 120.

COMBINAZIONI

Definizione Una combinazione semplice di n oggetti dati presi k alla volta,k · n, e un sottoinsieme non ordinato di k oggetti distinti scelti tra gli n.

Esempio 1.1.5 Le combinazioni dei 3 oggetti a, b, c, presi 2 alla volta sono

fa, bg, fb, cg, fa, cg .Si noti che fa, bg ´ fb, ag. Per gli insiemi astratti (per i quali si usa la parentesi graffa)

non vige alcuna struttura d’ordine.

Proposizione Il numero di combinazioni semplici di n oggetti presi k alla volta,che indichiamo con C(k;n), vale

C(k;n) =

(n

k

).

Ricordato che (n

k

):=n(n¡ 1)...(n¡ k + 1)

k!=

n!

k!(n¡ k)! ,

dimostriamo la proposizione enunciata. Per ciascuna combinazione in cui sono presik oggetti alla volta, esistono P (k) modi di metterli in ordine. Di conseguenza, frail numero D(k;n) delle disposizioni e il numero C(k;n) delle combinazioni vale laseguente relazione

D(k;n) = C(k;n) ¢ P (k) ,da cui

C(k;n) =D(k;n)

P (k).

Da questa segue immediatamente la tesi della proposizione.

3

Page 6: Lezioni di STATISTICA MATEMATICA

Esempio 1.1.6 Il numero di comitati di 4 persone che si possono formare da un gruppo di 9e

C(4; 9) =

(94

)= 9!/[4!(9¡ 4)!] =

9 ¢ 8 ¢ 7 ¢ 64 ¢ 3 ¢ 2 ¢ 1 = 126 .

Definizione Una combinazione con ripetizione di n oggetti dati presi k allavolta e un insieme non ordinato di k oggetti, non necessariamente distinti, sceltitra gli n.

Osservazione: come per le disposizioni con ripetizione, e differentemente dal casodelle combinazioni semplici, k puo anche essere maggiore di n.

Esempio 1.1.7

Le combinazioni con ripetizione dei 3 oggetti a, b, c, presi a coppie sono

fa, ag, fa, bg, fa, cg, fb, bg, fb, cg, fc, cg .Analogamente, le combinazioni con ripetizione dei 2 oggetti a e b presi a terne sono

fa, a, ag, fa, a, bg, fa, b, bg, fb, b, bg .

Proposizione Il numero di combinazioni con ripetizione di n oggetti presi k allavolta e

CR(k;n) =

(n+ k ¡ 1

k

).

Dimostrazione

Si tratta di contare il numero di soluzioni (a1, a2, . . . , ak), con gli ai numeri interi,soddisfacenti la relazione

1 · a1 · a2 · ¢ ¢ ¢ · ak · n .Questa relazione equivale alla seguente

0 < a1 < a2 + 1 < a3 + 2 < ¢ ¢ ¢ < ak + k ¡ 1 < n+ k ,

che a sua volta equivale a

0 < b1 < b2 < ¢ ¢ ¢ < bk < n+ k ,

con i bi interi. Ne consegue che il numero cercato e uguale al numero di possibiliscelte di k oggetti distinti presi dall’insieme f1, 2, . . . , n+ k ¡ 1g, e quindi e uguale aC(k;n+ k ¡ 1).

Esempio 1.1.8 Applichiamo la formula che ci da CR(k;n) per verificare che il numero di

combinazioni con ripetizione nei due casi visti nell’esempio 1.1.7 e rispettivamente 6 e 4.

Dobbiamo ovviamente calcolare CR(2, 3) e CR(3, 2). Si ha

CR(2, 3) =

(3 + 2¡ 1

2

)=

(4

2

)= 6 ;

CR(3, 2) =

(2 + 3¡ 1

3

)=

(4

3

)= 4 .

4

Page 7: Lezioni di STATISTICA MATEMATICA

Esercizio 1.1.1 Si consideri un gruppo costituito da 20 persone. Ci si pone il seguente

problema: qual e la probabilita che queste persone compiano gli anni in giorni tutti diversi?

Com’e facilmente intuibile, la probabilita che ci interessa e data dal rapporto fra il numero

Ndist dei casi possibili di 20 compleanni tutti distinti e il numero totale Ntot dei casi pos-

sibili di 20 compleanni anche con coincidenze. Volendo formalizzare il problema in termini

matematici, indichiamo con (c1, c2, ..., c20) la 20¡upla definita dai 20 compleanni, con cigiorno di compleanno della i-esima persona. Allora Ndist corrisponde al numero delle pos-

sibili 20¡uple di ci tutti distinti, con 1 · ci · 365, il che implica Ndist = D(20; 365).D’altra parte Ntot corrisponde al numero di tutte le possibili 20¡uple con 1 · ci · 365,

ossia Ntot = DR(20; 365). Indicando con P la probabilita cercata si ha

P =Ndist

Ntot=

D(20; 365)

DR(20, 365)=

365 ¢ 364 ¢ ¢ ¢ ¢ ¢ 346(365)20

=(365365

)(364365

)¢ ¢ ¢

(346365

)¼ 59% .

Proposizione Vale la seguente formula, detta formula binomiale di Newton:

(a+ b)n =

(n0

)an +

(n1

)an−1b+ ...+

(n

n¡ 1

)abn−1 +

(nn

)bn

ovvero, in notazione compatta,

(a+ b)n =

n∑

k=0

(nk

)an−kbk.

Dimostrazione(a+ b)n = (a+ b)(a+ b)...(a+ b) [n volte]

e una lunga somma che contiene piu volte l’addendo generico an−kbk. Fissiamo k,con k · n. Quante volte appare tale addendo? Tante quante le possibili scelte dik parentesi tra le n date, prendendo da ciascuna il fattore b (ottenendo cosı bk), econseguentemente prendendo da ciascuna delle rimanenti n¡ k parentesi il fattore a(ottenendo cosı an−k). In altre parole: il fattore an−kbk compare tante volte quante

sono le combinazioni semplici di k oggetti tra gli n dati. Cioe

(n

k

)volte. Quindi tale

addendo va moltiplicato per

(n

k

)e la somma va fatta rispetto a k come enunciato.

Esercizio 1.1.2 Provare la proprieta dei coefficienti binomiali(n¡ 1k ¡ 1

)+

(n¡ 1k

)=

(nk

).

Procediamo con calcolo diretto:(n¡ 1

k ¡ 1

)+

(n¡ 1

k

)=

(n¡ 1)!

(k ¡ 1)! (n¡ k)! +(n¡ 1)!

k! (n¡ 1¡ k)! =

=(n¡ 1)! k + (n¡ 1)! (n¡ k)

k! (n¡ k)! =(n¡ 1)! (k + n¡ k)

k! (n¡ k)! =

(n

k

).

Osserviamo che e grazie a questa relazione che si costruisce il famoso “triangolo di Tartaglia”.

5

Page 8: Lezioni di STATISTICA MATEMATICA

1.2 LA PROBABILITA MATEMATICA

Definizione Si chiama spazio campionario l’insieme S di tutti i possibili esitidi un dato esperimento. Un evento e un insieme di esiti, cioe un sottinsiemedello spazio campionario S. Si dice poi classe di eventi, e la denoteremo con Ω,ogni insieme non vuoto di eventi che risulti essere chiuso rispetto alle operazioniinsiemistiche elementari, vale a dire:

i) dati due eventi A,B 2 Ω, allora anche A [ B 2 Ω (A [ B e l’evento che siverifica se si verifica almeno uno fra gli eventi A e B);

ii) data una successione numerabile di eventi Ai 2 Ω, allora anche la loro unionee un evento, cioe

⋃∞i=1Ai 2 Ω;

iii) dato un evento A 2 Ω, allora anche il suo complementare AC ´ S ¡ A 2 Ω(AC e l’evento che si verifica quando A non si verifica).

Dai tre assiomi che caratterizzano una classe di eventi Ω seguono queste altre pro-prieta:

— Dati due eventi A e B, anche A \B e un evento; infatti:

A \B = (AC [BC)C =) A \B 2 Ω ;

— L’insieme vuoto ; e lo spazio S sono eventi; infatti, preso A 2 Ω, si haA \AC = ; =) ; 2 Ω , A [AC = S =) S 2 Ω .

L’evento ; e detto evento impossibile e S e detto evento certo.

Definizione Due eventi A e B sono detti incompatibili se sono disgiunti, cioe seA \ B = ;. A parole: due eventi sono incompatibili se non si possono mai verificaresimultaneamente.

Esempio 1.2.1 Si consideri il seguente esperimento: si getta un dado e si guarda il risultato

della prova, vale a dire il numero che si presenta. Lo spazio campionario consiste nei sei

numeri possibili:

S = f1, 2, 3, 4, 5, 6g .Consideriamo i seguenti eventi: A:“il risultato e un numero pari”; B:“il risultato e un

numero dispari”; C:“il risultato e un numero primo”. In termini si sottinsiemi di S :

A = f2, 4, 6g , B = f1, 3, 5g , C = f2, 3, 5g .Si ha quindi, ad esempio:

AC = f1, 3, 5g = B ;

CC = f1, 4, 6g: e l’evento “il risultato non e un numero primo”;

B \ C = f3, 5g: e l’evento “il risultato e un numero dispari e primo”;

A [ C = f2, 3, 4, 5, 6g: e l’evento “il risultato e un numero pari o primo”.

Si noti che gli eventi A e B, essendo A \B = ;, sono incompatibili.

6

Page 9: Lezioni di STATISTICA MATEMATICA

Osservazione: Come si evince dall’esempio, gli eventi sono definiti mediante proposizioni

fatte nel linguaggio comune, e poi identificati con sottinsiemi di S. Sulla base di questa

considerazione risulta molto piu appropriato parlare di eventi incompatibili piuttosto che di

eventi disgiunti, e di sottinsiemi disgiunti piuttosto che di sottinsiemi incompatibili. Accade

pero spesso che i due aggettivi siano usati indifferentemente.

Definizione Sia S uno spazio campionario ed Ω una classe di eventi in S. Sia poiP una funzione definita su Ω a valori in [0, 1]:

P : Ω ¡! [0, 1] .

Allora (S,Ω, P ) e detto spazio di probabilita e P (A) e detta probabilita dell’e-vento A 2 Ω se valgono i seguenti tre assiomi:

1) P (S) = 1 ;

2) se A e B sono due eventi incompatibili, allora

P (A [B) = P (A) + P (B) ;

3) se fAn, n 2 Ng e una successione numerabile di eventi incompatibili, si ha

P([∞n=1An

)=

∞∑

n=1

P (An) .

Gli assiomi 2) e 3) esprimono il fatto che le probabilita di eventi incompatibili sisommano. In particolare l’assioma 3), che ovviamente ha significato solo nel caso incuiΩ e un insieme infinito, si esprime sinteticamente dicendo che P e numerabilmenteadditiva.

Teorema P (;) = 0 . (La probabilita dell’evento impossibile e nulla)

Dimostrazione

Sia A un qualunque evento di Ω. Poiche anche ; 2 Ω, segue che A [ ; 2 Ω. Inoltre,A ed ; sono eventi incompatibili essendo A \ ; = ;. In virtu dell’assioma 2) si haquindi

P (A) = P (A [ ;) = P (A) + P (;) =) P (;) = 0 .

Teorema (regola di complementazione) Sia A 2 Ω un evento ed AC il suo comple-mentare. Allora si ha

P (AC) = 1¡ P (A) .Dimostrazione

Essendo A\AC = ;, A ed AC sono eventi incompatibili. Di conseguenza, applicandol’assioma 2) ad S, si ottiene

P (S) = P (A [AC) = P (A) + P (AC) = 1 ,

da cui consegue banalmente la tesi.

7

Page 10: Lezioni di STATISTICA MATEMATICA

Teorema Se A e B sono due eventi tali cheA µ B, allora

P (A) · P (B) .

Dimostrazione

Essendo A µ B si puo decomporre B neglieventi incompatibili A e B ¡A = B \AC . Sipuo quindi scrivere

P (B) = P (A [ (B ¡A)) = P (A) + P (B ¡A) ¸ P (A) ,esssendo P (B ¡A) ¸ 0.

Teorema Se A e B sono due eventi qualun-que, allora

P (A¡B) = P (A)¡ P (A \B) .Dimostrazione

L’evento A puo essere decomposto negli eventiincompatibili A¡B e A\B, per cui, in virtudell’assioma 2), si ha

P (A) = P((A¡B) [ (A \B)

)= P (A¡B) + P (A \B) .

La tesi segue immediatamente.

Teorema (regola di addizione per eventi arbi-trari) Se A,B sono eventi arbitrari di unospazio di probabilita, allora

P (A [B) = P (A) + P (B)¡ P (A \B) .Dimostrazione

Scriviamo A [ B come unione dei due eventiincompatibili A ¡ B e B. Applicando quindil’assioma 2) e il teorema precedente si ottienela tesi.

P (A [B) = P((A¡B) [B

)= P (A¡B) + P (B) = P (A) + P (B)¡ P (A \B) .

8

Page 11: Lezioni di STATISTICA MATEMATICA

Spazi di probabilita finiti

Sia S uno spazio campionario finito:

S = fa1, a2, . . . , aNged Ω l’insieme di tutti i sottinsiemi di S (inclusi S e ;). Si ottiene uno spazio diprobabilita finito assegnando a ciascun elemento ai di S un numero reale pi, dettoprobabilita di ai e indicato come P (faig), tale che

i) pi ¸ 0 per ogni i = 1, 2, . . . , N ;

ii) la somma delle singole probabilita e uguale a 1, ossia∑N

i=1 pi = 1 .

La probabilita P (A) di un qualsiasi evento A µ S viene quindi definita come la sommadelle probabilita degli eventi elementari faig contenuti in A:

P (A) = P( ⋃

i:ai∈Afaig

)=

i:ai∈AP(faig

)=

i:ai∈Api .

Dimostriamo che la funzione P : Ω ! [0, 1] e una funzione di probabilita facendovedere che valgono gli assiomi 1) e 2). Per quanto riguarda la validita dell’assioma1), si ha

P (S) = P( ⋃

i:ai∈Sfaig

)= P

( N⋃

i=1

faig)=

N∑

i=1

P(faig

)=

N∑

i=1

pi = 1 .

D’altra parte, se A e B sono eventi incompatibili, abbiamo

P (A [B) = P( ⋃

i:ai∈A∪Bfaig

)=

i:ai∈A∪BP(faig

)=

=∑

i:ai∈Api +

i:ai∈Bpi = P (A) + P (B) ,

per cui vale anche l’assioma 2). Valgono dunque tutti gli assiomi richiesti perche Psia una probabilita (essendo lo spazio finito, l’assioma 3) non ha significato).

Dal punto di vista pratico ci sono diversi modi di assegnare le probabilita pi aglieventi elementari faig. Uno dei possibili modi e il seguente: se ripetiamo lo stessoesperimento n volte e chiamiamo si il numero di volte che si verifica faig, si osservache il rapporto

sin,

detto frequenza relativa, a lungo andare tende a stabilizzarsi, cioe tende ad un li-mite pi (compreso, ovviamente, tra 0 ed 1). Questo valore limite pi, cosı calcolatoempiricamente, viene assunto come la probabilita dell’evento elementare faig.

9

Page 12: Lezioni di STATISTICA MATEMATICA

Spazi finiti equiprobabili

Definizione Si dice spazio equiprobabile (o uniforme) uno spazio di probabilitafinito dove ciascun elemento dello spazio campionario S (o, equivalentemente,ciascun evento elementare) ha la stessa probabilita.

Dalla definizione e dagli assiomi della probabilita segue immediatamente che, se lospazio campionario S consta di N elementi, la probabilita di ciascun elemento di S

vale p =1

N. Avremo inoltre che, dato un qualunque evento A, la sua probabilita sara

da

P (A) =numero degli elementi di A

N=jAjN.

A parole: in uno spazio finito equiprobabile, la probabilita di un evento vale ilnumero dei casi favorevoli diviso il numero dei casi possibili.

Nota bene: jAj denota la cardinalita di A, cioe il numero degli eventi elementari checostituiscono A. Questa notazione sara utizzata anche in seguito.

Esempio 1.2.2 Consideriamo un dado non truccato: avremo

S = f1, 2, 3, 4, 5, 6g, N = 6 , P (1) = P (2) = ¢ ¢ ¢ = P (6) = 16 .

Vogliamo calcolare, ad esempio, la probabilita degli eventi

A : esce un numero pari, B : esce un numero minore di 3.

Si avra

P (A) =jf2, 4, 6gj

6=

1

2, P (B) =

jf1, 2gj6

=1

3.

Esercizio 1.2.1 Si scelga a caso una carta da un mazzo ben mescolato di 52 carte da ramino.

Ci si chiede la probabilita di ottenere: 1) un asso; 2) una carta di fiori; 3) una figura; 4) una

figura non di cuori.

Lo spazio campionario S e ovviamente l’insieme delle 52 carte, per cui N=52. Siano poi

A1, A2, A3 e A4 gli eventi di cui si chiede, nell’ordine, la probabilita. Essendo lo spazio

equiprobabile (la carta e scelta a caso!), avremo:

P (A1) =jA1jN

=numero degli assi

N=

4

52=

1

13;

P (A2) =jA2jN

=numero delle carte di fiori

N=

13

52=

1

4;

P (A3) =jA3jN

=numero delle figure

N=

12

52=

3

13;

P (A4) =jA4jN

=numero delle figure non di cuori

N=

9

52.

10

Page 13: Lezioni di STATISTICA MATEMATICA

Esercizio 1.2.2 Si effettuano cinque lanci successivi di una moneta non truccata. Ci si

chiede: qual e la probabilita che in cinque lanci esca “testa” almeno una volta?

Introduciamo l’appropriato spazio di probabilita:

S =(a1, a2, a3, a4, a5), con ai = T o ai = C, i = 1, ..., 5

,

dove ai indica il risultato del lancio i-esimo, e T e C stanno ovviamente per “testa” e “croce”.

Siccome il numero delle possibili cinquine che costituiscono S e 25, abbiamoN = 32, e quindi

p = 132 .

L’evento che ci interessa e

A = “esce almeno una testa” ,

che e il complementare dell’evento elementare f(C,C, C, C,C)g, la cui probabilita e ovvia-

mente p. Si ha quindi

P (A) = 1¡ P (AC) = 1¡ 1

32=

31

32.

Esercizio 1.2.3 Problema: qual e la probabilita che fra M persone ce ne siano almeno due

con lo stesso compleanno?

Il problema, nella sostanza, e gia stato affrontato nell’esercizio 1.1.1. Assunto che tutti gli

anni siano di 365 giorni (considerare anche gli anni bisestili complicherebbe considerevol-

mente il problema), e che tutti i giorni siano equiprobabili, lo spazio di probabilita e

S =(a1, a2, . . . , aM ), ai 2 [1, 2, . . . , 365]

.

Siccome il numero degli eventi elementari e N = DR(M ; 365) = 365M , ogni evento ele-

mentare ha probabilita p =1

365M.

Indicato con AM l’evento “gli M compleanni avvengono tutti in giorni diversi”, l’evento di

cui interessa la probabilita e il complementare di AM , cioe ACM . Ricordando quanto visto

nell’esercizio 1.1.1, generalizzandone il risultato si ottiene

P (AM ) =jAM jjSj =

D(M ; 365)

DR(M ; 365)=

365 ¢ 364 ¢ ¢ ¢ ¢ ¢ (365¡M + 1)

365M,

e quindi, in virtu della regola di complementazione,

P (ACM) = 1¡∏Mi=1(366¡ i)365M

.

Facendo il calcolo, si ottiene, ad esempio, P (AC10) ¼ 12%, P (AC20) ¼ 41%, P (AC30) ¼ 71%,

P (AC50) ¼ 97%.

11

Page 14: Lezioni di STATISTICA MATEMATICA

Esercizio 1.2.4 Carlo e Giorgio sono due amici che ogni giorno scommettono sul risultato

del lancio di un dado. Carlo punta sempre su un risultato dispari, Giorgio su un risultato

pari. Giorgio crede che i numeri riportati sulle facce del dado (ovviamente gli interi da 1 a 6)

siano equiprobabili. In realta non e cosı in quanto Carlo, di nascosto, ha “truccato” il dado

facendo in modo che il numero 1 abbia probabilita 15, lasciando pero che gli altri numeri

siano equiprobabili. Quali sono le probabilita di vincere di Carlo e Giorgio rispettivamente?

Lo spazio campionario e ovviamente

S = f1, 2, 3, 4, 5, 6g .Sia pi = P

(fig

). Siccome sappiamo che p1 = 1

5 e che p2=p3=p4=p5=p6, dovendo essere∑6i=1 pi = 1, si ricava pi =

425 , per i = 2, . . . , 6. L’evento per cui vince Carlo e

A = “il risultato e dispari” = f1, 3, 5g .Ovviamente l’evento per cui vince Giorgio e AC . Si ha dunque

P (A) = P(f1, 3, 5g

)= P

(f1g

)+ P

(f3g

)+ P

(f5g

)= 1

5 +425 +

425 = 13

25 ,

e quindi

P (AC) = 1¡ P (A) = 1225 .

In fin dei conti, Carlo e stato sleale, ma poteva esserlo molto di piu.

Esercizio 1.2.5 Le probabilita che tre giocatori G1, G2 e G3 colpiscano il bersaglio sono

rispettivamente p1 =16 , p2 =

14 , p3 =

13 . Ciascuno spara una volta al bersaglio. Trovare la

probabilita degli eventi:

a) A: “un solo giocatore colpisce il bersaglio”;

b) B: “uno o due giocatori colpiscono il bersaglio”.

Sia S ´(s1, s2, s3)

, con si = Y oppure si = N a seconda che il giocatore Gi colpisca

oppure no il bersaglio. E quindi

S ´

(Y,Y,Y), (Y,Y,N), (Y,N,Y), (Y,N,N), (N,Y,Y), (N,Y,N), (N,N,Y), (N,N,N).

Sappiamo che P (fsi = Yg) = pi e di conseguenza P (fsi = Ng) = 1 ¡ pi. Essendo il

risultato di ciascun sparo indipendente dagli altri (il concetto di “eventi indipendenti” sara

definito in maniera rigorosa piu avanti), si ha

P((s1, s2, s3)

)= P (fs1g) ¢ P (fs2g) ¢ P (fs3g) .

Avremo percio

P (A) = P((Y,N,N)

)+ P

((N,Y,N)

)+ P

((N,N,Y)

)=

=1

6¢ 34¢ 23+

5

6¢ 14¢ 23+

5

6¢ 34¢ 13=

31

72

P (B) = P(f(Y, Y, Y ), (N,N,N)gC

)= 1¡

(P((Y, Y, Y )

)+ P

((N,N,N)

))=

= 1¡(16¢ 14¢ 13+

5

6¢ 34¢ 23

)=

41

72.

12

Page 15: Lezioni di STATISTICA MATEMATICA

Esercizio 1.2.6 Un dado “equo” a 4 facce riportanti i numeri 1, 2, 3 e 4 e lanciato tre volte.

Si chiede la probabilita di ottenere: i) almeno un tre; ii) nessun uno e nessun due.

Lo spazio campionario e

S = f(a1, a2, a3) , ai 2 [1, 2, 3, 4] , i = 1, 2, 3 .gSia A l’evento “si e ottenuto almeno un 3”. Indicando con Qk l’evento “il risultato del

k-esimo lancio e 3”, si ha AC = QC1 \ QC

2 \ QC3 . Essendo poi gli eventi Q1, Q2 e Q3

indipendenti uno dall’altro (in quanto il risultato di ciascuno non dipende da quello degli

altri due), anche gli eventi complementari QCk sono indipendenti. Tenendo conto di cio e del

fatto che P (Q1) = P (Q2) = P (Q3) =14 , per cui P (QC

1 ) = P (QC2 ) = P (QC

3 ) =34 , si ha

P (A) = 1¡ P (AC) = 1¡ P(QC1 \QC

2 \QC3

)= 1¡ P (QC

1 ) ¢ P (QC2 ) ¢ P (QC

3 ) =

= 1¡(34

)3=

37

64¼ 57.8% .

Sia ora B l’evento “non si e ottenuto nessun uno e nessun due”. Indicando con Rk l’evento

“il risultato del k-esimo lancio e 3 o 4”, si ha B = R1 \ R2 \ R3. Anche in questo caso i

tre eventi Rk sono indipendenti; inoltre P (R1) = P (R2) = P (R3) =12 . Ne consegue

P (B) = P (R1 \R2 \R3) = P (R1) ¢ P (R2) ¢ P (R3) =(12

)3=

1

8= 12.5% .

Esercizio 1.2.7 Un’urna contiene 20 palline numerate progressivamente. a) Vengono estratte

in blocco 4 palline: qual e la probabilita che venga estratta la pallina numero 1? b) Ven-

gono estratte una dopo l’altra 4 palline ogni volta con reimmissione: qual e la probabilita

che venga estratta la pallina numero 1?

Sia A l’evento ”fra le 4 palline estratte c’e anche la numero 1”. L’evento complementare AC

e dunque ”fra le 4 palline estratte non c’e la numero 1”. Calcoleremo P (A) come 1¡P (AC),essendo P (AC) molto semplice.

a) Assumiamo come spazio S l’insieme di tutte le possibili disposizioni (p1, p2, p3, p4)dei numeri da 1 a 20 presi quattro alla volta (senza ripetizioni). Essendo tali quaterne

equiprobabili, avremo

P (A) = 1¡ jAC jjSj = 1¡ D(4; 19)

D(4; 20)= 1¡ 19 ¢ 18 ¢ 17 ¢ 16

20 ¢ 19 ¢ 18 ¢ 17 = 1¡ 16

20=

1

5.

Allo stesso risultato si poteva pervenire anche per altra via. Come spazio S, infatti, si puo

assumere l’insieme di tutte le possibili combinazioni di 4 numeri interi (distinti) presi tra 1

e 20. Anche le combinazioni sono equiprobabili, per cui si ha

P (A) = 1¡ jAC jjSj = 1¡ C(4; 19)

C(4; 20)= 1¡

(194

)(204

) = 1¡ 19!

15! 4!

16! 4!

20!= 1¡ 4

5=

1

5.

b) In questo caso, affinche lo spazio campionario sia equiprobabile, bisogna assumere Scostituito da tutte le possibili disposizioni con ripetizione di 4 interi presi tra 1 e 20. Si ha

dunque

P (A) = 1¡ DR(4; 19)

DR(4; 20)= 1¡ 194

204= 1¡

(1920

)4¼ 1¡ 0.815 = 18.5% .

13

Page 16: Lezioni di STATISTICA MATEMATICA

Esercizio 1.2.8 Da un mazzo ben mescolato di 52 carte da ramino se ne estraggono 5 a caso.

Si chiede la probabilita di: 1) un poker (PO); 2) un full (FU); 3) una doppia coppia (CC);

4) una coppia (C).

Lo spazio campionario S e costituito da tutte le possibili cinquine (non ordinate) di carte

ottenute combinando senza ripetizioni le 52 carte di un mazzo, ossia

S = f(c1, c2, c3, c4, c5) , ci 6= cjg , N =(525

)= 2·598·960 .

La probabilita di ciascun evento si ottiene calcolando il numero degli eventi favorevoli e

dividendolo per N . Volendo calcolare la probabilita di un poker, contiamo quante sono le

possibili cinquine con quattro carte “uguali”. Scelte 4 carte “uguali”, e ci sono 13 possibili

scelte, la quinta carta puo essere una qualunque fra le rimanenti 48. Avremo dunque

P (PO) =13¢48N

¼ 0.024% .

Volendo poi un full, cioe una cinquina del tipo aaabb, osserviamo che ogni tris aaa puo

essere ottenuto con 13 diverse carte “a” e che per ciascun “a” se ne possono poi ottenere(43

)= 4; per quanto riguarda poi la coppia bb, una volta scelto il tris, la si puo ottenere con

12 diverse carte “b”, e per ciascun “b” ci sono(42

)= 6 possibilita. Si ha quindi

P (FU) =13¢

(43

)¢12¢

(42

)

N=

13¢4¢12¢6N

¼ 0.14% .

La domanda 3) concerne le doppie coppie, cioe le cinquine del tipo aabbc. Ragionando in

modo analogo a quanto fatto per le precedenti domande, si ha

P (CC) =13¢

(42

)¢12¢

(42

)¢11¢

(41

)

2¢N =13¢6¢12¢6¢11¢4

2¢N ¼ 4.75% ,

dove il 2 a denominatore tiene conto del fatto che sono state conteggiate sia le ”quaterne”

del tipo aabb che quelle del tipo bbaa.

La domanda 4) richiede di calcolare la probabilita di una semplice coppia, vale a dire una

cinquina del tipo aabcd. In questo casi si ha

P (C) =13¢

(42

)¢12¢

(41

)¢11¢

(41

)¢10¢

(41

)

6¢N =13¢6¢12¢4¢11¢4¢10¢4

6¢N ¼ 42.3% ,

dove il 6 a denominatore tiene conto del fatto che per la formazione di una coppia del tipo

aabcd sono state conteggiate tutte le possibili terne bcd, bdc, cbd, cdb, dbc e dcb (cioe le

possibili permutazioni dei tre ogetti a, b, c).

14

Page 17: Lezioni di STATISTICA MATEMATICA

1.3 PROBABILITA CONDIZIONATA

Definizione Dato uno spazio di probabilita (S,Ω, P ) e due eventi A e B di Ωcon P (B) > 0, si chiama probabilita condizionata di A dato B il numeroP (A\B)/P (B). Tale numero, che esprime la probabilita che avvenga A una voltache sia avvenuto B, sara indicato con P (AjB). Si ha dunque, per definizione,

P (AjB) = P (A \B)

P (B).

Nel caso di uno spazio S finito ed equiprobabile, indicato con jEj il numero deglielementi di un evento E 2 S, si ha

P (A \B) = jA \BjjSj , P (B) =

jBjjSj ,

e quindi

P (AjB) =jA \BjjBj .

Esercizio 1.3.1 Si lanci una coppia di dadi. Se la loro somma e 6, si determini la probabilita

che almeno uno dei dadi abbia dato come risultato 2.

Lo spazio campionario e

S = f(h, k), h, k = 1, 2, 3, 4, 5, 6g ,per cui, indicati con A e B i due eventi

B = “la somma e 6” = f(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)g ,A = “almeno un 2” = f(2, 2), (2, k), (h, 2), h, k = 1, 3, 4, 5, 6g ,

si ha A \B = f(2, 4), (4, 2)g. Essendo lo spazio equiprobabile, ne consegue

P (AjB) =jA \BjjBj =

2

5.

Esercizio 1.3.2 In una popolazione i genotipi AA, Aa e aa (che rappresentano in questo

problema gli eventi elementari) abbiano probabilita rispettivamente

P (AA) =49

100, P (Aa) =

42

100, P (aa) =

9

100.

Supponiamo che dopo un certo tempo muoiano sistematicamente gli individui di tipo aa,sicche gli adulti sono o AA o Aa. Ci si chiede: qual e la probabilita di AA fra gli adulti?

Bisogna calcolare la probabilita condizionata di AA dato l’evento B = AA [Aa :

P (AAjAA[Aa) = P (AA \ [AA [Aa])P (AA [Aa) =

P (AA)

P (AA [Aa) =0.49

0.49 + 0.42=

0.49

0.91¼ 54% .

15

Page 18: Lezioni di STATISTICA MATEMATICA

Teorema (o legge) delle probabilita composte

Dati gli eventi A e B, con P (B) > 0, vale la relazione

P (A \B) = P (B) ¢P (AjB) .

La dimostrazione segue banalmente dalla definizione di probabilita condizionata.

La legge appena formulata, che permette di calcolare la probabilita dell’intersezionedi due eventi note la probabilita di uno e la probabilita condizionata dell’altro datoil primo, si puo facilmente estendere a piu eventi. Riscritta la legge nel caso di dueeventi A1 e A2,

P (A1 \A2) = P (A1)¢P (A2jA1) ,quella per tre eventi A1, A2 e A3 si ricava immediatamente

P (A1 \A2 \A3) = P ([A1 \A2] \A3) = P (A1 \A2) ¢P (A3jA1 \A2) == P (A1)¢P (A2jA1) ¢P (A3jA1 \A2) .

Generalizzando al caso di n eventi A1, A2, . . . , An si ottiene

P(\ni=1Ai

)= P (A1) ¢P (A2jA1)¢P (A3jA1 \A2) ¢ ¢ ¢P (AnjA1 \A2 \ ¢ ¢ ¢ \An−1) .

Esercizio 1.3.3 Un’urna contiene 9 palline rosse e 6 gialle. Una dopo l’altra vengono estratte

a caso, senza reimmissione, tre palline. Calcolare la probabilita che siano tutte rosse.

Denotiamo con Ak, con k = 1, 2, 3, l’evento “la k-esima pallina e rossa”. L’evento di cui ci

interessa la probabilita e A1 \A2 \A3. Dal teorema delle probabilita composte segue che

P (A1 \A2 \A3) = P (A1) ¢P (A2jA1)¢P (A3jA1 \A2) =9

15¢ 814¢ 713

=12

65.

Proposizione Dati due eventi A e B, con P (A) > 0 e P (B) > 0, vale la relazione

P (AjB) =P (A)

P (B)¢P (BjA) .

Questa relazione consegue immediatamente dalla legge della probabilita compostascrivendo

P (A \B) = P (B) ¢P (AjB) = P (A)¢P (BjA) .E una formula di grande utilita in quanto permette di ricavare la probabilita condi-zionata di un evento A dato B, sapendo la probabilita condizionata di B dato A. Cioaiuta, ad esempio, nelle diagnosi delle malattie, come si vede nell’esercizio che segue.

Esempio 1.3.1 Se la probabilita teorica del sintomo B, data la malattia A, e il 30%, posso

calcolare la probabilita che un paziente affetto dal sintomo B abbia la malattia A. Se, ad

esempio, in Emilia la percentuale delle persone affette dalla malattia A e il 15% e quella

delle persone che manifestano il sintomo B e il 5%, per cui P (A) = 0.15 e P (B) = 0.05,

la probabilita della malattia A dato il sintomo B e

P (AjB) =P (A)

P (B)¢P (BjA) = 0.15

0.05¢ 0.30 = 90% .

16

Page 19: Lezioni di STATISTICA MATEMATICA

EVENTI INDIPENDENTI

Definizione Due eventi A e B si dicono indipendenti se

P (A \B) = P (A) ¢P (B) .

Il significato di questa definizione, che vale qualunque siano gli eventi A e B, apparechiaro se si considerano eventi di probabilita non nulla. Infatti, se P (B) > 0, dalladefinizione di probabilita condizionata, segue

P (A) = P (AjB) ,

e analogamente, supposto P (A) > 0, si ha

P (B) = P (BjA) .A parole: la probabilita di A non dipende dal verificarsi oppure no di B, e viceversa.Cio giustifica la terminologia.

Teorema Se A e B sono indipendenti, lo sono anche A e BC , AC e B, AC e BC .

Dimostrazione

Dimostriamo dapprima l’indipendenza di A e BC . Essendo

P (BC) = 1¡ P (B) , P (A) = P (A \B) + P (A \BC) ,

si ha

P (A \BC) = P (A)¡ P (A \B) = P (A)¡ P (A) ¢P (B) == P (A)¢ [(1¡ P (B)] = P (A) ¢P (BC) .

Quindi, se A e B sono indipendenti, lo sono anche A e BC .Scambiando l’ordine, si puo dedurre che lo sono anche AC

e B, e quindi anche AC e BC .

Esercizio 1.3.4 Un test diagnostico di una malattia e corretto nel 98% dei casi. Ci si chiede:

ripetendo due volte il test sullo stesso soggetto, qual e la probabilita di un doppio errore?

Sia A = “errore nel primo test”, B = “errore nel secondo test”. Essendo i due eventi

indipendenti, si ha

P (A \B) = P (A) ¢P (B) =2

100¢ 2

100=

4

10000= 0.04% .

Esercizio 1.3.5 Aldo e Bruno sparano ad un bersaglio. Siano A e B rispettivamente l’evento

“Aldo fa centro” e “Bruno fa centro”. Modello la situazione con una funzione di probabilita

P tale che P (A)= 14 e P (B)= 2

5 , e supponendo che A e B siano indipendenti. Supposto

che Aldo e Bruno sparino contemporaneamente contro il bersaglio, qual e la probabilita che

1) almeno uno dei due centri il bersaglio? 2) uno solo dei due centri il bersaglio?

17

Page 20: Lezioni di STATISTICA MATEMATICA

L’evento “almeno uno fa centro” e A [B. Siccome A e B sono indipendenti, avremo

P (A [B) = P (A) + P (B)¡ P (A \B) = P (A) + P (B)¡ P (A) ¢P (B) =

=1

4+

2

5¡ 1

4¢ 25=

11

20.

Per quanto riguarda invece l’evento “uno solo fa centro”, esso e dato da (A\BC)[(AC\B).Tenendo conto che A ed BC sono indipendenti, cosı come AC e B, e che gli eventi A\BC

e (AC \B) sono incompatibili, si ha

P((A \BC) [ (AC \B)

)= P (A \BC) + P (AC \B) == P (A) ¢P (BC) + P (AC) ¢P (B) =

=1

4¢ 35+

3

4¢ 25=

9

20.

Definizione Dato uno spazio di probabilita (S,Ω, P ) si chiama partizione di Sun insieme di eventi incompatibili A1, A2, . . . , Ai, ¢ ¢ ¢ 2 Ω tali che

i

Ai = S .

Nel seguito considereremo partizioni finite, cioe partizioni formate da un numero finiton di eventi. In tal caso l’indice i assumera ovviamente i valori da 1 a n.

Teorema (o formula) della probabilita totale (o di fattorizzazione)

Dato un evento B e una partizione finita A1, A2, ...An di S, con P (Ai) > 0 perogni i, si ha

P (B) =

n∑

i=1

P (Ai) ¢P (BjAi) .

Dimostrazione

In virtu della definizione della legge delle probabilita composte, per ogni i possiamoscrivere

P (Ai \B) = P (Ai) ¢P (BjAi) .Sommando per i che va da 1 ad n, si ha

∑ni=1 P (Ai \B) =

∑ni=1 P (Ai) ¢P (BjAi) ,

da cui, essendo∑n

i=1 P (Ai \B) = P(⋃n

i=1(Ai \B))= P

((⋃ni=1Ai) \B

)= P (S \B) = P (B) ,

consegue la tesi.

Esercizio 1.3.6 Una fabbrica di autovetture riceve da tre fornitori i cambi da installare sulle

auto nelle seguenti percentuali: 65%, 25% e 10%. Sapendo che i tre fornitori producono i

cambi con una difettosita rispettivamente del 5%, 10% e 25%, si vuole conoscere la probabilita

che la fabbrica di auto ha di ricevere un cambio difettoso.

18

Page 21: Lezioni di STATISTICA MATEMATICA

In questo caso l’esperimento consiste nell’arrivo di un cambio. I possibili eventi elementari

(e quindi incompatibili) sono i Bk, k = 1, 2, 3, essendo Bk l’evento ”il cambio arriva dal

fornitore k-esimo”. Chiaramente i Bk costituiscono una partizione di S. Indicato poi con Al’evento ”il cambio ricevuto e difettoso”, si richiede P (A).

I dati dell’esercizio sono i seguenti:

P (B1) = 65% , P (B2) = 25% , P (B3) = 10% ;

P (AjB1) = 5% , P (AjB2) = 10% , P (AjB3) = 25% .

Utilizzando la formula di fattorizzazione si ha immediatamente

P (A) =

3∑

i=1

P (Bi)¢P (AjBi) = 0.65¢0.05 + 0.25¢0.10 + 0.10¢0.25 = 0.0825 = 8.25% .

Esercizio 1.3.7 Com’e noto, le trasfusioni di sangue possono avvenire con le modalita se-

guenti: dal gruppo 0 a tutti i gruppi; da A ai gruppi A e AB; da B ai gruppi B e AB; da

AB al solo gruppo AB. Supposto che le frequenze dei gruppi sanguigni siano

P (0) = 52%, P (A) = 32%, P (B) = 10%, P (AB) = 6% ,

ci si chiede: qual e la probabilita che un individuo x, scelto a caso, possa donare sangue a

un individuo y pure scelto a caso?

Sia S l’insieme delle coppie (x, y) in cui sia x che y possono essere uguali a 0, A, B o AB.

L’evento di cui vogliamo calcolare la probabilita e “x e donatore per y” e lo indichiamo con

[x) y]. Introduciamo poi gli eventi

[x=0] = f(0, 0), (0, A), (0, B), (0, AB)g ,[x=A] = f(A, 0), (A,A), (A,B), (A,AB)g ,[x=B] = f(B, 0), (B,A), (B,B), (B,AB)g ,[x=AB] = f(AB, 0), (AB,A), (AB,B), (AB,AB)g ,

e analogamente gli eventi [y=0], [y=A], [y=B],[y=AB]. Per calcolare P ([x) y]) si puo

usare il teorema della probabilita totale in due modi diversi: in un caso considereremo come

partizione di S gli eventi [x=0], [x=A], [x=B] e [x=AB], nell’altro gli eventi [y=0],[y=A], [y=B] e [y=AB].

Modo 1

P ([x) y]) = P ([x=0])¢P ([x) y]∣∣[x=0]) + P ([x=A]) ¢P ([x) y]

∣∣[x=A])++ P ([x=B])¢P ([x) y]

∣∣[x=B]) + P ([x=AB]) ¢P ([x) y]∣∣[x=AB]) =

=52

100¢1 + 32

100¢( 32

100+

6

100

)+

10

100¢( 10

100+

6

100

)+

6

100¢ 6

100' 66% .

Modo 2

P ([x) y]) = P ([y=0]) ¢P ([x) y]∣∣[y=0]) + P ([y=A]) ¢P ([x) y]

∣∣[y=A])++ P ([y=B])¢P ([x) y]

∣∣[y=B]) + P ([y=A]B)¢P ([x) y]∣∣[y=AB]) =

=52

100¢ 52100

+32

100¢( 52

100+

32

100

)+

10

100¢( 52

100+

10

100

)+

6

100¢1 ' 66% .

19

Page 22: Lezioni di STATISTICA MATEMATICA

Modo 3

L’esercizio puo essere risolto anche senza ricorrere al teorema della probabilita totale, e cio

in virtu del fatto che l’evento [x ) y] puo essere visto come unione di eventi elementari

(x, y); piu precisamente

[x) y] ´ f(0, 0), (0, A), (0, B), (0, AB), (A,A), (A,AB), (B,B), (B,AB), (AB,AB)g .Poiche gli individui sono scelti a caso, x e y sono indipendenti uno dall’altro, per cui

P((x, y)

)= P (x)¢P (y). Ad esempio, P

((A,AB)

)= P (A)¢P (AB) = 32

100 ¢ 6100 .

Si ha quindi

P([x) y]

)= P

((0, 0)

)+ P

((0, A)

)+ P

((0, B)

)+ P

((0, AB)

)+ P

((A,A)

)+

+ P((A,AB)

)+ P

((B,B)

)+ P

((B,AB)

)+ P

((AB,AB)

)=

= P (0)¢P (0) + P (0) ¢P (A) + P (0)¢P (B) + P (0) ¢P (AB) + P (A) ¢P (A)++ P (A)¢P (AB) + P (B) ¢P (B) + P (B) ¢P (AB) + P (AB) ¢P (AB) =

=52

100¢( 52

100+

32

100+

10

100+

6

100

)+

32

100¢( 32

100+

6

100

)+

+10

100¢( 10

100+

6

100

)+

6

100¢ 6

100' 66% .

Teorema (o formula) di Bayes

Dato un evento B con P (B) > 0, e data una partizione finita A1, A2, ...An di Scon P (Ai) > 0 per ogni i, vale la relazione

P (AijB) =P (BjAi) ¢P (Ai)∑k P (BjAk) ¢P (Ak)

.

Dimostrazione

In virtu del teorema della probabilita composta si puo scrivere

P (AijB) = P (B|Ai)·P (Ai)P (B) .

Sostituendo a denominatore P (B) con la sua espressione fornita dalla formula dellaprobabilita totale, si ottiene immediatamente la tesi.

Gli eventi Ai possono essere considerati come possibili cause dell’evento B, o ipotesiche lo spiegano. Il fatto che costituiscano una partizione di S, per cui certamenteB ½ [iAi, comporta che se si verifica B, necessariamente si verifica anche uno (eduno solo in virtu della incompatibilita) degli eventi Ai. In altre parole, l’insiemedelle “cause” Ai e esaustivo: se si verifica B, una di esse deve aver agito. Una voltaosservato l’evento B, ci si puo chiedere quale sia la causa che ha effettivamente agito, eil teorema di Bayes risponde, naturalmente in senso probabilistico, a questa domanda.

La probabilita P (Ai) e la probabilita che si verifichi Ai indipendentemente dal veri-ficarsi o meno dell’evento B; viene detta probabilita a priori. La probabilita condi-zionata P (AijB) e la probabilita di Ai valutata sapendo che si e verificato B, e vienechiamata probabilita a posteriori.

20

Page 23: Lezioni di STATISTICA MATEMATICA

Gli esercizi che seguono, in particolare il primo, sono utili ad illustrare il significatodi probabilita a priori e posteriori, e come si applica il teorema di Bayes.

Esercizio 1.3.8 Si abbiano tre scatole, indistinguibili una dall’altra, contenenti ciascuna due

palline: una contiene due palline bianche (scatola 1), un’altra una pallina bianca ed una

rossa (scatola 2), la terza due palline rosse (scatola 3). Scelta una scatola a caso, si estrae

una pallina. La pallina e bianca. Ci si chiede: qual e la probabilita che la pallina sia stata

estratta dalla scatola i?

Indicato con B l’evento “la pallina estratta e bianca” e con Ai l’evento “la pallina e stata

estratta dalla scatola i”, ci interessa calcolare le probabilita P (AijB). Osserviamo che si ha

P (A1) = P (A2) = P (A3) =1

3; P (BjA1) = 1 , P (BjA2) =

1

2, P (BjA3) = 0 .

Il fatto che le probabilita non condizionate P (Ai) (probabilita a priori) siano tutte uguali a13

consegue ovviamente dal fatto che le tre scatole sono indistinguibili. Applicando il teorema

di Bayes si ha quindi

P (A1jB) =P (BjA1)¢P (A1)

P (BjA1)¢P (A1) + P (BjA2)¢P (A2) + P (BjA3)¢P (A3)=

=1¢ 13

1¢ 13 + 12 ¢ 13 + 0¢ 13

=1312

=2

3;

P (A2jB) =P (BjA2)¢P (A2)

12

=12 ¢ 1312

=1

3.

P (A3jB) =P (BjA3)¢P (A3)

12

=0¢ 1312

= 0 .

Osserviamo che si trova confermato il fatto ovvio che P (A3jB) = 0. Osserviamo anche

come il verificarsi dell’evento B influisca sulle probabilita degli eventi Ai modificandone le

probabilita.

Nota bene: dato un evento A, con 0 < P (A) < 1, gli eventi A e AC costituisconola piu semplice partizione di S utilizzabile nell’applicazione del teorema di Bayes. Gliesempi che seguono utilizzano tutti una partizione di questo tipo.

Esercizio 1.3.9 In una scuola il 4% dei maschi e l’1% delle femmine sono piu alti di 1.80

metri. Inoltre, il 60% sono femmine. Fra la totalita degli studenti ne viene scelto a caso uno

che risulta essere piu alto di 1.80 metri. Si chiede: qual e la probabilita che sia femmina?

Sia S l’insieme di tutti gli studenti. Siano poi F l’evento “lo studente scelto e femmina”

ed A l’evento “l’altezza dello studente e maggiore di 1.80”. Si deve determinare P (F jA).Osservato che FC coincide con l’evento “lo studente e maschio”, i dati del problema sono

P (F ) = 0.60 , P (FC) = 0.40 , P (AjF ) = 0.01 , P (AjFC) = 0.04 .

21

Page 24: Lezioni di STATISTICA MATEMATICA

Utilizzando il teorema di Bayes con la partizione di S data da F e FC , si ottiene

P (F jA) = P (AjF ) ¢P (F )P (AjF )¢P (F ) + P (AjFC) ¢P (FC)

=

=0.01¢0.60

0.01¢0.60 + 0.04¢0.40 =0.006

0.022=

3

11¼ 27.3% .

Esercizio 1.3.10 Si sa che lo 0,5% dei soggetti di una citta e ammalato di AIDS. Si sa che

i test diagnostici danno una diagnosi corretta nell’80% dei sani e nel 98% dei malati. Qual

e la probabilita di un individuo, scelto a caso fra quelli sottoposti a test, di esser sano posto

che sia stato diagnosticato malato?

Sia S l’insieme degli individui sottoposti ai test per l’AIDS. Consideriamo gli eventi: A =

“l’individuo scelto e sano”, AC = “l’individuo e malato”, B = “la diagnosi dell’individuo e:

sano”, BC = “la diagnosi e: malato”. Le statistiche sopra riportate implicano che

P (AC) = 0.005 , P (BjA) = 0.80 , P (BC jAC) = 0.98 .

Determiniamo con la formula di Bayes P (AjBC). Si ha

P (AjBC) =P (BC jA)¢P (A)

P (BC jA) ¢P (A) + P (BC jAC) ¢P (AC) =

=(0.995)(0.20)

(0.20)(0.995) + (0.98)(0.005)' 0.976

(probabilita molto alta; se fossimo pero dentro una categoria a rischio, avremmo una inci-

denza di malattia P (AC) piu elevata, per cui questa probabilita sarebbe piu contenuta).

Esercizio 1.3.11 Una fabbrica che produce lampadine ha due linee di produzione A e B:

dalla A esce il 60% delle lampadine prodotte e dalla B il rimanente 40%. Sappiamo inoltre

che un 2% delle lampadine prodotte dalla linea A e difettoso, mentre la percentuale di difetti

per l’altra linea e il 3.8%. Ci si chiede: qual e la probabilita che una lampadina difettosa,

scelta a caso fra tutte le lampadine prodotte in un dato periodo, sia uscita dalla linea A?

Sia S l’insieme di tutte le lampadine prodotte dalla fabbrica in un dato periodo. Se A e

l’evento “la lampadina scelta e uscita dalla linea A”, AC e l’evento “la lampadina e uscita

dalla linea B”. Indicato poi con D l’evento “la lampadina e difettosa”, i dati del problema

sono

P (DjA) = 0.02 , P (DjAC) = 0.038, P (A) = 0.6 .

Il numero che cerchiamo e la probabilita condizionata di A dato per avvenuto D, cioe

P (AjD). Utilizzando la formula di Bayes, si ottiene

P (AjD) =P (DjA) ¢ P (A)

P (DjA) ¢ P (A) + P (DjAC) ¢ P (AC) =(0.02)(0.6)

(0.02)(0.6) + (0.038)(0.4)=

=0.012

0.012 + 0.0152¼ 0.441 = 44.1%

22

Page 25: Lezioni di STATISTICA MATEMATICA

Esercizio 1.3.12 In un cappello ci sono 10 monete, 9 normali ed una truccata con due teste.

Se ne estrae una a caso, che lanciata k volte consecutive da k teste. Qual e la probabilita

che la moneta estratta sia quella truccata?

Sia A l’evento “la moneta estratta dal cappello e quella truccata”. Chiaramente ne consegue

che AC rappresenta l’evento “la moneta estratta e normale”. Indicato poi con Tk l’evento

“k consecutivi lanci della moneta danno k teste”, i dati del problema sono

P (A) = 110 ; P (AC) = 9

10 ; P (TkjA) = 1 ; P (TkjAC) =(12)k .

Applicando la formula di Bayes si ha quindi

P (AjTk) =P (TkjA) ¢P (A)

P (TkjA) ¢P (A) + P (TkjAC)¢P (AC)=

1¢ 1101¢ 110 +

(12

)k ¢ 910=

2k

9 + 2k

Ad esempio, per k=2, 4, 6, 8 si ha

P (AjT2) = 413 ; P (AjT4) = 16

25 ; P (AjT6) = 6473 ; P (AjT8) = 256

265 .

Osserviamo che 8 teste consecutive danno gia una probabilita del 96.6% che la moneta

estratta sia quella truccata.

Come ultima osservazione, notiamo che ci sono due modi di fare un campionamento,cioe di “scegliere a caso” un certo numero di elementi da una popolazione:

1) con reimmissione;2) senza reimmissione.

Rimarchiamo il fatto seguente, peraltro molto intuitivo: se il numero N di individuidella popolazione e infinito o molto grande, non c’e differenza apprezzabile traestrarre con reimmissione ed estrarre senza reimmisione. In questo caso, pertanto,conviene per semplicita calcolare ogni cosa “come se” si estraesse con reimmissione.

L’esercizio che segue illustra le due diverse modalita di campionamento e mostra, perquanto sia solo N=10, il fatto precedentemente rimarcato.

Esercizio 1.3.13 Una scatola contiene 10 viti, di cui tre difettose. Si estraggono due viti a

caso. Con quale probabilita nessuna delle due e difettosa?

Considerati gli eventi A = “prima vite estratta non difettosa”, B = “seconda vite estratta

non difettosa”, l’evento di cui ci interessa la probabilita e A \B.

Estraendo con reimmissione, prima di estrarre la seconda volta abbiamo nella scatola l’i-

dentica situazione di 10 viti di cui tre difettose; si ha pertanto P (A) = P (B) = 710 e

quindi

P (A \B) = P (A) ¢P (B) =7

10¢ 710

= 49% .

Estraendo invece senza reimmissione, l’evento B non e piu indipendente da A, per cui si ha

P (A) = 710 , P (BjA) = 6

9 . Di conseguenza

P (A \B) = P (A)¢P (BjA) = 710 ¢ 69 ' 47% .

23

Page 26: Lezioni di STATISTICA MATEMATICA

1.4 VARIABILI ALEATORIE

Definizione Dato uno spazio di probabilita (S,Ω, P ), si dice variabile aleatoria(o casuale) una funzione X che ad ogni s 2 S associa un numero X(s) 2 R, inmodo che ogni insieme fs : X(s) · ag sia un evento contenuto in Ω.

L’evento fs : X(s) · ag si chiama immagine inversa o contro-immagine dell’intervallo(¡1, a] e viene indicato con X−1((¡1, a]

)o, adottando una forma piu concisa ed

esplicita, con X·a. Piu in generale, se B e un sottinsieme di numeri reali, si indicacon X−1(B) l’evento fs : X(s) 2 Bg.E facile far vedere che, 8a 2 R, gli insiemi di numeri realiX−1((a,+1)

), X−1((a, b]

),

X−1(fag), X−1((a, b)

), X−1((¡1, a)

)e X−1([a,+1)

)sono eventi. Ad esempio,

il fatto che X−1((a,+1))sia un evento consegue banalmente dal fatto che l’insieme

fs : X(s) > ag e il complementare dell’evento fs : X(s) · ag. Anche gli eventiappena elencati sono denotati in forma concisa con X>a , a<X·b , X=a , etc...

Dunque, l’immagine inversa di un qualunque intervallo e un evento di Ω. Ci sonopero altri sottinsiemi B di numeri reali tali che X−1(B) e un evento.

Definizione Si chiama classe dei Boreliani la piu piccola classe di sottinsiemi dinumeri reali che comprende tutti gli intervalli ed e chiusa rispetto alle operazionidi unione (finita e numerabile) e complementazione.

Proposizione Ogni Boreliano B e tale che X−1(B) e un evento.

I Boreliani rappresentano dunque i sottinsiemi di numeri reali che possono essereassociati attraverso X−1 agli eventi di Ω. Cio porta alla seguente definizione:

Definizione Data una variabile aleatoria X, si chiama distribuzione o legge diX l’applicazione che ad ogni Boreliano B associa la probabilita della sua immagineinversa:

B ¡! P(X−1(B)

).

Esempio 1.4.1 Sia S = f1, 2, ..., 6g lo spazio campionario relativo all’esperimento del

lancio di un dado (non truccato). Definiamo X := ”numero uscente da un lancio”, cioe

X(1) := 1, X(2) := 2 . . . X(6) := 6 .

Potremo allora calcolare la probabilita di eventi del tipo X·2.5, 1 < X·4 oppure X¸3.

Ricordando che P (X=k) = P (fkg) = 16 , per k = 1, 2, . . . , 6, si ha

P (X·2.5) = P (X=1) + P (X=2) = 13 ,

P (1<X·4) = P (X=2) + P (X=3) + P (X=4) = 12 ,

P (X¸3) = P (X=3) + P (X=4) + P (X=5) + P (X=6) = 23 .

Su uno stesso spazio di probabilita possono essere definite piu variabili casuali. Ad esempio,

una seconda variabile casuale puo essere definita nel modo seguente:

Y := 0 se l’esito del lancio e pari; Y := 1 se l’esito del lancio e dispari.

24

Page 27: Lezioni di STATISTICA MATEMATICA

Si ha cosı : P (Y =0) = P (f2g) + P (f4g) + P (f6g) = 12 ,

P (Y =1) = P (f1g) + P (f3g) + P (f5g) = 12 ,

P (1<Y ·4) = P (;) = 0 , P (Y <0) = P (;) = 0 ecc.

Definizione Data una variabile aleatoria X definita sullo spazio di probabilita(S,Ω, P ), si chiama funzione di distribuzione o di ripartizione di X la funzioneF : R! [0, 1] cosı definita:

F (x) = P (X·x) , x 2 R .

Esempio 1.4.2 Consideriamo la variabile casuale Y definita nell’esempio precedente. Indi-

cata con FY (x) la funzione di distribuzione ad essa associata, avremo

FY (x) = P (Y ·x) =

P (;) = 0 per x < 0

P (Y =0) = 12 per 0 · x < 1

P (Y =0) + P (Y =1) = 12 +

12 = 1 per x ¸ 1 .

La funzione di distribuzione gode di alcune proprieta che sono formalizzate nellecinque proposizioni che seguono. Di queste dimostriamo solo la prima.

Proposizione Vale la relazione

P (a<X·b) = F (b)¡ F (a) .Dimostrazione

L’evento X·b e l’unione dei due eventi X·a e a<X·b, cioe degli eventi

fs 2 S : X(s)·ag e fs 2 S : a<X(s)·bg,che chiaramente sono incompatibili. Di conseguenza si ha

P (X·b) = P (X·a) + P (a<X·b) ,da cui segue banalmente la relazione che si voleva dimostrare.

Proposizione La funzione di distribuzione e monotona non decrescente, cioe

F (a) · F (b) se a · b .

Proposizione Valgono i due limiti seguenti:

limx→−∞

F (x) = 0 , limx→+∞

F (x) = 1 .

Proposizione La funzione di distribuzione e continua da destra, si ha cioe

limh→0+

F (x+ h) = F (x) .

Essendo F (x) definita in ogni punto, ogni eventuale discontinuita e del tipo del salto,e per effetto della proposizione appena enunciata, vale anche la seguente

Proposizione L’ampiezza ∆F (x) del salto della funzione di distribuzione in unpunto x di discontinuita vale

∆F (x) = P (X=x) .

25

Page 28: Lezioni di STATISTICA MATEMATICA

VARIABILI ALEATORIE DISCRETE

Definizione Una variabile aleatoria X e discreta se

1) c’e un insieme finito o numerabile di valori xj , tali che P (X=xj) > 0 ;

2)∑

j P (X=xj) = 1 .

Ovviamente, j = 1, ..., n nel caso finito e j 2 N nel caso numerabile.

Una variabile aleatoria discreta, essendo individuata dai valori xj e dalle corrispon-denti probabilita pj ´ P (X=xj), puo essere cosı rappresentata:

X :

(x1, x2, ...p1, p2, ...

)

In maniera equivalente essa e poi rappresentabile mediante la relativa funzione diprobabilita f(x) definita come

f(x) =

pj se x = xj (j = 1, 2, ...)

0 altrove,

oppure mediante la relativa funzione di distribuzione F (x) gia definita per una qua-lunque variabile aleatoria , che nel caso discreto diventa

F (x) =∑

j:xj· x

f(xj) .

Piu esplicitamente, come peraltro gia visto nell’esempio 1.4.2, F (x) e la seguentefunzione a gradini

F (x) =

0 se x < x1

p1 se x1 · x < x2p1 + p2 se x2 · x < x3¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢p1 + ¢ ¢ ¢+ pn−1 se xn−1 · x < xn¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢

Esempio 1.4.3 Nel caso di un dado non truccato, la variabile casualeX definita nell’esempio

1.4.1 e la relativa funzione di probabilita sono date da

X :

(1 2 3 4 5 616

16

16

16

16

16

), f(x) =

16 per x = 1, 2, 3, 4, 5, 6

0 altrimenti.

La funzione distribuzione di X e il relativo grafico sono riportati qui sotto.

F (x) =

0 per x < 116 per 1 · x < 213 per 2 · x < 312 per 3 · x < 423 per 4 · x < 556 per 5 · x < 6

1 per x ¸ 6

.

26

Page 29: Lezioni di STATISTICA MATEMATICA

Esempio 1.4.4 Si consideri l’esperimento del lancio simultaneo di due dadi non truccati. In

questo caso lo spazio compionario S e costituito dai 36 eventi elementari (i, j), con i, j =1, 2, 3, 4, 5, 6. Consideriamo la variabile aleatoria discreta Z, con Z := somma dei due

numeri estratti. Si ha quindi

Z :

(2 3 4 5 6 7 8 9 10 11 12136

236

336

436

536

636

536

436

336

236

136

)

Il grafico sottoriportato mostra la funzione di distribuzione relativa a Z.

VARIABILI ALEATORIE CONTINUE

Definizione Una variabile aleatoria X si dice assolutamente continua se esisteuna funzione f :R !R+0 che permette di rappresentare la funzione distribuzioneF (x) di X come funzione integrale, cioe tale che

F (x) =

∫ x

−∞f(t)dt , 8x 2 R .

La funzione f(¢), che e assunta continua eccetto al piu che in un numero finitodi punti,e detta densita di probabilita (o, piu semplicemente, densita) dellavariabile aleatoria X.

Nel seguito (come peraltro gia fatto nel titolare il paragrafo), per semplicita, ci riferi-remo alle variabili casuali ”assolutamente continue” con il solo aggettivo ”continue”.

Osservazione: Qui e altrove si usano integrali ”impropri”, cioe integrali definiti su un in-

tervallo con un estremo di integrazione infinito (qualche volta entrambi). Senza approfondire

l’argomento, ricordiamo che∫ x

−∞f(t)dt := lim

a→−∞

∫ x

a

f(t)dt ,

∫ +∞

x

f(t)dt := lima→+∞

∫ a

x

f(t)dt .

Per quanto riguarda poi l’integrale su tutto l’asse reale, una possibile definizione e la seguente:∫ +∞

−∞f(t)dt :=

∫ 0

−∞f(t)dt+

∫ +∞

0

f(t)dt .

27

Page 30: Lezioni di STATISTICA MATEMATICA

La funzione densita gode di alcune proprieta che adesso elenchiamo.

1) Vale la relazione

P (a < X · b) =∫ baf(t)dt .

Essa consegue immediatamente dal fatto che P (a<X·b) = F (b)¡F (a) e costituiscelo strumento standard per il calcolo delle probabilita nel caso di variabili casualicontinue. Si noti che la formula in questione esprime l’uguaglianza fra la probabilitaP (a<X·b) e l’area sottesa dalla curva f(x) tra gli estremi x=a ed x=b.

2) Per ogni funzione densita si ha che∫ +∞−∞ f(t)dt = 1 .

Consegue direttamente dalla relazione di cui al punto precedente, tenendo conto cheP (¡1<X<+1) = P (S) = 1.

3) La funzione densita f(x), per ogni x dove e continua, soddisfa la relazione

F ′(x) = f(x) .

Cio risulta direttamente dalla derivazione di F (x) scritta in forma integrale.

Osservazione: Nel caso di una variabile aleatoria continua si ha sempre P (X=a) =∫ aaf(x)dx = 0, mentre nel caso di variabile X discreta puo benissimo essere P (X=

a) > 0. Analogamente, se X e continua si ha

P (a<X<b) = P (a·X<b) = P (a<X·b) = P (a·X·b) .Queste stesse probabilita possono differire tra loro nel caso di X discreta.

Definizione Una variabile casuale X continua si dice uniformemente distribuitao equidistribuita se la sua funzione densita f(x) o, equivalentemente, la sua fun-zione di distribuzione F (x) sono cosı definite:

f(x) =

0 per x·a1

b¡ a per a<x<b ;

0 per x¸bF (x) =

0 per x·ax¡ ab¡ a per a<x<b .

1 per x¸b

28

Page 31: Lezioni di STATISTICA MATEMATICA

Esempio 1.4.5 Si consideri la variabile casuale continua di densita

f(x) =

12x se 0·x·2

0 altrove.

Si chiede di verificare che f(x) e effettivamente una densita, calcolarne la funzione di distribu-

zione F (x) e quindi disegnarla assieme alla f(x). Si chiede anche di calcolare P ( 12<X<1).

Essendo∫ +∞−∞ f(t)dt =

∫ 2012 tdt =

[t2

4

]20= 1 ,

siamo certi di aver a che fare con una densita. Per quanto concerne la sua funzione di

distribuzione si ha

F (x) =

∫ x

−∞f(t)dt =

0 per x·0∫ x012 tdt =

x2

4 per 0·x·2

1 per x¸2 .

I grafici di f(x) e F (x) sono dunque i seguenti:

La probabilita richiesta e P (12<X<1), che e uguale all’area sottesa da f(x) per 12·x·1.

Trattandosi di un trapezio di altezza 12 e basi 1

4 e 12 , la sua area, e quindi la probabilita

richiesta, e 316 . L’area suddetta e tratteggiata nel grafico di f(x).

Esercizio 1.4.1 Si consideri la variabile casuale continua di densita

f(x) =

1¡ jxj se jxj · 1

0 altrove .

Si chiede di verificare che f(x) e una densita, di calcolare la funzione di distribuzione F (x)e di disegnare sia f(x) che F (x). Si chiede anche di calcolare P (X · ¡0.5).Calcoliamo subito la funzione distribuzione.

F (x) =

∫ x

−∞f(t)dt =

0 per x·¡1∫ x−1(1 + t)dt =

x2

2 + x+ 12 per ¡ 1·x · 0

∫ 0−1(1 + t)dt+

∫ x0(1¡ t)dt = 1

2 ¡ x2

2 + x per 0·x·1

1 per x¸1 .

29

Page 32: Lezioni di STATISTICA MATEMATICA

I grafici di f(x) e F (x) sono dunque i seguenti:

Essendo limx→+∞ F (x)= 1, ne consegue∫ +∞−∞ f(x)dx=1, e quindi risulta verificato che

f(x) e una densita. Per quanto concerne infine il calcolo di P (X · ¡0.5), si ha

P (X · ¡0.5) = F (¡0.5) = 18 .

Questa probabilita corrisponde all’area sottesa da f(x) fra ¡1 e ¡12 , ossia, come si vede dal

grafico, all’area di un triangolo di base 12 e altezza 1

2 .

Esercizio 1.4.2 Si consideri una variabile casuale X avente la seguente funzione di distribu-

zione:

F (x) =

0 per x·0150x

2 per 0·x·5

¡ 150x

2 + 25x¡ 1 per 5·x·10

1 per x¸10 .

a) quali sono i possibili valori della X? b) qual e la funzione densita della X?

a) La variabile aleatoria X assume, con probabilita 1, i valori compresi tra 0 e 10. Infatti:

P (0·X·10) = F (10)¡ F (0) = 1 .

b) Poiche nei punti di continuita di f(x) vale la relazione F ′(x)=f(x), si ha

f(x) =

0 per x·0125x per 0·x·5

¡ 125x+

25 per 5·x·10

0 per x¸10 .

Riportiamo qui sotto i grafici della funzione di distribuzione e della funzione densita della

variabile casuale X . Osserviamo che dal grafico di f(x) risulta evidente la simmetria della

distruibuzione rispetto ad x=5.

30

Page 33: Lezioni di STATISTICA MATEMATICA

FUNZIONI DI VARIABILE ALEATORIA

Spesso, data una variabile casuale X, interessa una sua funzione g(X), che a sua voltae una variabile casuale. Negli esempi che seguono si considerano appunto variabilicasuali di questo tipo. L’ultimo esempio, per quanto semplice, e forse quello piusignificativo in quanto mostra come si ricava la funzione di probabilita (nel caso diun variabile casuale discreta).

Esercizio 1.4.3 In un processo automatico si riempiono bottigliette di sciroppo. Il contenuto

di ciascuna bottiglietta risulta Y = 100+X ml (millilitri), dove X e la variabile casuale

definita nell’esercizio 1.4.1. Si chiede: in una partita di 1000 confezioni, quante approssima-

tivamente conterranno meno di 99.5 ml?

Il numero di bottigliette cercato e uguale a 1000 moltiplicato per P (Y · 99.5), cioe per

P (X + 100 · 99.5) = P (X · ¡0.5) .Questa probabilita e gia stata calcolata nell’esercizio 1.4.1 e vale 1

8 . Il numero approssimativo

delle bottiglie aventi contenuto inferiore a quanto richiesto e dunque

18 ¢1000 = 125 .

Esercizio 1.4.4 Si considerino le variabili casuali Y =3X , Q=X2 e R=pX , dove X e la

variabile casuale dell’esercizio 1.4.2. Calcolare:

a) P (3·Y ·21) ; b) P (Q¸64) ; c) P (2·R·3) .

Si ha:

a) P (3·Y ·21) = P (3·3X·21) = P (1·X·7) = F (7)¡ F (1) = 4

5;

b) P (Q¸64) = P (X2¸64) = P [(X·¡8) [ (X¸8)] = P (X¸8) = 1¡ F (8) = 2

25;

c) P (2·R·3) = P (2·pX·3) = P (4·X·9) = F (9)¡ F (4) = 33

50.

Esercizio 1.4.5 Si consideri la variabile casuale X sotto definita e si ricavi la funzione di

probabilita della variabile Y := X2.

X :

(¡2 ¡1 0 1 215

15

15

15

15

)

Osservato che mentre X assume il valore xi la variabile Y assume il valore x2i , ne consegue

che Y puo assumere solo i valori 0, 1 e 4. Piu precisamente Y assume il valore 0 quando Xassume il valore 0, il valore 1 quando X assume il valore -1 oppure 1, il valore 4 quando Xassume il valore -2 oppure 2. Per quanto riguarda, ad esempio, la probabilita che Y assuma

il valore 1, essa sara data dalla somma delle probabilita che X assuma i valori -1 e 1, ossia:

P (Y =1) = P (X=¡1) + P (X=1). La variabile casuale X2 sara dunque la seguente:

Y = X2 :

(0 1 415

25

25

)

31

Page 34: Lezioni di STATISTICA MATEMATICA

1.5 MEDIA E VARIANZA

Definizione

Si chiama media (o valor medio o valore atteso o aspettazione matematicao speranza matematica) della variabile aleatoria X il numero, che indicheremoindifferentemente con µX o E(X), cosı definito:

µX ´ E(X) :=∑

i

xif(xi) , se X e discreta ,

µX ´ E(X) :=

∫ +∞

−∞xf(x)dx , se X e continua .

Nel caso discreto numerabile, per garantire la convergenza della serie, si assume cheessa sia assolutamente convergente, cioe che sia

∑i jxijf(xi) < +1.

Osservazione: Nel caso discreto la media e la somma dei valori xi moltiplicati per lerispettive probabilita f(xi) ´ P (X=xi). Essa rappresenta dunque la media ponderatadei possibili valori di X, ciascuno pesato con la sua probabilita.

Esempio 1.5.1 Si consideri l’esperimento del lancio simultaneo di una coppia di dadi non

truccati. Abbiamo gia visto che lo spazio campionario S e

S = f(i, j), i, j = 1, 2, 3, 4, 5, 6g .Sia X la variabile aleatoria che assegna a ciascun evento elementare (i, j) il massimo fra ie j. Allora l’insieme immagine di X, cioe l’insieme di tutti i possibili valori che la X puo

assumere, e il seguente

X(S) = f1, 2, 3, 4, 5, 6g .Tenendo conto che

P (X=1)=P(f(1, 1)g

)= 136 ,

P (X=2)=P(f(1, 2)g

)+ P

(f(2, 1)g

)+ P

(f(2, 2)g

)= 336 ,

e, generalizzando, essendo 2k—1 il numero degli eventi elementari f(i, j)g che hanno come

valore massimo k,

P (X=k)=2k ¡ 1

36, k = 3, 4, 5, 6 ,

la variabile aleatoria X risulta cosı definita:

X :

(1 2 3 4 5 6136

336

536

736

936

1136

).

La media di X si calcola dunque nel modo seguente:

µX =

6∑

k=1

xkf(xk) = 1¢ 136

+ 2¢ 336

+ 3¢ 536

+ 4¢ 736

+ 5¢ 936

+ 6¢ 1136

=161

36¼ 4.47 .

32

Page 35: Lezioni di STATISTICA MATEMATICA

Proposizione Data la variabile casuale X, la media della variabile casuale g(X)e la seguente:

E[g(X)] =∑

i

g(xi)f(xi) , se X e discreta ,

E[g(X)] =

∫ +∞

−∞g(x)f(x)dx , se X e continua.

La proposizione consegue direttamente dalle definizione di media. Ad esempio, seg(X)=X2, si ha

E[X2] =∑

i

x2i f(xi) , se X e discreta ,

E[X2] =

∫ +∞

−∞x2f(x)dx , se X e continua.

Nel seguito vedremo che il calcolo di E[X2] e estremamente utile.

Definizione

Si chiama varianza (o variazione standard) della variabile aleatoria X il numero,che indicheremo con σ2X o V ar(X), cosı definito:

σ2X ´ V ar(X) := E[(X ¡ µX)2

].

Quindi, tenendo conto della definizione di µX ,

σ2X ´ V ar(X) :=∑

i

(xi ¡ µX)2f(xi) , se X e discreta ,

σ2X ´ V ar(X) :=

∫ +∞

−∞(x¡ µX)2f(x)dx , se X e continua .

La varianza σ2X e sempre non negativa. Esiste un unico caso in cui e nulla. Questocaso, che e privo di interesse probabilistico, si ha se e solo se la variabile X e degenere,cioe se la sua funzione di probabilita vale 1 in un punto x1 e 0 in ogni altro punto x.

Definizione La radice quadrata della varianza si chiama deviazione standard (oscarto quadratico medio) e si indica con σX .

La varianza (e quindi anche la deviazione standard) misura la “dispersione” dei valoriassunti da X rispetto al suo valor medio µX : tanto piu grande e σ2X , tanto piu i valoridi X saranno lontani dal valor medio; per contro, tanto piu σ2X e piccola, tanto piui valori di X saranno raccolti attorno a µX . Si puo anche dire che la media di unavariabile casuale e tanto piu attendibile quanto piu piccola e la sua varianza.

Teorema σ2X = E(X2)¡ µ2X .Facciamo la dimostrazione nel caso discreto. Nel caso continuo si procedera in manieradel tutto analoga con integrali al posto di sommatorie. Ricordando la definizione di

33

Page 36: Lezioni di STATISTICA MATEMATICA

µX e che∑

i f(xi)=1, si ottiene

σ2X =∑

i

(xi ¡ µX)2f(xi) =∑

i

(x2i ¡ 2xiµX + µ2X)f(xi) =

=∑

i

x2i f(xi)¡ 2µX∑

i

xif(xi) + µ2X

i

f(xi) =

=∑

i

x2i f(xi)¡ 2µ2X + µ2X = E(X2)¡ µ2X .

Teorema (trasformazione lineare di una variabile aleatoria)

Data una variabile aleatoria X, si consideri la variabile aleatoria aX + b, con a e breali qualunque, a6= 0. Valgono allora le seguenti relazioni:

µaX+b = aµX + b , σ2aX+b = a2σ2X .

Dimostrazione

Come nel caso del precedente teorema, proviamo anche questo nel caso discreto. Lavariabile aleatoria aX + b e la seguente:

(ax1 + b ax2 + b ... axn + b ...f(x1) f(x2) ... f(xn) ...

)

Ricordando che∑

i f(xi) = 1, si ha immediatamente

µaX+b =∑

i

(axi + b)f(xi) = a∑

i

xif(xi) + b∑

i

f(xi) = aµX + b .

Ora, sfruttando questo risultato, calcoliamo la varianza:

σ2aX+b =∑

i

(axi + b¡ µaX+b)2f(xi) =∑

i

(axi + b¡ aµX ¡ b)2f(xi) =

= a2∑

i

(xi ¡ µX)2f(xi) = a2σ2X .

Corollario E(X ¡ µX) = 0 .

Si ottiene immediatamente dall’ultimo teorema ponendo a=1 e b=¡µX .

Corollario σ2aX = a2σ2X .

Si ottiene immediatamente dall’ultimo teorema ponendo b=0.

Corollario σ2X+b = σ2X .

Si ottiene immediatamente dall’ultimo teorema ponendo a=1.

Definizione Sia X una variabile casuale con varianza σ2X>0. Si chiama variabilecasuale standardizzata associata ad X la variabile casuale X∗ cosı definita:

X∗ =X ¡ µXσX

.

34

Page 37: Lezioni di STATISTICA MATEMATICA

Proposizione Ogni variabile casuale standardizzata ha media nulla e varianzauguale ad 1, ossia

µX∗ = 0 , σ2X∗ = 1 .

Queste proprieta di X∗ seguono immediatamente dai teoremi e dai corollari prece-denti. Infatti:

µX∗ = E[X ¡ µX

σX

]= E

[ XσX

]¡ µXσX

=1

σX

[E(X)¡ µX

]= 0 ,

σ2X∗ = V ar[X ¡ µX

σX

]= V ar

[ XσX

¡ µXσX

]=

1

σ2Xσ2X = 1 .

Definizione Data una variabile aleatoria X, si chiama mediana di X un valorex0 tale che

P (X<x0) ·1

2· P (X·x0) .

Dalla definizione consegue immediatamente che, se F (x) e la funzione distribuzionedi X , la mediana e un punto x0 tale che F (x0) =

12 se un tale x0 esiste. In caso

contrario x0 e un punto di discontinuita di F (x) tale che F (x) < 12 per x < x0 e

F (x)> 12 per x¸ x0. E anche facile constatare che vi possono essere piu mediane;

piu precisamente le mediane costituiscono un intervallo chiuso (che eventualmente siriduce ad un punto).

I tre grafici proposti qui sotto illustrano le tre situazioni piu comuni: a) F (x) econtinua in ogni x (e quindi associata ad una variabile casuale X continua con f(x)continua 8x): esiste un unico x0 tale che F (x0)=

12 ; b) F (x) e costante a tratti (e

quindi associata ad una variabile casuale X discreta), con F (x)6= 12 , 8x. In questo

caso, se F (x) assume i valori α e β con α< 12 <β, saltando da α a β nel punto x∗,

allora x0= x∗. c) F (x) e costante a tratti , con F (x)= 1

2 , per x1· x< x2: ognix 2 [x1, x2] puo essere assunto come x0.

Esempio 1.5.2 Consideriamo di nuovo l’esperimento dell’esempio 1.5.1. Calcoliamo la va-

rianza di X mediante la relazione σ2X=E(X2)¡µ2X . A tal fine andiamo a calcolare E(X2).

E(X2) =∑6

i=1 x2i f(xi) = 12

1

36+22

3

36+32

5

36+42

7

36+52

9

36+62

11

36=

791

36¼ 21.97 .

Ora, applicando il risultato precedentemente ricordato e utilizzando il valore di µX trovato

nell’esempio 1.5.1, si ottiene

σ2X = E(X2)¡ µ2X ¼ 21.97¡ (4.47)2 ¼ 21.97¡ 19.98 = 1.99 ,

e quindi la deviazione standard

σX ¼p1.99 ¼ 1.41 .

35

Page 38: Lezioni di STATISTICA MATEMATICA

Esempio 1.5.3 Sia X la variabile aleatoria continua (gia considerata nell’esempio 1.4.5) la

cui funzione densita e

f(x) =

12x se 0·x·2

0 altrove.

Calcoliamo media e varianza (quest’ultima in due modi: sia applicando la definizione che

attraverso il calcolo di E(X2)).

µX =∫ +∞−∞ xf(x)dx =

∫ 2012x¢xdx =

[x3

6

]20= 4

3,

σ2X =∫ +∞−∞ (x¡ µX)2f(x)dx =

∫ 20

(x¡ 4

3

)2¢ 12xdx =

[x4

8 ¡ 49(x

3 ¡ x2)]20= 2

9 ,

σ2X = E(X2)¡ µ2X =∫ +∞−∞ x2f(x)dx¡ µ2X =

∫ 2012x

3dx¡ 169 =

[x4

8

]20¡ 16

9 = 29 .

Esercizio 1.5.1 Si eseguano tre lanci consecutivi di una moneta truccata in modo tale che

P (T ) = 34 . Sia X la variabile casuale che rappresenta il numero di teste ottenute nei tre

lanci. Si chiede di calcolarne la media, la varianza e la deviazione standard.

La variabile X puo assumere i valori 0,1,2,3. Le probabilita che X assuma ciascuno di questi

valori sono le seguenti:

P (X=0) = P (CCC) =(14

)3= 1

64 ,

P (X=1) = P (TCC) + P (CTC) + P (CCT ) = 3 34(14

)2= 9

64 ,

P (X=2) = P (TTC) + P (TCT ) + P (CTT ) = 3(34

)2 14 = 27

64 ,

P (X=3) = P (TTT ) =(34

)3= 27

64 ,

La funzione di probabilita di X e dunque la seguente: X :

(0 1 2 3164

964

2764

2764

).

Avremo quindi:

µX = 0¢ 164

+ 1¢ 964

+ 2¢ 2764

+ 3¢ 2764

=9

4;

σ2X =(0¡ 9

4

)2¢ 164

+(1¡ 9

4

)2¢ 964

+(2¡ 9

4

)2¢ 2764

+(3¡ 9

4

)2¢ 2764

=9

16;

σX =

√9

16=

3

4.

Per il calcolo della varianza si sarebbe potuto procedere anche utilizzando la relazione σ2X =E(X2)¡ µ2x. In tal caso si sarebbe dovuto calcolare E(X2) ottenendo

E(X2) = 02 ¢ 164

+ 12 ¢ 964

+ 22 ¢ 2764

+ 32 ¢ 2764

=45

8,

e quindi, come prima,

σ2X = E(X2)¡ µ2x =45

8¡ 81

16=

9

16.

36

Page 39: Lezioni di STATISTICA MATEMATICA

Esercizio 1.5.2 Si consideri la variabile aleatoria X definita nell’esercizio 1.4.2. Si chiede di

calcolarne la media, la varianza e la mediana.

La funzione densita e di distribuzione di X sono le seguenti:

f(x) =

0 per x·0125x per 0·x·5

¡ 125x+ 2

5per 5·x·10

0 per x¸10 .

F (x) =

0 per x·0150x

2 per 0·x·5

¡ 150x2 + 2

5x¡ 1 per 5·x·10

1 per x¸10 .

La media e la varianza sono date da

µX =

∫ +∞

−∞xf(x)dx =

∫ 5

0

x2

25dx+

∫ 10

5

(¡x

2

25+

2x

5

)dx =

[x375

]50+[¡x

3

75+x2

5

]105

= 5 ;

σ2X = E(X2)¡ µ2X =

∫ 5

0

x3

25dx+

∫ 10

5

(¡x

3

25+

2x2

5

)dx¡ 25 =

25

6.

Per calcolare la mediana occorre determinare un x0 tale che F (x0) =12 . Chiaramente si

ricava x0 =5. Il fatto che µX ed x0 coincidano e valgano 5 e un’ovvia conseguenza della

simmetria della distribuzione rispetto ad x=5 (si riveda il grafico di f(x) precedentemente

riportato).

Esercizio 1.5.3 Calcolare media, varianza e mediana di una generica variabile aleatoria

uniformemente distribuita.

Sia [a, b] l’intervallo in cui la variabile aleatoria ha densita non nulla. Ricordiamo che

f(x) =

0 per x·a1

b¡ a per a<x<b ;

0 per x¸bF (x) =

0 per x·ax¡ ab¡ a per a<x<b .

1 per x¸bAndiamo a calcolarne media e varianza. Procedendo come nell’esercizio precedente, abbiamo:

µX =

∫ +∞

−∞xf(x)dx =

∫ b

a

x

b¡ adx =a+ b

2;

σ2X = E(X2)¡ µ2X =

∫ +∞

−∞x2f(x)dx¡ (a+ b)2

4=

∫ b

a

x2

b¡ adx¡(a+ b)2

4=

(b¡ a)212

.

Per calcolare la mediana x0 dobbiamo risolvere l’equazione F (x) = 12 , cioe l’equazione

x¡ ab¡ a =

1

2,

che fornisce la soluzione x0 =a+ b

2. Dunque, come peraltro facilmente intuibile, per ogni

variabile casuale uniformemente distribuita, media e mediana coincidono col punto mediodi (a, b).

37

Page 40: Lezioni di STATISTICA MATEMATICA

1.6 VARIABILI ALEATORIE BIDIMENSIONALI

In un esperimento, invece che ad un unico risultato numerico, possiamo essere inte-ressati a piu valori (ad esempio, per una persona, a peso, altezza, eta, ecc.). Ciascunodi tali valori e una variabile aleatoria, ma anche la n-upla di valori ottenuti puo es-sere considerata come una variabile aleatoria multipla o n—dimensionale. Qui, persemplicita, tratteremo solo, seppure brevemente, le variabili aleatorie bidimensionali.

Definizione

Dato uno spazio di probabilita (S,Ω, P ), si dice variabile aleatoria bidimensio-nale una coppia di funzioni (X,Y ) che ad ogni s 2 S associa un coppia di numerireali

(X(s), Y (s)

), tali che ogni insieme fs : X(s) · a , Y (s) · bg sia un evento

contenuto in Ω.

Anche nel caso di variabili casuali bidimensionali lo strumento essenziale per il loroutilizzo e la funzione distribuzione, la cui definizione si ottiene immediatamente ge-neralizzando quella per variabili unidimensionali. Infatti, si ha

Definizione

Data una variabile aleatoria bidimensionale (X,Y ) definita sullo spazio di proba-bilita (S,Ω, P ), si chiama funzione di distribuzione o di ripartizione ad essaassociata la funzione F : R2 ! [0, 1] cosı definita:

F (x, y) = P (X·x, Y · y) , (x, y) 2 R2 .

La virgola nella probabilita appena scritta equivale ad una intersezione. Per favorire lacomprensione del significato della F (x, y), ne ricordiamo tutte le possibili espressioni:

F (x, y) = P (X·x, Y · y) == P

(s 2 S : X(s) · x, Y (s) · y

)=

= P((X · x) \ (Y · y)

)=

= P(s 2 S : X(s) · x

\s 2 S : Y (s) · y

).

Ragionando sulla base del disegno riportato quiaccanto e utilizzando la proprieta additiva dellaprobabilita nel caso di eventi incompatibili, si di-mostra che

P (x1<X·x2, y1<Y ·y2) = F (x2, y2)¡ F (x2, y1)¡ F (x1, y2) + F (x1, y1) .

Si dimostra inoltre che valgono le seguenti proprieta:

limx→+∞

y→+∞

F (x, y) = 1 ,

limx→−∞

F (x, y) = limy→−∞

F (x, y) = 0 ,

limx→+∞

F (x, y) = FY (y) = P (Y ·y) ,

limy→+∞

F (x, y) = FX(x) = P (X·x) .

38

Page 41: Lezioni di STATISTICA MATEMATICA

Le funzioni di distribuzione FX(x) della X e FY (y) della Y sono dette funzioni didistribuzione marginali della variabile congiunta (X,Y ).

Le variabili casuali bidimensionali, cosı come quelle unidimensionali, possono esseredi tipo discreto o di tipo continuo.

Una variabile bidimensionale (X, Y ) e discreta se esiste un insieme finito o numerabiledi coppie di numeri reali (xr, ys), r = 1, 2, . . . , s = 1, 2, . . . , tali che

P (X=xr, Y =ys) = prs¸0 , con∑

r,s

prs = 1 .

Eventuali coppie (xr, ys) con prs=0 possono rappresentare coppie di valori mai assuntidalla variabile casuale, che pero per comodita sono presi ugualmente in considerazioneassegnando loro probabilita nulla.

Si chiama funzione di probabilita congiunta la funzione

f(x, y) =

prs se (x, y) = (xr, ys) r = 1, 2, . . . , s = 1, 2, . . .

0 altrove,

mentre si chiamano funzioni di probabilita marginali le funzioni

fX(x) =

pr• =

∑s prs se x = xr

0 altrove,

fY (y) =

p•s =

∑r prs se y = ys

0 altrove.

Nel caso di una variabile aleatoria (X, Y ) discreta finita, supposto r = 1, 2, . . . , N es = 1, 2, . . . ,M , le funzioni di probabilita congiunta e marginali vengono rappresentateattraverso la seguente tabella:

Y

y1 y2 . . . . . . . . . yM

x1 p11 p12 . . . . . . . . . p1M p1•x2 p21 p22 . . . . . . . . . p2M p2•

X . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .xN pN1 pN2 . . . . . . . . . pNM pN•

p•1 p•2 . . . . . . . . . p•M

Una variabile bidimensionale (X,Y ) e continua se esiste una funzione f(x, y), nonnegativa, tale che

F (x, y) =

∫ x

−∞

∫ y

−∞f(u, v)dudv .

La funzione f(x, y) e detta funzione densita congiunta. Naturalmente si ha∫ +∞

−∞

∫ +∞

−∞f(u, v)dudv = 1 ,

39

Page 42: Lezioni di STATISTICA MATEMATICA

che costituisce la condizione perche una funzione f(x, y)¸0 sia una funzione densita.Si puo poi dimostrare che le funzioni di distribuzione marginali sono date da

FX(x) =

∫ x

−∞

(∫ +∞

−∞f(u, v)dv

)du ,

FY (y) =

∫ y

−∞

(∫ +∞

−∞f(u, v)du

)dv ,

e quindi, per definizione di funzione densita, le densita marginali delle variabili Xe Y sono date da

fX(x) =

∫ +∞

−∞f(x, v)dv , fY (y) =

∫ +∞

−∞f(u, y)du .

Sia A un sottinsieme di R2 tale che l’insiemes :

(X(s), Y (s)

)2 A

sia un evento di

Ω. Un importante teorema riguardante la funzione densita congiunta e il seguente:

Teorema (senza dimostrazione)

P((X,Y ) 2 A

)=

∫∫

Af(x, y) dx dy .

Un corollario, molto utile ai fini della risoluzione degli esercizi (come si vedra nell’e-sercizio 1.6.4), segue in maniera immediata dal teorema appena enunciato:

Corollario Siano (X, Y ) una variabile casuale bidimensionale, f(x, y) la sua fun-zione densita congiunta, Φ(X,Y ) una variabile casuale funzione di X e Y , e B unboreliano di R. Vale la relazione

P(Φ(X, Y ) 2 B

)=

∫∫

Af(x, y) dx dy , con A =

(x, y) : Φ(x, y) 2 B

.

La dimostrazione e immediata:

P(Φ(X,Y ) 2 B

)= P

(s : Φ

(X(s), Y (s)

)2 B

)=

= P(s :

(X(s), Y (s)

)2(x, y) : Φ(x, y) 2 B

)=

= P(s :

(X(s), Y (s)

)2 A

).

Teorema ( senza dimostrazione) Se (X, Y ) e una variabile casuale bidimensionale eΦ(X, Y ) una variabile casuale funzione di X e Y , si ha

E[Φ(X,Y )] =N∑

r=1

M∑

s=1

Φ(xr, ys) prs , se X e Y sono discrete (e finite);

E[Φ(X,Y )] =

∫ +∞

−∞

∫ +∞

−∞Φ(x, y) f(x, y) dxdy , se X e Y sono continue.

Corollario E[aX + bY ] = aE[X ] + bE[Y ] .

Corollario E[∑N

k=1 αkXk

]=∑N

k=1 αkE[Xk] .

40

Page 43: Lezioni di STATISTICA MATEMATICA

Definizione Si chiama covarianza delle variabili casuali X e Y , e la indicheremocon σX,Y o Cov(X, Y ), il numero

σX,Y ´ Cov(X, Y ) := E[(X ¡ µX)(Y ¡ µY )

].

In virtu del teorema precedente la covarianza risulta quindi cosı definita:

σX,Y =

N∑

r=1

M∑

s=1

(xr ¡ µX)(ys ¡ µY )prs , se X e Y sono discrete (e finite);

σX,Y =

∫ +∞

−∞

∫ +∞

−∞(x¡ µX)(y ¡ µY )f(x, y)dxdy , se X e Y sono continue.

Teorema σX,Y = µXY ¡ µXµY .Dimostrazione

σX,Y = E[(X ¡ µX)(Y ¡ µY )

]= E

[XY ¡ µXY ¡ µYX + µXµY

]=

= E(XY )¡ µXE(Y )¡ µYE(X) + µXµY = µXY ¡ µXµY .

Teorema σ2X±Y = σ2X + σ2Y § 2σX,Y .

Dimostrazione

σ2X±Y = E[((X § Y )¡ (µX § µY )

)2]= E

[((X ¡ µX)§ (Y ¡ µY )

)2]=

= E[(X ¡ µX)2 + (Y ¡ µY )2 § 2(X ¡ µX)(Y ¡ µY )

]= σ2X + σ2Y § 2σX,Y .

Il teorema appena dimostrato per due variabili casuali, si puo facilmente generalizzarealla somma di n variabili Xi:

Teorema V ar( n∑

i=1

Xi

)=

n∑

i=1

V ar(Xi

)+2

i=1,...,n−1k=i+1,...,n

Cov(Xi, Xk

).

(senza dimostrazione)

Teorema σ2X,Y · σ2Xσ2Y . (senza dimostrazione)

Introduciamo ora l’importante concetto di indipendenza fra variabili casuali.

Definizione Due variabili aleatorieX e Y sono indipendenti quando la funzione didistribuzione congiunta F (x, y) e uguale al prodotto delle funzioni di distribuzionimarginali FX(x) e FY (y), cioe quando

F (x, y) = FX(x) ¢ FY (y) , 8x, y 2 R .

Teorema (senza dimostrazione)

CNS perche due variabili aleatorie X e Y siano indipendenti e che si abbia

P (X 2 A, Y 2 B) = P (X 2 A) ¢ P (Y 2 B) , 8 A , B Boreliani .

Teorema (senza dimostrazione)

CNS perche due variabili aleatorie X e Y discrete siano indipendenti e che sia

P (X=xr, Y =ys) = P (X=xr) ¢ P (Y =ys) .

41

Page 44: Lezioni di STATISTICA MATEMATICA

Teorema (senza dimostrazione)

CNS perche due variabili aleatorie X e Y continue siano indipendenti e che sia

f(x, y) = fX(x) ¢ fY (y) .

Teorema Date due variabili casuali X e Y indipendenti, vale la relazione

µXY = µX ¢µY .Dimostrazione

Facciamo la dimostrazione nel caso discreto. Sfruttando il teorema precedentementeenunciato per variabili casuali discrete si puo scrivere:

µXY =∑

r

s

xrys P (X=xr, Y =ys) =∑

r

s

xrys P (X=xr)P (Y =ys) =

=∑

r

xr P (X=xr) ¢∑

s

ys P (Y =ys) = µX ¢µY .

Dalla relazione appena dimostrata, applicando i due teoremi dimostrati alla paginaprecedente, seguono immediatamente le due relazioni del corollario che segue.

Corollario Date due variabili casuali X e Y indipendenti, valgono le relazioni

i) σX,Y = 0 ; ii) σ2X±Y = σ2X + σ2Y .

Definizione Si chiama coefficiente di correlazione fra le variabili casuali X e Y ,e lo denotiamo con ρX,Y , il numero

ρX,Y =σX,YσXσY

.

Il coefficiente di correlazione fra due variabili casuali e nullo se e solo se la loro co-varianza e nulla. In questo caso diciamo che X e Y sono incorrelate. Ora, comeaffermato nel precedente corollario, σX,Y e certamente nulla se X e Y sono indipen-denti. Tuttavia, la covarianza puo essere nulla anche se X e Y non sono indipendenti.

Se σX,Y 6= 0, X e Y si dicono correlate. Essendo σ2X,Y ·σ2Xσ2Y (teorema enunciato inprecedenza), si ha sempre jρX,Y j·1. Ne consegue che X e Y sono tanto piu correlate,quanto piu ρX,Y e in modulo prossimo ad uno. Nel caso di correlazione massima, cioejρX,Y j= 1, X e Y sono linearmente dipendenti, per cui Y = αX + β, con α < 0 seρX,Y =¡1 e α>0 se ρX,Y =1.

In virtu della definizione di variabili incorrelate, dal teorema relativo alla varianzadella somma di n variabili casuali, segue immediatamente il seguente

Corollario Se X1,X2, . . . , Xn sono n variabili casuali incorrelate, allora la varianzadella loro somma e uguale alla somma delle loro varianze, vale a dire

V ar(X1 +X2 + ¢ ¢ ¢+Xn

)= V ar(X1) + V ar(X2) + ¢ ¢ ¢+ V ar(Xn) .

42

Page 45: Lezioni di STATISTICA MATEMATICA

In particolare, se le Xi hanno tutte la stessa varianza σ2, si ha

V ar(X1 +X2 + ¢ ¢ ¢+Xn

)= nσ2 .

Inoltre, tenendo conto del fatto che V ar(aX) = a2V ar(X), si ha anche

V ar(a1X1 + a2X2 + ¢ ¢ ¢+ anXn

)= a21V ar(X1) + a

22V ar(X2) + ¢ ¢ ¢+ a2nV ar(Xn) .

Esercizio 1.6.1 Da un’urna contenente due palline bianche, una nera e due rosse, si estrag-

gono una dopo l’altra con reimmissione due palline. Sia X1 la variabile casuale che descrive

l’esito della prima estrazione e X2 quella che descrive l’esito della seconda estrazione. Cia-

scuna delle due variabili assume valore 1 se la pallina estratta e bianca, valore 0 se e nera

o rossa. Si chiede di descrivere le leggi di probabilita congiunta e marginali, calcolare la

covarianza e il coefficiente di correlazione.

Essendo l’estrazione con reimmissione, gli esiti delle due estrazioni sono eventi indipendenti

e quindi si ha

P (X1 = x1r,X2 = x2s) = P (X1 = x1r) ¢P (X2 = x2s) ,

per r, s=1, 2 e x11 =x21 = 0 , x12 =x22 = 1 . Questa relazione tra le probabilita assicura

l’indipendenza delle due variabili casuali X1 e X2 e permette immediatamente di rappre-

sentarne la funzione di probabilita congiunta mediante la seguente tabella:

X20 1

0 35 ¢ 35 3

5 ¢ 25 35

X11 2

5 ¢ 35 25 ¢ 25 2

5

35

25

Andiamo ora a calcolare le medie µX1, µX2

e µX1X2, le varianze σ2X1

e σ2X1. Una volta

ottenuti questi valori, attraverso i teoremi visti calcoleremo immediatamente la covarianza

σX1,X2e il coefficiente di correlazione ρX1,X2

.

µX1= µX2

= 0¢ 35+ 1¢ 2

5=

2

5;

σ2X1= σ2X2

=(0¡ 2

5

)2¢ 35+(1¡ 2

5

)2¢ 25=

6

25;

µX1X2=∑

r,s

x1rx2sprs = 0¢0¢ 925

+ 0¢1¢ 625

+ 1¢0¢ 625

+ 1¢1¢ 425

=4

25;

σX1,X2= µX1X2

¡ µX1¢µX2

=4

25¡ 2

5¢ 25= 0 ; ρX1,X2

=σX1,X2

σX1σX2

= 0 .

Osserviamo che in virtu dell’indipendenza di X e Y sapevamo gia, grazie ad un teorema che

abbiamo visto, che σX1,X2era nulla. Il calcolo e stato fatto ugualmente per fare pratica.

43

Page 46: Lezioni di STATISTICA MATEMATICA

Esercizio 1.6.2 Si risolva il problema dell’esercizio precedente senza reimmissione.

Non reimmettendo la pallina estratta per prima, l’esito della seconda estrazione viene a

dipendere dall’esito della prima. Di conseguenza le probabilita congiunte cambiano e si ha

P (X1 = x1r, X2 = x2s) = P (X1 = x1r)¢P (X2 = x2sjX1 = x1r) .

Le variabili casuali X e Y non sono indipendenti e la tabella che rappresenta la funzione di

probabilita congiunta risulta cosı modificata:

X20 1

0 35 ¢ 24 3

5 ¢ 24 35

X11 2

5 ¢ 34 25 ¢ 14 2

5

35

25

Ripetendo i calcoli fatti per l’esercizio precedente otteniamo

µX1= µX2

= 0¢ 35+ 1¢ 2

5=

2

5;

σ2X1= σ2X2

=(0¡ 2

5

)2¢ 35+(1¡ 2

5

)2¢ 25=

6

25;

µX1X2=∑

r,s

x1rx2sprs = 0¢0¢ 620

+ 0¢1¢ 620

+ 1¢0¢ 620

+ 1¢1¢ 220

=1

10;

σX1,X2= µX1X2

¡ µX1¢µX2

=1

10¡ 2

5¢ 25= ¡ 3

50;

ρX1,X2=σX1,X2

σX1σX2

= ¡1

4.

Il fatto che la media e la varianza delle variabili singole siano le stesse dell’esercizio prece-

dente non deve sorprendere: le distribuzioni marginali non sono cambiate. Giova piuttosto

osservare che ora le variabili X e Y non sono indipendenti e, essendo ρX1,X26= 0, neppure

incorrelate.

Esercizio 1.6.3 Un’urna contiene 112 dadi di cui 56 (cioe la meta) sono equi, mentre gli altri

sono stati manipolati in modo che, per ciascuno di essi, la probabilita di ottenere 1 sia 12 ,

mentre ogni altro risultato si verifica con probabilita 110 . Si chiede:

a) Un dado viene estratto a caso e lanciato; indichiamo con X la variabile aleatoria che

rappresenta il risultato del lancio. Qual e la probabilita di ottenere 3? Quanto vale E(X)?

b) Un dado viene estratto a caso e lanciato due volte. Indicato con X il risultato del primo

lancio e con Y quello del secondo, qual e la probabilita di ottenere X=2 e Y =3?

c) Sapendo che i due lanci hanno dato come risultato X=2 e Y =3, qual e la probabilita

che si tratti di uno dei dadi truccati?

d) Le variabili casuali X e Y sono indipendenti?

44

Page 47: Lezioni di STATISTICA MATEMATICA

a) Le probabilita con cui la variabile aleatoria X assume i valori 1, 2, ..., 6 dipendono dal

fatto che il dado estratto sia oppure no equo. Indicato con A l’evento “il dado estratto e

equo” e quindi con AC l’evento “il dado estratto e alterato”, si ha

X jA :

(1 2 3 4 5 616

16

16

16

16

16

), X jAC :

(1 2 3 4 5 612

110

110

110

110

110

).

Applicando la formula della probabilita totale, per cui

P (X=k) = P (X=kjA) ¢ P (A) + P (X=kjAC) ¢ P (AC) ,la variabile non condizionata X risulta cosı definita:

X :

(1 2 3 4 5 613

215

215

215

215

215

).

Si ha dunque P (X=3) = 215

e, facendo i calcoli, E(X) =∑6

k=1 k ¢ P (X=k) = 3.

b) Consideriamo la variabile bidimensionale (X,Y ), con Y variabile identica alla X. La sua

funzione di probabilita congiunta sara definita dalle relazioni

P[(X=j, Y =k)

]= P

[(X=j, Y =k)jA

]¢ P (A) + P

[(X=j, Y =k)jAC

]¢ P (AC) =

= P (X=jjA) ¢ P (Y =kjA) ¢ 12+ P (X=jjAC) ¢ P (Y =kjAC) ¢ 1

2.

In particolare

P[(X=2, Y =3)

]= P (X=2jA) ¢ P (Y =3jA) ¢ 1

2+ P (X=2jAC) ¢ P (Y =3jAC) ¢ 1

2=

=1

6¢ 16¢ 12+

1

10¢ 1

10¢ 12=

17

900.

Volendo, anche se non richiesto dall’esercizio, calcolare e mostrare la tabella completa che

rappresenta la funzione di probabilita congiunta della variabile aleatoria (X,Y ), abbiamo:

Y

1 2 3 4 5 6

1 536

7180

7180

7180

7180

7180

13

2 7180

17900

17900

17900

17900

17900

215

3 7180

17900

17900

17900

17900

17900

215

X4 7

18017900

17900

17900

17900

17900

215

5 7180

17900

17900

17900

17900

17900

215

6 7180

17900

17900

17900

17900

17900

215

13

215

215

215

215

215

c) Indicato con B l’evento fX=2, Y =3g, ci si chiede ora P (AC jB). Utilizzando la formula

di Bayes, otteniamo

P (AC jB) = P (BjAC) ¢ P (AC)P (B)

=110 ¢ 110 ¢ 12

17900

=9

34.

45

Page 48: Lezioni di STATISTICA MATEMATICA

d) Perche due variabili aleatorie X e Y siano indipendenti (vedi pag. 36) deve essere

P (X=xr, Y =ys) = P (X=xr) ¢ P (Y =ys) ,

per ogni coppia (xr, ys). Nel nostro caso, con xr=2 e ys=3, si ha17900 = P (X=2, Y =3) 6= P (X=2) ¢ P (Y =3) = 2

15 ¢ 215 = 4225 .

Di conseguenza X e Y non sono indipendenti.

Esercizio 1.6.4 Due variabili casuali X e Y sono indipendenti ed uniformi su [0, 1]. Cal-

colare:

a) P(XY >

1

2

); b) P

(XY <

1

4

∣∣∣X>1

2

).

Essendo X e Y uniformi ed indipendenti sull’intervallo [0, 1], la variabile congiunta (X,Y )ha una funzione densita f(x, y) data dal prodotto delle funzioni densita di X e Y . Di

conseguenza, indicato con Q il ”quadrato” ´ (0, 1)£ (0, 1), si ha:

f(x, y) =

0 se (x, y) /2 Q1 se (x, y) 2 Q .

Ricordando poi un corollario sulle funzioni densita congiunte, sappiamo che

P(Φ(X, Y ) 2 B

)=

∫∫

Af(x, y) dx dy , con A =

(x, y) : Φ(x, y) 2 B

.

Di conseguenza, essendo Φ(X, Y ) = XY , abbiamo che

P (XY 2 B) =∫∫

Af(x, y) dx dy =

∫∫

A∩Qdx dy , con A =

(x, y) : xy 2 B

.

a) Dovendo essere XY > 12 , si ha B =

z> 1

2

, e quindi A e la regione, tutta contenuta

in Q, costituita dai punti (x, y) tali che xy> 12 (vedi figura). Di conseguenza la probabilita

richiesta e

P(XY >

1

2

)=

∫∫

A∩Qdx dy =

∫ 1

12

dx

∫ 1

12x

dy =

=

∫ 1

12

(1¡ 1

2x

)dx =

1

2(1¡ loge 2) .

b) Per calcolare la probabilita richiesta in questo punto, si procede analogamente a quanto

fatto per il punto a) tenendo pero conto che si tratta di una probabilita condizionata:

P(XY <

1

4

∣∣∣X>1

2

)=P [XY < 1

4 , X>12 ]

P [X> 12 ]

.

Posto A′ =(x, y) : xy< 1

4 , x>12

, si ha quindi

P(XY <

1

4

∣∣∣X>1

2

)=

∫∫A′∩Q dx dy

12

= 2

∫ 1

12

dx

∫ 14x

0

dy =

= 2

∫ 1

12

1

4xdx =

1

2loge 2 .

46

Page 49: Lezioni di STATISTICA MATEMATICA

1.7 DISTRIBUZIONI BINOMIALE, DI POISSON E DI GAUSS

DISTRIBUZIONE BINOMIALE

Consideriamo esperimenti con due soli risultati: ad esempio, il lancio di una monetaproduce come risultato o testa o croce; un individuo, scelto a caso da un gruppo,possiede oppure no una data caratteristica; un dato prodotto, uscito da una linea diproduzione, e difettoso oppure no. Generalizzando, siano A (il “successo”) e B ´ AC(“il fallimento”) i due possibili risultati del nostro esperimento, e siano p= P (A) eq=P (B) = 1¡p le loro probabilita. Considerando ora una variabile casuale Y cheassume il valore 1 nel caso di successo e 0 nel caso di fallimento, essa risulta cosidefinita:

Y :

(0 1

1¡p p

).

Una variabile casuale di questo tipo e detta di Bernoulli o bernoulliana. E imme-diato verificare che

E(Y ) = p , V ar(Y ) = pq .

Supponiamo poi che dell’esperimento in questione siano fatte n prove e sia X la va-riabile aleatoria che ne descrive il risultato: sara X=k se si verificano esattamente ksuccessi. Ebbene, il teorema che segue, e che non dimostriamo, ci fornisce la probabi-lita P (X=k). (Si consiglia di rivedere gli esercizi 1.5.1 e 1.5.2 per una giustificazionedel teorema basata su due problemi specifici).

Teorema (di Bernoulli) La probabilita che in n prove indipendenti l’evento Aavvenga esattamente k volte vale

(n

k

)pkqn−k, k = 0, 1, ..., n ,

dove p e la probabilita di A in una singola prova e q=1¡p.

Si da quindi la seguente

Definizione Dati 0<p< 1 e n 2 N , si chiama variabile aleatoria binomiale lavariabile aleatoria discreta (e finita) avente la seguente funzione di probabilita:

P (X=k) ´ f(k) =(nk

)pkqn−k , q=1¡p , k = 0, 1, . . . , n .

Ricordando che

(n

k

)=

n!

k!(n¡ k)! , si puo anche scrivere

X :

(0 1 2 ... n¡ 2 n¡ 1 n

qn npqn−1n!

2!(n¡ 2)!p2qn−2 ...

n!

(n¡ 2)!2!pn−2q2 npn−1q pn

).

Spesso, piuttosto di dire che abbiamo una variabile aleatoria X binomiale, parleremodi distribuzione binomiale. Qualche volta, poi, per indicare una variabile aleatoriaX binomiale di parametri n e p scriveremo X ' B(n, p).

47

Page 50: Lezioni di STATISTICA MATEMATICA

Si noti che effettivamente la somma di tutte le probabilita P (X=k) e 1. Infatti, perla formula binomiale di Newton, si ha

n∑

k=0

(nk

)pkqn−k = (p+ q)n = 1n = 1 .

Teorema (senza dimostrazione)

Una variabile casuale X binomiale ha media e varianza date da

µX = np , σ2X = npq .

Per poter calcolare operativamente la funzione distribuzione F (k) = P (X · k) o lafunzione di probabilita f(k) e molto utile la seguente relazione:

P (X = k+1) =p

1¡pn¡kk+1

P (X = k) .

Esercizio 1.7.1 Se la probabilita di avere un figlio maschio e 12 , per una famiglia con 5 figli,

qual e la probabilita di avere: (i) due maschi; (ii) almeno un maschio; (iii) almeno 3 femmine.

Sia X la variabile aleatoria binomiale che rappresenta il “numero di maschi fra n = 5 figli”:

P (X=2) =

(5

2

)(12

)2(12

)3= 10 ¢

(12

)5=

5

16;

P (X¸1) = 1¡ P (X=0) = 1¡(5

0

)(12

)0(12

)5=

31

32;

P (X·2) =

2∑

k=0

(5

k

)(12

)k(12

)5−k=

1

32+ 5 ¢ 1

32+ 10 ¢ 1

32=

1

2.

Esercizio 1.7.2 Sia p=98% la probabilita che un test diagnostico su una persona dia una

risposta corretta. Si chiede qual e la probabilita che eseguendo il test su un gruppo di 7

individui esso dia una risposta corretta per (i) tutti 7; (ii) almeno 6; (iii) meno della meta.

Indichiamo con X la variabile aleatoria binomiale che rappresenta il numero delle diagnosi

veritiere sulle 7 eseguite. Si ha

P (X=7) =

(7

7

)( 98

100

)7( 2

100

)0= 1¢

( 987

1014

)¼ 0.868 ;

P (X¸6) =

(7

6

)( 98

100

)6( 2

100

)1+

(7

7

)( 98

100

)7( 2

100

)0¼ 0.124 + 0.868 = 0.992 ;

P (X·3) =

3∑

k=0

(7

k

)( 98

100

)k( 2

100

)7−k¼ 0.53¢10−5 .

48

Page 51: Lezioni di STATISTICA MATEMATICA

Esempio 1.7.1 Si consideri ancora il test dell’esercizio precedente, questa volta con p=90%,

che supponiamo eseguito su una popolazione di n=250 persone. Calcoliamo la media e la

deviazione standard della variabile aleatoria Y che rappresenta il numero dei test corretti.

In virtu del teorema precedente si ha

µY = np = 250¢ 90100 = 225 ; σY =pnpq =

√250¢ 90100 ¢ 110 =

p22.5 ¼ 4.74 .

Questo esempio mostra come il concetto di media coincida col concetto intuitivo di “valore

piu probabile”, e quindi di “valore atteso”. La deviazione standard (o scarto quadratico

medio) fornisce invece un indice (ce ne sono diversi) della dispersione dei risultati attorno al

valore atteso quando l’esperimento e compiuto tante volte.

Esercizio 1.7.3 (a) Due ristoranti sono in concorrenza avendo gli stessi 10 clienti. Si sup-

ponga che i clienti scelgano a caso ed indipendentemente uno dall’altro il ristorante, e che

arrivino al ristorante tutti alla stessa ora. Si chiede di determinare il numero di posti a se-

dere che ciascun ristorante dovrebbe avere perche ci sia almeno il 95% di probabilita di poter

servire tutti i clienti che arrivano. (b) Risolvere lo stesso problema per tre ristoranti.

(a) SeX e la variabile casuale che rappresenta il numero di clienti che arrivano ad uno stesso

ristorante, X ha chiaramente una distribuzione binomiale, vale a dire si ha

P (X=i) =(10i

)pi(1¡ p)10−i .

Inoltre, nel caso in questione, poiche la scelta del ristorante da parte di ogni cliente e casuale,

si ha p= q= 12 . Il numero di posti che garantisce con una probabilita di almeno il 95% di

poter servire tutti i clienti che arrivano e dato dal minimo k tale che

P (X·k) = ∑ki=0

(10i

)(12

)i( 12

)10−i=(12

)10∑ki=0

(10i

)¸ 0.95 .

Indicata con Sk la somma in questione dei coefficienti binomiali, si puo quindi scrivere

Sk ´∑k

i=0

(10i

)¸ 210 ¢ 0.95 = 972.8 .

Di conseguenza, essendo

¢ ¢ ¢ ¢ ¢ ¢ S6=758 S7=968 S8=1013 S9=1023 S10=1024 ,

il minimo k che soddisfa la relazione e 8.

(b) Se i ristoranti sono tre, si ha p= 13 e q= 2

3 . In questo caso si ha quindi

P (X·k) = ∑ki=0

(10i

)(13

)i(23

)10−i=(13

)10∑ki=0 2

10−i(10i

)¸ 0.95 ,

o, equivalentemente,

Σk ´k∑

i=0

210−i(10

i

)¸ 310 ¢ 0.95 = 56096.55 .

Calcolati i termini Σk con un po di lavoro, si ha:

¢ ¢ ¢ ¢ ¢ ¢ Σ4=46464 Σ5=54528 Σ6=57888 Σ7=58848 ¢ ¢ ¢ ¢ ¢ ¢ .Il minimo k per cui risulta soddisfatta la relazione e dunque 6. Nel caso di tre ristoranti

bastano quindi 6 posti a sedere per avere la probabilita di almeno il 95% di poter servire i

clienti che arrivano.

49

Page 52: Lezioni di STATISTICA MATEMATICA

DISTRIBUZIONE DI POISSON

Definizione Una variabile aleatoria X e detta variabile aleatoria di Poisson conparametro µ (µ>0) se puo assumere gli infiniti valori k = 0, 1, 2, ... con probabilita

P (X=k) = f(k) =µk

k!e−µ ,

Rappresentata in forma esplicita, una variabile aleatoria di Poisson e dunque del tipo

X :

(0 1 2 3 ... k ...e−µ µe−µ µ2

2! e−µ µ3

3! e−µ ... µk

k! e−µ ...

).

Si osservi che effettivamente la somma di tutte le probabilita vale 1. Infatti, si ha

+∞∑

k=0

µk

k!e−µ = e−µ

+∞∑

k=0

µk

k!= e−µ ¢ e+µ = 1 ,

essendo∑+∞

k=0xk

k! = ex (si tratta della ben nota serie esponenziale).

Teorema (senza dimostrazione)

La variabile aleatoria di Poisson di parametro µ ha media uguale a µ e varianzapure uguale a µ.

Il fatto che µX=σ2X=µ implica che, aumentando µ, aumenta di pari passo anche ladispersione dei valori rispetto alla media.

La distribuzione di Poisson e tra le piu importanti del calcolo delle probabilita. Essa e stata

ottenuta come limite della distribuzione binomiale, della quale e una buona approssimazione

quando n e molto grande e p molto piccolo; per questo e anche detta distribuzione deglieventi rari. Per farne capire l’importanza nelle applicazioni e il gran numero di situazioni

in cui essa si applica, elenchiamo alcuni casi in cui la distribuzione di Poisson descrive assai

bene i dati osservati:

— il numero casuale delle particelle α emesse da un corpo radioattivo e rilevate in un intervallo

di tempo fissato; lo stesso vale per molte altre variabili aleatorie osservate in connessione con

la radioattivita;

— il numero di refusi in una o piu pagine di un libro;

— il numero di clienti che entrano in un ufficio postale in una giornata;

— il numero di persone, di una data categoria, con piu di 100 anni;

— il numero delle chiamate in arrivo ad un centralino telefonico, cosı come il numero di

collegamenti ad un numero sbagliato;

— il numero di transistor che si guastano nel primo giorno di utilizzo.

Come si puo desumere dall’elenco di applicazioni appena proposto, la variabile aleatoriadi Poisson e adatta a descrivere il numero di fenomeni casuali distribuiti con una datadensita media µ nell’unita di tempo o nell’unita di volume o nell’unita di superficie... Gliesempi che seguono illustrano operativamente quanto affermato.

50

Page 53: Lezioni di STATISTICA MATEMATICA

Osservazione: Si puo facilmente dimostrare che vale la seguente relazione:

P (X=k + 1) =µ

k + 1P (X=k) .

Esempio 1.7.2 Nel 1910 Rutherford e Geiger provarono che il numero di particelle α emesse

al secondo da una sostanza radioattiva era una variabile aleatoria di Poisson con µ = 0.5.

Determiniamo la probabilita di osservare due o piu particelle in un secondo?

P (X¸2) =+∞∑

k=2

(0.5)k

k!e−0.5 = 1¡ P (X=0)¡ P (X=1) =

= 1¡ e−0.5 ¡ 0.5¢e−0.5 ¼ 1¡ 0.91 = 9%

Esempio 1.7.3 Una certa sospensione batterica contiene 5 batteri per cm3 (valor medio).

Qual e la probabilita che un campione causale di 1 cm3 contenga (i) nessun batterio; (ii)

al piu due batteri; (iii) almeno 5 batteri?

P (X=0) = e−5 ¼ 0.007 ;

P (X·2) =(1 + 5 +

52

2!

)e−5 ¼ .125 ;

P (X¸5) = 1¡ P (X·4) = 1¡(1 + 5 +

52

2!+

53

3!+

54

4!

)e−5 ¼ 0.560 .

Esempio 1.7.4

Si desidera determinare la carica batterica di un campione di latte. Per valutare il numero

di batteri in una sospensione se ne cerca la diluizione limite alla quale si trova ancora almeno

un batterio capace di riprodursi. Supponiamo, ad esempio, di diluire 1 cm3 di latte prima

di un fattore 10−1, poi 10−2, quindi 10−3 e infine 10−4, trovando in ogni caso, dopo

incubazione, sviluppo dei batteri. Supponiamo invece che diluendo di un fattore 10−5, si

trovi che il campione di 1 cm3 risulti sterile. Cio permette di concludere che nel campione

di 1 cm3 diluito 104 volte vi era almeno un germe capace di riprodursi, e quindi che quel

latte conteneva circa 104 germi per cm3.

Volendo raffinare l’approssimazione della carica batterica presente nel latte in esame, inocu-

liamo la sospensione diluita di un fattore 10−4 in 20 provette, mettendone 1 cm3 in ciascuna.

Supponiamo di trovare che 8 di esse mostrano crescita, mentre le altre 12 risultano sterili.

La distribuzione di Poisson permette di prevedere che, se vi sono in media µ germi per

cm3 di diluito, il numero di provette che non riceveranno alcun germe (cioe sterili) risultera

proporzionale a P (X=0) = e−µ. Avremo dunque

e−µ = 1220 = 0.6 ,

da cui

µ = ¡loge(0.6) = ¡loge10¢log10(0.6) = ¡2.3026¢(¡0.222) = 0.51 .

Allora la concentrazione di germi nel latte e 0.51¢104=5.1 ¢ 103 germi per cm3.

51

Page 54: Lezioni di STATISTICA MATEMATICA

Esercizio 1.7.4 Una compagnia di assicurazioni riceve in media 5 richieste di rimborso al

giorno. Assumendo che il numero delle richieste che arrivano in giorni successivi sia indi-

pendente, si chiede: (a) che frazione delle giornate vedra arrivare meno di 3 richieste?

(b) con quale probabilita in una settimana (di 5 giorni lavorativi) arrivano 4 richieste in

esattamente 3 giorni?

(a) Poiche il numero di assicurati e grande, ma la probabilita che essi mandino una richiesta

in un dato giorno e piuttosto piccola, il numero totale di richieste al giorno, che indichiamo

con X , e una variabile casuale approssimativamente Poissoniana con media E(X)= 5. Si

ha quindi

P (X<3) = P (X=0) + P (X=1) + P (X=2) =(1 + 5 +

52

2

)e−5 ¼ 0.1247 .

Siccome in una giornata arrivano meno di 3 richieste di risarcimento con probabilita 0.125

circa, in un arco lungo di tempo cio avverra grossomodo nel 12.5% delle giornate, cioe una

giornata ogni 8.

b) In virtu dell’indipendenza tra le richieste che arrivano giorno per giorno, il numero di

giorni, in una serie di 5, nei quali arriveranno 4 richieste e una variabile casuale binomiale

Y , di parametri n=5 e p = P (X=4). Essendo

p = P (X=4) =54

4!e−5 ¼ 0.1755 ,

la probabilita cercata e data da

P (Y =3) =(53

)(0.176)3(0.825)2 ¼ 0.037 = 3.7% .

DISTRIBUZIONE DI GAUSS o NORMALE

Definizione Una variabile aleatoria continua X e detta variabile aleatoria diGauss o normale con parametri µ e σ (µ 2 R , σ > 0), e si scrive X ' N(µ, σ2),se la funzione densita e

f(x) =1

σp2π

e−(x−µ)2/2σ2 .

La funzione f(x) e detta funzione di Gauss. Si tratta di una funzione “a campana”simmetrica rispetto ad x = µ, che ha un massimo per x, dove assume il valore

massimo f(µ)=1

σp2π

. Quest’ultimo ha il significato di fattore di normalizzazione,

cioe e quel numero tale che ∫ +∞

−∞f(x)dx = 1 .

Come gia sappiamo, questa uguaglianza, la cui dimostrazione viene omessa, dice chef(x) e effettivamente una densita di probabilita.

Teorema E(X) = µ , V ar(X) = σ2 .

Il fatto che la media di X sia µ e una ovvia conseguenza della simmetria del graficodella densita rispetto ad x = µ. Omettiamo, per semplicita, di dimostrare che la

52

Page 55: Lezioni di STATISTICA MATEMATICA

varianza e σ2. A proposito di σ si puo notare che piu e piccolo, piu e alto il piccof(µ), e dunque la campana e piu concentrata intorno alla media µ, il che concordaperfettamente con il significato di varianza.

Dalla espressione della densita otteniamo la funzione distribuzione:

F (x) =

∫ x

−∞

1

σp2π

e−(t−µ)2/2σ2 dt ,

da cui

P (a·X·b) = F (b)¡ F (a) =∫ b

a

1

σp2π

e−(t−µ)2/2σ2 dt.

Naturalmente, trattandosi di una variabile casuale continua, si ha P (a · X · b) =P (a·X<b)=P (a<X·b)=P (a<X<b).

La funzione integrale F (x) non si puo calcolare coi metodi di integrazione elementari.Tuttavia, indicata con

Φ(x) =

∫ x

−∞

1p2π

e−u2/2 du ,

la funzione distribuzione della variabile aleatoria normale standardizzata, cioela variabile aleatoria normale con media 0 e varianza 1, vale il seguente

Teorema La funzione distribuzione normale F (x) di media µ e varianza σ2 si puorappresentare in termini della funzione distribuzione normale Φ(x) di media 0 evarianza 1 nel modo seguente:

F (x) = Φ(x¡ µ

σ

).

Dimostrazione. Essendo

F (x) =

∫ x

−∞

1

σp2π

e−(t−µ)2/2σ2 dt ´ lim

R→−∞

∫ x

R

1

σp2π

e−(t−µ)2/2σ2 dt ,

ponendot¡ µσ

= u, si ha dt = σdu , e quindi

F (x) = limR→−∞

∫ x−µσ

R−µσ

1

σp2π

e−u2/2σdu =

∫ x−µσ

−∞

1p2πe−u

2/2du ´ Φ(x¡ µ

σ

).

53

Page 56: Lezioni di STATISTICA MATEMATICA

Questo teorema risulta di grande utilita pratica. Infatti, una volta tabulata la Φ(x),il cui grafico ha l’andamento mostrato nella figura sottoriportata, attraverso le ta-vole ottenute e possibile ottenere anche i “corrispondenti” valori per una qualunquevariabile normale. Le tavole di Φ(x) sono fornite alla fine di queste dispense.

Essendo

P (a·X·b) = F (b)¡ F (a) = Φ(b¡ µ

σ

)¡Φ

(a¡ µσ

),

si haP (µ¡ σ < X < µ+ σ) = Φ(1)¡ Φ(¡1) ' 68.3% ;

P (µ¡ 2σ < X < µ+ 2σ) = Φ(2)¡ Φ(¡2) ' 95.5% ;

P (µ¡ 3σ < X < µ+ 3σ) = Φ(3)¡ Φ(¡3) ' 99.7% .

Queste probabilita sono molto indicative del comportamento di una variabile casualenormale. La prima, ad esempio, ci dice che e ragionevole aspettarsi che piu dei dueterzi dei valori osservati di X ' N(µ, σ2) cadano nell’intervallo (µ ¡ σ, µ + σ). Laterza ci dice invece che fra mille osservazioni di X , mediamente solo tre cadono fuoridall’intervallo (µ¡ 3σ, µ+ 3σ).

Data la variabile casuale X ' N(µ, σ2), l’uso piu diretto delle tavole relative alla fun-zione Φ consiste nel determinare P (X·x) sapendo che e uguale a Φ

(x−µσ

). Qualche

volta, pero, nelle applicazioni e data una probabilita α (spesso assegnata come per-centuale) e si cerca il numero x tale che Φ(x)=α. Questo numero x e spesso denotato

con φα e chiamato quantile relativo ad α, ovvero percentile n¡esimo se α=n

100.

Nell’ambito di applicazioni in cui sono assegnate come dati le probabilita, puo poiessere utile ricordare le seguenti approssimazioni

P (µ¡ 1.96σ < X < µ+ 1.96σ) ¼ 95% ;

P (µ¡ 2.58σ < X < µ+ 2.58σ) ¼ 99% .

Nella determinazione di probabilita attraverso le tavole di N(0, 1), talvolta ancheconsiderazioni geometriche sulle aree sottese dal grafico della densita possono esseredi grande aiuto. Una relazione estremamente utile, che permette di limitare la ta-bulazione dei valori della funzione distribuzione Φ(x) ad x > 0, deducibile in modoimmediato dalla simmetria della funzione densita rispetto all’asse y, e la seguente:

Φ(¡x) = 1¡ Φ(x) .

54

Page 57: Lezioni di STATISTICA MATEMATICA

Grazie a questa relazione, si puo osservare che posto Φ(x) = α, si ha Φ(¡x) = 1¡ α.Da qui, passando alla notazione precedentemente introdotta relativa ai quantili, segueφ1−α = ¡φα. Ad esempio, φ0.95 = ¡φ0.05. Il grafico qui sotto riportato rende evidentesia la relazione che ci da Φ(¡x) dato Φ(x), sia la relazione sui quantili.

Teorema (senza dimostrazione)

Se X ' N(µ, σ2), allora la variabile aleatoria X∗= aX + b (a> 0) e normale conmedia µ∗ = aµ+ b e varianza (σ∗)2 = a2σ2.

Esercizio 1.7.5 Consideriamo la variabile aleatoria X ' N(0.8; 4). Essendo µ = 0.8 e

σ=p4=2, andiamo a calcolare a modo di esempio alcune probabilita.

P (X·¡1.16) = Φ[(¡1.16¡ 0.8)/2] = Φ(¡0.98) = 1¡ Φ(0.98) ¼ 16.35% ;

P (X¸1) = 1¡ Φ[(1¡ 0.8)/2] = 1¡ Φ(0.1) ¼ 46.02% ;

P (2·X·3) = Φ[(3¡ 0.8)/2]¡ Φ[(2¡ 0.8)/2] = Φ(1.1)¡ Φ(0.6) ¼ 13.86% .

Esercizio 1.7.6 Si consideri la variabile casuale X ' N(¡2; 0.25). Si chiede di determinare

c 2 R tale che(a) P (X¸c) = 20% ;

(b) P (¡2¡ c·X·¡2 + c) = 90%.

Essendo µ=¡2 e σ=p0.25=0.5, si ha:

(a) P (X¸c) = 1¡ F (c) = 1¡ Φ(c+ 2

0.5

)= 0.2, da cui Φ

(2(c+ 2)

)= 0.8.

Dalle tavole della legge N(0, 1) si ricava: 2(c+ 2) ¼ 0.84 =) c ¼ ¡1.58.

(b) P (¡2¡ c·X·¡2 + c) = Φ(¡2 + c+ 2

0.5

)¡ Φ

(¡2¡ c+ 2

0.5

)=

= Φ(2c)¡ Φ(¡2c) = 0.9.

Essendo Φ(2c)¡ Φ(¡2c) = Φ(2c)¡ (1¡ Φ(2c)) = 2Φ(2c)¡ 1, deve essere

Φ(2c)=0.95, da cui, tramite le tavole, 2c ¼ 1.64, e quindi: c ¼ 0.82.

55

Page 58: Lezioni di STATISTICA MATEMATICA

Esercizio 1.7.7 Il voto ad una prova d’ingresso e distribuito normalmente. Solo il 10% dei

candidati, quelli con punteggio migliore, verra assunto. Ad esame finito, il voto medio risulta

72 e la deviazione standard 9. Qual e il voto minimo c che un candidato deve ottenere per

essere assunto?

Essendo µ = 72 e σ = 9, deve essere

P (X¸c) = 1¡ Φ(c¡ µ

σ

)· 1

10da cui Φ

(c¡ 72

9

)¸ 9

10.

Dalle tavole di N(0, 1) si ricava che questa relazione e soddisfatta se

c¡ 72

9¸ 1.29 , cioe c ¸ 83.61 ,

che arrotondato fornisce come voto minimo c=84.

1.8 APPROSSIMAZIONE NORMALE

La nozione di indipendenza fra variabili casuali, e quella di convergenza in legge cheora richiamiamo, permettono di enunciare l’importante teorema di limite centrale (dicui ometteremo la dimostrazione).

Definizione Una successione di variabili aleatorie fXngn converge in legge (oin distribuzione) alla variabile aleatoria X se e solo se, dette Fn(x) ed F (x) lerispettive funzioni distribuzione, si ha

limn→∞ Fn(x) = F (x) ,

per ogni punto x 2 R di continuita per F (x).

Osserviamo ora che data una successione di variabili aleatorie fXngn indipendenti,ciascuna di media µ e varianza σ2, in virtu di teoremi visti in precedenza, se conside-riamo la variabile aleatoria Sn = X1 +X2 + ¢ ¢ ¢+Xn, si ha

E(Sn) = nµ , V ar(Sn) = nσ2 .

Teorema di limite centrale

Sia fXngn una successione di variabili aleatorie indipendenti e identicamente distri-buite, di media µ e varianza σ2 > 0. Allora la loro somma n¡esima standardizzata

S∗n =X1 + ...+Xn ¡ nµ

σpn

converge in legge ad una variabile aleatoria N(0, 1).

Questo teorema costituisce uno risultato notevole: la legge di S∗n, che in generale ecomplicata da esprimere, si approssima, per n grande, con una legge N(0, 1), e questoqualunque sia la legge delle variabili Xn. Sostanzialmente il teorema di limite centrale

56

Page 59: Lezioni di STATISTICA MATEMATICA

afferma questo: un effetto casuale che sia la risultante di molti effetti aleatori, ciascunodei quali dia solo un piccolo contributo all’effetto finale, segue approssimativamenteuna legge normale. Ad esempio, si assume spesso che un errore di misurazione seguauna legge normale. Infatti, in assenza di errore sistematico, e ragionevole pensare chela discrepanza tra il valore vero e quello misurato sia la risultante di numerosi piccolierrori che si sono sovrapposti. Spesso l’esperienza conferma la validita di questaapprossimazione.

Dunque, il teorema di limite centrale giustifica l’approssimazione nella pratica dellalegge S∗n con una N(0, 1). Generalmente si considera che la soglia di applicabilita(cioe il minimo n a partire dal quale l’approssimazione si puo ritenere valida) siaper n compreso tra 30 e 50. Occorre pero osservare che questa soglia e da ritenersiappropriata per la maggior parte delle distribuzioni che si incontrano nella pratica,ma non per tutte indistintamente. Nel caso in cui si ha Xi ' B(1, p), l’esperienzamostra che l’approssimazione e soddisfacente quando sono soddisfatte entrambe lecondizioni np¸ 5 e n(1 ¡ p)¸ 5. Quindi, nel caso di valori di p estremi, cioe moltoprossimi a 0 o 1, il valore necessario di n puo essere molto grande.

L’approssimazione con la legge normale si basa sulla relazione seguente:

P(X1 +X2 + ¢ ¢ ¢+Xn · x

)= P

(S∗n ·

x¡ nµσpn

)' Φ

(x¡ nµσpn

),

dove Φ indica, come gia visto, la funzione di distribuzione di N(0, 1). Facendo riferi-mento a questa relazione parleremo sempre di approssimazione normale.

Nel caso di variabili casuali Xi a valori interi, e naturale che il numero x che com-pare nella relazione appena scritta sia esso pure un intero. Denotandolo con k perevidenziare questo fatto, in generale e conveniente riscrivere la relazione nel modoseguente:

P(X1 +X2 + ¢ ¢ ¢+Xn · k +

1

2

)' Φ

(k−nµ+ 1

2

σ√n

),

Il considerare x=k+ 12 rende, nella maggior parte dei casi, piu corretta l’approssima-

zione. A giustificazione di questo fatto si supponga di voler approssimare P(X1 +

X2 + ¢ ¢ ¢+Xn=k)mediante N(0, 1). Ovviamente, essendo questa una distribuzione

continua, la probabilita cercata sarebbe nulla. In realta ha senso valutarla tenendoconto che si approssima una distribuzione discreta con una continua: cio porta adassociare all’intero k l’intervallo di ampiezza 1 centrato in k, cioe

(k ¡ 1

2 , k +12

). Di

qui si puo ragionevolmente porre

P(X1 +X2 + ¢ ¢ ¢+Xn=k

)= P

(k ¡ 1

2< X1 +X2 + ¢ ¢ ¢+Xn · k +

1

2

¼ Φ(k + 1

2 ¡ nµσpn

)¡ Φ

(k ¡ 12 ¡ nµσpn

).

Fra i casi in cui conviene applicare l’approssimazione normale in questo modo rientracertamente il caso delle prove di Bernoulli. Infatti se Y e il numero di successi in nprove indipendenti, si ha Y =X1 + ...+Xn, dove ciascun Xi ' B(1, p) e la variabilealeatoria relativa alla singola i¡esima prova. In tal caso, essendo

57

Page 60: Lezioni di STATISTICA MATEMATICA

E(Xi)=p , V ar(Xi) = pq ,

l’approssimazione migliore in generale sara

P (Y ·k) ¼ Φ(k + 1

2 ¡ nppnpq

).

Esercizio 1.8.1 Qual e la probabilita di ottenere almeno 29 teste in 50 lanci di una moneta

equilibrata?

Si tratta di calcolare P (X1 + X2 + ¢ ¢ ¢ + X50) ¸ 29, con le Xi indipendenti e del tipo

B(1, 12

). Essendo µXi

= 12 e σXi

= 12 , si ha

P (X1 +X2 + ¢ ¢ ¢+X50¸29) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X50·28) ¼

¼ 1¡ Φ(28.5¡ 50¢0.5

0.5¢p50

)= 1¡ Φ

( 3.5p12.5

¼ 1¡ Φ(0.99) ¼ 1¡ 0.84 = 0.16 .

Occorre osservare che questo risultato e assia preciso. Se avessimo fatto il calcolo utilizzando

la formula con k anziche quella con k + 12 , avremmo ottenuto una approssimazione assai

peggiore. Infatti:

P (X1 +X2 + ¢ ¢ ¢+X50¸29) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X50·28) ¼

¼ 1¡ Φ(28¡ 50¢0.5

0.5¢p50

)= 1¡ Φ

( 3p12.5

¼ 1¡ Φ(0.85) ¼ 1¡ 0.80 = 0.20 .

Esercizio 1.8.2 Determinare la probabilita di ottenere piu di 25 ”sette” in 100 lanci di una

coppia di dadi equi.

La variabile aleatoria Y = “numero di ’sette’ nell’ambito di 100 lanci” puo essere definita

come X1 +X2 + ¢ ¢ ¢+X100, con ciascuna Xi ' B(1, 16), essendo p= 636 , in quanto sono 6

i risultati che danno ’sette’ sui 36 possibili esiti del lancio di due dadi. Si ha dunque

µXi=p= 1

6 , σ2Xi=pq= 5

36 .

Di conseguenza, approssimando con la normale, abbiamo:

P (Y ¸26) = 1¡ P (Y ·25) ¼ 1¡ Φ

(25.5¡ 100¢ 16√

56 ¢10

)=

= 1¡ Φ( 5.3p

5

)¼ 1¡ Φ(2.37) ¼ 0.01 .

58

Page 61: Lezioni di STATISTICA MATEMATICA

Esercizio 1.8.3 Un segnale consiste in una parola di 1000 bit, ciascuno dei quali puo assu-

mere i valori 0 oppure 1. Nel corso della trasmissione del segnale ogni bit puo essere distorto

con probabilita p=0.01. Si chiede: qual e la probabilita che un segnale contenga almeno 10

bit distorti?

Sia Xi ' B(1, p) la variabile aleatoria che dice se l’i¡esimo bit del segnale e distorto

oppure no. Dobbiamo determinare P (X1+X2+ ¢ ¢ ¢+X1000¸10). Osservato che np=10,

per cui n e sufficientemente grande da rendere affidabile una approssimazione alla normale,

procediamo in tal senso.

P (X1 +X2 + ¢ ¢ ¢+X1000¸10) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X1000·9) ¼

¼ 1¡Φ( 9.5¡ 1000¢0.01p

1000¢0.01¢0.99)= 1¡ Φ

(¡0.5p9.9

¼ 1¡Φ(¡0.159) = Φ(0.159) ¼ 0.564 = 56.4% .

Esercizio 1.8.4 Nella trasmissione di un’immagine ogni bit viene distorto con probabilita

0.0002. Ne consegue che il colore di un pixel, che e rappresentato da un byte, cioe da una

8-pla di bit, resta integro con probabilita q=0.9984 (in realta, essendo q=(0.0002)8, se si

fanno i calcoli, ci si accorge che questo e un valore approssimato). Sapendo che un’immagine

e composta da 512£256 = 131072 pixel, quali sono le probabilita che vi siano (a) almeno

190 pixel distorti; (b) almeno 210; (c) almeno 230?

Indicata con Xi ' B(1, p), p=0.0016, la variabile che dice se l’i¡esimo pixel e oppure

no distorto, si deve approssimare P (X1 +X2 + ¢ ¢ ¢ +X131072¸ k), con k=190, k=210e k=230. Poiche np ¼ 210, n e certamente tale da consentire una buona approssimazione

mediante la normale. Si ha quindi

P (X1 +X2 + ¢ ¢ ¢+X131072¸190) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X131072·189) ¼

¼ 1¡Φ( 189.5¡ 131072¢0.0016p

131072¢0.0016¢0.9984)¼

¼ 1¡Φ(¡20.215

14.464

)¼ 1¡ Φ(¡1.398) ¼

¼ Φ(1.40) ¼ 0.919 = 91.9% ;

P (X1 +X2 + ¢ ¢ ¢+X131072¸210) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X131072·209) ¼

¼ 1¡Φ(209.5¡ 209.715

14.464

)¼ 1¡Φ(¡0.015) ¼

= Φ(0.015) ¼ 0.506 = 50.6% ;

P (X1 +X2 + ¢ ¢ ¢+X131072¸230) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X131072·229) ¼

¼ 1¡Φ(229.5¡ 209.715p

14.464

)¼ 1¡Φ(1.37) ¼

¼ 1¡ 0.915 = 0.085 = 8.5% .

59

Page 62: Lezioni di STATISTICA MATEMATICA

Esercizio 1.8.5 Un calcolatore esegue la somma di un milione di numeri (il che implica

l’esecuzione di 106 somme). In ogni addizione il risultato prodotto e soggetto ad un errore di

arrotondamento. Supponiamo che i singoli errori siano indipendenti uno dall’altro e che ab-

biano distribuzione uniforme nell’intervallo[¡ 1210

−10,+ 1210

−10] (il che significa supporre

che la decima cifra decimale sia significativa). Si chiede: (a) qual e la probabilita che la

settima cifra decimale della somma risultante sia significativa? qual e la probabilita che

l’ottava cifra sia significativa?

Introduciamo le variabili casualiXi := “errore compiuto nella i¡esima addizione”. Si tratta

di 106 variabili casuali uniformemente distribuite nell’intervallo[¡ 1210

−10,+1210

−10], per

le quali, come abbiamo visto nell’esempio 1.5.4, si ha

E(Xi) =a+ b

2= 0 , V ar(Xi) =

(b¡ a)212

=10−20

12.

Perche la k¡esima cifra decimale sia significativa occorre che

¡1

210−k · X1 +X2 + ¢ ¢ ¢+X106 ·

1

210−k .

Posto per comodita Y =∑106

i=1Xi, la probabilita richiesta nella domanda (a), approssimata

con la normale, risulta quindi

P(¡1

210−7 · Y · 1

210−7) ¼ Φ

(10−7

2√106 ¢ 10−2012

)¡ Φ

(¡ 10−7

2√106 ¢ 10−2012

)=

= Φ(p

3)¡ Φ

(¡p3)¼ Φ(1.73)¡ Φ(¡1.73) ¼

¼ 2Φ(1.73)¡ 1 ¼ 2¢0.958¡ 1 = 0.916 = 91.6% .

Per quanto riguarda poi la domanda (b), procedendo esattamente allo stesso modo, si ha

P(¡1

210−8 · Y · 1

210−8) ¼ Φ

(10−8

2√106 ¢ 10−2012

)¡ Φ

(¡ 10−8

2√106 ¢ 10−2012

)=

= Φ

(p3

10

)¡ Φ

(¡p3

10

)¼ Φ(0.173)¡Φ(¡0.173) ¼

¼ 2Φ(0.173)¡ 1 ¼ 2¢0.568¡ 1 = 0.114 = 11.4% .

60

Page 63: Lezioni di STATISTICA MATEMATICA

Esercizio 1.8.6 Si sa che esistono in circolazione dei dadi truccati in modo tale da produrre

il 6 con probabilita 29 . Ci si pone il problema di stabilire se un dato dado e truccato oppure

no. La procedura adottata e la seguente: il dado viene lanciato 900 volte, e se il 6 esce

almeno 180 volte, si decide che il dado e truccato. Ci si chiede: qual e la probabilita che un

dado che viene assunto come truccato lo sia effettivamente?

SiaXi ' B(1, p = 29) la variabile aleatoria che dice se all’i¡esimo lancio esce il 6 oppure no.

La probabilita da calcolare, posto per comodita X = X1+X2+ ¢ ¢ ¢+X900, e P (X¸180).Valutiamo tale probabilita approssimandola con la normale. Si ha:

P (X¸180) = 1¡ P (X · 179) ¼ 1¡ Φ

(179.5¡ 900¢ 2

9√900¢ 29 ¢ 79

)=

= 1¡ Φ

(¡20.5103

p14

)¼ 1¡Φ(¡1.64) = Φ(1.64) ¼

¼ 0.95 = 95% .

Dunque, e lecito aspettarsi che nel 95% dei casi il test adottato dia la risposta giusta.

Ci si potrebbe anche chiedere: qual e la probabilita che il 6 esca almeno 180 volte se il dado

non e truccato? In tal caso, indicata con Yi ' B(1, 16) la variabile aleatoria che descrive

l’esito dell’i¡esimo lancio di un dado “equo”, e posto Y = Y1 + Y2 + ¢ ¢ ¢+ Y900, si ha

P (Y ¸180) = 1¡ P (Y · 179) ¼ 1¡ Φ

(179.5¡ 900¢ 16√

900¢ 16 ¢ 56

)=

= 1¡ Φ

(29.5

5p5

)¼ 1¡ Φ(2.64) ¼ 0.004 = 0.4% .

61

Page 64: Lezioni di STATISTICA MATEMATICA

1.9 ALTRE DISTRIBUZIONI

DISTRIBUZIONE ESPONENZIALE

Definizione Una variabile aleatoria continua X ha una distribuzione esponen-ziale con parametro λ (λ > 0), se la sua funzione densita e

f(x) =

0 per x<0

λe−λx per x¸0.

E facile verificare (si consiglia di farlo come esercizio) che f(x) e effettivamente unadensita e che la funzione distribuzione di X vale

F (x) =

0 per x<0

1¡ e−λx per x¸0.

Teorema Una variabile aleatoria X a distribuzione esponenziale con parametroλ ha media e varianza date da

µ =1

λ, σ2 =

1

λ2.

Dimostrazione

Si ha infatti:

µ =

∫ +∞

−∞xf(x)dx =

∫ +∞

0

λxe−λxdx =[¡xe−λx

]+∞0

+

∫ +∞

0

e−λxdx =1

λ;

σ2 = E(x2)¡ µ2 =∫ +∞

−∞x2f(x)dx¡ 1

λ2=

∫ +∞

0

λx2e−λxdx¡ 1

λ2=

=[¡x2e−λx

]+∞0

+

∫ +∞

0

2xe−λxdx¡ 1

λ2= 2

1

λ2¡ 1

λ2=

1

λ2.

Le variabili aleatorie con distribuzione esponenziale hanno notevole interesse applica-tivo in quanto utilizzabili per rappresentare diversi fenomeni che si incontrano nelleosservazioni scientifiche o nelle applicazioni tecnologiche. Di solito esse rappresentano

62

Page 65: Lezioni di STATISTICA MATEMATICA

i tempi d’attesa affinche un dato evento si verifichi. Ad esempio, se X indica il tempomisurato a partire dall’inizio del funzionamento di un dato pezzo di una macchina,ci si puo chiedere qual e la probabilita che il pezzo non si rompa prima che siadecorso un dato tempo x. Ebbene, la risposta e data da P (X¸x), ossia

P (X¸x) = 1¡ F (x) = e−λx .

Una proprieta caratteristica delle variabili casuali esponenziali e che non hannomemoria. Questo fatto, che non dimostreremo, matematicamente e espresso dallaseguente relazione fra probabilita:

P (X>s+ t j X>s) = P (X>t) .

Cio significa che seX e il tempo d’attesa fino al primo guasto di una data apparecchia-tura, questo tempo non dipende dal fatto che l’apparecchiatura abbia gia funzionatoper un dato tempo s. In altre parole, la distribuzione di probabilita di X non dipendedall’istante iniziale.

Esercizio 1.9.1 Il numero di chilometri (misurato in migliaia) che un dato pneumatico puo

percorrere prima di deteriorarsi e rappresentabile con una variabile aleatoriaX avente distri-

buzione esponenziale con parametro λ=0.05. Determinare la probabilita che un pneumatico

di questo tipo duri (i) almeno 30 Km; (ii) tra i 35 e i 40 km.

Si ha

P (X¸30) = 1¡ F (30) = e−30λ = e−0.05·30 = e−1.5 ¼ 0.223 ;

P (35·X·40) = F (40)¡ F (35) = e−1.75 ¡ e−2 ¼ 0.174¡ 0.135 = 0.039.

Esercizio 1.9.2 Un apparecchio elettronico e composto da due elementi in parallelo, l’uno

indipendente dall’altro e ciascuno con un tempo di vita esponenziale di media 8 giorni. Con

quale probabilita l’apparecchio durera un tempo non superiore a 12 giorni, supposto che esso

funzioni se una almeno delle due componenti funziona?

Poiche una variabile aleatoria esponenziale ha media uguale all’inverso del parametro λ,

nel nostro caso si ha λ = 18 . Di conseguenza ciascuna componente ha un tempo di vita

Xi, i = 1, 2, avente densita

fXi=

0 per x<018e− 18x per x¸0

.

Indicato quindi con Y il tempo di vita dell’apparecchio, si ha Y = maxfX1, X2g. Sapendo

poi che X1 e X2 sono indipendenti, si ha

P (Y · t) = P (X1·t,X2·t) = P (X1· t) ¢P (X2· t) = (1¡ e− t8 )2 ,

e quindi

P (Y ·12) = (1¡ e− 128 )2 = (1¡ e− 3

2 )2 ¼ (1¡ 0.223)2 ¼ 0.6035 .

63

Page 66: Lezioni di STATISTICA MATEMATICA

Esercizio 1.9.3 Una lampada ha un tempo di vita che segue una legge esponenziale di media

µ uguale a 10 giorni. Non appena smette di funzionare essa viene sostituita con una nuova.

Qual e la probabilita che 40 lampade siano sufficienti per un anno?

Indicata con Xi la durata della lampada i¡esima, possiamo supporre le Xi indipendenti e

con legge esponenziale di parametro λ= 110 . Poiche nel caso di una variabile aleatoria di

tipo esponenziale si ha σ2= 1λ2 = µ2, abbiamo dunque µ=σ=10. La probabilita richiesta,

approssimata mediante la normale, diventa quindi

P (X1 +X2 + ¢ ¢ ¢+X40¸365) = 1¡ P (X1 +X2 + ¢ ¢ ¢+X40<365) ¼

¼ 1¡ Φ(365¡ 40¢10

10¢p40

)= 1¡ Φ

( ¡3520p10

¼ 1¡ Φ(¡0.55) = 1¡(1¡Φ(0.55)

)=

= Φ(0.55) ¼ 0.71 .

DISTRIBUZIONE IPERGEOMETRICA

Definizione Una variabile aleatoria discreta X ha una distribuzione ipergeome-trica di parametri (interi) N , M ed n, con n·M·N , se ha la seguente funzionedi probabilita:

P (X=k) = f(k) =

(Mk

)(N−Mn−k

)(Nn

) , k = 0, 1, . . . , n .

Questa distribuzione e utile quando si effettua un’estrazione senza reimmissione daun’urna che contiene N oggetti di cuiM di un certo tipo, e si chiede la probabilita cheun campione di dimensione n ne contenga esattamente k di quel tipo. Tipicamente,M rappresenta il numero degli oggetti difettosi fra gli N presi in considerazione.Ricordiamo che nel caso di estrazione con reimmissione la distribuzione utile e quellabinomiale.

Sulla base del significato dei parametri e abbastanza immediato verificare che f(k) rappre-

senta la probabilita che un campione di n oggetti contenga esattamente k oggetti difettosi.

Infatti, mentre a denominatore c’e il numero di tutti i possibili campioni che e possibile

estrarre dall’urna (cioe le combinazioni di N oggetti presi n alla volta), a numeratore c’e

il numero dei possibili campioni che contengono esattamente k oggetti difettosi (cioe il nu-

mero delle combinazioni di M oggetti presi k alla volta, moltiplicato per il numero delle

combinazioni di N¡M oggetti presi n¡k alla volta).

Teorema (senza dimostrazione)

Una variabile aleatoria X a distribuzione ipergeometrica con parametri N , M edn, ha media e varianza date da

µ = nM

N, σ2 = n

M

N

N ¡MN

N ¡ nN ¡ 1

.

64

Page 67: Lezioni di STATISTICA MATEMATICA

Esempio 1.9.1 Si consideri l’esperimento di estrarre un campione di 2 lampadine da una

scatola che ne contiene 10, 3 delle quali difettose. Si chiede di scrivere la funzione di proba-

bilita della variabile casuale

X = numero di lampadine difettose estratte ,nel caso di estrazione: (a) senza reimmissione; (b) con reimmissione.

(a) Abbiamo: N=10 ; M=3 ; n=2 ; k = 0, 1, 2 . E di conseguenza:

P (k=0) = f(0) =

(30

)(72

)(102

) =7

15,

P (k=1) = f(1) =

(31

)(71

)(102

) =7

15,

P (k=0) = f(2) =

(32

)(70

)(102

) =1

15.

(b) Ricordando la distribuzione binomiale, essendo p=MN = 3

10 , q =710 , si ha

P (k=0) = f(0) =

(2

0

)p0q2 =

( 7

10

)2=

49

100,

P (k=1) = f(1) =

(2

1

)p1q1 = 2

3

10

7

10=

42

100,

P (k=0) = f(2) =

(2

2

)p2q0 =

( 3

10

)2=

9

100.

Esempio 1.9.2 Da un lotto costituito di 800 pezzi si estrae un campione di 150 unita. Se il

campione contiene al piu 2 pezzi difettosi, il lotto viene accettato; altrimenti viene rifiutato.

Qual e la probabilita che un lotto contenente il 5% di pezzi difettosi venga accettato?

Consideriamo una distribuzione ipergeometrica con parametri N =800 , M =800 ¢ 5100 =

40 , n=150 . La probabilita che il lotto sia accettato e data da

f(0) + f(1) + f(2) =2∑

k=0

(40k

)(800−40150−k

)(800150

) ¼ 0.0112 .

Questo esempio e interessante in quanto illustra come viene effettuato un controllo diaccettazione o collaudo statistico. Vengono determinati dei piani di campionamento

caratterizzati dalle cosiddette specifiche che, nel caso in questione, sono la numerosita n del

campione da estrarre e il numero massimo ammissibile di unita difettose. L’esempio mostra

come si calcola la probabilita che il lotto sia accettato pur avendo una data difettosita.

Esercizio 1.9.4 Una partita di 150 libri ne contiene 30 che presentano un difetto nella rilega-

tura. Se 10 libri vengono scelti a caso per un controllo, qual e la probabilita che 3 libri tra i 10

estratti siano difettosi? Effettuare il calcolo sia nell’ipotesi di estrazione senza reimmissione

che in quella di estrazione con reimmissione.

Applicando la formula della distribuzione ipergeometrica con parametri N = 150 , M =30 , n=10 , abbiamo

f(3) =

(303

)(1207

)(15010

) ¼ 0.2065 .

65

Page 68: Lezioni di STATISTICA MATEMATICA

Se invece applichiamo la distribuzione binomiale B(10, p) con p= 30150=0.2, otteniamo

f(3) =

(10

3

)(0.2)3(0.8)7 ¼ 0.2013 .

L’esercizio appena risolto mostra che in certi casi la distribuzione ipergeometrica equella binomiale producono risultati pressoche uguali (nel caso specifico differisconoper meno dell’1%). La spiegazione sta nell’affermazione seguente (che non dimo-striamo). Se N , M ed N¡M sono grandi in confronto ad n, allora non e moltorilevante se il campionamento viene effettuato con o senza reimmissione, in quantola distribuzione ipergeometrica puo essere ben approssimata con la distribuzione bi-nomiale (con p = M

N ), che in un certo senso e piu semplice. In una ”popolazioneinfinita” si usa sempre la distribuzione binomiale indifferentemente dal tipo di cam-pionamento.

DISTRIBUZIONE GEOMETRICA

Definizione Una variabile aleatoria discreta X ha una distribuzione geometricadi parametro p , 0<p·1 , se ha la seguente funzione di probabilita:

P (X=k) = f(k) = p(1¡ p)k , k = 0, 1, . . . , n, . . . .

La distribuzione geometrica ha origine nella seguente applicazione delle prove di Ber-noulli: Sia A un evento di un esperimento con P

(A)= p. Ripetiamo infinite volte

l’esperimento e denotiamo con X la variabile casuale che rappresenta il numero diprove eseguite prima che si verifichi per la prima volta A. Chiaramente f(k) e laprobabilita che l’evento A si verifichi dopo k insuccessi consecutivi.

E facile dimostrare che la funzione f(k) e effettivamente una funzione di probabilita.Infatti, ricordando che la somma di una serie geometrica di ragione p vale 1

1−p , si ha

∞∑

k=0

f(k) =

∞∑

k=0

p (1¡ p)k = p

∞∑

k=0

(1¡ p)k = p1

1¡ (1¡ p) = 1 .

Esercizio 1.9.5 Un dado viene lanciato finche non si presenta la faccia ”1”. Qual e la

probabilita che debba esser lanciato piu di 6 volte?

Sia U7 l’evento “la faccia ”1” non si presenta prima del settimo lancio”. Si ha

P (U7) = f(6) + f(7) + ... =

∞∑

k=6

1

6

(56

)k= 1¡

5∑

k=0

1

6

(56

)k=

= 1¡ 1

6

(1 +

5

6+(56

)2+(56

)3+(56

)4+(56

)5)=

= 1¡ 1

6

1¡(56

)6

1¡ 56

=(56

)6¼ 0.3349 .

66

Page 69: Lezioni di STATISTICA MATEMATICA

CAPITOLO 2: STATISTICA DESCRITTIVA

2.1 INTRODUZIONE

Per statistica descrittiva o metodologica si intende il complesso di quelle norme utiliz-zate dallo sperimentatore per raccogliere, rappresentare ed elaborare insiemi di datiosservati.

I dati raccolti riguardano solo un campione e non l’intera popolazione. L’elaborazionestatistica ha l’obiettivo di ricavare informazioni sulla popolazione estraendole dai (po-chi) dati che sono stati osservati sul campione. Naturalmente le informazioni a cuisiamo interessati riguardano una o piu caratteristiche della popolazione in questione.

Volendo dare una veste matematica a quanto appena detto, sia X una variabile alea-toria, di tipo discreto o continuo, definita su un insieme S (la popolazione). Sono notii valori che X assume in corrispondenza degli elementi di un sottinsieme C di S (ilcampione). Sia N = jSj e n= jCj. Il campione e dunque una n—pla (x1, x2, . . . , xn),dove ciascun xi rappresenta il valore noto che X(s) assume per s=si 2 C. Essendo,in generale, n¿ N , la variabile aleatoria X e incognita in molti (moltissimi) elementisu cui e definita. Il compito della statistica e quello di desumere dai dati del campioneil maggior numero di informazioni circa la distribuzione di X, avendo anche un’idea,il piu possibile precisa, del grado di affidabilita di queste informazioni. A questa va-riabile aleatoria ci riferiremo d’ora in poi come alla variabile aleatoria sottostante alnostro esperimento.

Un’indagine statistica di tipo descrittivo puo essere articolata nei seguenti quattropassi:

1) rilevazione dei dati; 2) organizzazione dei dati;

3) presentazione dei dati organizzati; 4) interpretazione e conclusioni.

2.2 ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI

Rilevazione dei dati

La rilevazione, che e l’inizio del procedimento statistico, e l’insieme dei meccanismiche permettono di ottenere le informazioni necessarie da elaborare. Strumenti basilaridi questo momento sono i questionari, i modelli di rilevazione, le inchieste telefoniche,l’accesso e la consultazione di banche dati, etc.

Le modalita di rilevazione dei dati xi sono particolarmente importanti. Occorre infattiaver chiaramente fissati gli obiettivi, valutata la fattibilita, definita l’estensione intermini geografici, temporali, economici. Infine, e fondamentale aver scelto in modoappropriato la tecnica di campionamento (che qui pero non discutiamo).

67

Page 70: Lezioni di STATISTICA MATEMATICA

Organizzazione dei dati

In genere i dati grezzi ottenuti dalla rilevazione sono difficilmente interpretabili: oc-corre organizzarli opportunamente. Quando i dati sono di tipo numerico, e lo sononella grande maggioranza dei casi, il modo piu semplice di farlo consiste nell’ordinarliin modo crescente o decrescente. Cio permette immediatamente di stabilire il campodi variazione degli xi (o rango), cioe il minimo intervallo che li contiene tutti. Que-sto indice ci dice gia qualcosa (ad esempio i valori minimo e massimo della variabilecampionata); tuttavia esso puo essere poco indicativo, soprattutto se n e grande. Puodunque essere conveniente organizzare i dati in classi.

Come si formano le classi? Si tratta di un punto importante in quanto una cattivascelta delle classi puo portare ad una cattiva interpretazione della distribuzione deidati. Proponiamo dunque alcuni criteri di formazione delle classi ritenuti ottimali.

Il numero delle classi e importante. Se le classi sono troppe, in ogni classe ci sarebberopochissimi elementi (o addirittura nessuno); se sono poche, essendovi concentratimolti elementi, potrebbe sfuggirci la globalita della distribuzione. In genere il numerodelle classi e compreso fra 6 e 20. Secondo Sturges il numero ottimale di classi e

nc = [1 + 1.443 lg n] ,

con lg n che indica il logaritmo naturale di n e [a] l’intero piu vicino ad a.

E conveniente che le classi abbiano la stessa ampiezza. In questo caso, se r e l’ampiezzadel campo di variazione dei dati ed nc il numero delle classi in cui si e deciso diorganizzare i dati, se ne deduce per ciascuna classe un’ampiezza ℓ data da

ℓ =r

nc.

Tale ampiezza, tuttavia, in genere non e quella piu conveniente; torna utile “aggiu-starla” in modo che i punti di mezzo di ciascun intervallo siano della stessa grandezza,come ordine di approssimazione, dei dati xi e che nessun xi cada su un estremo del-l’intervallo. Ad esempio, se gli xi sono interi qualunque (cioe non sono dei multipli diun intero k), allora conviene prendere ℓ intero e dispari, e ciascun intervallo del tipo(h ¡ 1

2 , h + ℓ¡ 12 ), dove h e un intero. Scelte analoghe possono essere fatte se gli xi

sono numeri decimali (tutti con lo stesso numero di decimali). I due esempi propostinel seguito saranno utili a chiarire il senso di quanto appena detto.

Funzioni di frequenza

Per avere altri tipi di informazione sempre piu precisi ed esaurienti, si possono definirealtri indici statistici. Indicato con x il punto medio della generica classe, tali indicisono i seguenti:

— la funzione di frequenza, che associa ad ogni classe il numero degli elementi chela compongono; la indicheremo con ϕ(x);

— la funzione di frequenza relativa, che esprime il rapporto fra il numero deglielementi della classe ed il numero totale n di elementi del campione; indicatala con

ϕr(x), si ha dunque ϕr(x) ´ ϕ(x)n ;

— la funzione di frequenza cumulativa, cioe il numero degli elementi della classe e

68

Page 71: Lezioni di STATISTICA MATEMATICA

delle classi precedenti; sara rappresentata da ϕc(x);

— la funzione di frequenza cumulativa relativa, ovvero il rapporto tra il numerodegli elementi dato dalla frequenza cumulativa e il numero totale n di elementi del

campione; denotata con ϕcr(x), si ha percio ϕcr(x) ´ ϕc(x)n .

Rappresentazioni grafiche

Nella statistica descrittiva la rappresentazione grafica dei dati riveste un ruolo moltoimportante, in quanto serve a fornire in modo immediato una descrizione del fenomenooggetto di studio. Gli strumenti disponibili sono diversi, piu o meno significativi, piuo meno adatti a seconda degli obiettivi che si intende conseguire mostrando in quelmodo i dati. Quelli piu matematici e significativi sono l’istogramma, il grafico abastoni e i poligoni di frequenza.

L’istogramma costituisce probabilmente lo strumento piu comune di rappresentazionedi dati statistici. Si ottiene nel modo seguente: prima si riportano sull’asse delleascisse le classi indicando per ciascuna il relativo punto di mezzo x; poi, in corrispon-denza di ciascuna classe, si disegna un rettangolo avente area proporzionale a ϕ(x) o,equivalentemente, a ϕr(x). Sull’asse delle ordinate si possono riportare i valori dellafunzione ϕ(x) oppure quelli di ϕr(x). Se poi si riportano nel grafico sia ϕ(x) cheϕr(x) (in opportuna scala), rispettivamente a sinistra e a destra del grafico, si ottieneil duplice obiettivo di poter leggere entrambi i valori.

Osservazione: Nell’istogramma della pagina che segue le classi hanno la stessa ampiezza, e

quindi i rettangoli hanno tutti la stessa base. Ovviamente cio non e piu vero se si considerano,

come peraltro e lecito, classi di diversa ampiezza.

Un grafico a bastoni e del tutto equivalente ad un istogramma, e si costruisce in ma-niera del tutto analoga. Per quanto riguarda poi i poligoni di frequenza, l’esempio chesegue permettera facilmente di capire come si costruiscono e qual e il loro significato.

Esempio 2.2.1 La tabella che segue riporta i pesi (in chilogrammi) di 50 studentesse, che per

brevita sono gia stati ordinati (in ordine crescente). Naturalmente, ogni numero e ripetuto

tante volte quante sono le studentesse aventi quel peso.

53 55 56 57 57 58 58 59 59 60

60 60 61 61 61 61 62 62 62 62

63 63 63 63 63 64 64 64 64 64

64 65 65 65 65 65 66 66 66 66

67 67 67 68 68 69 70 71 71 73

Dalla tabella si deduce immediatamente che il campo di variazione e [53,73]. Applicando poi

la formula di Sturges per determinare il numero ottimale di classi, si ha

nc = [1 + 1.443 lg 50] = [1 + 5.64] = 7 , e quindi ℓ = 207 ¼ 2.86 .

In base a quanto detto in precedenza, essendo l’unita di misura adottata un numero intero (i

chili), e conveniente che ℓ sia un intero dispari e che gli intervalli abbiano come punto medio

69

Page 72: Lezioni di STATISTICA MATEMATICA

un intero. Scegliamo dunque ℓ=3 e prendiamo gli intervalli di ampiezza 3 a partire da 52.5.

La tabella che segue riporta gli intervalli relativi a ciascuna classe, il loro punto di mezzo

x, il numero di elementi di ogni classe e le quattro funzioni di frequenza precedentemente

definite ϕ(x), ϕr(x), ϕc(x) e ϕcr(x).

Classi Punto x ϕ(x) ϕr(x) ϕc(x) ϕcr(x)

di pesi di mezzo

52.5¡ 55.5 54 2 0.04 2 0.04

55.5¡ 58.5 57 5 0.10 7 0.14

58.5¡ 61.5 60 9 0.18 16 0.32

61.5¡ 64.5 63 15 0.30 31 0.62

64.5¡ 67.5 66 12 0.24 43 0.86

67.5¡ 70.5 69 4 0.08 47 0.94

70.5¡ 73.5 72 3 0.06 50 1.00

Seguono nell’ordine l’istogramma, il grafico a bastoni, il poligono di frequenza ed il poligono

di frequenza relativa cumulativa.

70

Page 73: Lezioni di STATISTICA MATEMATICA

Osserviamo che, in un certo senso, il poligono di frequenza (primo grafico di questa pagina)

“rappresenta” la funzione densita della variabile aleatoria X sottostante al fenomeno stu-

diato; analogamente il poligono di frequenza cumulativa (secondo grafico) “rappresenta” la

funzione di distribuzione di X.

Esempio 2.2.2 La tabella che segue riporta le altezze (in centimetri) di 80 atleti, anche in

questo caso gia ordinati (in modo crescente). Si chiede di organizzare questi dati in classi

e di calcolarne le quattro funzioni di frequenza, rappresentando poi il tutto con una tabella

del tipo di quella dell’esercizio precedente.

160 162 164 165 167 168 168 169 169 170

170 171 171 172 172 172 172 173 173 174

174 174 175 175 175 176 176 176 177 177

177 177 178 178 178 178 178 178 179 179

179 179 179 179 179 180 180 180 180 181

181 181 181 182 182 182 182 182 183 183

184 184 185 185 186 186 187 187 188 189

190 190 191 192 192 193 194 197 199 201

71

Page 74: Lezioni di STATISTICA MATEMATICA

Dalla tabella si legge subito che il campo di variazione e [160,201]. Applicando poi la formula

di Sturges per determinare il numero ottimale di classi, si ha

nc = [1 + 1.443 lg 80] = [1 + 6.32] = 7 , e quindi ℓ = 417 ¼ 5.86

Volendo scegliere come ℓ un intero dispari, o si sceglie 5, che comporta poi di prendere nc=9,

oppure si sceglie 7, che comporta nc=6. Per non avere un numero di classi troppo piccolo,

scegliamo ℓ=5 e quindi nc = 9. I dati organizzati in classi portano dunque a questa tabella:

Classi di Punto x ϕ(x) ϕr(x) ϕc(x) ϕcr(x)

altezze di mezzo

158.5¡ 163.5 161 2 0.025 2 0.025

163.5¡ 168.5 166 5 0.063 7 0.088

168.5¡ 173.5 171 12 0.150 19 0.238

173.5¡ 178.5 176 19 0.237 38 0.475

178.5¡ 183.5 181 22 0.275 60 0.750

183.5¡ 188.5 186 9 0.113 69 0.863

188.5¡ 193.5 191 7 0.087 76 0.950

193.5¡ 198.5 196 2 0.025 78 0.975

198.5¡ 205.5 201 2 0.025 80 1.000

2.3 GRANDEZZE CHE SINTETIZZANO I DATI

Ci proponiamo ora di caratterizzare una distribuzione statistica, cioe un insieme didati xi, i = 1, 2, . . . , n, del tipo di quelli visti finora, attraverso misure che ne rias-sumano le principali proprieta. In tal modo si parla anche di misure di tendenzacentrale: si chiamano cosı alcune caratterizzazioni sintetiche della distribuzione cheservono a dare un’idea di dove la distribuzione sia collocata e quanto sia concentrata.

Media

Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama mediaaritmetica, o piu semplicemente media, delle osservazioni il numero

x =1

n

∑ni=1 xi .

Ai fini di collegare questa definizione a quella di media di una variabile casuale,osserviamo che in generale tra i dati xi ce ne sono di quelli che sono ripetuti piuvolte. Ebbene, supposto che gli xi distinti siano m (ovviamente m·n), indichiamoquesti numeri con z1, z2, . . . , zm. Denotata poi con αk la molteplicita (cioe il numerodi presenze) di zk, ovviamente con α1 + α2 + ¢ ¢ ¢+ αm=n, potremo scrivere

72

Page 75: Lezioni di STATISTICA MATEMATICA

x =1

n

∑ni=1 xi =

1

n

∑mk=1 αkzk =

∑mk=1

αknzk =

∑mk=1 pkzk .

Il numero pk=αkn

rappresenta la frequenza relativa del dato zk. Confrontando que-st’ultima espressione di x con la definizione di media di una variabile aleatoria finita,ne deduciamo che la media aritmetica appena definita altro non e che la media diuna variabile aleatoria che assume gli m valori zk con probabilita pk. La media x deidati xi puo dunque essere vista come la media di una variabile aleatoria X finita, cheassume i valori xi con probabilita uguali alla loro frequenza relativa nel campione,ossia

P (X=xi) = pi , pi =αin ,

essendo αi il numero di volte in cui ciascun xi e presente nel campione.

La variabile aleatoria X costituisce una rozza approssimazione della vera variabilealeatoria sottostante al problema. La media, che abbiamo appena definito, cosı comela mediana e la varianza che definiremo in seguito, sono indici coerenti con questaapprossimazione.

Ricordando le proprieta della media di una variabile aleatoria, si puo affermare che

— se ogni osservazione di un campione e letta in una scala diversa, ovvero se ogni datoe moltiplicato per una costante a, allora

ax = ax ;

— se (x1, x2, . . . , xn) e (y1, y2, . . . , yn) sono due serie di osservazioni di uno stessofenomeno, allora la media della somma e uguale alla somma delle medie, cioe

x+ y = x+ y ;

— se due osservazioni sono legate da una relazione funzionale del tipo y = a+ bx, cona e b costanti, allora

y = a+ bx .

Quando i dati sono forniti gia organizzati in classi, la media puo essere ugualmentecalcolata con la formula seguente:

x =1

n

nc∑

k=1

xk ϕ(xk) ,

dove xk e il punto medio dell’intervallo k¡esimo e ϕ(xk) fornisce, come abbiamo giavisto, il numero degli xi appartenenti alla classe k¡esima.

Osserviamo che questa formula puo essere utilizzata anche quando ci sono assegnatetutte le n osservazioni xi e la loro organizzazione in classi viene fatta da noi solosuccessivamente al fine di una rappresentazione piu sintetica dei dati. In tal caso lamedia cosı calcolata e una approssimazione, in generale molto buona, di quella vera(cioe di quella che si ottiene dalla definizione). Il vantaggio di quest’ultima formulasta nel fatto che, utilizzando le classi, e richiesto un numero molto minore di calcoli.

73

Page 76: Lezioni di STATISTICA MATEMATICA

Mediana

Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama medianadelle osservazioni il valore “centrale” dell’insieme ordinato.

Quindi, a seconda che n sia pari o dispari, si ha

xmed =

xn+12

se n e dispari

1

2

(xn2+ xn

2+1

)se n e pari

.

Anche per la mediana, cosı come abbiamo fatto per la media, ci si puo porre il pro-blema di come determinarla quando i dati xi non sono noti individualmente in quantoforniti gia organizzati in classi. In questo caso, per poter definire operativamente lamediana, occorre introdurre alcune ulteriori notazioni.

Supposto che le classi si susseguano in ordine crescente, indichiamo con (λi−1, λi)l’intervallo associato alla classe i¡esima e con xi il suo punto medio. Allora ϕc(xi)denota il valore della funzione di frequenza cumulativa della classe i¡esima, cioeil numero complessivo di elementi contenuti nelle prime i classi. Chiamiamo classemediana, indicando con m il suo numero d’ordine, quella classe per cui

ϕc(xm)¸ n2 , con ϕc(xm−1)<

n2 .

Cio posto, la mediana xmed puo essere cosı definita:

xmed = λm−1 +n2 ¡ ϕc(xm−1)

ϕc(xm)¡ ϕc(xm−1)ℓ = λm−1 +

n2 ¡ ϕc(xm−1)

ϕ(xm)ℓ .

Osserviamo che xmed appartiene certamente alla classe mediana (cioe all’intervallo(λm−1, λm)) se ϕc(xm) > n

2, mentre si ha xmed = λm se ϕc(xm) = n

2(il che puo

accadere solo se n e pari).

Moda

Molto spesso i dati sono divisi in classi che non sono di tipo numerico (ad esempiosesso, gruppo sanguigno, professione, provincia di apppartenenza, etc...). In questocaso non ha alcun senso parlare di media o mediana, per cui puo tornare utile un’altramisura di tendenza centrale, valida per qualunque tipologia di dati. Questa misura,pero, non esiste per tutte le distribuzioni, ma solo per quelle unimodali. La figura chesegue mostra una distribuzione unimodale assieme a due multimodali.

74

Page 77: Lezioni di STATISTICA MATEMATICA

Definizione Si definisce moda di una distribuzione unimodale di dati il valore fraquesti piu ripetuto. La moda, che puo anche non essere unica, sara indicata conxmod.

Per definire la moda quando i dati sono forniti gia divisi in classe, occorre determinarepreliminarmente la classe modale, cioe la classe nella quale si trova la moda. Di solitola classe modale e quella in cui ϕ(x) e massima. Supposto che tale classe sia unica,se (λj−1, λj) e l’intervallo associato e xj il suo punto medio, la moda e cosı definita:

xmod = λj−1 +jϕ(xj)¡ ϕ(xj−1)j

jϕ(xj)¡ ϕ(xj−1)j+ jϕ(xj+1)¡ ϕ(xj)jℓ .

Se la classe modale non e unica, si hanno piu mode.

Ci si puo chiedere come sono disposte l’una rispetto all’altra le tre misure di tendenzacentrale che abbiamo definito (quando esistono tutte tre). Ebbene, disegnata la distri-buzione dei dati, la loro reciproca disposizione dipende dalla simmetria o asimmetriadi questo grafico. Supposto che la distribuzione sia unimodale (vedi figura), se il gra-fico e perfettamente simmetrico, allora media, mediana e moda coincidono. Se inveceil grafico e asimmetrico, allora la moda corriponde ovviamente al massimo del grafico,mentre media e mediana sono sempre disposte con la mediana piu vicina della mediaalla moda come nelle figure che seguono.

75

Page 78: Lezioni di STATISTICA MATEMATICA

Esempio 2.3.1 Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.1.

Per quanto riguarda la media, facendo uso della definizione, si ottiene

x =1

50

∑50i=1 xi =

1

50(53 + 55 + ¢ ¢ ¢+ 73) =

3163

50= 63.26 .

Se invece si calcola la media utilizzando le classi, indicato con xk il punto medio dell’intervallo

corrispondente alla k¡classe, si ha

x ¼ 1

50

nc∑

k=1

xkϕ(xk) =1

50(54¢2 + 57¢5 + 60¢9 + 63¢15 + 66¢12 + 69¢4 + 72¢3) =

=3162

50= 63.24 .

Come si vede, per quanto approssimato, il valore della media cosı ottenuto e molto prossimo

a quello corretto ottenuto in precedenza. Venendo alla mediana, il suo calcolo e immediato.

Infatti, essendo n=50, cioe pari, dalla tabella contenente i dati ordinati si legge che x25=63e x26=64. Si ha quindi

xmed =x25 + x26

2=

63 + 64

2= 63.5 .

Anche xmed puo essere calcolato utilizzando la formula per i dati organizzati in classi; in tal

caso si ottiene

xmed = λm−1 +n2 ¡ ϕc(xm−1)

ϕ(xm)ℓ = 61.5 +

25¡ 16

153 = 63.3 .

Per quanto riguarda invece la moda, si ha

xmod=64 ,

in quanto valore ripetuto piu di ogni altro. D’altra parte, se xmod e calcolata sulla base

dell’organizzazione in classi, essendo la classe modale quella di centro xj=63, si ha

xmod = 61.5 +j15¡ 9j

j15¡ 9j+ j12¡ 15j3 = 63.5 .

Esempio 2.3.2 Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.2.

Facendo uso della definizione per calcolare la media, si ottiene

x =1

80

80∑

i=1

xi =1

80(160 + 162 + ¢ ¢ ¢+ 201) =

14332

80= 179.15 .

Se invece calcoliamo la media utilizzando la formula per i dati organizzati in classi, abbiamo

x ¼ 1

80

nc∑

k=1

xkϕ(xk) =1

80(161¢2 + 166¢5 + 171¢12 + 176¢19 + 181¢22+

+ 186¢9 + 191¢7 + 196¢2 + 201¢2) = 14335

80¼ 179.19 .

76

Page 79: Lezioni di STATISTICA MATEMATICA

Anche in questo caso il valore della media ottenuto utilizzando la formula per le classi e

molto prossimo a quello corretto ottenuto in precedenza.

Per quanto concerne la mediana, dalla tabella dei dati ordinati, essendo x40 = x41 =179,

segue ovviamente xmed=179. Se poi si effettua il calcolo con la formula specifica per i dati

organizzati in classi, si ha

xmed = λm−1 +n2 ¡ ϕc(xm−1)

ϕ(xm)ℓ = 178.5 +

40¡ 38

225 ¼ 178.5 + 0.45 = 178.95 ,

che costituisce certamente un’ottima approssimazione di 179, che e il valore esatto di xmed.

Infine, dalla tabella dei dati, si ha xmod = 179. Facendo invece il calcolo sulla base dell’or-

ganizzazione dei dati in classi, otteniamo:

xmod = 178.5 +j22¡ 19j

j22¡ 19j+ j9¡ 22j5 ¼ 179.44 .

Abbiamo finora visto misure di tendenza centrale che servono ad individuare il“centro”della distribuzione. Cio pero non vuol dire sapere come i dati siano distribuiti intornoal centro. In certi casi i dati possono essere estremamente concentrati attorno a questovalore centrale, in altri possono essere estremamente sparsi. Torna quindi utile averedelle misure di dispersione. Ovviamente il caso limite di dispersione nulla si ha quandotutti i dati coincidono.

Il primo indice di dispersione e il campo di variazione o rango, che abbiamo gia definito.Questo intervallo ci da una prima, anche se spesso grossolana, idea di come stanno lecose. Ad esempio, se i dati riguardano le temperature di un giorno in una data citta,conoscere le temperature minima e massima puo essere gia utile. E pero evidente chequesto indice risente in maniera significativa di valori particolarmente alti o bassi.

Deviazione standard e varianza

La deviazione standard σ, o scarto quadratico medio, gia introdotta per una variabilecasuale come radice quadrata della varianza, e l’indice di dispersione probabilmentepiu usato. Nel caso di un campione di dati x1, x2, . . . , xn, la deviazione standard edefinita nel modo seguente:

σ =

√√√√ 1

n

n∑

i=1

(xi ¡ x)2 .

Anche la varianza σ2, definita come

σ2 =1

n

n∑

i=1

(xi ¡ x)2 ,

costituisce una misura di dispersione molto comune. Ad essa sono espressamenterivolti alcuni capitoli della statistica matematica.

Come la media x e la mediana xmed, anche σ puo essere associato alla variabile casualeX definita in precedenza come quella variabile casuale finita per la quale P (X=xi) e

uguale alla frequenza relativa di xi nel campione. Si ha infatti σ2=V ar(X).

77

Page 80: Lezioni di STATISTICA MATEMATICA

Le quantita (xi ¡ x) rappresentano gli scarti dalla media dei dati. Di qui il nome di“scarto quadratico medio” per σ e l’affermazione che la varianza e uguale alla mediadei quadrati degli scarti dalla media. Osserviamo che quando si fa la radice quadrataper ottenere la deviazione standard, si ritorna alla “dimensione” dei nostri dati.

Due formule molto importanti viste per la varianza sono le seguenti:

σ2aX+b = a2σ2X , σ2X = E(X2)¡ E2(X).

La prima formula torna utile quando ci sono dei cambiamenti di scala e/o delle tra-slazioni dei dati: se si moltiplicano tutti i dati per uno stesso fattore, allora anche ladeviazione standard risultera moltiplicata per lo stesso fattore; se invece si traslanotutti i dati, la deviazione standard non ne viene influenzata. Quest’ultimo fatto ri-sulta perfettamente comprensibile se si pensa al significato di questo indicatore comemisura di dispersione: importa solo la posizione dei dati xi rispetto alla media, e nonla dislocazione dell’insieme di questi dati sull’asse x.

La seconda formula ci permette invece la possibilita di calcolare la varianza (e quindila deviazione standard) anche in questo modo:

σ2 =1

n

n∑

i=1

x2i ¡ x2 .

Anche per il calcolo della varianza σ2 (e quindi della deviazione standard), se i datisono raggruppati in classi, si possono utilizzare i punti di mezzo xk degli intervalliassociati alle classi e le loro frequenze ϕ(xk). La formula che da σ2 (in modo appros-simato) e la seguente:

σ2 =1

n

nc∑

k=1

(xk ¡ x)2ϕ(xk) .

Deviazioni medie

Altri due indici di dispersione sono la deviazione media dalla media e la deviazione mediadalla mediana, che indichiamo rispettivamente con Dmed(x) e Dmed(xmed). Tali indicisono dati dalla media aritmetica delle differenze in valore assoluto rispettivamentedalla media x e dalla mediana xmed, ossia da

Dmed(x) =1

n

n∑

i=1

jxi ¡ xj , Dmed(xmed) =1

n

n∑

i=1

jxi ¡ xmedj .

Esempio 2.3.3 Calcoliamo la varianza, la deviazione standard e le deviazioni mediedalla media e dalla mediana dei dati dell’esempio 2.2.1.

Calcoliamo la varianza utilizzando la relazione σ2X = E(X2) ¡ E2(X), sapendo che x =63.22 (vedi esempio 2.3.1):

σ2 =1

n

n∑

i=1

x2i ¡ x2 =1

50

50∑

i=1

x2i ¡ (63.26)2 ¼ 17.13 .

78

Page 81: Lezioni di STATISTICA MATEMATICA

A questo punto per avere la deviazione standard basta calcolare la radice quadrata di σ2:

σ =p17.02 ¼ 4.14 .

Il calcolo della varianza poteva essere semplificato mediante la formula che utilizza i punti

di mezzo delle classi e le loro frequenze. In questo modo si ottiene:

σ2 ¼ 1

n

nc∑

k=1

(xk ¡ x)2ϕ(xk) =1

50

7∑

k=1

(xk ¡ 63.22)2ϕ(xk) = (54¡ 63.22)2 ¢2+

+ (57¡ 63.22)2 ¢5 + (60¡ 63.22)2 ¢9 + (63¡ 63.22)2 ¢15 + (66¡ 63.22)2 ¢12++ (69¡ 63.22)2 ¢4 + (72¡ 63.22)2 ¢3 ¼ 18.30 ,

da cui σ ¼ 4.28. Di qui si vede come la formula basata sulla suddivisione in classi, essendo

ovviamente la distribuzione che ne deriva piu grossolana rispetto a quella dei dati di partenza,

fornisca (in questo caso) un valore della deviazione standard con un errore di circa il 3.6%.

Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dall’esempio

2.3.1 che xmed=63.5):

Dmed(x) =1

n

n∑

i=1

jxi ¡ xj =1

50

50∑

i=1

jxi ¡ 63.22j = 3.26 ;

Dmed(xmed) =1

n

n∑

i=1

jxi ¡ xmedj =1

50

50∑

i=1

jxi ¡ 63.5j = 3.26 .

I calcoli sono ovviamente stati fatti con un programma di calcolo.

Esempio 2.3.4 Calcoliamo la varianza, la deviazione standard e le deviazioni mediedalla media e dalla mediana dei dati dell’esempio 2.2.2.

Procedendo come nell’esempio precedente, essendo ora x = 179.15 e xmed = 179 (vedi

esempio 2.3.2), si ha

σ2 =1

80

80∑

i=1

x2i ¡ (179.15)2 ¼ 67.05 , da cui σ =p67.05 ¼ 8.19 .

Se poi si effettua il calcolo (approssimato) mediante la formula che usa i punti di mezzo degli

intervalli delle classi, si ha

σ2 ¼ 1

n

nc∑

k=1

(xk ¡ x)2ϕ(xk) ¼ 68.90 , da cui σ ¼ 8.30 ,

con un errore su σ di poco superiore all’1%. Calcoliamo infine le deviazioni medie dalla

media e dalla mediana (sapendo dall’esempio 2.3.1 che xmed=63.5):

Dmed(x) =1

n

n∑

i=1

jxi ¡ xj =1

80

80∑

i=1

jxi ¡ 179.15j ¼ 6.24 ;

Dmed(xmed) =1

n

n∑

i=1

jxi ¡ xmedj =1

80

80∑

i=1

jxi ¡ 179j ¼ 6.22 .

Come per l’esempio precedente, i calcoli sono stati fatti con un programma di calcolo.

79

Page 82: Lezioni di STATISTICA MATEMATICA

Esercizio 2.3.5 Calcolare la media, la mediana, lo scarto quadratico medio e le deviazioni

medie dalla media e dalla mediana dei seguenti dati:

46 31 1 33 2 44 66 8 54 99 92 98 69 50

Innanzitutto ordiniamo i 14 dati in senso crescente:

1 2 8 31 33 44 46 50 54 66 69 92 98 99

Calcoliamo la media:

x =1

14(1 + 2 + 8 + ¢ ¢ ¢+ 98 + 99) =

693

14= 49.5 .

Per quanto riguarda la mediana abbiamo

xmed =x7 + x8

2=

46 + 50

2= 48 .

Dovendo poi calcolare lo scarto quadratico medio, ci serve la varianza:

σ2 =1

14

(12 + 22 + 82 + ¢ ¢ ¢+ 982 + 992)¡ (49.5)2 = 1019.25 ,

da cui

σ =p1018.25 ¼ 31.93 .

Infine

Dmed(x) =1

14

14∑

i=1

jxi ¡ 49.5j = 363

14¼ 25.93 ;

Dmed(xmed) =1

14

14∑

i=1

jxi ¡ 47j = 363

14¼ 25.93 .

Il fatto che queste due ultime medie siano uguali ha una facile spiegazione geometrica:

quando i dati sono in numero pari e anche la media e compresa fra i due dati di mezzo(cioe xn

2e xn

2+1), si ha sempre Dmed(x) = Dmed(xmed).

Esercizio 2.3.6 Calcolare la media, la mediana e le deviazioni medie dalla media e dalla

mediana dei dati dell’esercizio precedente sostituendo 91 a 1.

Sostituito il numero 1 con 91 il nuovo campione ordinato e il seguente:

2 8 31 33 44 46 50 54 66 69 91 92 98 99 .

Calcoliamo la nuova media e la nuova mediana

x =1

14(2 + 8 + 31 + ¢ ¢ ¢+ 98 + 99) =

783

14¼ 55.93 ;

xmed =x7 + x8

2=

50 + 54

2= 52 .

Calcoliamo ora le due deviazioni medie:

Dmed(x) =1

14

∑14i=1 jxi ¡ 55.93j ¼ 25.63 ;

80

Page 83: Lezioni di STATISTICA MATEMATICA

Dmed(xmed) =1

14

∑14i=1 jxi ¡ 52j = 355

14¼ 25.36 .

Si puo verificare che ora, essendo x esterno all’intervallo [x7, x8] (di cui la mediana e il punto

medio), Dmed(x) e Dmed(xmed) sono diversi.

Esercizio 2.3.7 Uno studente di ingegneria ha sostenuto 16 esami, ciascuno dei quali con

un dato numero di crediti formativi. I voti riportati dallo studente, ciascuno con a fianco il

numero dei crediti relativi a quell’esame, sono i seguenti:

28 (6) 21 (8) 22 (5) 24 (6) 24 (8) 25 (4) 25 (6) 26 (8)27 (5) 27 (4) 27 (6) 19 (10) 28 (5) 29 (7) 30 (8) 30 (4)

Si chiede di calcolare: a) la media, la mediana e la deviazione standard dei voti; b) la

media, la mediana e la deviazione standard dei crediti; c) la media ponderata dei voti

assumendo come pesi i crediti.

a) Ordiniamo innanzitutto i 16 voti. Si ha

19 21 22 24 24 25 25 26 27 27 27 28 28 29 30 30Indicati con v1, v2, . . . , v16 i voti cosı ordinati e con v, vmed e σv rispettivamente la media,

la mediana e la deviazione standard, abbiamo

v =1

16

16∑

i=1

vi =412

16= 25.75 ; vmed =

v8 + v92

= 26.5 ;

σv =

(1

16

16∑

i=1

(vi ¡ 25.75)2

) 12

¼ 3.07 .

b) Ordiniamo anche i crediti:

4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10Indicati con c1, c2, . . . , c16 i crediti cosı ordinati e rispettivamente con c, cmed e σc le relative

media, mediana e deviazione standard, abbiamo

c =1

16

16∑

i=1

ci =100

16= 6.25 ; cmed =

c8 + c92

= 6 ;

σc =

(1

16

16∑

i=1

(ci ¡ 6.25)2

) 12

¼ 1.71 .

c) Calcoliamo infine la media ponderata dei voti, vpond, assumendo come pesi i relativi

crediti. Riordinati i ci in modo che ci sia corrispondenza fra voti e crediti:

10 8 5 6 8 4 6 8 4 5 6 6 5 7 4 8

abbiamo

vpond =

∑16i=1 vi ¢ci∑16i=1 ci

= 25.38 .

81

Page 84: Lezioni di STATISTICA MATEMATICA

CAPITOLO 3: STATISTICA MATEMATICA

3.1 POPOLAZIONI E CAMPIONI

Definizione Si definisce popolazione un insieme i cui elementi hanno in comunealmeno una caratteristica (od attributo).

Esempi di popolazioni: gli ingegneri che si sono laureati in Italia dal 1950 al 1980; igiorni con vento superiore ai 100 Km/h a Trieste nel mese di aprile dal 1900 al 1999;gli italiani aventi diritto al voto per il senato alle elezioni politiche del 2001; i corpicelesti dell’universo; gli alberi passati e presenti di tutte le foreste del mondo.

Esempi di caratteristiche nel caso degli ingegneri: l’eta al momento della laurea; l’etaal momento del primo impiego come ingegnere; l’altezza; il peso; il sesso; il primostipendio; ecc.

Le popolazioni possono essere finite o infinite. In genere popolazioni molto numerosesono considerate infinite anche se non lo sono (ad esempio i corpi celesti dell’universo).

Ogni caratteristica della popolazione, nella maggior parte dei casi, viene misurata daun valore numerico per ciascuno degli N elementi che la compongono. Di conseguenzauno studio completo della popolazione implicherebbe un insieme di N numeri. Ingenere, pero, N e cosı grande da rendere impraticabile, per ovvi motivi, la misurazionedella caratteristica per l’intera popolazione. Ci si limita dunque a farlo solo per un suosottinsieme, spesso assai limitato, detto campione. Uno scopo delle ricerche statistichee quello di inferire (da cui il nome di inferenza statistica), cioe fare delle deduzioni odelle previsioni sulla popolazione mediante l’esame di un campione.

Matematicamente la caratteristica oggetto di studio e una variabile aleatoria X lacui distribuzione ci e piu o meno sconosciuta. In ogni caso la variabile casuale Xsottostante alla popolazione in questione avra una media ed una varianza, che nelseguito indicheremo semplicemente con µ e σ2, ossia

µ = µX = E(X) , σ2 = σ2X = V ar(X) .

Nel seguito ci riferiremo spesso a µ e σ2 come alla media e alla varianza della popo-lazione oggetto di indagine, sottintendendo ovviamente con cio µX e σ2X .

Definizione Si chiama campione casuale di dimensione n, estratto da una po-polazione avente X come variabile aleatoria sottostante, una variabile n-dimensio-nale (X1, X2, . . . ,Xn), con le Xi indipendenti e aventi la stessa distribuzione di X.

Quando si misura la caratteristica della popolazione limitandosi ad un campione didimensione n, si ottengono n misure x1, x2, . . . , xn: cio equivale ad una singola esecu-zione dell’esperimento rappresentato dalla variabile n-dimensionale (X1,X2, . . . , Xn)con risultato (x1, x2, . . . , xn).

Sul problema della scelta del campione, che nella pratica consiste nell’estrarre n ele-menti da un insieme di N , con n¿ N , ci limitiamo ad osservare l’importanza che ciovenga realmente fatto a caso e che esistono diverse tecniche utili allo scopo.

82

Page 85: Lezioni di STATISTICA MATEMATICA

3.2 STIMATORI

Sia (X1,X2, . . . ,Xn) un campione di una data popolazione la cui distribuzione e notain funzione di un parametro incognito θ. Uno degli obiettivi della statistica inferenzialee quello di stimare θ mediante una appropriata funzione dei risultati campionari xi.

Definizione Si definisce statistica una funzione g(X1,X2, . . . ,Xn) delle variabilicasuali Xi (e quindi, a sua volta, una variabile casuale) che non contiene parametri.

Definizione Si definisce stimatore una statistica che viene utilizzata per stimareun parametro incognito θ.

Sia f(X1, X2, . . . , Xn) = θ uno stimatore e (x1, x2, . . . , xn) un valore misurato del

campione. Ebbene, il valore θ = f(x1, x2, . . . , xn) e detto stima puntuale delparametro θ. E convenzione molto seguita quella di indicare le stime puntuali conl’accento circonflesso, ad esempio θ, σ2, . . . . Nel caso della media stimata, tuttavia,anziche con µ, si continuera ad indicarla con x, sia per conservare la notazione giausata nella Statistica descrittiva, sia per coerenza col fatto che la media verra stimatacon lo stimatore X che definiremo tra poco.

Definizione Uno stimatore T del parametro θ si dice corretto se la sua mediacoincide con θ medesimo, ossia: E(T ) = θ.

MEDIA CAMPIONARIA

Il problema statistico che si presenta piu frequentemente nelle applicazioni e il se-guente: supposte la media vera µ e la varianza vera σ2 ignote, si cerca di stimarle inmodo attendibile eseguendo un “gran” numero di esperimenti (ma non esageratamentegrande). La pratica corrente e quella di stimare µ calcolando la media aritmetica deivalori misurati (osservati) xi, cioe

x =1

n

∑ni=1 xi .

Volendo giustificare cio, osserviamo che x coincide col valore misurato della variabilealeatoria definita come media aritmetica delle n variabili aleatorie Xi.

Definizione Si chiama media campionaria di un campione (X1, X2, . . . ,Xn) lavariabile casuale X cosı definita:

X =1

n

n∑

i=1

Xi .

Teorema La media campionaria e uno stimatore corretto della media vera µ, ossia

E(X) = E(X) = µ .

Dimostrazione: Ricordando che E(Xi)=E(X)=µ, si ha

E(X) =1

n

n∑

i=1

E(Xi) =nµ

n= µ .

83

Page 86: Lezioni di STATISTICA MATEMATICA

Teorema La varianza della media campionaria vale quella di X diviso n, ossia

V ar(X) =1

nV ar(X) =

σ2

n.

Dimostrazione

V ar(X) =1

n2V ar

[ n∑

i=1

Xi

]=

∑ni=1 V ar(Xi)

n2=nσ2

n2=σ2

n.

I due teoremi appena visti ci dicono che la media campionaria X ha media coincidentecon la media µ della popolazione da cui proviene il campione e la sua dispersioneattorno a µ, misurata in termini di deviazione standard, e inversamente proporzionalealla radice quadrata della dimensione n del campione. Questo significa che al cresceredi n i valori delle corrispondenti medie campionarie tendono a concentrarsi semprepiu attorno al loro valore medio, che altri non e che la media della popolazione, moltospesso oggetto della nostra indagine statistica.

VARIANZA CAMPIONARIA

Definizione Si chiama varianza campionaria di un campione (X1, X2, . . . , Xn),n > 1, la variabile casuale S2 cosı definita

S2 =1

n¡ 1

n∑

i=1

(Xi ¡X)2 .

Lo stimatore S2 viene utilizzato per stimare la varianza σ2 di X (e l’esponente 2 checompare in S2 serve appunto a ricordarci questo). Il fatto che si usi questo stimatoreanziche

S2 =1

n

∑ni=1

(Xi ¡X)2 ,

come potrebbe apparire piu naturale, e dovuto al fatto che quest’ultimo non e unestimatore corretto, mentre S2 lo e. Si puo infatti dimostrare (cosa che non facciamo)che

E(S2) = σ2 , E(S2) =n¡ 1

nσ2 .

Dunque, volendo stimare la varianza vera σ2, lo faremo calcolando il numero

σ2 =1

n¡ 1

n∑

i=1

(xi ¡ x)2 .

Di qui si ottiene anche la stima σ della deviazione standard:

σ =pσ2 .

Osserviamo che in questo modo per stimare σ si e usato lo stimatore S =pS2, che

pero non e uno stimatore corretto in quanto si puo dimostrare che E(S) < σ. Per

questa ragione qualche volta puo essere conveniente utilizzare lo stimatore S =√S2,

per quanto anch’esso non corretto. Noi pero negli esempi che seguiranno faremosempre uso dello stimatore S (cioe calcoleremo sempre l’approssimazione σ).

84

Page 87: Lezioni di STATISTICA MATEMATICA

COVARIANZA CAMPIONARIA

Talvolta, per la stessa popolazione, sono oggetto di indagine due diverse caratteristi-che, per cui il campione casuale considerato e bidimensionale:

((Xi, Yi), i = 1, . . . , n

).

Cio comporta ovviamente che ci siano due variabili casuali X e Y sottostanti al nostroesperimento e che ciascuno degli n risultati (o osservazioni) consista in una coppia dinumeri (xi, yi). Oltre all’interesse per ognuna delle due caratteristiche, e quindi deidue campioni (X1,X2, . . . ,Xn) e (Y1, Y2, . . . , Yn) presi singolarmente, ci puo essere daparte dello sperimentatore anche l’interesse a capire se fra X e Y c’e qualche formadi dipendenza lineare o, detto altrimenti, qualche forma di correlazione. A tal fineoccorre stimare la covarianza σX,Y della variabile congiunta (X, Y ), il che puo esserefatto utilizzando lo stimatore definito come segue:

Definizione Si chiama covarianza campionaria del campione((Xi, Yi), i = 1, . . . , n

),

la variabile aleatoria

SX,Y =1

n¡ 1

n∑

i=1

(Xi ¡X)(Yi ¡ Y ) .

La covarianza vera σX,Y viene dunque cosı stimata:

σX,Y ¼ σX,Y =1

n¡ 1

n∑

i=1

(xi ¡ x)(yi ¡ y) =1

n¡ 1

(n∑

i=1

xiyi ¡1

n

( n∑

i=1

xi

)( n∑

i=1

yi

)).

Nella formula x e y sono ovviamente le medie aritmetiche degli xi e degli yi (e quindi ivalori osservati delle due medie campionarie “marginali” X e Y ). L’espressione alter-nativa data per ultima di σX,Y , che si ottiene con semplici manipolazioni algebriche,puo essere comoda se il calcolo e fatto con una calcolatrice tascabile delle piu semplici.

Come gia visto nel x 1.6, per vedere se fraX e Y c’e una qualche correlazione, piuttostoche utilizzare la covarianza, conviene far ricorso al coefficiente di correlazione ρX,Y .Ricordandone la definizione gia data, e denotate con σX e σY le stime delle deviazionistandard di X e Y , tale coefficiente puo essere stimato nel modo seguente:

ρX,Y ¼ ρX,Y =σX,YσX σY

.

Esempio 3.2.1 20 lanci di due dadi (di colore diverso per distinguere l’ordine dei risultati)

hanno dato per risultato le seguenti coppie numeriche (xi, yi):

xi : 4 5 3 2 2 5 3 4 6 6 4 5 3 3 4 1 5 4 2 1

yi : 2 2 2 3 6 4 4 1 6 1 4 1 5 5 3 1 4 1 2 1

Si considerino poi le coppie (ai, di), con ai = xi+yi e di = xi¡yi, e (xi, zi), con zi = 2xi.Si chiede di calcolare:

a) le medie x, y, a, d e z;

b) le varianze σ2X , σ2Y , σ2A, σ

2D e σ2Z ;

c) le deviazioni standard σX , σY , σA, σD e σZ ;

d) le covarianze σX,Y , σA,D e σX,Z ;

e) i coefficienti di correlazione ρX,Y , ρA,D e ρX,Z .

85

Page 88: Lezioni di STATISTICA MATEMATICA

Facendo i calcoli (nel nostro caso con un programma specifico fatto all’uopo) si ottengono i

seguenti risultati:

a) x = 3.6 , y = 2.9 , a = 6.5 , d = 0.7 , z = 7.2 ;

b) σ2X ' 2.25 , σ2Y ' 3.04 , σ2A ' 5.74 , σ2D ' 4.85 , σ2Z ' 9.01 ;

c) σX ' 1.50 , σY ' 1.74 , σA ' 2.40 , σD ' 2.20 , σZ ' 3.00 ;

d) σX,Y ' 0.221 , σA,D ' ¡0.789 , σX,Z ' 4.505 ;

e) ρX,Y ' 0.084 , ρA,D ' ¡0.149 , ρX,Z = 1 .

Nota Le covarianze vere valgono: σX,Y = σA,D = 0 e σX,Z = σX¢σZ . Infatti le variabili

casuali X e Y sono chiaramente indipendenti, A e D sono fortemente dipendenti ma non

correlate, mentre X e Z sono linearmente dipendenti (i dati stanno sulla retta z = 2x) e

quindi con covarianza massima.

3.3 DISTRIBUZIONI CHI-QUADRO E DI STUDENT

Vediamo ora due distribuzioni campionarie di notevole importanza in Statistica, en-trambe collegate alla distribuzione normale.

Definizione Date n variabili aleatorie Xi normali standardizzate indipendenti, lavariabile aleatoria somma dei loro quadrati e detta chi-quadro (o chi-quadrato)con n gradi di liberta ed e indicata con χ2n. Si ha dunque

χ2n =n∑

i=1

X2i , Xi ' N(0, 1) .

Una distribuzione χ2n ha una funzione densita f(x) che e nulla per x< 0 e con l’an-damento mostrato in figura per x¸ 0 (per n = 2, 4, 6, 8, 10). Per n piccolo f(x) hail picco vicino all’origine, ed e sempre piu dispersa e sempre piu simmetrica per ngrande.

86

Page 89: Lezioni di STATISTICA MATEMATICA

Dalla definizione di χ2n segue immediatamente che, se (X1,X2, . . . ,Xn) e un campionecasuale estratto da una popolazione distribuita normalmente con media µ e varianza σ2,allora la variabile aleatoria

Z2 =n∑

i=1

(Xi ¡ µσ

)2

segue una distribuzione χ2n. Si puo poi dimostrare che la varianza campionaria S2 eproporzionale ad una distribuzione chi-quadro con n-1 gradi di liberta. Piu precisamentesi ha

n¡ 1

σ2S2 ' χ2n−1 .

Definizione Se Z e una variabile aleatoria normale standardizzata e χ2n e unavariabile aleatoria chi-quadro con n gradi di liberta, se Z e χ2n sono indipendenti,allora la variabile aleatoria

Tn =Z√χ2n/n

segue una distribuzione t di Student con n gradi di liberta.

Come per la funzione densita della χ2n, anche nel caso di Tn non riportiamo esplici-tamente la funzione densita, limitandoci a mostrarne i grafici per n = 1, 6, 20, 120. Eimportante osservare come per n grande la distribuzione di Student tenda alla nor-male standardizzata. Gia a partire da n = 30 i valori di Tn sono ben approssimati daquelli di N(0, 1).

Alla fine sono riportate due tavole delle distribuzioni χ2n e Tn con i valori piu signi-ficativi ai fini delle applicazioni. In analogia con una terminologia gia introdotta perla distribuzione N(0, 1), le soluzioni xα e tα delle equazioni

P[χ2n · xα

]=α e P

[Tn · tα

]=α

saranno chiamate quantili relativi ad α (rispettivamente della distribuzione χ2n e delladistribuzione di Student Tn). Nel seguito, per brevita, scriveremo le due equazioniprecedenti utilizzando i simboli χ2n e Tn per indicare le funzioni distribuzione anzichele variabili casuali. Si scrivera quindi

χ2n(xα)=α e Tn(tα)=α .

87

Page 90: Lezioni di STATISTICA MATEMATICA

3.4 INTERVALLI DI FIDUCIA (o CONFIDENZA)

Come abbiamo gia detto, uno stimatore e una variabile aleatoria che serve per stimareun parametro incognito θ della nostra popolazione. Ovviamente i parametri che ciinteressa maggiormente stimare sono la media µ e la varianza σ2. In questo ambito diproblemi, un esempio di domanda molto comune e la seguente: dato un campione,quale intervallo del tipo (x¡ δ, x+ δ) conterra la media incognita µ con probabilitadel 95%? oppure del 99%? Di qui nasce la definizione che segue.

Definizione Si definisce intervallo di fiducia (o confidenza) di livello 100(1¡α)%per il parametro θ un intervallo (θ1, θ2) tale che

P (θ1 · θ · θ2) = 1¡ α ,con θ1= f1(X1, X2, . . . , Xn) e θ2= f2(X1,X2, . . . , Xn) variabili aleatorie funzionedel campione casuale.

In genere interessano piccoli valori di α; tipicamente α = 0.05 oppure α = 0.01. Illivello di fiducia nei due casi e quindi il 95% per α=0.05, il 99% per α=0.01.

Se P (θ<θ1) = P (θ>θ2) =α2 , l’intervallo di fiducia e detto bilaterale simmetrico

(omettendo pero spesso l’attributo simmetrico). Se poi si ha P (θ > θ2) = α oppureP (θ<θ1) = α, allora l’intervallo e detto unilaterale, sinistro o inferiore nel primocaso, destro o superiore nel secondo. Nel seguito quasi tutte le stime propostesaranno per intervalli bilaterali.

Eseguito l’esperimento, mediante il valore misurato (x1, x2, . . . , xn) del campione siricava l’intervallo numerico (θ∗1 , θ

∗2), θ

∗1 = f1(x1, x2, . . . , xn), θ

∗2 = f2(x1, x2, . . . , xn),

che costituisce una stima per intervalli del parametro θ al livello di fiducia 100(1¡α)%.

Nota: Spesso, nel seguito, per semplicita si dira “al livello di fiducia 1¡α”.

3.5 STIMA DELLA MEDIA DI UNA POPOLAZIONE NORMALE

In questo paragrafo descriviamo i metodi per stimare la media µ di una popolazione chesupporremo avere una distribuzione normale. Tali metodi, ovviamente solo per una popo-lazione normale, nella pratica corrente sono usati con maggior generalita, supportatiin cio, quando la dimensione del campione e sufficientemente grande, dal Teorema diLimite Centrale.

La stima per intervalli di fiducia della media µ di una popolazione normale viene oraaffrontata considerando separatamente il caso in cui la varianza σ2 e nota (anche sepoco frequente) e quello in cui e incognita.

a) caso di varianza nota

Come abbiamo gia detto, lo stimatore che si usa per la media di una popolazione ela media campionaria X . Sappiamo anche che

E(X) = µ , V ar(X) =σ2

n.

88

Page 91: Lezioni di STATISTICA MATEMATICA

Inoltre, si puo dimostrare che, essendo la popolazione distribuita normalmente, ancheX e normale. Di conseguenza la variabile casuale

Z =X ¡ µσ/pn

segue la distribuzione normale standardizzata, le cui probabilita possono essere de-sunte dalle tabelle statistiche della densita normale Φ(x). Diamo innanzitutto la stimaper intervalli bilaterali (simmetrici). A tal fine andiamo a determinare il quantile su-periore uα

2, cioe la soluzione dell’equazione

Φ(u) = 1¡ α

2,

ed essendo Φ(¡uα2) = 1¡ Φ(uα

2) = α

2 , l’intervallo[¡uα

2, uα

2

]e tale che

P(¡uα

2· Z · uα

2

)= P

(X ¡ σp

nuα2· µ · X +

σpnuα2

)= 1¡ α .

Di conseguenza l’intervallo bilaterale[X ¡ σp

nuα2, X +

σpnuα2

],

che e aleatorio in quanto e tale il suo punto centrale X, contiene con probabilita 1¡αil valore vero µ. Eseguito l’esperimento, l’intervallo osservato si ottiene dall’intervalloaleatorio sostituendo alla media campionaria X la media aritmetica x dei valori osser-vati negli n esperimenti. Useremo quindi l’intervallo osservato per dare una stima di µdi livello di fiducia 1¡α:

µ 2[x¡ σp

nuα2, x+

σpnuα2

].

Osserviamo che, se cresce il numero n degli esperimenti, l’ampiezza dell’intervallodiminuisce, e dunque la stima si fa piu informativa: fare esperimenti e costoso, ma poi“ripaga”. Tuttavia, osserviamo anche che, poiche l’ampiezza dell’intervallo diminuiscein modo inversamente proporzionale a

pn, il vantaggio che si ottiene aggiungendo via

via nuovi dati diventa gradualmente sempre meno significativo. D’altra parte, seaumenta il grado di fiducia, diminuisce α e il quantile u cresce; di conseguenza crescel’ampiezza dell’intervallo e quindi la stima diventa meno informativa.

89

Page 92: Lezioni di STATISTICA MATEMATICA

Diamo ora anche le due stime per intervalli unilaterali. Per ottenerla si deve risolverel’equazione Φ(u) = 1¡α , determinando cosı il quantile uα tale che

P(Z·uα

)= P

(Z¸¡uα

)= 1¡ α ,

o, equivalentente,

P(µ ¸ X¡ σp

nuα

)= P

(µ · X+

σpnuα

)= 1¡ α .

Gli intervallo aleatori, rispettivamente destro e sinistro,[X¡ σp

nuα , +1

)e

(¡1 , X+

σpnuα

]

contengono la media µ con probabilita 1¡α, e quindi rappresentano la stima cercatadi µ mediante intervalli unilaterali al livello di fiducia 1¡α. Naturalmente, una voltaeseguito l’esperimento, tali intervalli saranno approssimati con

[x¡ σp

nuα , +1

)e

(¡1 , x+

σpnuα

]

Esempio 3.5.1 Per determinare la durata del cambio di un’auto vengono scelti casualmente

200 cambi dalla produzione, che supponiamo distribuita normalmente con scarto tipo uguale

a 4000 km. Essi vengono testati finche presentano un difetto serio. Se la durata media

dei 200 cambi sottoposti a test e 50000 km, quali sono gli intervalli di fiducia bilaterali e

unilaterali sinistri della durata media dell’intera produzione al 95%, al 97.5% e al 99% ?

I dati sono: n= 200 , x= 50000 , σ = 4000 . Osservato che i livelli di fiducia richiesti

corrispondono nell’ordine ad α=0.05, 0.025 e 0.01, indicando con uα2

il valore per cui

Φ(uα2) = 1¡ α

2 ,

abbiamoΦ(u0.0250) = 0.9750 =) u0.0250 ' 1.96 ,

Φ(u0.0125) = 0.9875 =) u0.0125 ' 2.24 ,

Φ(u0.0050) = 0.9950 =) u0.0050 ' 2.57 .

Gli intervalli di fiducia bilaterali di livello 1¡α, sono dati da[x¡ σp

nuα2, x+

σpnuα2

].

Essendo σ/pn ¼ 282.84, si ha

α = 0.050 =) µ 2 [50000¡ 555, 50000 + 555] = [49445, 50555]

α = 0.025 =) µ 2 [50000¡ 634, 50000 + 634] = [49366, 50634]

α = 0.010 =) µ 2 [50000¡ 727, 50000 + 727] = [49273, 50727] .

Per quanto riguarda invece i corrispondenti intervalli unilaterali sinistri, procedendo analo-

gamente, e mettendo 0 anziche ¡1 come estremo sinistro degli intervalli (si tratta della

durata di un cambio, che ovviamente non puo essere negativa), si ottiene

α = 0.050 =) µ 2 (0 , 50000 + 464] = (0 , 50464]

α = 0.025 =) µ 2 (0 , 50000 + 555] = (0 , 50555]

α = 0.010 =) µ 2 (0 , 50000 + 659] = (0 , 50659] .

I tre casi considerati evidenziano come all’aumentare del livello di fiducia, cioe alla richiesta

di maggior attendibilita della stima, aumenti l’ampiezza dell’intervallo.

90

Page 93: Lezioni di STATISTICA MATEMATICA

b) caso di varianza incognita

Supponiamo ora, come di norma accade nella pratica, che la varianza σ2 non sia nota.In tal caso si procede come nel caso precedente sostituendo a σ2 lo stimatore correttodella varianza campionaria

S2 =1

n¡ 1

n∑

i=1

(Xi ¡X)2 ,

e sostituendo poi alla variabile casuale Z la variabileX ¡ µS/pn, che si dimostra essere

una variabile di Student con n¡1 gradi di liberta. Posto quindi

Tn−1 =X ¡ µS/pn,

indicato con tα2il quantile superiore fornito dalla soluzione dell’equazione

P (Tn−1 · t) = 1¡ α

2,

o, equivalentemente, considerata la simmetria della distribuzione di Student, il quan-

tile tα2per cui P (Tn−1 · ¡t) =

α

2, si ha

P(X ¡ Sp

ntα2· µ · X +

Spntα2

)= 1¡ α .

Di conseguenza l’intervallo aleatorio

[X ¡ Sp

ntα2, X +

Spntα2

],

conterra con probabilita 1¡α la media vera µ. Utilizzandone il valore osservato da-remo una stima di µ di livello di fiducia 1¡α:

µ 2[x¡ σp

ntα2, x+

σpntα2

],

dove σ e il valore di S ottenuto dagli n esperimenti.

Osservazione 1: la non conoscenza della varianza della popolazione fa si che l’am-piezza dell’intervallo di fiducia per piccole dimensioni del campione (diciamo n¿ 30)risulti assai piu ampia di quella che si avrebbe se σ2 fosse nota.

Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la media quandola varianza non e nota, e sufficiente che del campione siano note la dimensione n, lamedia campionaria x e la varianza campionaria σ2 (in altre parole non e necessarioconoscere uno per uno gli n dati xi).

Esempio 3.5.2 Durante 8 prove su strada un prototipo di furgone ha consumato rispetti-

vamente 14,12,11,13,15,12,16,13 litri di gasolio per 100 km di percorrenza. Supponendo che

la distribuzione dei consumi segua approssimativamente la distribuzione normale, costruire

gli intervalli di fiducia al 95% e al 99% della media vera del consumo di quel prototipo.

91

Page 94: Lezioni di STATISTICA MATEMATICA

Calcoliamo la media e la varianza campionaria:

x =1

n

n∑

i=1

xi =106

8= 13.25 ;

σ2 =1

n¡ 1

n∑

i=1

(xi ¡ x)2 =19.5

7¼ 2.79 =) σ =

p2.79 ¼ 1.67 .

Come abbiamo appena visto, indicato con tα2

il quantile per cui si ha P (Tn−1 · tα2) =

1¡ α

2, l’intervallo di fiducia di livello 1¡α e il seguente:

[x¡ σp

ntα2, x+

σpntα2

].

Dalle tavole della distribuzione di Student (con 7 gradi di liberta) si ottiene:

T7(t0.025) = 0.975 =) t0.025 ' 2.365 =) µ 2 [11.85, 14.65] ,

T7(t0.005) = 0.995 =) t0.005 ' 3.499 =) µ 2 [11.18, 15.32] .

Esempio 3.5.3 Ripetere i calcoli dell’esercizio precedente con il campione che si ottiene ag-

giungendo ai dati precedenti i seguenti consumi ottenuti con 12 prove aggiuntive: 15,14,12,13,

11,16,14,15,12,14,12,13.

Calcoliamo la media e la varianza con il campione (ora di dimensione n=20) ottenuto con

l’aggiunta dei nuovi dati.

x =1

20

[106 +

20∑

i=9

xi

]=

106 + 161

20= 13.35 ;

σ2 =1

19

20∑

i=1

(xi ¡ x)2 =44.55

19¼ 2.35 =) σ =

p2.35 ¼ 1.53 .

Si ha quindi

T19(t0.025) = 0.975 =) t0.025 ' 2.093 =) µ 2 [12.63, 14.07] ,

T19(t0.005) = 0.995 =) t0.005 ' 2.861 =) µ 2 [12.37, 14.33] .

Confrontando queste stime con quelle dell’esempio precedente si puo osservare come, quando

la dimensione del campione e piccola, aumentandola le stime diventino molto migliori.

3.6 STIMA DELLA VARIANZA DI UNA POPOLAZIONE NORMALE

Affrontiamo ora il problema di fornire una stima della varianza di una popolazioneavente in prima approssimazione una distribuzione normale. Lo faremo utilizzandogli intervalli di fiducia e, come nel caso della media, le stime che otterremo sarannorigorose nel caso di una popolazione esattamente normale.

92

Page 95: Lezioni di STATISTICA MATEMATICA

Consideriamo dunque un campione (X1, X2, . . . , Xn) estratto da una popolazione nor-male avente media µ e varianza σ2. Abbiamo gia detto che la variabile aleatoria

V =n¡ 1

σ2S2 =

n∑

i=1

(Xi ¡Xσ

)2

segue una distribuzione χ2n−1. Indicato con x1 il valore per cui l’area alla sua sinistrasottesa dalla curva di densita di probabilita χ2n−1 vale α

2 e con x2 il valore per cuipure l’area alla destra vale α

2 (vedi figura), si ha

P[x1 · V · x2

]= 1¡ α .

Sostituendo V con la sua espressione si ottiene

P[x1 ·

n¡ 1

σ2S2 · x2

]= 1¡ α ,

da cui, con alcuni passaggi algebrici,

P[ (n¡ 1)S2

x2· σ2 · (n¡ 1)S2

x1

]= 1¡ α .

Possiano dunque affermare che, a livello di fiducia 1¡α, l’intervallo[ (n¡ 1)σ2

x2,(n¡ 1)σ2

x1

]

contiene la varianza vera σ2 della popolazione. Ricordiamo che σ2 denota la varianzacampionaria osservata e, per quanto precedentemante detto, x1 e x2 sono le soluzionidelle equazioni

χ2n−1(x1)=α

2, χ2n−1(x2)=1¡ α

2.

Osservazione 1: essendo x1 e x2 rispettivamente a denominatore del secondo estremoe del primo estremo dell’intervallo di fiducia cercato, x1 va calcolato per difetto ex2 per eccesso.

Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la varianza, delcampione e sufficiente conoscere la dimensione n e la varianza campionaria σ2 (equindi non e essenziale conoscere la media campionaria e tantomeno gli n dati xi).

Osservazione 3: se la media µ della popolazione fosse nota, allora si puo sostituireX con µ, avendo cosı a che fare con la variabile casuale

93

Page 96: Lezioni di STATISTICA MATEMATICA

V =

n∑

i=1

(Xi ¡ µσ

)2,

che segue la distribuzione χ2 con n (anziche n¡1) gradi di liberta. In questo caso,indicati con x1 e x2 le soluzioni delle equazioni

χ2n(x1)=α

2, χ2n(x2)=1¡ α

2,

e con s2 il valore osservato della somma∑

i(Xi ¡ µ)2, l’intervallo di fiducia per σ2 allivello considerato sarebbe [ s2

x2,s2

x1

].

Esempio 3.6.1 Un campione di dimensione 7 di una popolazione normale ha varianza

campionaria σ2=0.098. Si chiede di calcolarne gli intervalli di fiducia ai livelli 90% e 95%.

Supposto poi che gli stessi dati si riferiscano ad un campione di dimensione 36, si chiede di

calcolarne anche in questo caso gli intervalli di fiducia suddetti.

Per n=7, per α=0.10 ed α=0.05 abbiamo:

χ26(x1) = P[χ26 · x1

]= 0.050 =) x1 ¼ 1.63 ,

χ26(x2) = P[χ26 · x2

]= 0.950 =) x2 ¼ 12.60 ;

χ26(x1) = P[χ26 · x1

]= 0.025 =) x1 ¼ 1.23 ,

χ26(x2) = P[χ26 · x2

]= 0.975 =) x2 ¼ 14.45 .

Di conseguenza, gli intervalli di fiducia richiesti sono:

α = 0.10 =)[6 ¢ 0.098

12.6,6 ¢ 0.0981.63

]¼ [0.046, 0.361] ;

α = 0.05 =)[6 ¢ 0.098

14.45,6 ¢ 0.0981.23

]¼ [0.040, 0.479] .

Per n=36 si ha:

χ235(x1) = P[χ235 · x1

]= 0.050 =) x1 ¼ 22.46 ,

χ235(x2) = P[χ235 · x2

]= 0.950 =) x2 ¼ 49.81 ;

χ235(x1) = P[χ235 · x1

]= 0.025 =) x1 ¼ 20.56 ,

χ235(x2) = P[χ235 · x2

]= 0.975 =) x2 ¼ 53.21 .

In questo secondo caso gli intervalli di fiducia richiesti sono dunque i seguenti:

α = 0.10 =)[35 ¢ 0.098

49.81,35 ¢ 0.09822.46

]¼ [0.068, 0.153] ;

α = 0.05 =)[35 ¢ 0.098

53.21,35 ¢ 0.09820.56

]¼ [0.064, 0.167] .

94

Page 97: Lezioni di STATISTICA MATEMATICA

3.7 STIMA DELLA DIFFERENZA DELLE MEDIEDI DUE POPOLAZIONI NORMALI

Un problema che si pone spesso nella realta industriale, ma non solo, e quello diconfrontare le medie di due popolazioni, di solito per poter fare delle affermazioni conun certo grado di fiducia sulla loro differenza. L’obiettivo e una modifica del processoproduttivo al fine di migliorare il valore medio di una catteristica del prodotto.

Consideriamo dunque due campioni casuali (X1, X2, . . . , Xn) e (Y1, Y2, . . . , Ym), chesupporremo indipendenti, di dimensioni n ed m rispettivamente, estratti da due po-polazioni con media µ1 e varianza σ21 la prima, media µ2 e varianza σ22 la seconda. Ilmiglior estimatore per la differenza delle medie µ1¡µ2 e il seguente:

X ¡ Y =1

n

n∑

i=1

Xi ¡1

m

m∑

i=1

Yi .

Supposto che le due popolazioni abbiano una distribuzione normale, daremo una stima diµ1¡µ2 nei seguenti casi:

a) σ21 e σ22 sono note;

b) σ21 e σ22 non sono note, ma sono uguali;

c) σ21 e σ22 non sono note e non sono uguali.

a) Le varianze σ21 e σ22 sono note

Essendo i due campioni indipendenti, la varianza di X¡Y e data da

σ2∆ = σ2X−Y = σ2

X+ σ2

Y=σ21n

+σ22m,

e la variabile casuale Z cosı definita

Z =(X ¡ Y )¡ (µ1 ¡ µ2)

σ∆

e distribuita normalmente con media 0 e varianza 1. Riprendendo ora il quantilesuperiore uα

2, si puo scrivere

P(¡uα

2< Z < uα

2

)= P

(¡uα

2<

(X ¡ Y )¡ (µ1 ¡ µ2)σ∆

< uα2

)= 1¡ α ,

o, equivalentemente,

P((X ¡ Y )¡ σ∆ uα

2< µ1 ¡ µ2 < (X ¡ Y ) + σ∆ uα

2

)= 1¡ α .

Esplicitato il valore di σ∆, l’intervallo bilaterale che contiene µ1¡µ2 con probabilita1¡α quando le varianze σ21 e σ22 sono note, e dunque il seguente:

·(X ¡ Y )¡ uα

2

√σ21n

+σ22m, (X ¡ Y ) + uα

2

√σ21n

+σ22m

].

Eseguito l’esperimento, sostituendo i valori misurati x e y al posto delle corrispondentivariabili casuali X e Y , si ottiene una stima per µ1¡µ2 al livello di fiducia 100(1¡α)%.

95

Page 98: Lezioni di STATISTICA MATEMATICA

Esercizio 3.7.1 Due diversi tipi di guaine isolanti per cavi elettrici vengono testati per deter-

minare a che voltaggio cominciano a rovinarsi. Sottoponendo gli esemplari a livelli crescenti

di tensione si registrano i guasti alle tensioni seguenti:

Tipo X∣∣ 36 44 41 53 38 36 34 54 52 37 51 44 35 44

Tipo Y∣∣ 52 64 38 68 66 52 60 44 48 46 70 62

Supponiamo di sapere che il voltaggio tollerato dai cavi abbia distribuzione normale: con

media incognita µ1 e varianza σ21=40 per il tipo X, media µ2 e varianza σ22=100 per il tipo

Y. Si chiede di determinare: i) un intervallo bilaterale con il 95% di confidenza per µ1¡µ2;ii) un valore che permetta di affermare che µ1 ¡ µ2 gli e superiore con il 95% di confidenza.

i) Calcoliamo innanzitutto le medie x e y dei due campioni, che hanno dimensione rispet-

tivamente n=14 e m=12. Si ha

x =1

12

12∑

k=1

xk ¼ 42.78 y =1

14

14∑

k=1

yk ¼ 55.83

Come abbiamo appena visto dalla teoria, la stima di un intervallo di fiducia bilaterale al

livello 1¡α e la seguente:

·(x¡ y)¡ uα

2

√σ21n

+σ22m, (x¡ y) + uα

2

√σ21n

+σ22m

].

Essendo α = 0.005, si ha uα2= u0.025 ¼ 1.96 (come gia visto nell’esercizio 3.5.1). L’inter-

vallo di fiducia richiesto risulta dunque cosı stimato:[¡13.05¡ 1.96 ¢

p11.191 , ¡13.05 + 1.96 ¢

p11.191

]¼ [¡19.61,¡6.49] .

ii) La domanda e equivalente alla richiesta di determinare l’intervallo destro al livello di

fiducia 95%. Per quanto detto nel x 3.5, la stima di tale intervallo sara data da

[(x¡ y)¡ uα

√σ21n

+σ22m, +1

).

Essendo u0.05 ¼ 1.645 si ottiene[¡13.05¡ 1.65 ¢

p11.191 , +1

)¼ [¡18.53 ,+1) .

b) Le varianze σ21 e σ22 non sono note, ma possono ritenersi uguali

Posto σ2=σ21=σ22 , il problema e innanzitutto quello di ottenere una stima per σ2. I

due stimatori corretti per σ21 e σ22 sono rispettivamente

S21 =1

n¡ 1

n∑

i=1

(Xi ¡X)2 , S22 =1

m¡ 1

m∑

i=1

(Yi ¡ Y )2 .

Per un teorema enunciato in precedenza sappiamo che

n¡ 1

σ2S21 » χ2n−1 e

m¡ 1

σ2S22 » χ2m−1 .

96

Page 99: Lezioni di STATISTICA MATEMATICA

Inoltre, essendo le due distribuzioni indipendenti, anche le due chi-quadro ora scrittelo sono. Di conseguenza pure la loro somma ha una distribuzione di tipo chi-quadro,con un numero di gradi di liberta uguale alla somma di quelli delle due distribuzionidi partenza. Si ha cioe

n¡ 1

σ2S21 +

m¡ 1

σ2S22 » χ2n+m−2 .

Cio premesso, una migliore stima per σ2 e data dalla seguente ”pooled variance”(varianza ponderata):

S2p =(n¡ 1)S21 + (m¡ 1)S22

n+m¡ 2=

n¡ 1

n+m¡ 2S21 +

m¡ 1

n+m¡ 2S22 .

Essendo poi

σ2∆ = σ2X−Y =

σ21n

+σ22m

=( 1

n+

1

m

)σ2 ,

la miglior stima per σ2∆ e rappresentata da

S2∆ =( 1

n+

1

m

)S2p .

Ne consegue che la variabile casuale

T =(X ¡ Y )¡ (µ1 ¡ µ2)√

1

n+

1

mSp

segue una distribuzione di Student con n+m¡ 2 gradi di liberta. Indicando ora contα2il quantile superiore fornito dalla soluzione dell’equazione

P (Tn+m−2 · t) = 1¡ α

2,

si ha

P

[¡tα

2· (X ¡ Y )¡ (µ1 ¡ µ2)√

1

n+

1

mSp

· tα2

],

e quindi, operando con semplici passaggi algebrici, si ottiene

P[(X ¡ Y )¡ tα

2S∆ · µ1 ¡ µ2 · (X ¡ Y ) + tα

2S∆

]= 1¡ α .

Pertanto l’intervallo di fiducia all’(1 ¡ α)% per la differenza delle medie delle duepopolazioni e [

(X ¡ Y )¡ tα2S∆ , (X ¡ Y ) + tα

2S∆

].

Effettuato l’esperimento, la stima ottenuta per questo intervallo sara quindi[(x¡ y)¡ tα

2σ∆ , (x¡ y) + tα

2σ∆

],

con σ∆ dato, in virtu delle precedenti posizioni, da

σ∆ =

√( 1n+

1

m

) (n¡ 1)σ21 + (m¡ 1)σ22n+m¡ 2

=

=

√( 1n+

1

m

)∑ni=1(xi ¡ x)2 +

∑mi=1(yi ¡ y)2

n+m¡ 2.

97

Page 100: Lezioni di STATISTICA MATEMATICA

Osservazione. Spesso ci si trova nella situazione in cui la numerosita di un campionee molto maggiore dell’altro. In tal caso, supposto nÀ m, conviene stimare la varianzaincognita con l’estimatore

T =(X ¡ Y )¡ (µ1 ¡ µ2)

S1pm

.

Essendo poi n molto grande, e lecito supporre n +m ¡ 2> 30 , il che permette diapprossimare la distribuzione di Student con la distribuzione normale standardizzata.E quindi lecito utilizzare uα

2anziche tα

2. L’intervallo di fiducia precedentemente

trovato diventa quindi[(X ¡ Y )¡ uα

2

S1pm, (X ¡ Y ) + uα

2

S1pm

],

che sara poi stimato con[(x¡ y)¡ uα

2

σ1pm, (x¡ y) + uα

2

σ1pm

].

Esercizio 3.7.2 Un produttore di batterie dispone di due tecniche di fabbricazione differenti.

Due gruppi di batterie scelti a caso, 12 prodotte con la tecnica I e 14 con la tecnica II, sono

risultate avere le seguenti capacita (in ampere-ora):

Tecnica I∣∣ 140 136 138 150 152 144 132 142 150 154 136 142

Tecnica II∣∣ 144 132 136 140 128 150 130 134 130 146 128 131 137 135

Ipotizzando che le varianze delle due popolazioni siano uguali, si chiede di determinare: i)

un intervallo di confidenza al 90%, bilaterale, per la differenza delle medie; ii) un intervallo

unilaterale sinistro per µ1¡µ2 al livello di confidenza 95%.

i) Indicato con (X1, X2, . . . , X12) il campione relativo alla tecnica I, e con (Y1, Y2, . . . , Y14)quello relativo alla tecnica II, per cui n=12 e m=14, calcoliamo le loro medie misurate xe y. Si ha

x =1

14

14∑

k=1

xk = 143 y =1

12

12∑

k=1

yk ¼ 135.786

Come abbiamo appena visto dalla teoria, la stima dell’intervallo bilaterale al livello di fiducia

1¡α e la seguente: [(x¡ y)¡ tα

2σ∆ , (x¡ y) + tα

2σ∆

],

Dovendo calcolare σ∆ occorre prima calcolare la somma degli scarti quadratici. Si ha:

12∑

i=1

(xi ¡ x)2 = 556 ;

14∑

i=1

(yi ¡ y)2 = 622.357 .

Si ha quindi

σ∆ =

√( 1

12+

1

14

)∑12i=1(xi ¡ x)2 +

∑14i=1(yi ¡ y)2

24¼√

0.1548556 + 622.36

24¼ 2.757 .

98

Page 101: Lezioni di STATISTICA MATEMATICA

Essendo α = 0.10 ed avendo a che fare con la distribuzione di Student a 24 gradi di liberta

(n+m¡ 2=24), si ha tα2= t0.05 ¼ 1.711. L’intervallo di fiducia richiesto risulta dunque

cosı stimato:[(143¡ 135.79)¡ 1.71 ¢ 2.76 , (143¡ 135.79) + 1.71 ¢ 2.76

]¼[2.49, 11.93

].

ii) Determiniamo ora un intervallo unilaterale sinistro per µ1¡µ2 al livello di confidenza

95%. La stima di tale intervallo sara data da(¡1 , (x¡ y) + tασ∆

].

Essendo t0.05 ¼ 1.711 si ottiene(¡1 , (143¡ 135.79) + 1.71 ¢ 2.76

]¼ (¡1 , 11.93] .

c) Le varianze σ21 e σ22 non sono note, ne possono ritenersi uguali

In questo caso la variabile casuale da utilizzare per costruire l’intervallo di fiducia ela seguente:

Tℓ =(X ¡ Y )¡ (µ1 ¡ µ2)√

S21n

+S22m

,

dove Tℓ segue approssimativamente la distribuzione t di Student con ℓ gradi di liberta,con ℓ che si puo calcolare, ad esempio, con la formula di Smith-Satterthwaite:

ℓ =

( σ21n

+σ22m

)2

( σ21n

)2

n¡ 1+

( σ22m

)2

m¡ 1

¢

Si puo anche aggiungere il suggerimento di approssimare per difetto ℓ, il che corri-sponde ad una logica di tipo conservativo nell’esecuzione di un test d’ipotesi. Cer-chiamo di spiegare cosa significa questa affermazione, anche se richiede argomentazioniche risulteranno chiare solo piu avanti (x3.10). Supposto che l’approssimazione perdifetto dia ℓ=10 e che questa porti a rigettare l’ipotesi nullaH0, anche ℓ=11, compor-tando una regione di accettazione contenuta in quella relativa ad ℓ=10, implicherebbeil rigetto di H0. Il contrario non necessariamente vale.

Esercizio 3.7.3 Determinare l’intervallo di cui alla domanda i) dell’esercizio precedente nel-

l’ipotesi che le due varianze σ21 e σ21 non siano uguali.

L’intervallo richiesto e formalmente lo stesso dell’esercizio precedente con la differenza che

ora tα2

e determinato dalla distribuzione di Student ad ℓ gradi di liberta, con ℓ dato dalla

formula precedente, e

σ∆ =

√σ21n

+σ22m.

Calcoliamo innanzitutto σ21 e σ22 utilizzando i conti gia fatti nell’esercizio precedente.

99

Page 102: Lezioni di STATISTICA MATEMATICA

σ21 =1

n¡1

n∑

i=1

(xi¡x)2 =1

11

12∑

i=1

(xi¡143)2 =556

11¼ 50.545

σ22 =1

m¡1

m∑

i=1

(yi¡y)2 ¼1

13

14∑

i=1

(yi¡135.786)2 ¼ 622.78

13¼ 47.874 .

Si ha quindi

σ∆ ¼√

50.545

12+

47.874

14¼p4.212 + 3.420 ¼ 2.763 .

Calcoliamo ora la dimensione ℓ della distribuzione di Student. Abbiamo:

ℓ ¼

(50.54512

+47.874

14

)2

(50.54512

)2

11+

(47.87414

)2

13

¼(4.212 + 3.420)2

(4.1212)2

11+

(3.420)2

13

¼ 23.83

Siccome ℓ deve essere un intero, sembra naturale arrotondarlo assumendo cosı ℓ = 23.

Di conseguenza, avendo la distribuzione di Student lo stesso numero di gradi di liberta

dell’esercizio precedente ed essendo σ∆ praticamente lo stesso, anche l’intervallo risultera

praticamente lo stesso. Cio e probabilmente dovuto a due fatti concomitanti: sia le varianze

che le dimensioni dei due campioni differiscono di poco.

3.8 STIMA DI UNA PROPORZIONE

Consideriamo una popolazione di elementi, ognuno dei quali puo soddisfare oppure no,indipendentemente uno dall’altro, un dato requisito. Si vuole stimare la proporzionep dei membri della popolazione che posseggono il requisito in questione.

Considerato un campione casuale (X1, X2, . . . , Xn) di dimensione n, avremo

Xi =

1 se l’i¡esimo elemento del campione ha il requisito

0 se l’i¡esimo elemento del campione non ha il requisito .

Indicata quindi con Y =∑n

i=1Xi la variabile casuale che denota quanti elementidel campione posseggono il requisito, la statistica Y = Y/n da la proporzione delcampione con il requisito. Questa statistica, chiamata proporzione del campione, e ilnaturale stimatore per p. Essendo poi ciascuna Xi una variabile di Bernoulli, si haXi ' B(1, p) e quindi E(Y ) = np , V ar(Y ) = np q = n p (1¡ p).In virtu del teorema di limite centrale, Y e approssimativamente normale con mediap e varianza p(1¡p)/n, ossia

Y » N(p,p (1¡p)n

).

Cio, a sua volta, implicaY ¡ p√p(1¡p)/n

» N(0, 1) .

Volendo determinare un intervallo di fiducia per p di livello 1¡α, indicato come alsolito con uα

2il quantile della normale standardizzata tale che Φ

(uα2

)= 1¡ α

2 , si ha

100

Page 103: Lezioni di STATISTICA MATEMATICA

P[¡uα

2· Y ¡ p√

p(1¡ p)/n· uα

2

]¼ 1¡ α ,

da cui, isolando p nel mezzo della disuguaglianza, si ottiene

P[Y ¡ uα

2

√p(1¡ p)/n · p · Y + uα

2

√p(1¡ p)/n

]¼ 1¡ α .

Si e cosı ottenuta una regione che contiene p con livello di fiducia 1¡α. C’e peroun problema che incontriamo per la prima volta: gli estremi di un intervallo di fi-ducia debbono essere delle statistiche, cioe non debbono contenere alcun parametroincognito. In questo caso gli estremi contengono infatti il parametro p, per cui citroviamo nell’anomala situazione di tentare di usare p per stimare p. Il problemapuo pero facilmente essere superato stimando p con con l’estimatore Y . Indicatoquindi con p ´ y la stima puntuale di p ottenuta utilizzando Y , l’intervallo di fiducia(approssimato) per p al livello 1¡α e il seguente:

[p¡ uα

2

√p(1¡ p)/n , p+ uα

2

√p(1¡ p)/n

].

Esercizio 3.8.1 Un campione di 100 transistor viene estratto da una grossa fornitura e tes-

tato. In tutto 80 pezzi hanno i requisiti adeguati. Si chiede di determinare gli intervalli di

fiducia di livelli 95% e 99% per la percentuale p di transistor accettabili.

I quantili della normale standardizzata che interessano sono i seguenti:

u0.025 ' 1.96 , u0.005 ' 2.57 .

Essendo n=100 e p=0.80, si ha

livello 95% =) p 2 [0.80¡ 1.96√0.8 ¢ 0.2/100 , 0.80 + 1.96

√0.8 ¢ 0.2/100]

livello 99% =) p 2 [0.80¡ 2.57√

0.8 ¢ 0.2/100 , 0.80 + 2.57√

0.8 ¢ 0.2/100] .Gli intervalli di fiducia richiesti sono dunque approssimativamente i seguenti:

livello 95% =) p 2 [0.80¡ 0.0784 , 0.80 + 0.0784] = [0.7216 , 0.8784]

livello 99% =) p 2 [0.80¡ 0.1028 , 0.80 + 0.1028] = [0.6972 , 0.9028] .

Esercizio 3.8.2 Un sondaggio su un giornale riporta che il 52% della popolazione, con un

margine d’errore di §4%, e soddisfatto dell’operato dell’amministrazione. Cosa significa

cio? E possibile stabilire quante persone sono state intervistate?

E pratica comune per i mezzi d’informazione fornire intervalli di fiducia al 95%. Cio premesso,

l’intervallo di fiducia in questione, essendo p=0.52 e u0.975 ' 1.96, ed essendo non nota la

dimensione del campione, e approssimativamente il seguente:

p§ 1.96√p(1¡ p)/n = 0.52§ 1.96

√0.52 ¢ 0.48/n .

Siccome il margine d’errore e del 4%, cio significa che

1.96√0.52 ¢ 0.48/n ¼ 0.04 ,

da cui, tenendo conto che n e intero, si ricava n ¼ 599 .

101

Page 104: Lezioni di STATISTICA MATEMATICA

Un problema di un certo interesse concerne una stima della dimensione del campioneche permetta di ottenere un intervallo di fiducia per p al livello 1¡α non piu ampio diuna lunghezza d assegnata. Il problema puo presentarsi con queste due varianti: a)e disponibile a priori una stima puntuale p; b) una tale stima non e disponibile.

Caso a). L’ampiezza dell’intervallo di fiducia per p ha ampiezza

2uα2

√p(1¡ p)/n .

Si dovra quindi avere

2uα2

√p(1¡ p)/n · d ,

da cui

n ¸4u2α

2

d2p(1¡ p) .

Caso b). Siccome la funzione p(1¡p) ha come valore massimo 14 (assunto per p= 1

2),qualunque sia il valore di p, scegliendo

n =u2α2

d2,

sara sempre garantita un’ampiezza dell’intervallo non superiore a d.

Esercizio 3.8.3 Un’azienda produce circuiti integrati, ciascuno dei quali risulta accettabile

indipendentemente da tutti gli altri con probabilita incognita p. Si vuole ottenere un inter-

vallo di fiducia per p ad un livello 99%, la cui ampiezza sia approssimativamente 0.05. Si

raccoglie allora un primo campione di 30 chip, 26 dei quali risultano accettabili, fornendo

una prima, grossolana, stima puntuale di p, data da p= 2630 . Si chiede di determinare:

a) la dimensione n1 del campione che si ottiene utilizzando la stima p;

b) l’intervallo di fiducia utilizzando un campione di dimensione n1 ottenuto aggiungendo

n1¡30 chip a quelli gia verificati (fissando a piacere il numero dei chip accettabili);

c) determinare la dimensione n2 del campione necessaria a garantire un’ampiezza non

superiore a 0.05 se non fosse stata determinata preventivamente p.

a) Essendo u0.005 ¼ 2.58, si ha

n1 =4u2α

2

d2p(1¡ p) ¼ 4

2.582

0.05226

30

4

30¼ 1231 .

b) Dobbiamo dunque testare altri 1201 chip. Fra questi supponiamo che 1040 siano accet-

tabili. L’intervallo di fiducia che si ottiene e pertanto dato da

1066

1231§ 2.58

√1066

1231

165

1231

1

1231,

ovvero

(0.8409, 0.8910) .

c) Se non avessimo predeterminato (seppur grossolanamente) p, la dimensione n2 del cam-

pione atta a garantire l’ampiezza richiesta per l’intervallo di fiducia sarebbe stata

n2 =u2α2

d2¼ 2.582

0.052¼ 2663 .

Dunque, se non avessimo predeterminato una stima puntuale per p, per avere la certezza di

un intervallo di fiducia con l’ampiezza richiesta, avremmo dovuto adottare un campione di

dimensione piu che doppia!

102

Page 105: Lezioni di STATISTICA MATEMATICA

3.9 BASI LOGICHE DEI TEST

Ci poniamo questo problema: i tecnici di una ditta produttrice di nastri dichiarano diaver messo a punto un nuovo trattamento per il materiale utilizzato tale da rendere piuresistente il nastro, portandone il carico di rottura a trazione a 80 N. Come valutare laloro affermazione?

E chiaro che un qualunque controllo (test) va fatto su un campione e sulla base delrisultato si decide se la produzione deve continuare con le vecchie o con le nuovetecniche di trattamento del materiale. Il processo decisionale scelto e il seguente: siconsidera un campione casuale costituito di 49 nastri estratto dalla popolazione dei nastriprodotti col nuovo trattamento e si sottopone ciascuno di questi 49 nastri alla prova dirottura fatta con l’apposita attrezzatura. Se il carico di rottura medio osservato e inferiorea 78.5 N, la nuova tecnica viene rifiutata, mentre se risulta maggiore si ritiene dimostratala maggior resistenza e quindi accettata la nuova tecnica.

Indicata con x la media campionaria misurata del campione, sono possibili i seguenti4 casi:

1) x > 78.5N e il nuovo trattamento e effettivamente tale da rendere il nastro piuresistente. In questo caso l’accettazione della nuova tecnica e una scelta corretta.

2) x<78.5N benche il nuovo trattamento sia effettivamente tale da rendere il nastropiu resistente. In questo caso il rifiuto della nuova tecnica e una scelta sbagliata.Questo tipo di errore e detto errore o rischio di Ia specie.

3) x> 78.5N benche il nuovo trattamento non sia effettivamente tale da rendere ilnastro piu resistente. In questo caso l’accettazione della nuova tecnica e una sceltasbagliata. Questo tipo di errore e detto errore o rischio di IIa specie.

4) x< 78.5N e il nuovo trattamento non e effettivamente tale da rendere il nastropiu resistente. In questo caso il rifiuto della nuova tecnica e una scelta corretta.

Facendo delle ipotesi sulla distribuzione della popolazione e assumendo che la varianzadi questa distribuzione non cambi per effetto del nuovo trattamento, si possono valu-tare le probabilita degli errori di Ia e IIa specie.

Ipotizziamo dunque che nel problema considerato la distribuzione sia normale e chesi abbia σ2 = 21.4N2. Cio implica che la media campionaria X, relativa al nostrocampione di dimensione n=49, abbia media µ=µ0=80N (se i tecnici dicono il vero)

e deviazione standard σ=√

21.449 ' 0.661N .

103

Page 106: Lezioni di STATISTICA MATEMATICA

Il rischio di errore di Ia specie e rappresentato dall’area sottesa dalla curva normale asinistra del valore 78.5N (vedi figura), il che equivale alla probabilita che X per n=49sia minore di 78.5N . Indicata di nuovo con Z la media campionaria standardizzata,si ha

P [X < 78.5∣∣µ0 = 80] = P

[X ¡ µσ/pn<

78.5¡ µσ/pn

]= P

[Z <

78.5¡ 80

0.661

]'

' Φ(¡2.27) = 1¡ Φ(2.27) ' 0.012 .

Dunque, c’e una probabilita di poco superiore all’1% di commettere l’errore di Ia

specie, cioe di rifiutare l’affermazione fatta quando questa e vera.

Volendo valutare il rischio di IIa specie, occorresupporre che il carico di rottura medio vero perquel tipo di nastro non sia quello indicato daitecnici, ma un altro. Ipotizziamo dunque, adesempio, che sia 78N anziche 80N . In questocaso la media campionaria X avrebbe distribu-zione normale con media µ = µ1 = 78. Sup-ponendo che la deviazione standard rimanga lastessa, la probabilita dell’errore di IIa specie e

quella di avere delle medie di campioni di dimensione 49 maggiori di 78.5N .Calcoliamo tale probabilita, che e rappresentata dall’area evidenziata nella figura.

P [X > 78.5∣∣µ1 = 78] = P

[X ¡ µσ/pn>

78.5¡ µσ/pn

]= P

[Z >

78.5¡ 78

0.661

]'

' 1¡Φ(0.756) ' 0.225 = 22.5% .

In definitiva, avendo stabilito quel criterio decisionale, siamo riusciti a quantificare irischi di errore, cioe le probabilita di scelte errate a seconda della situazione vera chee e rimane ovviamente incognita. L’aver scelto una simile strategia per accettare orifiutare l’affermazione dei tecnici significa fare un test di ipotesi.

Rimane il dubbio che l’aver fissato il limite di 78.5N per quelle medie campionariepossa risultare troppo favorevole all’accettazione dell’affermazione fatta. Nella pratica,dovendo decidere se accettare oppure no l’ipotesi che la media (incognita) di una datapopolazione abbia un dato valore, si procede nel modo seguente: si stabilisce il rischio α dierrore di Ia specie ed in base ad esso si determina un intervallo; se la media campionariaosservata cade esternamente a tale intervallo, l’ipotesi viene rifiutata. Nel caso specificovisto in precedenza l’intervallo in questione e [78.5, +1) che corrisponderebbe, comeil calcolo fatto in precedenza mostra, ad un rischio α di Ia specie circa uguale a 0.012.

Il criterio descritto, cosı come formulato, e risolutivo solo nel caso di rifiuto. Se accet-tare o no l’ipotesi nel caso in cui la media osservata cada internamente all’intervallo,dipende da chi deve prendere la decisione e dai suoi obiettivi. Ovviamente, comenel caso del problema appena considerato, si puo anche decidere di accettarlo im-mediatamente. Oppure si puo decidere di fare ulteriori “verifiche” (ovviamente ditipo statistico). Ad esempio, si puo valutare anche il rischio di IIa specie assumendocome valore vero per la media campionaria un valore µ1<µ0 e decidere in base allaprobabilita di tale rischio se accettare oppure no H0. La scelta di un µ1 minore di µ0

104

Page 107: Lezioni di STATISTICA MATEMATICA

e ovviamente legata al fatto che il rischio di una scelta sbagliata si ha solo nel caso incui il valore vero di µ e minore di µ0.

3.10 FORMULAZIONE DI UN TEST DI IPOTESI

Molto spesso vengono formulate delle ipotesi di lavoro che riguardano un parametroθ di una popolazione. Per decidere se accettare oppure respingere una tale ipotesi cisi puo servire dei risultati di un test statistico, che puo essere formulato seguendo ipassi che seguono.

1) Definire l’ipotesi di lavoro, che chiameremo ipotesi nulla e indicheremo conH0.Nel caso piu semplice, e piu comune, cio sara fatto attribuendo al parametro θ unvalore θ0: H0 : θ=θ0.

Ad esempio, se il parametro sotto indagine e la media, si pone µ=µ0, essendo µ0 un valore

prefissato; se invece il parametro e la varianza, si pone σ2 = σ20 , con σ20 valore prefissato.

L’indagine potrebbe riguardare anche la differenza fra due medie µ1 e µ2: in tal caso si

ipotizza che µ1¡µ2=0, ossia che µ1=µ2. Si sono cosı individuati tre possibili ipotesi nulle:

H0 : µ=µ0 ; H0 : σ2=σ20 ; H0 : µ1=µ2). Nell’esempio del paragrafo precedente l’ipotesi

nulla e: H0 : µ=80N .

In contrapposizione all’ipotesi nulla si puo formulare un’ipotesi alternativaHA. Adesempio, ipotesi alternative per l’ipotesi nulla H0 : θ=θ0 sono le seguenti: HA : θ6=θ0 ; HA : θ<θ0 ; HA : θ>θ0. Se l’ipotesi nulla H0 e vera, automaticamente l’ipotesialternativa HA e falsa. Se accettiamo H0, dobbiamo automaticamente rifiutare HA.

Nell’esempio del paragrafo precedente si ha HA : µ<80N .

2) Scegliere una statistica appropriata ed identificarne la distribuzione campio-naria. Nell’esempio del paragrafo precedente si e assunto che la distribuzione delle medie

campionarie fosse normale.

3) Precisare il rischio α di errore di prima specie che si e disposti a correre (oequivalentemente specificare il livello di fiducia 1¡α). Spesso la probabilita α dicommettere un errore di prima specie viene detta livello di significativita del test(tanto piu piccolo e α, tanto piu e significativo il test). In molti casi la scelta di talelivello non riveste solo aspetti statistici, ma sopratutto tecnici ed economici.

Livelli di significativita non troppo fini (cioe con valori di α abbastanza grandi) possono

portare a scelte che poi risultano errate, con conseguenze a volte disastrose. Si pensi, ad

esempio, ad una scelta di un nuovo medicinale a scapito di uno preesistente che si dimostra

sbagliata in quanto il nuovo, alla prova dei fatti, risulta meno efficace di quello che ha

sostituito, con conseguenze negative per la casa farmaceutica e, soprattutto, per i pazienti.

4) Precisare, se lo si ritiene opportuno, anche il massimo rischio di seconda specieβmax per un’ipotesi alternativa H∗

A. Osserviamo che in questo caso, come abbiamovisto nell’esempio del paragrafo precedente, H∗

A consiste nell’ipotizzare che il para-metro θ assuma un valore specifico θ∗ all’interno dell’ipotesi HA di cui al punto 1).

5) Decidere la dimensione n del campione.

105

Page 108: Lezioni di STATISTICA MATEMATICA

6) Determinare, in base a quanto precedentemente stabilito, la regione di accet-tazione dell’ipotesi nulla H0. Tale regione, che indichiamo con A , deve essere taleche

P(θ 2 A

)= 1¡ α .

In molti casi (fra cui l’importante caso θ= µ), essa viene determinata in modo cherisulti cosiffatta:

A =

[θ0 ¡ δα , θ0 + δα] se HA : θ6=θ0 ;[θ0 ¡ δ′α , +1) se HA : θ<θ0 ;

(¡1 , θ0 + δ′′α] se HA : θ>θ0 .

Indicato poi con Θ l’insieme dei numeri reali sul quale il parametro θ assume i proprivalori, si chiama regione critica o di rifiuto la regione complementare diA rispettoa Θ. Posto pertanto

R = Θ ¡ A ,

ne consegue che, se un valore misurato θ non sta in A, allora necessariamente sta inR, e viceversa. Nel caso di ipotesi alternativaHA : θ6=θ0 si parla di test bilaterale ela regione critica e detta a due code, mentre nel caso diHA : θ<θ0 oppureHA : θ>θ0abbiamo un test unilaterale e una regione critica ad una coda.

7) Si estrae un campione della dimensione stabilita e con i valori osservati del

campione si determina la stima puntuale θ del parametro. Si hanno quindi le seguentiimplicazioni:

θ 2R =) l’ipotesi nulla H0 viene rigettata

θ 2 A =) l’ipotesi nulla H0 non puo essere rigettata.

Osserviamo che, nel caso in cui θ cade inR, il test e risolutivo in quanto l’ipotesi nullaviene respinta in favore dell’ipotesi alternativa HA. Al contrario, se θ cade in A, iltest non e risolutivo. In tal caso infatti esso ci dice che l’ipotesi nulla non puo essererifiutata, la qual cosa non significa automatica accettazione: sta allo sperimentatoredecidere se accettare oppure no l’ipotesi nulla solo sulla base del fatto che non e statasmentita al livello di fiducia 1¡α prefissato.

Volendo supportare l’accettazione di H0 con altri riscontri, lo sperimentatore puoprocedere andando a valutare anche il rischio di IIa specie per un’ipotesi alternativaH∗

A. Viene dunque calcolata la probabilita β di accettare come vera l’ipotesi H0

quando, essendo vera H∗A, essa e falsa:

β = P(θ 2 A jH∗

A

).

Ebbene, supposto che lo sperimentatore abbia in precedenza fissato un βmax, seβ · βmax, cio puo costituire l’elemento risolutivo ai fini della decisione finale circal’accettazione o no dell’ipotesi nulla H0.

La probabilita di rifiutare H0 quando H0 e falsa, che vale 1¡β, viene detta potenzadel test. Sottoponendo il nostro test a diverse ipotesi alternativeH∗

A1,H∗

A2,H∗

A3,...,

si ottengono diversi valori di β: β1, β2, β3,..., che individuano una curva β=β(θ) ,detta curva operativa caratteristica del test. Di questa riparleremo piu avanti.

L’ideale sarebbe un test che minimizza contemporaneamente entrambi i rischi di Ia

e IIa specie, ma cio e impossibile. Al decrescere dell’uno, l’altro cresce. Il solo modo

106

Page 109: Lezioni di STATISTICA MATEMATICA

di abbassarli entrambi e aumentare la dimensione n del campione, e quindi, in parolepovere, spendere di piu in prove ed analisi dei risultati.

Va comunque notato che, indipendentemente da come si opera, un errore e semprepossibile. Ogni volta cheH0 viene rifiutata, puo aver luogo un errore di I specie; ognivolta che H0 non viene rifiutata, puo verificarsi un errore di II specie. Non c’e alcunmodo di evitare questo dilemma. Il mestiere dello statistico e quello di adottare metodiper decidere se rifiutare oppure no l’ipotesi H0 che mantengono ragionevolmente piccolele probabilita di fare l’uno o l’altro errore.

Considerazioni sulla scelta di H0 e HA

Diversamente da quanto assunto nella definizione dei passi utili alla formulazione di untest, molto spesso l’interesse reale suggerirebbe un’ipotesi nulla basata su una disu-guaglianza: H0 : θ · θ0 (oppure H0 : θ ¸ θ0), con conseguente ipotesi alternativaHA : θ>θ0) (oppure HA : θ<θ0). Nel linguaggio proprio della statistica si parla diipotesi nulla semplice o composta a seconda che H0 esprima un’uguaglianza o unadisuguaglianza.

Poiche con H0 composta la trattazione matematica del problema risulta assai piucomplicata, nel seguito considereremo sempre ipotesi nulle semplici. A questo propo-sito occorre osservare che se, ad esempio, l’ipotesi nulla fosse H0 : θ·θ0 (ovviamentein contrapposizione a HA : θ > θ0), essa puo essere ragionevolmente sostituita daH0 : θ=θ0 sulla base delle considerazioni che seguono. L’esecuzione del test porta arigettatare H0 se la stima puntuale θ del parametro θ risulta maggiore di un certoθ1 a sua volta maggiore di θ0. Piu semplicemente: H0 viene rigettata se θ e “abba-stanza piu grande” di θ0. Di norma, se cio porta a rigettare l’ipotesi nulla θ= θ0, amaggior ragione si deve rifiutare ogni ipotesi θ=θ∗ con θ∗<θ0, e quindi l’ipotesi nullacomposta H0 : θ·θ0. Diverso e il discorso nel caso in cui il test porti all’accettazionedi H0 : θ= θ0: cio non comporta affatto l’accettazione di H0 : θ· θ0. (Nell’esempio

3.11.2 si mostra come si puo procedere con un’ipotesi nulla composta).

Un fatto significativo che probabilmente non e emerso da quanto detto finora e ilseguente. Uno sperimentatore quando compie un test tende ad avvalorare un’ipotesidi lavoro che in generale si traduce in una relazione di disuguaglianza. Ebbene,questa relazione puo essere assunta sia come ipotesi nulla H0 (composta) sia comeipotesi alternativa HA. In altre parole, un’ipotesi nulla H0 composta e la sua ipotesialternativa sono intercambiabili. Anzi, spesso l’ipotesi da avvalorare viene assunta comeipotesi alternativaHA con l’obiettivo di avvalorarla rigettando H0. Di qui si puo quindicapire come, per uno stesso problema, la scelta delle due ipotesi, quella nulla e quellaalternativa, possono essere diverse a seconda degli interessi di chi esegue il test.

Quando l’ipotesi nulla e semplice, ovviamente essa non puo essere scambiata conl’ipotesi alternativa. Anche in questo caso pero gli interessi di chi effettua il testpossono portare a scegliere un’ipotesi alternativa piuttosto che un’altra. L’esempioche segue chiarira, se ce ne fosse bisogno, quanto appena affermato.

Esempio 3.10.1 Un dato vino e in vendita in bottiglie contenenti, sulla base di quanto di-

chiarato dall’etichetta, 720 millilitri. Si vuole verificare che l’effettivo contenuto corrisponda

a quanto dichiarato mediante un test d’ipotesi di livello di fiducia 1¡α.

107

Page 110: Lezioni di STATISTICA MATEMATICA

In questo problema il parametro θ che interessa e la media della variabile casuale X che

rappresenta la quantita di vino contenuto in una bottiglia. Si ha dunque θ=µ e l’ipotesi

nulla e H0 : µ=720 . Le possibili ipotesi alternative sono pertanto HA : µ6=720 oppure

HA : µ<720 oppure HA : µ>720 .

Supponiamo che sia un’associazione di consumatori ad effettuare il test. In questo caso c’e

tutto l’interesse a evidenziare un eventuale riempimento delle bottiglie per difetto. Viene

dunque scelta l’ipotesi alternativa HA : µ<720. L’ipotesi nulla sara da rigettare in favore

di HA nel caso in cui la stima puntuale µ della media calcolata mediante i valori osservati

del campione non cada internamente alla regione di accettazione A, cioe se

µ /2 [720¡ δ′α , +1) .

Supponiamo ora che sia il produttore ad effettuare il test di verifica. Quale ipotesi alter-

nativa scegliera? Certamente non scegliera HA : µ< 720, perche se cosı facesse potrebbe

avvalorare l’ipotesi che egli mette nelle bottiglie meno vino di quanto dichiara. D’altra parte,

se l’ipotesi alternativa scelta fosse HA : µ>720, potrebbe apparire un po troppo sfacciato.

Non rimane dunque che la scelta ”neutra” HA : µ6=720. Tenendo conto della struttura di

A, H0 verrebbe rigettata in favore di HA se

µ /2 [720¡ δα , 720 + δα] .Dovendo essere P

(µ 2 [720¡ δα , 720 + δα]

)=P

(µ 2 [720¡ δ′α , +1)

)=1¡ α ,

e evidente che δ′α<δα. Di conseguenza, dando per scontato che il produttore sia stato molto

attento a non riempire troppo le bottiglie, e certamente piu probabile che sia il test effettuato

dall’associazione dei consumatori a smentire l’ipotesi nulla piuttosto che il test fatto dal

produttore stesso. Osserviamo che il rifiuto di H0 nel test dell’associazione confermerebbe

l’eventuale sospetto di una quantita di vino minore di quanto dichiarato.

3.11 TEST DI SIGNIFICATIVITA

Esiste un altro metodo, un po piu sbrigativo, per decidere se accettare o no l’ipotesinulla H0. Tale metodo, che e detto test di significativita, sta diventando di usosempre piu ampio, anche in virtu dell’uso crescente di pacchetti software nell’analisidi dati statistici.

Indicata con T la statistica del test, il metodo in questione consiste nell’osservare dalcampione casuale il valore numerico t di T e nel determinare quindi la probabilita cheT assuma un valore che ”eccede” t, supposta vera l’ipotesi nulla. Il significato precisodi ”eccede” dipende dal tipo di test. Nel caso di test unilaterale la probabilita p dadeterminare e la seguente:

p = P(T¸ t

∣∣∣H0

)se HA : θ>θ0 ,

p = P(T· t

∣∣∣H0

)se HA : θ<θ0 .

Se invece il test e bilaterale simmetrico, cioe basato su una statistica T con unadistribuzione simmetrica (come Z e Tn), allora la probabilita p e data da

p = 2P(T¸jtj

∣∣∣H0

)se HA : θ6=θ0 .

108

Page 111: Lezioni di STATISTICA MATEMATICA

Al numero p ci si riferisce con diversi nomi; i piu comuni sono valore p o p-dei-dati.Come risultera evidente dagli esempi proposti nel seguito, se si eseguisse un testdi ipotesi con livello di significativita α, se α < p, il valore osservato θ cadrebbeinternamente alla regione di accettazione e H0 non potrebbe essere rigettata; d’altraparte, se α>p, θ cadrebbe esternamente e l’ipotesi nulla sarebbe da rigettare. Questaconsiderazione suggerisce la seguente definizione di carattere generale:

Definizione Si chiama valore p (o p-dei-dati) il minimo α per cui l’ipotesi nulladeve essere rigettata con un test d’ipotesi di livello di fiducia 1¡α.

Esempio 3.11.1 Ingegneri addetti alla costruzione di automobili stanno usando sempre

piu l’alluminio nella speranza di ridurre il costo delle auto e aumentare il numero di miglia

percorse con un gallone di benzina. Per un particolare modello di auto, il numero medio

di miglia su autostrada ottenuto per gallone e 26 con una deviazione standard σ=5mpg.

Si spera che un nuovo design, che utilizza piu alluminio, incrementi la media, dando per

scontato che σ non cambi. Gli ingegneri, volendo testare la loro ipotesi, eseguono un test di

significativita nel modo seguente.

Si assumono le seguenti ipotesi: H0 : µ · 26 , HA : µ > 26 .

Assunta naturalmente come statistica del test la media campionaria X, si concorda di rifiu-

tare l’ipotesi H0 in favore di HA se il valore osservato x di X risultera ”alquanto maggiore”

di 26. Con ”alquanto maggiore” intendiamo troppo grande perche cio possa essere avvenuto

solo per caso se il valore medio vero e ancora 26.

Da un test con un campione di 36 dati risulta una media x=28.04 mpg. Per vedere se xe abbastanza piu grande di 26 da poter rigettare H0, calcoliamo il valore p del test, cioe

calcoliamo la probabilita di osservare un valore di X maggiore od uguale a 28.04 se µ=26 e

σ=5. In virtu del teorema di limite centrale lo stimatoreX e (almeno) approssimativamente

normale con media µ=26 e deviazione standard σ/pn=5/6. Si ha quindi

p = P (X ¸ 28.04 jµ=26 , σ=5) = P[X ¡ 26

5/6¸ 28.04¡ 26

5/6

]=

¼ P [Z ¸ 2.45] = 1¡ P [Z · 2.45] ¼ 1¡ 0.9929 = 0.0071 .

La probabilita che X assuma un valore maggiore di 28.04 e dunque molto piccola. Ci sono

due possibili spiegazioni per questo fatto. O l’ipotesi nulla e vera e noi abbiamo osservato

un campione veramente raro che per caso ha una media grande, oppure l’ipotesi nulla e

falsa e il nuovo processo di costruzione delle auto ha effettivamente portato ad un aumento

delle miglia percorse per gallone di benzina. La seconda spiegazione e di gran lunga quella

piu ragionevole! Infatti il valore p trovato rappresenta la probabilita dell’errore di I specie

che si commette rifiutando H0 a favore di HA quando si assume come regione di rifiuto

R = [28.04 , +1). E nel caso specifico p e minore dell’1%.

L’esempio proposto permette di capire meglio il significato del valore p. Piu piccolo ep, piu fortemente il test suggerisce il rigetto dell’ipotesi nulla a favore di quella alternativa.

109

Page 112: Lezioni di STATISTICA MATEMATICA

3.12 TEST RIGUARDANTI LA MEDIA DI UNA POPOLAZIONENORMALE

Tratteremo ora i test riguardanti la media affrontando dapprima il caso in cui lavarianza e nota e poi il caso in cui e incognita.

a) Test nel caso di varianza nota

Consideriamo un campione casuale (X1,X2, . . . ,Xn) di dimensione n proveniente dauna distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da unapopolazione di media µ= µ0, usiamo la statistica Z ' N(0, 1) che si ottiene, comeabbiamo gia visto, normalizzando la media campionaria X , ossia

Z =X ¡ µ0σ

pn ,

dove σ2 e la varianza della popolazione che assumiamo nota.

Il problema e quello di testare l’ipotesi nulla H0 : µ=µ0 contro l’ipotesi alternativaHA : µ6=µ0: l’ipotesi nulla e da rifiutare se il valore osservato di Z e “troppo grande”o “troppo piccolo”, dove “troppo grande” e “troppo piccolo” sono quantificati dalvalore del rischio di prima specie che si intende correre. Piu precisamente, fissatauguale ad α la probabilita di tale rischio, e indicato con uα

2il quantile soluzione

dell’equazione

Φ(u) = 1¡ α

2,

per il rischio di errore di prima specie si ha

P([Z < ¡uα

2

][[Z > uα

2

])= P

([X ¡ µ0σ

pn < ¡uα

2

][[X ¡ µ0

σ

pn > uα

2

])= α .

Questa formula esprime la probabilita di rifiutare l’ipotesi nulla H0 : µ=µ0 quandoessa e vera. Pertanto la regione di rifiuto per questo test bilaterale e costituita datutti i valori di Z (o equivalentemente di X) per cui

∣∣Z∣∣ < uα

2ossia

∣∣∣∣∣X ¡ µ0σ

pn

∣∣∣∣∣ < uα2.

Risolvendo rispetto a X si ottiene

X < µ0 ¡σpnuα2

oppure X > µ0 +σpnuα2.

Posto

x1 = µ0 ¡σpnuα2, x2 = µ0 +

σpnuα2,

abbiamo dunque determinato l’intervallo [x1, x2], detto intervallo di accettazione. Seil valore osservato x di X cade esternamente ad esso, l’ipotesi nullaH0 : µ=µ0 sarada rifiutare in favore dell’ipotesi alternativa HA : µ6=µ0. Se invece x 2 [x1, x2],allora l’ipotesi nulla non sara da rifiutare, il che non equivale a dire che sia daaccettare (come nell’esempio introduttivo del x 3.9).

110

Page 113: Lezioni di STATISTICA MATEMATICA

Oltre al test bilaterale, esiste la possibilita di eseguire anche dei test unilaterali aseconda di esigenze tecniche specifiche. In questo caso si possono avere due ipotesialternative: HA : µ<µ0 oppure HA : µ>µ0. Indicato con uα il quantile soluzionedell’equazione

Φ(u) = 1¡ α,valgono le seguenti relazioni:

P[Z < ¡uα

]= P

[X ¡ µ0σ

pn < ¡uα

]= α ;

P[Z > +uα

]= P

[X ¡ µ0σ

pn > +uα

]= α .

Posto quindi

ξ1 = µ0 ¡σpnuα , ξ2 = µ0 +

σpnuα ,

le due precedenti probabilita diventano

P (X < ξ1) = α ; P (X > ξ2) = α .

La prima delle due probabilita ci assicura che, nel caso HA : µ < µ0, se rigettiamol’ipotesi nulla a favore di quella alternativa quando il valore di x e minore di ξ1,l’errore di Ia specie commesso e uguale ad α. La seconda probabilita ci garantisceinvece un errore dello stessa entita nel caso si rifiuti l’ipotesi nulla a favore dell’ipotesialternativa HA : µ > µ0 se la media calcolata x risulta maggiore di ξ2.

Pertanto, nel caso di test unilaterale per la media (nota la varianza) si procede nelmodo seguente: nel caso HA : µ < µ0, l’ipotesi H0 si rigetta se x < ξ1; nel casoHA : µ > µ0, H0 si rigetta se x > ξ2.

La tabella che segue riassume i casi considerati.

111

Page 114: Lezioni di STATISTICA MATEMATICA

Osservazione. Gli intervalli di accettazione [x1 , x2] (nel caso di test bilaterale),[ξ1 ,+1) e (¡1 , ξ2] (nel caso di test unilaterale) sono espressi nell’unita di misuradei dati del campione. Se la media osservata vi cade dentro, allora l’ipotesi nulla nonpuo essere rigettata. Le conclusioni del test possono pero essere tratte, in manierapiu immediata, anche utilizzando la media osservata “standardizzata”, vale a dire

z =x¡ µ0σ

pn .

Se questa cade all’interno dell’intervallo di accettazione per Z, allora l’ipotesi nullanon puo essere rigettata. Per quanto detto precedentemente gli intervalli di accetta-zione di Z, che per comodita chiameremo “intervalli standardizzati”, sono i seguenti:

[¡uα2, uα

2] se HA : µ = µ0 ;

[¡uα , +1) se HA : µ < µ0 ;

(¡1 , +uα] se HA : µ > µ0 .

b) Test nel caso di varianza incognita (test t)

Consideriamo un campione casuale (X1,X2, . . . ,Xn) di dimensione n proveniente dauna distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da unapopolazione di media µ = µ0, si usa la statistica Tn−1, cioe

Tn−1 =X ¡ µ0S

pn ,

con S varianza campionaria. Come gia sappiamo, questa variabile casuale segue ladistribuzione di Student con n¡1 gradi di liberta. In questo caso il test viene spessoindicato come test t.

Volendo testare l’ipotesi nullaH0 : µ=µ0 in contrapposizione con l’ipotesi alternativaHA : µ6=µ0, in analogia con quanto appena fatto nel caso di varianza nota, fissatauguale ad α la probabilita del rischio di prima specie, si ha

P([Tn−1 < ¡tα

2

][[Tn−1 > tα

2

])=

= P

([X ¡ µ0S

pn < ¡tα

2

][[X ¡ µ0S

pn > tα

2

])= α ,

con tα2soluzione dell’equazione

Tn−1(t) = 1¡ α

2.

Di conseguenza la regione aleatoria di rifiuto della ipotesi nulla diventa

X < µ0 ¡Spntα2

oppure X > µ0 +Spntα2.

Eseguito l’esperimento e indicato come in precedenza con σ il valore osservato di S,risulta dunque determinato il seguente intervallo di accettazione:

[x1, x2] =[µ0 ¡

σpntα2, µ0 +

σpntα2

].

112

Page 115: Lezioni di STATISTICA MATEMATICA

Se il valore osservato x di X cade esternamente a questo intervallo, l’ipotesi nullaH0 : µ= µ0 e da rifiutare in favore dell’ipotesi alternativa HA : µ6= µ0. Se invecex 2 [x1, x2], allora l’ipotesi nulla non potra essere rifiutata.

Quando l’ipotesi alternativa eHA : µ<µ0 oppureHA : µ>µ0, si deve eseguire un testunilaterale. In tal caso, indicata con tα la soluzione dell’equazione: Tn−1(t) = 1¡α ,posto

ξ1 = µ0 ¡σpntα , ξ2 = µ0 +

σpntα ,

si ha

P (X < ξ1) = α ; P (X > ξ2) = α .

La prima delle due probabilita ci suggerisce di rifiutare l’ipotesi nulla H0 a favoredell’ipotesi alternativa HA : µ<µ0 se la media x, calcolata approssimando σ con σ,risulta minore di ξ1; a sua volta la seconda probabilita suggerisce, nel caso HA : µ >µ0, di rifiutare H0 se si ha x>ξ2. Quanto affermato puo essere sintetizzato dicendoche, nel caso di test unilaterale, gli intervalli di accettazione sono:

[ξ1 , +1) se HA : µ < µ0 ;

(¡1 , ξ2] se HA : µ > µ0 .

La tabella data in precedenza per il caso “varianza nota” rimane quindi valida anchenel caso “varianza incognita” fatto salvo il fatto che ora l’intervallo [x1, x2] e i valoriξ1 e ξ2 sono calcolati utilizzando i quantili della distribuzione di Student (ad N¡1gradi di liberta) anziche quelli della normale standardizzata.

Osservazione. Analogamente a quanto osservato in precedenza nel caso di varianzanota, le conclusioni del test ora proposto possono essere tratte in maniera piu imme-diata ragionando direttamente sugli intervalli di accettazione per Tn−1, che anche inquesto caso chiameremo “intervalli standardizzati”:

[¡tα2, tα

2] se HA : µ = µ0 ;

[¡tα , +1) se HA : µ < µ0 ;

(¡1 , +tα] se HA : µ > µ0 .

Se il valore osservato della statistica Tn−1, cioe

t =x¡ µ0σ

pn ,

cade esternamente all’intervallo di accettazione standardizzato, l’ipotesi nulla e darigettare.

Esempio 3.12.1 Si supponga di avere un campione di 200 cambi per autovetture, supposti

provenire da una popolazione distribuita normalmente avente σ=3250Km. a) Possiamo

assumere con un rischio di prima specie pari al 5% che la durata media della popolazione

costituita da tutti i cambi di quel tipo sia di 44800 Km, se la durata media del campione

analizzato e stata di 44500 Km? b) Calcolare il valore p.

a) Omettendo l’unita di misura (il Km), i dati che abbiamo sono i seguenti:

n = 200 , x = 44500 µ0 = 44800 , σ = 3250 .

113

Page 116: Lezioni di STATISTICA MATEMATICA

Seguiamo ora la procedura indicata precedentemente passo per passo:

1. I dati del campione sono assunti come provenienti da una popolazione normale (o

approssimativamente tale) con varianza nota σ2.

2. L’ipotesi nulla e H0 : µ=µ0=44800 contro l’ipotesi alternativa HA : µ6=µ0.

3. La statistica da testare e: Z =X ¡ µ0σ/pn' X ¡ 44800

230.

4. Il rischio α di prima specie per questo test bilaterale e uguale al 5%.

5. Dalle tavole della normale standard ricaviamo: uα2= u0.025 ¼ 1.96.

6. La regione di rifiuto e: X /2 [x1, x2], con x1=µ0 ¡ δ e x2=µ0 + δ . Essendo

δ=σpnuα2=230¢1.96 ¼ 450 , tale regione corrisponde a

X /2 [44350 , 45250] .

Poiche il valore calcolato di X, cioe x, vale 44500, e quindi e interno a questo intervallo,

l’ipotesi nulla non puo essere rigettata.

6’. La regione di rifiuto puo essere espressa in modo piu immediato in forma “standardiz-

zata”, nel qual caso e data da: jZj > uα2= u0.025 ¼ 1.96. Standardizzando quindi il

valore osservato di X, si ottiene

z =x¡ µ0σ/pn

=44500¡ 44800

230¼ ¡1.305 .

Essendo jzj< 1.96, come in precedenza arriviamo alla conclusione che l’ipotesi nulla nonpuo essere rifiutata.

Osservazione. Se avessimo avuto x=44300, l’ipotesi nulla, per la quale la durata media

della popolazione costituita dai cambi e 44800 Km, sarebbe stata da respingere a favore

dell’ipotesi alternativa HA : µ6=44800 km.

b) p = 2P (Z¸jzj) = 2P (Z¸1.305) = 2(1¡P (Z·1.305)

)¼ 2(1¡0.904) = 0.192 .

Essendo p assai grande, risulta significativamente confermata la ”non rigettabilita” di H0.

Esempio 3.12.2 Riprendiamo l’esempio 3.5.2. I consumi di un motore sperimentale regi-

strati durante 8 prove, per 100 Km di percorrenza, sono stati: 14, 12, 11, 13, 15, 12, 16, 13.

Possiamo affermare che il consumo medio di benzina per quel tipo di motore non supera 12

litri per ogni 100 Km di percorrenza con un livello di significativita α=0.01 ?

Come abbiamo gia visto nell’esempio 3.5.2, dai dati rilevati nelle prove si ottiene

x = 13.25 ; σ ¼ 1.67 .

La procedura da seguire e la seguente:

1. I dati del campione sono assunti come provenienti da una popolazione normale (o

approssimativamente tale) con varianza incognita.

2. L’ipotesi nulla corretta sarebbe H0 : µ· 12 contro l’ipotesi alternativa HA : µ> 12.

Questo caso tuttavia, avendo a che fare con un’ipotesi nulla composta sarebbe di difficile

trattazione. Conviene pertanto assumere l’ipotesi nulla semplice H0 : µ = µ0 = 12 e

ragionare poi sui risultati ottenuti per trarre conclusioni sull’ipotesi nulla composta.

114

Page 117: Lezioni di STATISTICA MATEMATICA

3. La statistica da testare e: T7 =X ¡ µ0S

pn =

X ¡ 12

S

p8.

4. Il rischio di prima specie che siamo disposti a correre e: α = 1%.

5. La regione di rifiuto e: T7 > tα = t0.01 ¼ 2.998, da cui

X > ξ2 = µ0 +σpntα = 12 +

1.67p8¢2.998 ¼ 12 + 1.77 = 13.77 .

6. Essendo x (valore calcolato di X) uguale a 13.25, l’ipotesi nulla H0 : µ=12 non puo

essere rigettata con un errore di prima specie dell’1%.

6’. Il valore della statistica Tn−1 osservato dal campione vale:

t =x¡ µ0σ

pn =

13.25¡ 12

1.67

p8 ' 2.117 .

Essendo t minore di t0.01=2.998, l’ipotesi nulla H0 : µ=12 non puo essere rigettata.

7. Consideriamo ora il caso in cui l’ipotesi nulla e composta, cioe H0 : µ·12. Osserviamo

innanzitutto che il valore ξ2 della relazione di cui al punto 5) puo scriversi in funzione di µ0:

ξ2(µ0) ¼ µ0 + 1.77 .

Cio premesso, si puo ragionare in questo modo: ogni ipotesi nulla semplice H0 : µ=µ∗ con

µ∗<12 non potra essere rifiutata per ogni µ∗ tale che

X < ξ2(µ∗) ¼ µ∗ + 1.77 , ossia µ∗ > X ¡ 1.77 .

Tenendo conto del fatto che il valore osservato di X e x=13.25, ne consegue che l’ipotesi

nulla semplice H0 : µ=µ∗, contrapposta all’ipotesi alternativa HA : µ>12, non puo essere

rifiutata con un errore di prima specie dell’1% per

µ∗ 2 [13.25¡ 1.77 , 12] = [11.48 , 12].

Al contrario, se avessimo avuto H0 : µ=11.4, doveva essere rifiutata in favore di HA.

Esempio 3.12.3 In una clinica si vuole sperimentare un nuovo farmaco che dovrebbe servire

per ridurre il tasso di colesterolo nel sangue. A tal fine vengono cercati 50 volontari tra quei

pazienti che hanno un livello di colesterolo medio-alto (cioe maggiore di 220), e a ciascuno

viene somministrato il farmaco per un mese. Alla fine si riscontra una riduzione media di

14.8, con una deviazione standard campionaria di 6.4. Verificare, se e possibile, che tale

riduzione e dovuta esclusivamente ad un fatto fortuito.

Se la riduzione e totalmente fortuita, le variazioni riscontrate sono distribuite normalmente

con media nulla. Testiamo dunque l’ipotesi nulla H0 : µ=µ0=0 contro l’ipotesi alternativa

HA : µ6=0. Procediamo rapidamente senza seguire passo per passo la procedura.

I dati sono i seguenti: n=50 , x=14.8 , σ=6.4 , µ0=0 .

Sappiamo che l’intervallo di fiducia bilaterale al livello 1¡α, espresso in forma standardizzata,

e dato da[¡tα

2, +tα

2

]. Il problema e che nessun α e assegnato. Tuttavia, se si calcola la

media standardizzata utilizzando la deviazione standard campionaria puntuale, si ottiene

t =x¡ µ0σ

pn =

14.8

6.4

p50 ¼ 16.35 .

Dalla tabella dei quantili della legge di Student (non essendo riportato n=49 basta guardare

T50), si vede subito che t e esterno all’intervallo di fiducia per qualunque ragionevole livello

115

Page 118: Lezioni di STATISTICA MATEMATICA

di significativita α. Dunque, in ogni caso, l’ipotesi nulla deve essere rigettata, il che esclude

che la riduzione di colesterolo sia un fatto puramente fortuito.

L’esempio che segue e storico; esso riprende esperimenti eseguiti da Student per con-frontare le tecniche di trattamento dell’orzo utilizzate nella preparazione della birra,piu precisamente per valutare gli effetti dell’essicazione in forno prima della semina. Aparte l’interesse storico, esso risulta utile ad illustrare come il problema di avvalorareoppure no una tesi di lavoro possa essere affrontato in due modi diversi, il primo “neu-trale” rispetto alla scelta che il test potra suggerire, il secondo invece “sbilanciato” infavore dell’accettazione dell’ipotesi di lavoro.

Esempio 3.12.4 Sono oggetto di indagine 11 varieta d’orzo; per ciascuna si riporta la

differenza di redditivita fra la variante essicata e quella non essicata, misurata in libbre per

acro:

di : +106 ¡20 +101 ¡33 +72 ¡36 +62 +38 ¡70 +127 +24

Supposto che la differenza di redditivita abbia una distribuzione normale (di varianza inco-

gnita), si chiede di verificare l’ipotesi nulla H0 : µ=µ0=0, secondo la quale l’essicazione

preliminare non avrebbe nessun effetto.

Affronteremo il problema in due modi diversi: a) assumendo come ipotesi alternativa HA :µ6=0; b) assumendo come ipotesi alternativa HA : µ> 0. In ciascun caso lo faremo per

α=10% , α=5% e α=1% . Essendo la varianza incognita, dovremo utilizzare la statistica

di Student a 10 gradi di liberta (essendo n=11). E facile verificare che i dati del campione

hanno media x ¼ 33.7 e scarto quadratico medio σ ¼ 66.2.

Derogando per semplicita dalla regola di svolgere l’esercizio seguendo passo per passo se-

guendo la procedura data per un test, si ha:

a) Essendo HA : µ6=0, il test e bilaterale. La regione di accettazione e data da

[µ0 ¡

σpntα2, µ0 +

σpntα2

]=[¡66.2p

11tα2,66.2p11tα2

]=[¡19.95 tα

2, 19.95 tα

2

].

Ora, essendo

t0.05 = 1.812 , t0.025 = 2.228 , t0.005 = 3.169 ,

le regioni di accettazione, nell’unita di misura dei dati del campione, sono

per α = 0.10 ) [¡36.15 , 36.15] ;per α = 0.05 ) [¡44.54 , 44.54] ;per α = 0.01 ) [¡63.35 , 63.35] .

Essendo x = 33.7, l’ipotesi nulla non puo essere rigettata per nessuno dei tre livelli di

significativita presi in considerazione.

Invece di determinare le regioni di accettazione nell’unita di misura dei dati del campione e

verificare quindi se la media osservata x cadeva oppure no internamente a queste, avremmo

potuto, in maniera piu rapida, ottenere t standardizzando x e verificare se jtj<tα2

oppure

jtj¸tα2

. In questo modo si sarebbe ottenuto

t =x¡ µ0σ

pn =

33.7

66.2

p11 ¼ 1.688 ,

116

Page 119: Lezioni di STATISTICA MATEMATICA

che risulta all’interno dell’intervallo di accettazione(¡ tα

2, tα

2

)per tutti tre i valori di α

considerati. Abbiamo cosı trovato conferma del fatto che per nessuno dei tre livelli di fiducia

l’ipotesi nulla e rigettabile.

Il test fatto non smentisce l’ipotesi di lavoro µ = 0: cio indirizza verso la conclusione che

l’essicazione pre-semina sia inutile.

b) Ora affrontiamo il problema in maniera piu filologica: l’ipotesi alternativa sia HA :µ>0, il che esclude a priori che possa essere µ<0 (Student era sicuro che l’essicazione era

vantaggiosa). Il test e unilaterale. La regione di accettazione e data da

(¡1 , µ0 +

σpntα

]=(¡1 ,

66.2p11tα

]=(¡1 , 19.95 tα

].

Essendo

t0.10 = 1.372 , t0.05 = 1.812 , t0.01 = 2.764 ,

le regioni di accettazione sono

per α = 0.10 ) (¡1 , 27.37] ;

per α = 0.05 ) (¡1 , 36.15] ;

per α = 0.01 ) (¡1 , 55.14] .

La media calcolata, che vale 33.7, cade internamente alla zona di rifiuto relativa ad α =0.10 ed esternamente a quelle relative agli altri due livelli di significativita. Ora pertanto,

diversamente dal caso a), per α = 10% l’ipotesi nulla e da rigettare in favore dell’ipotesi

alternativa (che rappresenta quanto desiderato da Student).

Ovviamente si giunge alle stesse conclusioni anche ragionando con gli intervalli di fiducia

espressi attraverso la media standardizzata e quindi, essendo la varianza incognita, attraverso

i quantili della distribuzione di Student. Nel caso di test unilaterale, con ipotesi alternativa

HA : µ>µ0, la regione di accettazione e data da (¡1, tα]. Essendo t=1.688, esso risulta

maggiore di t0.10 e minore di t0.05 e t0.01, col che ritorniamo (ovviamente) alle conclusioni

precedenti.

Dunque, passando da un test bilaterale ad uno unilaterale, e con un alto livello di signifi-

cativita (in realta basso), il test puo portare a conclusioni piu favorevoli ai propri desideri.

Questo esempio mostra che impostando il test in un modo o in un altro si possono anche

assumere posizioni non del tutto imparziali rispetto alle ipotesi da rifiutare o avvalorare.

A titolo d’esercizio si puo andare a calcolare il valore p del test. Chiaramente, essendo

p il minimo α per cui l’ipotesi nulla deve essere rigettata, e sapendo gia che al livello di

significativita α = 0.1 H0 deve essere rigettata, mentre non puo esserlo per α = 0.05,

dovremo trovare un valore di p compreso fra 0.05 e 0.1. Nel caso in questione per definizione

si ha: p = 1¡P (T10 · t). Utilizzando un opportuno software contenente le funzioni

distribuzione piu significative, indicata con t10(x) la funzione distribuzione di T10, si ricava

t10(1.688) ¼ 0.939 , e quindi p ¼ 0.061 .

Se avessimo calcolato il valore p anche nel caso del test bilaterale, avremmo avuto

p = 2(1¡P (T10·t

)= 2

(1¡ t10(1.688)

)¼ 0.122 ,

con conferma della non rigettabilita diH0 per tutti tre i livelli di significativita considerati.

117

Page 120: Lezioni di STATISTICA MATEMATICA

3.13 TEST RIGUARDANTI LA DIFFERENZA DELLE MEDIEDI DUE POPOLAZIONI NORMALI

Una situazione che si presenta frequentemente nella statistica applicata all’ingegneriae quella per cui occorre decidere se due diversi approcci allo stesso problema hannoportato allo stesso risultato oppure no. Una tale problematica viene spesso affrontatamediante un test dell’ipotesi che due popolazioni normali abbiano la stessa media.Cio considerando, l’argomento sara trattato in analogia con il x 3.7 e sfruttando lenozioni ivi introdotte.

Siano dunque (X1,X2, . . . ,Xn) e (Y1, Y2, . . . , Ym) due campioni casuali indipendenti,di dimensioni n ed m rispettivamente, estratti da due popolazioni normali con mediaµ1 e varianza σ21 la prima, media µ2 e varianza σ22 la seconda. Come abbiamo vistonel paragrafo appena citato, il miglior estimatore per la differenza delle medie µ1¡µ2e il seguente:

X ¡ Y =1

n

n∑

i=1

Xi ¡1

m

m∑

i=1

Yi .

Caso a) Le varianze σ21 e σ22 sono note

Si vuole eseguire un test d’ipotesi con

H0 : µ1=µ2 , HA : µ16=µ2 .Riscritta l’ipotesi nulla come H0 : µ1¡µ2 , essa verra rigettata quando la differenzaX¡Y e lontana da zero. In altre parole, la forma del test e la seguente:

se jX¡Y j > c si rifiuta H0

se jX¡Y j · c non si rifiuta H0

per un opportuno valore di c. Dal x 3.7 sappiamo che

X¡Y » N(µ1¡µ2,

σ21n+σ22m

)=) X¡Y ¡ (µ1¡µ2)√

σ21n+σ22m

» N(0, 1) .

Dunque, dato H0 vero, per cui µ1¡µ2 = 0 , la statistica del testX¡Y√

σ21/n+ σ22/m

ha distribuzione normale standard, e quindi, assegnato un livello di significativita α,si ha

P

(¡uα

2· X¡Y√

σ21/n+ σ22/m· uα

2

)= 1¡α ,

con uα2quantile della normale standardizzata soluzione dell’equazione Φ(u) = 1¡α

2 .La regione di accettazione per la statistica del test e dunque [¡uα

2, uα

2], mentre per

lo stimatore X¡Y e la seguente

[¡uα

2

√σ21/n+ σ22/m , uα

2

√σ21/n+ σ22/m

].

118

Page 121: Lezioni di STATISTICA MATEMATICA

Volendo invece fare un test unilaterale, con ipotesi nulla H0 : µ1=µ2 (oppure H0 :µ1·µ2) ed ipotesi alternativa HA : µ1>µ2, l’intervallo di accettazione per X ¡ Y e

(¡1, uα

√σ21/n+ σ22/m

],

con uα tale che Φ(uα) = 1¡α. Naturalmente per la statistica del test l’intervallo diaccettazione e (¡1, uα].

Caso b) Le varianze σ21 e σ22 non sono note, ma sono supposte uguali

Il test che si vuole eseguire e lo stesso del punto a). Ora, pero, abbiamo σ21=σ22=σ

2,con σ incognita. La statistica usata in precedenza diventa

X¡Y√σ2(1/n+ 1/m

) .

Come abbiamo visto nel x 3.7, la varianza σ2 puo essere stimata dai dati utilizzandola varianza ponderata S2p cosı definita:

S2p =(n¡ 1)S21 + (m¡ 1)S22

n+m¡ 2,

ove

S21 =1

n¡ 1

n∑

i=1

(Xi ¡X)2 , S22 =1

m¡ 1

m∑

i=1

(Yi ¡ Y )2 .

La statistica del test risulta quindi la seguente:

X¡YSp√1/n+ 1/m

» Tn+m−2 ,

che, come gia visto, segue una distribuzione di Student con n+m¡2 gradi di liberta.Assunto ancora α come livello di significativita del test ed indicato con tα

2il quantile

soluzione dell’equazione Tn+m−2(t) = 1¡α2 , l’intervallo di accettazione bilaterale per

lo stimatore X¡Y risulta[¡tα

2Sp√1/n+ 1/m , tα

2Sp√1/n+ 1/m

],

mentre quello unilaterale sinistro e(¡1, tαSp

√1/n+ 1/m

].

Ricordando poi la notazione gia introdotta nel punto b) del x3.7,

S2∆ =( 1

n+

1

m

)S2p ,

indicato con σ∆ il valore di S2∆ ricavato dal campione, i suddetti intervalli sono ap-prossimati da [

¡tα2σ∆ , tα

2σ∆

]e

(¡1, tασ∆

].

Naturalmente, se ci si limita agli intervalli di accettazione per la statistica del test,quello per il test bilaterale e [¡tα

2, tα

2], mentre quello per il test unilaterale e (¡1, tα].

119

Page 122: Lezioni di STATISTICA MATEMATICA

Caso c) Le varianze σ21 e σ22 sono ignote e diverse

Essendo questa situazione facilmente affrontabile sulla base di quanto appena vistoe delle nozioni gia introdotte nel x 3.7 (punto c), la tratteremo rapidamente. Lastatistica da utilizzare e

(X ¡ Y )√S21n

+S22m

= Tℓ , ℓ =

( σ21n

+σ22m

)2

( σ21n

)2

n¡ 1+

( σ22m

)2

m¡ 1

, ¢

essendo σ21 e σ22 i valori di S21 e S22 calcolati tramite il campione. Indicati quindi contα2e tα i quantili soluzioni, nell’ordine, delle equazioni

Tℓ(t) = 1¡ α

2e Tℓ(t) = 1¡ α ,

le regioni di accettazione per i test bilaterale e unilaterale sinistro sono approssimateda [

¡tα2

√σ21n

+σ22m, tα

2

√σ21n

+σ22m

],

(¡1, tα

√σ21n

+σ22m

].

Caso d) Campioni appaiati

Esaminiamo ora un caso di differenza di due medie particolare, ma assai interessantee frequente. Siano (X1, X2, . . . ,Xn) e (Y1, Y2, . . . , Yn) due campioni casuali con lastessa numerosita n, non indipendenti. Un test su due campioni siffatti riguarda quelleanalisi sperimentali in cui occorre verificare una variazione di valore medio prima edopo un certo trattamento (oppure in presenza e assenza di una certa circostanza,con e senza un certo dispositivo, etc..). Essendo Xi e Yi variabili casuali associatealla stessa unita statistica, i due campioni non sono indipendenti.

Un possibile approccio per verificare che le medie dei due campioni sono uguali con-siste nel considerare le differenze Di = Xi¡Yi, per i = 1, 2, ..., n, che sono tra loroindipendenti. L’analisi del campione casuale (D1,D2, ..., Dn) riconduce il test che in-teressa ad un test sulla media di un campione casuale proveniente da una popolazionenormale di media µD e varianza incognita σ2D. Le ipotesi nulla ed alternativa per untest bilaterale sono ovviamente le seguenti:

H0 : µD = 0 , HA : µD 6= 0 .

Per quanto gia visto nel x 3.12 la statistica del test, tenuto anche conto dell’ipotesinulla, e

pnD

SD» Tn−1 .

L’esercizio 3.12.4 rappresenta un esempio di test per ”campioni appaiati”.

120

Page 123: Lezioni di STATISTICA MATEMATICA

3.14 CURVE CARATTERISTICHE OPERATIVE DEI TEST

Vediamo ora il procedimento per il calcolo del rischio β di errore di seconda specie,una volta che siano stati specificati l’ipotesi nulla H0 : µ=µ0 ed il rischio α di erroredi prima specie, in funzione di ipotesi alternative diverse.

Prendiamo come riferimento l’esempio 3.11.1, che riguardava la durata dei cambi. Ilproblema e stato affrontato utilizzando un test bilaterale con l’ipotesi nulla H0 : µ=µ0=44800 contro l’ipotesi alternativa HA : µ6=44800, con un rischio di prima specie(o livello di significativita) del 5%. Ipotizziamo ora che che l’ipotesi nullaH0 : µ=44800non sia vera, ma lo sia invece un’ipotesi alternativa HA : µ=µA=44900. Il rischio diseconda specie rappresenta la probabilita di accettare, a torto, l’ipotesi nulla, cioe laprobabilita di osservare medie campionarie entro la regione di accettazione del testpur essendo µ=44900.

Come abbiamo visto nell’esempio in questione, la regione di accettazione (o, meglio,di non rifiuto) e l’intervallo

[x1 , x2] = [µ0 ¡ δ , µ0 + δ] = [44800¡ 450 , 44800 + 450] = [44350 , 45250] .

Tale intervallo e dunque centrato in µ0 ed ha ampiezza 2δ data da

δ =σpnuα2

con uα2

soluzione dell’equazione Φ(u) = 1¡ α

2.

I valori estremi x1=44350 e x2=45250 rapresentano rispettivamente il valore minimoe il valore massimo delle medie (dei campioni con n=200) oltre i quali l’ipotesi nulla varifiutata. Il rischio di seconda specie β e quindi dato dalla probabilita di osservare(ovviamenteper campioni della stessa dimensione) medie comprese fra x1 e x2 quando sia vera l’ipotesialtenativa HA : µ=µA=44900, o equivalentemente

β = P[x1 · X · x2

∣∣HA : µA=44900].

Standardizzando questa relazione si ottiene:

β = P[x1 ¡ µAσ/pn· X ¡ µA

σ/pn· x2 ¡ µA

σ/pn

]= P

[z1 · Z · z2

]= Φ(z2)¡ Φ(z1) ,

essendo

z1 =x1 ¡ µAσ/pn, z2 =

x2 ¡ µAσ/pn.

Per µA=44900, ricordando che n=200 e σ=3250 (da cui σ√n¼ 230), si ha

β ¼ Φ(45250¡ 44900

230

)¡ Φ

(44350¡ 44900

230

)= Φ

(350230

)¡Φ

(¡550

230

¼ Φ(1.52)¡ Φ(¡2.39) = Φ(1.52) + Φ(2.39)¡ 1 ¼ 0.936 + 0.992¡ 1 = 0.928

E evidente che il rischio di seconda specie β dipende da µA; in altre parole β = β(µA).Per avere un’idea di questa funzione si puo calcolare β per diversi valori di µA. Nerisulta la tabella riportata alla pagina che segue.

Il grafico riportato accanto alla tabella e ottenuto ponendo in ascissa µA ed in ordinataβ. Esso costituisce la curva caratteristica operativa. In alternativa si poteva porrein ordinata 1¡β: in questo caso avremmo ottenuto la curva di potenza.

121

Page 124: Lezioni di STATISTICA MATEMATICA

Va fatto notare che che la scelta in alternativa tra un test unilaterale o bilateraledipende dallo specifico quesito posto e dalle caratteristiche del problema esaminato.In ogni caso si puo affermare che la potenza di un test bilaterale, cioe la probabilitadi rifiutare H0 quando H0 e falsa, a parita di dimensione del campione e di livellodi fiducia, e minore rispetto a quella del corrispondente test unilaterale. Cio risultaevidente dalla figura che segue, dove sono messe a confronto le curve caratteristicheoperative per il test bilaterale HA : µ6=44800 e per il test unilaterale HA : µ<44800.

E importante notare che per i principali test statistici le curve caratteristiche sono di-sponibili gia tabulate in funzione della differenza o del rapporto tra il valore ipotizzatonell’ipotesi nulla e quello nell’ipotesi alternativa, naturalmente in forma standardiz-zata. I grafici che seguono l’Esempio 11.9 mostrano le curve caratteristiche operative

relative alla statistica Z =X ¡ µ0σ

pn, con rischio di prima specie α=0.05, per test

unilaterali e test bilaterali. In ascissa ci sono i valori assunti dal rapporto jµ0¡µAj/σ,dove µ0 e il valore della media ipotizzato nell’ipotesi nullaH0 e µA e un preciso valoretra quelli considerati nelle ipotesi alternative, con σ scarto quadratico medio suppostonoto.

122

Page 125: Lezioni di STATISTICA MATEMATICA

Le curve caratteristiche operative si avvicinano all’asse delle ordinate e diventanopiu ripide al crescere della dimensione n del campione, in quanto cosı il test diventapiu potente ed in sostanza aumenta la sua capacita di discriminazione tra ipotesi,anche in base a scarti di piccola entita. Le curve caratteristiche operative consentonoquindi la determinazione razionale della dimensione del campione da utilizzare per undeterminato test per rischi di errore di prima specie α e di seconda specie β specificatio, in alternativa, come modificare tali livelli per renderli compatibili con il numero diprove consentito da limiti di tempo e di spesa. Naturalmente i rischi devono esserevalutati caso per caso in base alle implicazioni: le conseguenze di una rottura sono bendiverse a seconda che si tratti dello sterzo o del portacenere di un’auto. Nell’esempioche segue si vedra, fra l’altro, come si procede per la determinazione della dimensionedel campione.

Esempio 3.14.1 Un tecnico vuole determinare se un gruppo di 26 fili di rame proveniente

da una ditta rispetta la specifica nominale di avere un diametro prefissato, pari a 1.54 mm.

a) cosa puo affermare con un livello di fiducia del 95% se il diametro medio dei fili esaminati

e di 1.6 mm, supposto che le misure dei diametri siano distribuite normalmente con varianza

σ2=0.0529 mm2 ? b) qual e l’errore di seconda specie che il tecnico commette se la media

del processo produttivo ha subito uno slittamento ed ora e pari a 1.62 mm ? c) quale deve

essere la dimensione del campione se si vuole testare l’ipotesi nullaH0 : µ=1.54mm contro

l’ipotesi alternativaHA : µ>1.54 mm con un errore di prima specie del 5% se si volesse un

errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ=1.65mm ?

Tenendo presente i requisiti tecnici specifici, faremo uso anche per la prima parte di un test

unilaterale superiore, rendendo cosı confrontabili i risultati dei tre quesiti posti. Procediamo

secondo la sequenza di passi visti in precedenza (omettendo per semplicita, come abbiamo

gia fatto negli esempi prededenti, le unita di misura).

a) I dati del campione, che ha dimensione n=26, provengono da una popolazione normale

con varianza σ2=0.0529 , da cui σ=0.23 . Inoltre, x=1.6.

a1) L’ipotesi nulla e H0 : µ=µ0=1.54 contro l’ipotesi alternativa HA : µ> 1.54 . La

statistica da testare e

Z =X ¡ µ0σ/pn

=X ¡ 1.54

0.23/p26

=X ¡ 1.54

0.0451;

a2) il rischio di prima specie e α=0.05 ;

a3) la regione di rifiuto e Z>u0.05 ¼ 1.645 o, equivalentemente,

X > ξ2 = µ0 +σpnuα ¼ 1.54 + 0.0451¢1.645 ¼ 1.614 ;

a4) l’intervallo di fiducia e dunque [¡1, 1.614]. Poiche la media calcolata x vale 1.6 e

quindi vi cade internamente, l’ipotesi nulla H0 : µ0 = 1.54 non puo essere rifiutata. E

questa e la risposta alla prima domanda.

b) Ora si sa che la media vale 1.62. Ci si chiede dunque qual e il rischio β di seconda specie

quando l’ipotesi alternativa e HA : µA=1.62. Ci si chiede cioe quanto vale β essendo

β = P[X · ξ2 jHA : µ = 1.62

].

123

Page 126: Lezioni di STATISTICA MATEMATICA

Standardizzando si ha

β = P[X ¡ 1.62

0.0451· ξ2 ¡ 1.62

0.0451

]¼ P

[Z · ¡0.133] =

= 1¡ P [Z · 0.133] ¼ 1¡ 0.553 = 0.447 ¼ 45% .

Vi e dunque una probabilita di circa il 45% di non rifiutare l’ipotesi che i fili di rame

provengano da un processo produttivo con media 1.54 quando in realta tale media e 1.62.

c) Si deve ora determinare la dimensione n che dovrebbe avere il campione perche si abbia

un errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ = 1.65,

fermo restando l’errore di prima specie del 5% per testare l’ipotesi nulla H0 : µ = 1.54contro l’ipotesi alternativa HA : µ>1.54. Il rischio β di seconda specie e con quest’ultima

ipotesi alternativa e dato da

β = P[X · ξ2(n) jHA : µ = 1.65

],

dove ξ2(n), che ora dipende da n, vale

ξ2(n) = µ0 +σuαpn¼ 1.54 +

0.3784pn

.

Essendo β noto ed uguale a 0.1, mediante standardizzazione la relazione scritta sopra porta

alla seguente equazione in n:

P[X ¡ 1.65

0.23

pn · ξ2(n)¡ 1.65

0.23

pn]= P

[Z ·

0.3784√n¡ 0.11

0.23

pn

]= 0.1 ,

da cui, essendo φ0.1 = ¡φ0.9 ¼ ¡1.281, segue

0.3784√n¡ 0.11

0.23

pn = ¡1.281 da cui (0.3784¡ 0.11

pn)pn = ¡0.2946pn ,

e quindi

0.11pn = 0.673 ossia n =

(0.6730.11

)2¼ (6.12)2 ¼ 37.4 .

Dunque, la dimensione del campione che soddisfa alle condizioni poste nella domanda e 38.

Se avessimo voluto determinare n mediante le curve caratteristiche, avremmo dovuto proce-

dere nel modo seguente. Calcolata l’ascissa

d =jµ0 ¡ µAj

σ=j1.54¡ 1.65j

0.23¼ 0.48 ,

essendo l’ordinata β uguale a 0.1, si individua la curva caratteristica, fra quelle per test

unilaterali relative ad α=0.05, che “contiene” il punto (d, β) ¼ (0.48, 0.1). Dai grafici che

seguono, per quanto un po’ grossolani, il valore che che si desume e del tutto compatibile

con n=38.

124

Page 127: Lezioni di STATISTICA MATEMATICA

Curve caratteristiche operative per test unilaterali per la media della popolazione(varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05.

Curve caratteristiche operative per test bilaterali per la media della popolazione(varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05.

125

Page 128: Lezioni di STATISTICA MATEMATICA

QUANTILI DELLA LEGGE NORMALE STANDARD: P [N(0, 1)] · x

x .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359

.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753

.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141

.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517

.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879

.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224

.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549

.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852

.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133

.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389

1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621

1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830

1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015

1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177

1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319

1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441

1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545

1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633

1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706

1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767

2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817

2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857

2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890

2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916

2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936

2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952

2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964

2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974

2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981

2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986

3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990

3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993

3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995

3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997

125

Page 129: Lezioni di STATISTICA MATEMATICA

QUANTILI DELLA LEGGE t DI STUDENT: P [Tn(x)] · α

n α=0.90 α=0.95 α=0.975 α=0.98 α=0.99 α=0.995

1 3.078 6.314 12.71 15.894 31.821 63.66

2 1.886 2.920 4.303 4.849 6.965 9.925

3 1.638 2.353 3.182 3.482 4.541 5.841

4 1.533 2.132 2.776 2.999 3.747 4.604

5 1.476 2.015 2.571 2.757 3.365 4.032

6 1.440 1.943 2.447 2.612 3.143 3.707

7 1.415 1.895 2.365 2.517 2.998 3.499

8 1.397 1.860 2.306 2.449 2.896 3.355

9 1.383 1.833 2.262 2.398 2.821 3.250

10 1.372 1.812 2.228 2.359 2.764 3.169

11 1.363 1.796 2.201 2.328 2.718 3.106

12 1.356 1.782 2.179 2.303 2.681 3.055

13 1.350 1.771 2.160 2.282 2.650 3.012

14 1.345 1.761 2.145 2.264 2.624 2.977

15 1.341 1.753 2.131 2.249 2.602 2.947

16 1.337 1.746 2.120 2.235 2.583 2.921

17 1.333 1.740 2.110 2.224 2.567 2.898

18 1.330 1.734 2.101 2.214 2.552 2.878

19 1.328 1.729 2.093 2.205 2.539 2.861

20 1.325 1.725 2.086 2.197 2.528 2.845

21 1.323 1.721 2.080 2.189 2.518 2.831

22 1.321 1.717 2.074 2.183 2.508 2.919

23 1.319 1.714 2.069 2.177 2.500 2.807

24 1.318 1.711 2.064 2.172 2.492 2.797

25 1.316 1.708 2.060 2.167 2.485 2.787

26 1.315 1.706 2.056 2.162 2.479 2.779

28 1.313 1.701 2.048 2.154 2.467 2.763

30 1.310 1.697 2.042 2.147 2.457 2.750

32 1.309 1.694 2.037 2.141 2.449 2.738

35 1.306 1.690 2.030 2.133 2.438 2.724

40 1.303 1.684 2.021 2.123 2.423 2.704

50 1.299 1.676 2.009 2.109 2.403 2.678

60 1.296 1.671 2.000 2.099 2.390 2.660

1 1.282 1.645 1.960 2.054 2.326 2.576

126

Page 130: Lezioni di STATISTICA MATEMATICA

QUANTILI DELLA LEGGE CHI-QUADRO: P [χ2n(x)] · α

n 0.005 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99 0.995

1 .00004 .00016 .00098 .0039 .015 2.706 3.841 5.024 6.635 7.879

2 0.0100 0.0201 0.0506 0.103 0.211 4.605 5.991 7.378 9.210 10.597

3 0.0717 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838

4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860

5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750

6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548

7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278

8 1.344 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955

9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589

10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188

11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757

12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300

13 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819

14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319

15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801

16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267

17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718

18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156

19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582

20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997

21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401

22 8.643 9.542 19.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796

23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181

24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.558

25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928

26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290

27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645

28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994

29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335

30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672

32 15.134 16.362 18.291 20.072 22.271 42.585 46.194 49.480 53.486 56.328

34 16.501 17.789 19.806 21.664 23.952 44.903 48.602 51.966 56.061 58.964

36 17.887 19.233 21.336 23.269 25.643 47.212 50.998 54.437 58.619 61.581

38 19.289 20.691 22.878 24.884 27.343 49.513 53.384 56.895 61.162 64.181

40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766

45 24.311 25.901 28.366 30.612 33.350 57.505 61.656 65.410 69.957 73.166

50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490

60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952

70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215

80 51.172 53.140 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321

90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299

100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.170

127

Page 131: Lezioni di STATISTICA MATEMATICA

BIBLIOGRAFIA

Anichini Giuseppe, Calcolo 4, Parte Prima, Elementi di calcolo delle probabilita

e di inferenza statististica, Pitagora (Bologna), 1995.

Ross Sheldon M., Probabilita e Statistica per L’Ingegneria e le scienze, Apogeo

(Milano), 2003.

Vicario Grazia, Raffaello Levi, Calcolo delle probabilita e statistica per ingegneri,

Esculapio (Bologna), 2000.

William Navidi, Probabilita e statistica per l’ingegneria e le scienze, McGraw-Hill,

2006.

— Ultime modifiche apportate il 16/4/2009 —

128