2 - STATISTICA DESCRITTIVA E DISTRIBUZIONIcorsiadistanza.polito.it/corsi/pdf/01CWRGQ/capitolo2_2007.pdf · entro una certa classe e tabulare la frequenza assoluta e/o relativa. A

2 - STATISTICA DESCRITTIVA E DISTRIBUZIONI

2.1 Variabili statistiche e variabili casuali semplici

Variabile statistica

Si supponga che gli individui appartenenti ad un insieme ben determinato siano

caratterizzati da un attributo X avente i seguenti requisiti:

a) X può assumere forme diverse (X1, X2, …, Xn);

b) è possibile che individui diversi posseggano la stessa forma;

c) ogni individuo deve possedere almeno una forma;

d) esistono almeno due individui con forme diverse.

Si può allora classificare l’insieme secondo l’attributo X, cioè esaminare tutti gli individui e

determinare il valore X dell’attributo per ognuno di essi. Il risultato di tale classificazione è

il seguente insieme di valori, detto variabile statistica:

n21

n21

FFF

xxxX

K

K (2.1)

dove Fi è la frequenza assoluta dell’evento xi, cioè il numero di individui della popolazione

caratterizzati dal valore Xi ed n è il numero delle forme diverse dell’attributo.

In pratica, una variabile statistica è il risultato di una classificazione o, più in generale, di

un esperimento concluso in se stesso, cioè operato su una popolazione totalmente nota.

2 – Variabili statistiche e variabili casuali semplici ________________________________________________________________________________________________

23

La successione delle diverse forme xi non sempre può rappresentarsi con dei numeri in

maniera immediata; questa possibilità esiste sempre però nei casi relativi alle misure.

Inoltre l’argomento X può assumere o un numero finito di forme (in tal caso è detto

discreto) oppure può presentarsi con un numero infinito di forme, tutte però contenute con

continuità in un intervallo limitato (a-b), ed allora è detto di tipo continuo.

Nella pratica però, si avrà sempre a che fare con argomenti di tipo discreto, giacché ogni

risultato di misurazioni, per sensibile che sia lo strumento utilizzato, è sempre una serie

discreta, anche se numerosa, di valori numerici che differiscono fra loro di quantità finite.

Per ora si prenda dunque solo in considerazione la successione dei valori argomentali

discreti di X.

Indicando con N la somma delle frequenze assolute, che equivale al numero degli individui

della popolazione, si ha:

NFn

1ii =∑

=

(2.2)

Si possono allora determinare le frequenze relative in tal modo:

N

Ff ii = (2.3)

Ovviamente si ha:

∑=

=n

1ii 1f (2.4)

La variabile statistica può scriversi anche sotto la seguente forma:

N

F...,,

N

F,

N

F

x....,,x,x

Xn21

n21

(2.5)

1N

Fn

1

i =∑ (2.6)

che differisce dalla precedente perché in essa, alla successione di frequenza assoluta Fi,

è stata sostituita la successione di frequenza relativa fi = Fi / N.

Le eguaglianze:

NFn

1i =∑ (2.7)

e

1fn

1i =∑ (2.8)


24

non sono inutili aggiunte, ma servono ad esprimere la garanzia che la popolazione è stata

analizzata per intero e che tutti i suoi individui sono sinteticamente rappresentati in X.

Esempio 1

Si voglia costruire la distribuzione di frequenza relativa a 60 studenti maschi,

pesati di chilo in chilo. I valori sono i seguenti:

63 74 68 75 60 65 62 57 68 79 71 66 72 72 64 58 67 62

69 67 69 71 65 76 57 74 63 80 63 74 54 69 70 75 72 66

78 60 64 67 63 61 69 64 74 61 73 66 82 61 64 58 68 71

60 66 58 70 84 68

Il peso maggiore è di 84 kg e quello minore è di 54 kg; l’intervallo tra questi di

84 - 54 = 30 kg. Una scelta conveniente dell’ampiezza della classe è di 2 kg e,

di conseguenza, i punti medi delle classi potrebbero essere 54.5, 56.5, ecc.

Gli intervalli di classe saranno quindi di 54÷55, 56÷57, 58÷59, ecc. Con questa

scelta i limiti delle classi saranno 55.5, 57.5, 59.5, ecc.

La variabile statistica risulterà così ordinata:

Peso (kg) Frequenza

54-55 1 56-57 2 58-59 3 60-61 6 62-63 6 64-65 6 66-67 7 68-69 8 70-71 5 72-73 4 74-75 6 76-77 1 78-79 2 80-81 1 82-83 1 84-85 1

Tot. 60


25

Rappresentazione grafica di una variabile statistica semplice

Della X si possono dare alcuni tipi di rappresentazioni grafiche. Si riportino, in scala

opportuna, su di una semiretta, i valori numerici dell’argomento X, dopo averli disposti in

ordine crescente; essi risulteranno perciò tutti distribuiti sul segmento x1xn. In

corrispondenza di ciascun valore xi si riporti, in direzione normale alla semiretta x1xn, un

segmento di lunghezza proporzionale alla frequenza totale Fi di quel valore argomentale.

Si avrà così un diagramma di frequenza. In figura 1 è rappresentato il diagramma di

frequenza relativo all’esempio 1 .

Figura 1 – Diagramma di frequenza relative all’esempio 1

Naturalmente si sarebbe potuta determinare un’altra distribuzione di frequenza

scegliendo una diversa ampiezza delle classi. Se si fosse fissata un’ampiezza di

quattro chili si sarebbe ottenuta la seguente tabella:

Peso (kg) Frequenza

54-57 3

58-61 9

62-65 12

66-69 15

70-73 9

74-77 7

78-81 3

82-85 2

Tot. 60


26

Naturalmente in ordinata si possono indicare, invece delle frequenze assolute, le

corrispondenti frequenze relative.

Questo tipo di grafico va bene soprattutto nel caso di valori argomentali discreti; si pensi

per esempio al lancio di un dado: la variabile può assumere solo un numero finito di valori.

Un campione di 50 lanci di un dado dà una serie di numeri che possono assumere valori

discreti, sicché la rapresentazione del tipo in figura 1 è piuttosto comoda. Si noti infatti che

nell’esempio 1 i pesi sono tutti numeri interi.

Quando però la serie dei valori argomentali è molto numerosa e compresa in un intervallo

x1xn assai limitato, allora può essere conveniente un’altra rappresentazione grafica della

variabile statistica. La serie dei valori argomentali riportata graficamente su di una retta

viene suddivisa in tanti intervalli o classi, ciascuno contenente un certo gruppo di valori

argomentali. Questo sarebbe utile anche nel caso di un campione di pesi, in quanto il peso

può assumere qualsiasi valore, per esempio 82,4 kg: non ha più molto senso parlare allora

di frequenza del valore argomentale, ma è più opportuno raccogliere le frequenze dei pesi

entro una certa classe e tabulare la frequenza assoluta e/o relativa.

A maggior ragione questo vale per valori argomentali espressi con diverse cifre decimali:

che senso avrebbe segnalare la frequenza di una lunghezza di 1,387 m?

Siano x’1, x’2, …, x’m i punti di separazione, o limiti delle classi che, per evitare ambiguità, è

meglio non coincidano con i valori argomentali propri della variabile statistica. Si costruisca

sopra ogni intervallo costituito dal segmento x’i x’i+1, un rettangolo di area proporzionale al

numero degli individui della popolazione in possesso di valore argomentale compreso

entro i limiti x’i, x’i+1. La figura risultante si chiama istogramma. Può capitare che

l’ampiezza delle classi coincida con l’unità di misura delle x e che venga mantenuta

costante. A volte, però, questo non accade ed è talvolta opportuno modificare l’ampiezza

delle classi in quella zona in cui le frequenze diminuiscono sensibilmente. Questa

rappresentazione si avvale dunque di rettangoli per rappresentare le frequenze, per

ricordare che le osservazioni si riferiscono all’intero ambito della classe e non solo al punto

di mezzo. Pertanto le altezze dei singoli rettangoli vanno calcolate in modo da rispettare la

definizione data dall’istogramma.

Sia y l’altezza del rettangolo, allora:

i

ii

x

Fy

∆= (2.9)

dove Fi è la frequenza assoluta e ix∆ è l’ampiezza dell’intervallo; ovviamente l’area del

rettangolo iii xyF ∆= rappresenta la frequenza.

Come al solito si può anche utilizzarla frequenza relativa:

i

ii

x

fy

∆= (2.10)


27

Esempio 2

Indicando con m0 l’unità di misura delle x (che può anche essere l’intervallo di

classe più frequentemente utilizzato) e con 0ii xxk ∆∆= il numero di unità di

misura contenuto nella classe di ampiezza ix∆ , l’ordinata yi da assegnare al

rettangolo di base mi sarà:

i

i'i

k

Fy =

Dove Fi rappresenta la frequenza assoluta degli individui presenti nella classe

di ampiezza mi. Così facendo l’area totale sotto l’istogramma sarà misurata da

ΣFi=N.

Molto spesso, con un cambiamento di unità nella scala delle ordinate, le

altezze dei rettangoli vengono rappresentate con valori:

i

i'i

k

/NFy =

Al disotto dell’istogramma viene allora a trovarsi un’area normalizzata, cioè

uguale a 1.

I seguenti dati rappresentano una distribuzione secondo classi e l’istogramma

che se ne ricava avendo assunto come unità di misura 0x∆ =1000. Dalla terza

colonna si ha N=ΣFi=7698.

Classi

Ampiezza

delle classi

ix∆

Frequenza

assoluta Fi ki yi

'iy

100-500

400 449 0,4 1123 0,146

501-1000 500 969 0,5 1938 0,252

1001-2000 1000 1793 1 1793 0,233

2001-3000 1000 1280 1 1280 0,166

3001-4000 1000 824 1 824 0,107

4001-5000 1000 630 1 630 0,082

5001-7000 2000 765 2 382 0,050

7001-10000 3000 472 3 156 0,020

10001-15000 5000 369 5 74 0,010

15001-20000 5000 147 5 29 0,004


28

Nella costruzione degli istogrammi ha importanza notevole la scelta dell’ampiezza

dell’intervallo di ciascuna classe. Da questa scelta dipende a volte in modo macroscopico

la formazione dell’istogramma. L’ampiezza dell’intervallo dovrà essere scelta, sia pure con

una certa arbitrarietà, tenendo conto di questi elementi fondamentali:

- dell’estensione del campo di variabilità dell’argomento della variabile;

- del numero complessivo di individui componenti la popolazione;

- del grado di attendibilità delle rilevazioni dell’argomento stesso.

Nel caso che il valore dell’argomento proprio di ciascun individuo sia ottenuto mediante

misure, sarà inutile ripartire l’istogramma in classi il cui intervallo sia inferiore alla

sensibilità della misura stessa.

La rappresentazione mediante istogramma con intervallo di ampiezza uniforme della

variabile statistica già ordinata in classi dell’esempio 1 mostra chiaramente come, al

variare dell’ampiezza dell’intervallo, cambi sensibilmente la forma dell’istogramma

corrispondente (vedi Figura 3).

Si può dunque pensare che il numero delle classi sia un ragionevole compromesso tra una

distribuzione troppo dettagliata ed una troppo sintetica. Come detto precedenza, bisogna

tenere in conto il numero di osservazioni e la dispersione dei dati, in modo che non vi

siano troppe o troppo poche classi.

Se si sceglie di avere un’ampiezza costante, una scelta del numero di classi tra 5 e 20

risulta soddisfacente.

Inoltre il punto di mezzo delle classi, che rappresenta in un certo senso tutti i valori del

campione nell’ambito della classe, se possibile, sarebbe conveniente fosse un appropriato

numero intero.

Figura 2 – Istogramma relativo alla distribuzione


29

Il problema della scelta dell’intervallo in cui suddividere la scala dei valori argomentali per

la costruzione dell’istogramma perde la sua importanza qualora si passi dalla

rappresentazione della variabile statistica a quella della variabile statistica cumulata.

Variabile casuale

Una variabile casuale, a differenza di una statistica, non è il risultato di un censimento su

una popolazione nota, bensì una variabile limite, caratterizzata da un certo numero di

valori argomentali, per ognuno dei quali si può definire una frequenza limite (probabilità),

che è sempre al di là di ogni operazione effettivamente eseguita. In pratica una variabile

casuale è un modello di comportamento dei dati relativi ad un certo esperimento; tale

comportamento viene descritto mediante la funzione di distribuzione di probabilità. La

probabilità è un ente che, come si è visto, si può definire assiomaticamente, a priori,

mentre la frequenza è un indice che misura risultati empirici, definito a posteriori in base a

esperimenti già effettuati.

L’istogramma ha lo scopo di confrontare i risultati di un esperimento, rappresentati

mediante una variabile statistica, con una funzione densità di probabilità: in definitiva si

confronta un campione con il modello della popolazione da cui si immagina sia stato

estratto.

Finora, nell’ambito delle variabili statistiche, il simbolo f stava ad indicare le frequenze

relative ed il simbolo F le frequenze assolute.

Nell’ambito invece delle variabili casuali si utilizzeranno f(x) e F(x) con significati del tutto

diversi: il primo, come si vedrà di seguito, indicherà la funzione densità di probabilità,

mentre il secondo la funzione distribuzione di probabilità.

Una variabile casuale a una dimensione è una distribuzione di probabilità, il cui insieme di

valori argomentali S sia rappresentabile sulla retta reale e tale che sia definita la

probabilità per ogni insieme del tipo:

( ) { } SxxxI 00 ∧≤= (2.11)

La variabile casuale a una dimensione sarà perciò caratterizzata dalla funzione:

( ) ( )( )00 xIxPxF ∈= (2.12)

0

2

4

6

8

10

55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85

0

5

10

15

20

56 68 80

Figura 3 – Istogrammi relativi alla stessa popolazione, con diverso intervallo di classe


30

F(x0) prende il nome di funzione di distribuzione e gode delle seguenti proprietà:

a) F(x0) è definita per ogni x0 reale e risulta 0 ≤ F(x0) ≤ 1;

b) 0=)F(xlim 00x ∞-→

;

c) 1=)F(xlim 00x +∞→

;

d) F(x2) ≥ F(x1), ∀ x2 ≥ x1 .

Una variabile casuale si dice discreta se l’insieme S è formato da un numero discreto di

punti, su cui si è concentrata la probabilità; se viceversa la probabilità che x assuma un

singolo valore numerico è sempre zero, allora la variabile si dice continua.

Nel primo caso la funzione di distribuzione F(x) è una funzione a gradini con discontinuità

in corrispondenza ai valori argomentali, nel secondo caso F(x) è continua.

Senza dare una dimostrazione rigorosa di queste proprietà vediamo come esse

siano di facile comprensione attraverso un esempio che, per ragione di

semplicità, viene presentato inizialmente per variabili discrete.

Esempio 3

Si supponga di avere una variabile aleatoria discreta che può assumere solo

cinque valori; le probabilità di ottenere i singoli valori sono raccolte nella tabella

seguente:

Xi Pi

0 0.15

1 0.37

2 0.28

3 0.11

4 0.09

Si vada ora a “costruire” la funzione di distribuzione cumulativa, tenendo

presente che:

∑ ==<=<xix

i )xP(X x)X ( P F(X)

dove la disuguaglianza xi < x sotto il segno di sommatoria significa che questa

è estesa a tutti gli xi inferiori ad x.


31

La funzione di distribuzione di una variabile discreta qualsiasi è sempre una funzione

discontinua a gradini, i cui salti sono localizzati nei punti corrispondenti ai valori possibili di

questa variabile e sono uguali alle probabilità di questi valori. La somma di tutti i salti di

funzione è pari a uno.

Esempio 4

Si definisca una distribuzione di probabilità tra –∞ e +∞, per mezzo della

relazione:

a) arctg - b (arctgπ

1 b) x (a P =≤≤

La corrispondente funzione di distribuzione risulta:

Per cui abbiamo

x ≤ 0 F(x) = 0

O < x ≤ 1 F(x) = 0.15

1 < x ≤ 2 F(x) = 0.52

2 < x ≤ 3 F(x) = 0.80

3 < x ≤ 4 F(x) = 0.91

x > 4 F(x) = 1

Il grafico di tale funzione è dunque il seguente:

0,91

0,80

1

0,52

0,15

1 0 2 3 4


32

A mano a mano che aumenta il numero di valori possibili della variabile aleatoria e

diminuiscono gli intervalli tra di essi, il numero di salti diventa sempre più grande e i salti

stessi più piccoli. La curva della funzione, inizialmente a gradini, si avvicina così ad una

funzione continua, caratteristica delle variabili aleatorie continue.

Come si può vedere anche dagli esempi fatti, oltre che dalla definizione, la funzione di

distribuzione può avere discontinuità solo nei punti in cui sia concentrata una probabilità

finita: il salto della F(x) corrisponde allora alla probabilità che x assuma quello specifico

valore.

Si noti che la variabile statistica definisce formalmente una distribuzione di probabilità

discreta, concentrata sui valori: x1, x2, …, xn. Basta, infatti, porre:

ii f)xx(p == (2.13)

Quindi ogni definizione, ogni dimostrazione, varrà sia per le variabili casuali, sia per le

variabili statistiche, poiché sono formalmente identiche.

In base a questa identità formale, si può estendere alle variabili statistiche il concetto di

funzione di distribuzione F(x); nel caso delle variabili statistiche, F(x) diventa la cosiddetta

funzione cumulativa di frequenza, e rappresenta la percentuale di elementi della

popolazione il cui valore argomentale xi risulta minore o uguale a x.

Si introducono altresì le frequenze relative cumulate, così definite:

∑ ≤==

i

1jji 1ft (2.14)

2.2 La funzione densità di probabilità

Una variabile può essere caratterizzata per mezzo della sua funzione di distribuzione F(x).

Se la v.c.(˚) x è continua, sarà particolarmente interessante, per una sua dettagliata

descrizione,conoscere la probabilità di x in un intervallino del tipo [x0, x0 + ∆x]; in base alla

definizione di F(x) (˚˚) sarà:

P(x0 ≤ x ≤ x0+∆x) = F(x0+∆x) – F(x0) (2.15)

Per ∆x abbastanza piccolo, si potrà allora porre a meno di infinitesimi di ordine superiore,

ammesso che F(x) sia differenziabile,

P(x0 ≤ x ≤ x0+∆x) = dF(x0) = F’(x0) ∆x (2.16)

ovvero:

(˚)

d’ora in poi si indicherà la variabile casuale con l’abbreviazione v.c. (˚˚)

si noti che più esattamente sarà: F(x0+∆x) – F(x0) = P(x0 < x < x0+∆x); poiché però x è per ipotesi continua,

si ha anche P(x=x0) = 0 e quindi: P(x0 < x < x0+∆x) = P(x0 ≤ x ≤ x0+∆x)


33

f(x0) = F’(x0) = ∆x

∆xxx P(xlim 00

0∆x

)+≤≤

→. (2.17)

La funzione f(x) prende il nome di densità di probabilità ed essendo F(x) una funzione

monotona crescente, si avrà:

f(x) ≥0 ∀x. (2.18)

Per comprendere meglio il significato di f(x) si può ricorrere ad un’analogia. Una

distribuzione di probabilità può essere assimilata ad una distribuzione di massa o di una

carica unitaria sull’asse reale; in questo caso f(x) coinciderebbe col concetto di densità di

massa (o di carica) sulla retta.

La funzione di densità di probabilità è caratterizzante di una v.c.: da f(x) infatti si può

ricostruire F(x) che, tenuto conto che F(-∞)=0, è data da:

∫=∞−

x

f(t)dtF(x) . (2.19)

Siccome poi deve essere F(+∞)=1, si deduce che la f(x) deve sempre soddisfare la

condizione, detta di normalizzazione:

∫=+∞

∞−

f(x)dx1 . (2.20)

Il concetto di funzione densità di probabilità non è direttamente applicabile ad una variabile

discreta poiché la sua funzione di distribuzione è in ogni punto o costante o discontinua:

pertanto non si può formalmente definire un analogo della densità di probabilità per una

v.s.

Esempio 5

La densità di probabilità, corrispondente all’esempio 4, è data da:

2x1

1

π

1

2

1arctgx

π

1

dx

d f(x)

+=

+=


34

2.3 Concetto di centro

La rappresentazione grafica della variabile statistica non sempre è espressiva; la variabile

casuale è d’altronde spesso ignota, sicché a questo scopo sono stati introdotti indici che

precisano alcune caratteristiche essenziali, e sono detti statistiche nel caso della v.s.

Si premette che si dice momento k-esimo rispetto al polo θ, di una distribuzione di

probabilità o di frequenza, la seguente espressione:

( ) i

kn

1ikθ fxm ∑ ϑ−= . (2.23)

La serie dei momenti di una variabile, rispetto ad un particolare polo, per esempio lo 0,

basta a rappresentare tutte le caratteristiche della distribuzione.

Si possono introdurre vari valori atti a definire più o meno adeguatamente il centro di un

insieme di valori argomentali.

Di seguito si utilizzeranno simboli diversi per le variabili statistiche e le variabili casuali:

caratteri latini per le prime, greci per la seconde; per esempio si userà m per la media

campionaria (media della v.s.) ( x ) e µ per il valore atteso (media della v.c.), s per lo

scarto quadratico medio nel primo caso e σ per la radice della varianza nel secondo.

Di seguito saranno usati in modo indifferente, in quanto gli indici illustrati valgono per le

variabili statistiche e per quelle casuali.

Si può notare che in base alla (2.20) si ha:

b)x(a P F(a) - F(b) dxf(x)ba ≤≤=∫ = (2.21)

La (2.21) fornisce un legame diretto tra f(x) e le distribuzioni di probabilità della v.c.

da questa descritta. Più in generale, se A è un qualunque insieme misurabile sulla

retta, si ha:

∫=∈ A dxf(x) A)P(x (2.22)


35

Si dice MODA il valore argomentale x0 (ν) tale che in corrispondenza di esso f(x) abbia un

massimo relativo. Esso non è però adeguato a rappresentare il centro per tre motivi:

− non è detto che esista una sola moda;

− è possibile che tutti gli elementi abbiano pressappoco la stessa frequenza;

− la moda può essere collocata in un estremo.

Si dice MEDIANA il valore argomentale X1 (µe) tale che risulti:

5,0)xx(f 1ii i <<∑ e 5,0)xx(f 1ii i ≤>∑ . (2.24)

In pratica, la mediana è quel valore che divide in due l’area sottesa da f(x) se la

distribuzione è continua:

Figura 4

Nel caso di variabili discrete, se esiste xi tale che F(xi)=0.5, µe è un qualsiasi valore

nell’intervallo xi , xi+1; altrimenti è il valore per cui F(xi) >0.5 per la prima volta.

La mediana è un buon indice, però è difficile da calcolare.

Si dice MEDIA il valore argomentale x2 tale che risulti:

∑===

n

1iii2 fxµx

∫==b

a2 dxxf(x)µx . (2.25)

La media è un ottimo indicatore per la rappresentazione del centro. Si osservi come la

media sia il momento di primo ordine rispetto al polo θ = 0.

Si noti inoltre che media e mediana coincidono se la distribuzione è simmetrica, mentre

moda e mediana coincidono se la distribuzione è simmetrica e se la moda è unica o in

numero dispari (in tal caso la media coincide con la moda centrale).


36

Si avranno quindi i seguenti casi:

− simmetrica

Figura 5 – Funzione f(x) simmetrica

− simmetrica con mode in numero pari

Figura 6 – Funzione f(x) simmetrica con mode in numero pari

− simmetrica con mode in numero dispari

Figura 7 – Funzione f(x) simmetrica con mode in numero dispari


37

− asimmetrica

Figura 8 – Funzione f(x) asimmetrica

Si introduce l’operatore E(x) che indica il calcolo della media dei valori argomentali x; esso

è valido sia per variabili discrete che per variabili continue.

2.4 La dispersione

Interpreta la necessità di sapere se in una certa distribuzione i dati sono vicini al centro o

meno; anche in tal caso esistono indici più o meno adeguati a rappresentare tale concetto.

Si dice AMPIEZZA la quantità:

S = xmax - xmin (2.26)

Questo indice è scadente per due motivi:

− non precisa se il centro è frequentato;

− non precisa se le regioni del massimo e minimo sono frequentate: massimo e

minimo sono valori totalmente arbitrari.

Si dice VARIANZA la quantità:

( )∑ −==

n

1ii

2ii

2 fµxσ (distr. discreta)

( )∫ −=b

a

22 dxf(x)µxσ (distr. continua) (2.27)

Usando l’operatore E si ha:

[ ]2i

2 )x(xMσ −= (distr. discreta)

[ ]2i

2 )x(xMσ −= (distr. continua) (2.28)

Il momento di secondo ordine (k=2) della variabile rispetto al polo θ = 0:

∑=n

1i

2i2,0 fxm (2.29)

prende il nome di valore quadratico medio ed è un indice di lontananza dal polo della

media.


38

La radice quadrata della varianza si dice SCARTO QUADRATICO MEDIO (s.q.m.):

2σ.m.q.sσ == (2.30)

Si dimostrano ora due proprietà della varianza:

(x)E)E(xσ 222 −=

=+−=∑ ∑+ϖ−=

∑ ∑ =+∑ −∑ =−=

222n

1

n

1ii

2iii

2

n

1

n

1i

2iiii

n

1i

2ii

n

1i

2ii

2

µµ2)M(xfµfx2)M(x

fµµfx2fxfµ)(xσ

(x)E)E(x 22 −=

Si definisce infine il seguente indice (MOMENTO DI ORDINE 2 RISPETTO AL POLO θ):

( )∑ −=ϕn

1

2

ijfii2θ θx (2.31)

Si dimostra che la media è il polo θ che rende minimo il momento di secondo ordine, cioè

che la varianza è il minimo dei momenti di ordine 2 rispetto ad un polo:

( )θminσ 22 ϕ=

∑ −−=∂

ϕ∂ n

1iii

2

fθ)(x2θ

;

0fθ)(x2n

1iii∑ =−− ;

0fθ)(xn

1iii∑ =− ;

0θffxn

1ii

n

1iii ∑∑ =−

∑∑ =n

1ii

n

1iii fθfx

θµ = c.v.d.

Esistono altri interessanti indici di dispersione.

La deviazione assoluta dalla media, detta δ, è definita da:

∑ −=δn

1ii fµx

( )∫ ∑ −=δ∞+∞−

n

1i dxxfµx (2.32)


39

2.5 Popolazioni degli scarti e degli scarti standardizzati

La popolazione degli scarti è costituita dai seguenti elementi:

xxv ii −= . (2.33)

Si dimostra che la media degli scarti è nulla ( 0v = ); infatti:

0xxfxfxf)xx(vn

1ii

n

1iii

n

1iii =−∑ =∑ −∑ =−= .

Si dimostra che la varianza degli scarti è uguale a quella della popolazione iniziale

( 2x

2v σ=σ ); infatti:

2x

n

1i

2ii

n

1i

2ii

n

1i

2ii

2v f)xx(fvf)vv( σ∑ =−∑ −∑ =−=σ .

La popolazione degli scarti normalizzati è costituita dai seguenti elementi:

X

i

x

ii

vxxz

σ=

σ

−= . (2.34)

Si dimostra che la media degli scarti normalizzati è nulla ( 0z = ); infatti:

0)xx(1

)fxfx(1

f)xx(1

fxx

zX

n

1ii

n

1iii

X

n

1iii

Xi

x

in

1i =−

σ=∑−∑

σ=∑ −

σ=

σ

−∑= .

Si dimostra che la varianza degli scarti normalizzati è unitaria ( 12z =σ ); infatti:

1fv

f)0v

(f)zz(2x

2x

i2x

2i

n

1ii

2

x

in

1ii

2i

n

1i

2z =

σ

σ=

σ∑=−

σ∑=−∑=σ .

2.6 Indici di forma

Un indice adeguato a rappresentare la simmetria, o meno, delle distribuzioni è il seguente:

3

n

1i

3ii

σ

f)x(x∑ −

=γ (distr. discreta)

3

ba

3

σ

dxf(x))x(x∫ −=γ (distr. continua) (2.35)


40

L’indice di simmetria γ può essere indicato anche nel modo seguente:

[ ]

[ ]23

2i

3i

x)(xE

x)(xE

−

−=γ (2.36)

In particolare si possono presentare i seguenti casi:

- Simmetria

Figura 9 – Distribuzione simmetrica

- Asimmetria coda a sinistra

Figura 10 – Distribuzione asimmetrica, coda a sinistra

- Asimmetria coda a destra

Figura 11 – Distribuzione asimmetrica, coda a destra


41

Si introduce il seguente indice detto CURTOSI, per descrivere le asperità della curva di

distribuzione:

4

n

1i

4ii

σ

fµ)(x∑ −

=β (distr. discreta)

4

b

a

4

σ

dxf(x)µ)(x∫ −=β (distr. continua) (2.37)

Introducendo l’operatore E:

( )[ ]( )[ ]22

4

xxE

xxE

−

−=β (2.38)

Perché una distribuzione sia considerata “normale”, si deve avere β=3 (condizione

necessaria ma non sufficiente).

Si ha, con γ = 0:

Figura 12 - …..

0 < β ≤ 3

β = 3

β ≥ 3


42

2.7 Teorema di Čebišev

Si ordinino in modo crescente gli scarti vi in modulo:

L’origine della semiretta di rappresentazione degli scarti è ovviamente lo zero.

Si ponga su tale retta un numero multiplo di σ pari a Λσ, dove Λ è una costante intera

positiva (presa in tal modo per comodità): Λ = 1,2,3,…

Prima di Λσ la frequenza cumulata dei residui sia t (dopo Λσ essa è allora (1-t)).

Si può scrivere allora:

2222 σΛt)(10tσ −+⋅≥ (2.39)

Infatti si approssimano a 0 tutti i valori minori di Λσ e a Λσ tutti i valori superiori a Λσ e

quindi, tenendo presente che:

j2j

n

1eji

2i

e

1i

2 fvfvσ ∑+∑=+

tfie

1i =∑ , ∑ −=

+

n

1eji t1f (2.40)

si ricava la (2.39) e dalla (2.40) si deduce:

222 σΛt)(1σ −≥

2)t1(1 Λ−≥

)t1(12

−≥Λ

2

11t

Λ−≥ (2.41)

Pertanto si può conoscere la frequenza cumulata minima degli scarti minimi di un certo

valore, per comodità scelto come multiplo di σ.

In modo più preciso si può dire che, preso un qualunque un numero Λ>1, per una

qualunque variabile casuale x vale la disuguaglianza:

2xx

11)x(p

Λ−≥σΛ≤µ− (2.42)

Cioè, più piccolo è lo s.q.m. xσ , più piccolo è l’intervallo [ ]xxxx , σΛ+µσΛ−µ in cui si è

sicuri di avere una probabilità che al minimo vale 2

11

Λ− .

Λσ

Freq. cum. t Freq. cum. 1-t


43

Si trova:

Λ=1 t ≥ 0

Λ=2 t ≥ 3/4

Λ=3 t ≥ 8/9

Ciò significa che in un intervallo [ ]σ+µσ−µ 2,2 si ha almeno il 75% di probabilità e in un

intervallo [ ]σ+µσ−µ 3,3 esso sale all’89% di probabilità, e ciò indipendemente dalla

varibile casuale.

Documents

2 - STATISTICA DESCRITTIVA E DISTRIBUZIONIcorsiadistanza.polito.it/corsi/pdf/01CWRGQ/capitolo2_2007.pdf · entro una certa classe e tabulare la frequenza assoluta e/o relativa. A