La variabilità
Dott. Cazzaniga Paolo
Dip. di Scienze Umane e [email protected]
Dott. Cazzaniga Paolo La variabilità
Introduzione [1/2]
Gli indici di variabilità consentono di riassumere le principalicaratteristiche di una distribuzione (assieme alle medie)
Le medie sono rappresentative solo nel caso in cui le unità statistichepresentano modalità “vicine” a questi indici di posizione
Distribuzioni con medie di uguale valore presentano caratteristichediverse:
X = {160, 161, 164, 190, 195}Y = {167, 166, 174, 178, 185}Z = {174, 174, 174, 174, 174}Media aritmetica = 174
Un singolo valore di sintesi non consente di descrivere appieno ladistribuzione di un carattere
Dott. Cazzaniga Paolo La variabilità
Introduzione [1/2]
Distribuzioni caratterizzate dalla stessa media aritmetica possonoavere una diversa variabilità:
Dott. Cazzaniga Paolo La variabilità
Variabilità [1/2]
Variabilità V (X ): misura che esprime la tendenza delle unità di uncollettivo ad assumere diverse modalità del carattere X
V (X ) = 0 se tutte le unità presentano la stessa modalità delcarattere (distribuzione degenere)V (X ) > 0 la variabilità aumenta all’aumentare della diversità trale modalità assunte dalle unitàV (X + c) = V (X ) + c: aggiungendo una costante c ai valori di Xla variabilità non cambiaSe V (X ) > V (Y ) allora il carattere X è più variabile di Y
Dott. Cazzaniga Paolo La variabilità
Variabilità [2/2]
Esistono diverse categorie di indici di variabilità:indici di dispersione rispetto a una mediaindici di disuguaglianza a coppie (mutua variabilità o variabilitàreciproca)indici di mutabilità che misurano l’omogeneità/eterogeneità tra lemodalità di una distribuzione di frequenza
Che possono essere ulteriormente classificati in:assoluti
usano la stessa unità di misura della modalità della distribuzionenon permettono confronti tra distribuzioni statistiche con unità dimisura diverse
relativisi ottengono rapportando un indice assoluto al suo massimo o aduna medianon hanno unità di misurapermettono confronti tra distribuzioni
Dott. Cazzaniga Paolo La variabilità
Variabilità rispetto alla media
Servono a misurare se esiste una “certa stabilità” dei valori assuntidalle unità rispetto alla misura di tendenza centrale
Si basano sul concetto di scarto o scostamento rispetto alla media
varianzadevianzascarto quadratico medio o deviazione standardscostamento semplice dalla media
Dott. Cazzaniga Paolo La variabilità
Varianza
Variabilità rispetto alla media
Rappresenta il valore medio degli scarti al quadrato dalla media
Viene calcolata come:
σ2 =1n
n∑i=1
(xi − x̄)2
Nel caso di distribuzioni di frequenza:
σ2 =1n
k∑j=1
(xj − x̄)2 nj =k∑
j=1
(xj − x̄)2 fj
dove nj e fj sono rispettivamente le frequenze assolute e relative dellaj-esima modalità
Dott. Cazzaniga Paolo La variabilità
Varianza e Devianza
La varianza può essere calcolata anche come:
σ2 =1n
n∑i=1
x2i − x̄2
La devianza è la somma degli scarti al quadrato dalla media
Viene calcolata come:
Dev(X ) =n∑
i=1
(xi − x̄)2
E’ il numeratore della varianza σ2
Dott. Cazzaniga Paolo La variabilità
Scarto quadratico medio o deviazione standard
Per avere una misura con la stessa unità di misura dei dati, vienespesso usata la deviazione standard
La deviazione standard è la radice quadrata della media degli scartidelle unità dalla loro media, per questo viene anche chiamata scartoquadratico medio
Corrisponde alla radice quadrata della varianza e viene calcolatocome:
σ =
√√√√1n
n∑i=1
(xi − x̄)2
Nel caso di distribuzioni di frequenza viene calcolato come:
σ =
√√√√1n
k∑j=1
(xj − x̄)2 nj =
√√√√ k∑j=1
(xj − x̄)2 fj
Dott. Cazzaniga Paolo La variabilità
Scostamento semplice dalla media
Scostamento semplice medio dalla media:
SM =1n
n∑i=1
|xi − x̄ |
ovvero la media degli scarti (in valore assoluto) dalla media x̄
Scostamento semplice dalla mediana:
SMe =1n
n∑i=1
|xi −Me|
ovvero la media degli scarti (in valore assoluto) dalla mediana Me
Per le proprietà della media aritmetica, vale la relazione SM ≥ SMe
Dott. Cazzaniga Paolo La variabilità
Coefficiente di variazione
σ2, Dev , σ, SM e SMe sono indici di variabilità assolutaAssumono valori in una scala dipendente dall’unità di misura edall’intervallo di valori della variabile a cui sono associatiPer questo è difficile confrontare distribuzioni diverse
E’ quindi possibile costruire indici di variabilità relativacoefficiente di variazione CVottenuto rapportando la deviazione standard alla media:
CV =σ
|x̄ |
CV è un numero puro che viene spesso espresso in formapercentualeCV è una misura proporzionale della variabilità rispetto allamedia
Dott. Cazzaniga Paolo La variabilità
Altri indici di variabilità
Dato un insieme di n valori ordinati x1, x2, . . . , xn
Range:Calcolato come R = xn − x1
Indice molto semplice da calcolareNon fornisce indicazioni precise, soprattutto nel caso di valorianomali nella distribuzione
Differenza interquartile:Calcolata come distanza tra terzo e primo quartile DI = Q3 −Q1
Indice semplice da calcolare, esclude eventuali valori anomaliSe DI è piccola, allora la metà dei valori si trova concentrataintorno alla medianaAll’aumentare di DI aumenta quindi la dispersione del 50% deivalori intorno alla mediana
Dott. Cazzaniga Paolo La variabilità
Rappresentazione grafica [1/3]
La descrizione di un carattere tramite indice di posizione (ad es.media) dovrebbe essere sempre accompagnato da un indice divariabilità
Box-plot:realizzabile per caratteri quantitativi o qualitativi ordinabiliè composto da:
un box con un segmento orizzontale che identifica la mediana o lamediail box rappresenta la variabilità della distribuzione (50% centraledella distribuzione)due segmenti che identificano gli intervalli in cui sono presenti ivalori < Q1 e > Q3
eventuali valori anomali esterni individuati come Q1 − (α× DI) eQ3 + (α× DI), con α = 1, 5
Dott. Cazzaniga Paolo La variabilità
Rappresentazione grafica [2/3]
Informazioni date dal box-plot:distanze tra la mediana e i quartili descrivono la forma delladistribuzione (simmetria/asimmetria)valori adiacenti inferiori e superiori forniscono informazioni sulladispersione e sulle code della distribuzione
Per disegnare un box-plot:1 ordinare i dati2 calcolare la mediana, il primo e il terzo quartile3 identificare i valori massimo e minimo
Dott. Cazzaniga Paolo La variabilità
Rappresentazione grafica [3/3]
Dott. Cazzaniga Paolo La variabilità
Indici di mutua variabilità [1/4]
Permettono di effettuare confronti a coppie tra le diverse modalitàassunte dalle unità del collettivo
Differenza semplice media senza ripetizione:
∆ =1
n(n − 1)
n∑i=1
n∑j=1
|xi − xj |
dove i , j = 1, . . . ,n e i 6= j . Ovvero la media aritmetica delle differenze(in valore assoluto) di tutte le coppie di termini distinti
Differenza semplice media con ripetizione:
∆R =1n2
n∑i=1
n∑j=1
|xi − xj |
vengono considerate tutte le coppie, anche quelle formate da unamodalità con sé stessa
Dott. Cazzaniga Paolo La variabilità
Indici di mutua variabilità [2/4]
Nel caso di distribuzioni di frequenza, sapendo che il numero dicoppie è pari a ninj :
∆ =1
n(n − 1)
n∑i=1
n∑j=1
|xi − xj |ninj
∆R =1n2
n∑i=1
n∑j=1
|xi − xj |ninj
La relazione tra i due indici è la seguente:
∆ = ∆Rn
n − 1
Dott. Cazzaniga Paolo La variabilità
Indici di mutua variabilità [3/4]
∆ e ∆R assumono valore 0 quando tutti i dati sono uguali∆ e ∆R assumono valore massimo quando (n − 1) valori sonopari a 0 tranne l’n-esimo
Un indice normalizzato (tra 0 e 1, ovvero una percentuale) puòessere ottenuto come segue:
dividendo ∆ per il suo massimo teorico 2x̄R = ∆/2x̄ viene chiamato rapporto di concentrazione
Dott. Cazzaniga Paolo La variabilità
Indici di mutua variabilità [4/4]
Differenza quadratica media senza e con ripetizione:
∆2 =
√√√√ 1n(n − 1)
n∑i=1
n∑j=1
|xi − xj |, ∆2R =
√√√√ 1n2
n∑i=1
n∑j=1
|xi − xj |
Si può inoltre dimostrare che:
∆2 = σ
√2n
n − 1∼= σ√
2
Dott. Cazzaniga Paolo La variabilità
La concentrazione [1/3]
Misura specifica dei caratteri quantitativi e trasferibiliDato un insieme di n valori 0 ≤ x1 ≤ x2 ≤ · · · ≤ xn
La ricchezza complessiva del carattere è An = x1 + x2 + · · ·+ xn
Se tutte le unità hanno lo stesso ammontare di ricchezza An/n,allora c’è assenza di concentrazioneSe (n − 1) unità hanno 0 e l’n-esima possiede tutta la ricchezza,allora concentrazione è massimaPer le situazioni intermedie si considerano:
la frequenza cumulata Fi delle prime i unitàla quota del carattere Qi =
x1+x2+···+xiAn
= AiAn
posseduta dalle primei unitàin generale Fi ≥ Qi
Dott. Cazzaniga Paolo La variabilità
La concentrazione [2/3]
Curva di Lorenz
Asse delle ascisse (asse x): frequenze cumulate relative Fi
Asse delle ordinate (asse y ): quantità cumulate relative Qi
Dott. Cazzaniga Paolo La variabilità
La concentrazione [3/3]
Curva di Lorenz: equidistribuzione e massima concentrazione
Dott. Cazzaniga Paolo La variabilità
Indici di mutabilità
Attitudine dei caratteri qualitativi ad assumere differenti modalità
Esempio: colore degli occhi
Dott. Cazzaniga Paolo La variabilità
Indici di omogeneità [1/2]
L’indice di omogeneità viene definito a partire dalle frequenze relativefj di una distribuzione come:
O1 = f 21 + f 2
2 + · · ·+ f 2k =
k∑j=1
f 2j
aumenta se le frequenze sono concentrate su poche modalitàaumenta al diminuire del numero di modalitàil valore è massimo quando una sola modalità ha frequenzarelativa fj = 1il valore minimo è O1 = 1/k , quando tutte le frequenze sonouguali tra loro
Il risultato dipende dal numero di modalità del carattere
Dott. Cazzaniga Paolo La variabilità
Indici di omogeneità [2/2]
Indice di omogeneità relativo:
O1_rel =k
k − 1(O1)
assume valore 1 quando tutti i casi si trovano nella stessacategoriaassume valore 0 quando tutte le modalità hanno ugualefrequenza
Entropia:
O2 = −k∑
j=1
fj log(fj )
assume valore 0 nel caso di massima omogeneitàassume valore −log(k) nel caso di minima omogeneità
Dott. Cazzaniga Paolo La variabilità
Indici di eterogeneitàCalcolati come complemento a uno degli indici di omogeneità:
Indice di eterogeneità:
E1 = 1−k∑
j=1
f 2j
Indice relativo di eterogeneità:
E1_rel =k
k − 1E1
Indice di eterogeneità (rispetto all’entropia):
E2 = 1−k∑
j=1
fj log(fj )
Indice relativo di eterogeneità:
E2_rel =E2
log(k)
Dott. Cazzaniga Paolo La variabilità
La forma di una distribuzione [1/3]
Caratteristiche di una distribuzione:asimmetriacurtosi
Una distribuzione è simmetrica quando il ramo destro delladistribuzione può essere ribaltato e perfettamente sovrapposto aquello sinistro
La differenza tra media, mediana e moda:fornisce una misura assoluta riguardo alla simmetria di unadistribuzionenon permette di fare confronti tra fenomeni diversi
Dott. Cazzaniga Paolo La variabilità
La forma di una distribuzione [2/3]
Indice di asimmetria di Pearson (skewness):misura relativa e quantitativa del grado di asimmetria di unadistribuzioneviene calcolato come:
Sk =x̄ −Mo
σ∼=
3(x̄ −Me)
σ
Indice di Fisher:assume valori positivi (negativi) nel caso di asimmetria positiva(negativa)assume valori nulli in caso di simmetrial’indice nullo è una condizione necessaria ma non sufficiente peravere simmetriaviene calcolato come:
γ1 =1n
n∑i=1
(xi − x̄σ
)3
Dott. Cazzaniga Paolo La variabilità
La forma di una distribuzione [3/3]Curtosi o disnormalità:
rileva quanto una distribuzione è piatta o appuntita rispetto alladistribuzione normaledistribuzioni piatte con code ampie sono dette platicurtichedistribuzioni appuntite con code piccole sono dette leptocurtichela distribuzione normale è mesocurtica o normocurtica
Dott. Cazzaniga Paolo La variabilità
Ricapitolando
Statistica descrittiva
Collezionare dati
Indagine
Popolazione
Campionerappresentativo della
popolazione
Dati
Dati primari (ottenutitramite indagini)
Dati secondari (ottenutitramite altre fonti)
Variabili qualitativi
Variabili quantitativi
Discrete
Continue
Misure di sintesi
Medie di posizione
Moda
Mediana
Quartili
Medie analitiche
Media aritmetica
Media geometrica
Media armonica
Variabilità
Variabili quantitative
Variabili qualitative
Rappresentazionegrafica
Diagramma a barre
Istogramma
Boxplot
Censimento
Sconnesse
Ordinali
Curva di Lorenz
Forma di unadistribuzione
Curtosi
Asimmetria
Indice di Pearson
Indice di Fisher
Concentrazione
Indici di mutuavariabilità
Variabilità rispetto allamedia
Varianza Devianza
Deviazione standard
Scostamento semplicemedio
Coefficiente divariazione
Range
Distanza Interquartile
Indici di Omogeneità
Indici di Eterogeneità
Entropia
Dott. Cazzaniga Paolo La variabilità
Dove studio questi argomenti?
Capitolo 9 del libro!
Dott. Cazzaniga Paolo La variabilità