2

Click here to load reader

Valori estremi e anomali - studiostat.unibocconi.itstudiostat.unibocconi.it/uni/POPUP/Shared/Valori estremi e anomali... · correlazione di Pearson. In presenza di casi anomali che

Embed Size (px)

Citation preview

Page 1: Valori estremi e anomali - studiostat.unibocconi.itstudiostat.unibocconi.it/uni/POPUP/Shared/Valori estremi e anomali... · correlazione di Pearson. In presenza di casi anomali che

Valori estremi e valori anomali (caso univariato) Si definiscono valori estremi i valori più grandi o più piccoli di una distribuzione. In senso più generale, l’espressione significa i valori prossimi alla coda di una distribuzione. Con valori anomali (in inglese, outlier) ci si riferisce invece ai valori estremi di una distribuzione che si caratterizzano per essere estremamente elevati o estremamente bassi rispetto al resto della distribuzione e che rappresentano perciò casi isolati rispetto al resto della distribuzione. In generale, per stabilire se un valore è estremo o anomalo, si fa riferimento alle misure di sintesi della posizione e di dispersione. Distanza dalla media Tale criterio fa riferimento alla cosiddetta disuguaglianza di Tchebycheff. In base a tale disuguaglianza, per un carattere X con media µ e scarto quadratico medio σ si ha:

Freq (|X - µ| < kσ) > 1 - 21

k

In termini “pratici” si ha che, qualunque sia la distribuzione di X: almeno il 75% delle osservazioni su X sono contenute nell’intervallo µ - 2σ; µ + 2σ almeno l’89% delle osservazioni su X sono contenute nell’intervallo µ - 3σ; µ + 3σ Utilizzando tale risultato, vengono considerati come possibili valori anomali quei valori che si discostano dalla media (aritmetica) per più di 3 volte lo scarto quadratico medio. Ovviamente, in ogni caso è necessario considerare la distribuzione nella sua interezza, e vedere se i punteggi troppo alti o troppo bassi rappresentano casi isolati dal resto della distribuzione. Distanza dai quartili. Un secondo criterio per stabilire quali sono i valori estremi fa riferimento al range interquartile, dato dalla differenza tra terzo e primo quartile, cioè l’ampiezza dell’intervallo entro cui cade il 50% delle osservazioni che occupano le posizioni centrali nella serie ordinata dei dati (quindi le osservazioni “meno anomale”).

Viene considerato valore estremo un valore con scostamento positivo dal terzo quartile superiore a 1.5 volte il range interquartile o, simmetricamente, un valore con scostamento negativo dal primo quartile superiore (in valore assoluto) a 1.5 volte il range interquartile. Viene invece considerato valore anomalo un valore con scostamento (positivo) dal terzo quartile o (negativo) dal primo quartile superiore a 3 volte il range interquartile. In SPSS i valori estremi e anomali vengono evidenziati rispettivamente con un cerchio e con un asterisco come nella figura di fianco.

Page 2: Valori estremi e anomali - studiostat.unibocconi.itstudiostat.unibocconi.it/uni/POPUP/Shared/Valori estremi e anomali... · correlazione di Pearson. In presenza di casi anomali che

I valori anomali possono influenzare molti indicatori, come la media o la deviazione standard. Essi possono anche influenzare gli indici di associazione tra le variabili come il coefficiente di correlazione di Pearson. In presenza di casi anomali che influenzano i risultati delle analisi è possibile utilizzare delle misure di sintesi che risultano meno influenzate dalla presenza di tali valori. Ad esempio, la mediana spesso può risultare più affidabile della media. Sono inoltre disponibili alcune misure di sintesi che risultano “robuste” alla presenza di tali valori, come ad esempio la media troncata che viene calcolata eliminando il 5% dei casi con punteggi più elevati e più bassi. [Media, mediana, media troncata per distribuzioni asimmetriche] In alcuni casi si può essere tentati di procedure alla rimozione di valori anomali che risultano influenti, ovvero che hanno un impatto eccessivo sulle misure di sintesi che si vogliono considerare (ad esempio la media, o il coefficiente di correlazione lineare). Tuttavia tale modo di procedere non è sempre prudente, a meno che non si siano identificati i motivi che rendono un’osservazione anomala e non si possa supporre che essa possa essere esclusa dall’analisi in quanto non coerente con il collettivo di riferimento. Negli altri casi, non è sensato procedere alla rimozione delle osservazioni anomale. Supponiamo ad esempio che si stia studiando il reddito di una determinata classe lavorativa e che si osservi un reddito eccezionalmente elevato rispetto agli altri. Se, in base alle informazioni a nostra disposizione, siamo in grado di concludere che un reddito così elevato è spiegato dal fatto che l’individuo in questione lavora in un’azienda molto particolare, o ha una mansione molto particolare, di modo che non è omogeneo con il resto del collettivo, può essere sensato rimuovere l’osservazione. Se invece redditi elevati sono rari ma possibili nel collettivo considerato, rimuovendo l’osservazione anomala impoveriamo i risultati dell’indagine statistica, in quanto escludiamo dall’analisi un determinato segmento di popolazione.