Valori estremi e anomali - estremi e anomali... · correlazione di Pearson. In presenza di casi anomali…

  • Published on
    18-Feb-2019

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

<p>Valori estremi e valori anomali (caso univariato) Si definiscono valori estremi i valori pi grandi o pi piccoli di una distribuzione. In senso pi generale, lespressione significa i valori prossimi alla coda di una distribuzione. Con valori anomali (in inglese, outlier) ci si riferisce invece ai valori estremi di una distribuzione che si caratterizzano per essere estremamente elevati o estremamente bassi rispetto al resto della distribuzione e che rappresentano perci casi isolati rispetto al resto della distribuzione. In generale, per stabilire se un valore estremo o anomalo, si fa riferimento alle misure di sintesi della posizione e di dispersione. Distanza dalla media Tale criterio fa riferimento alla cosiddetta disuguaglianza di Tchebycheff. In base a tale disuguaglianza, per un carattere X con media e scarto quadratico medio si ha: </p> <p>Freq (|X - | &lt; k) &gt; 1 - 21</p> <p>k </p> <p> In termini pratici si ha che, qualunque sia la distribuzione di X: almeno il 75% delle osservazioni su X sono contenute nellintervallo - 2; + 2 almeno l89% delle osservazioni su X sono contenute nellintervallo - 3; + 3 Utilizzando tale risultato, vengono considerati come possibili valori anomali quei valori che si discostano dalla media (aritmetica) per pi di 3 volte lo scarto quadratico medio. Ovviamente, in ogni caso necessario considerare la distribuzione nella sua interezza, e vedere se i punteggi troppo alti o troppo bassi rappresentano casi isolati dal resto della distribuzione. Distanza dai quartili. Un secondo criterio per stabilire quali sono i valori estremi fa riferimento al range interquartile, dato dalla differenza tra terzo e primo quartile, cio lampiezza dellintervallo entro cui cade il 50% delle osservazioni che occupano le posizioni centrali nella serie ordinata dei dati (quindi le osservazioni meno anomale). </p> <p>Viene considerato valore estremo un valore con scostamento positivo dal terzo quartile superiore a 1.5 volte il range interquartile o, simmetricamente, un valore con scostamento negativo dal primo quartile superiore (in valore assoluto) a 1.5 volte il range interquartile. Viene invece considerato valore anomalo un valore con scostamento (positivo) dal terzo quartile o (negativo) dal primo quartile superiore a 3 volte il range interquartile. In SPSS i valori estremi e anomali vengono evidenziati rispettivamente con un cerchio e con un asterisco come nella figura di fianco. </p> <p>I valori anomali possono influenzare molti indicatori, come la media o la deviazione standard. Essi possono anche influenzare gli indici di associazione tra le variabili come il coefficiente di correlazione di Pearson. In presenza di casi anomali che influenzano i risultati delle analisi possibile utilizzare delle misure di sintesi che risultano meno influenzate dalla presenza di tali valori. Ad esempio, la mediana spesso pu risultare pi affidabile della media. Sono inoltre disponibili alcune misure di sintesi che risultano robuste alla presenza di tali valori, come ad esempio la media troncata che viene calcolata eliminando il 5% dei casi con punteggi pi elevati e pi bassi. [Media, mediana, media troncata per distribuzioni asimmetriche] In alcuni casi si pu essere tentati di procedure alla rimozione di valori anomali che risultano influenti, ovvero che hanno un impatto eccessivo sulle misure di sintesi che si vogliono considerare (ad esempio la media, o il coefficiente di correlazione lineare). Tuttavia tale modo di procedere non sempre prudente, a meno che non si siano identificati i motivi che rendono unosservazione anomala e non si possa supporre che essa possa essere esclusa dallanalisi in quanto non coerente con il collettivo di riferimento. Negli altri casi, non sensato procedere alla rimozione delle osservazioni anomale. Supponiamo ad esempio che si stia studiando il reddito di una determinata classe lavorativa e che si osservi un reddito eccezionalmente elevato rispetto agli altri. Se, in base alle informazioni a nostra disposizione, siamo in grado di concludere che un reddito cos elevato spiegato dal fatto che lindividuo in questione lavora in unazienda molto particolare, o ha una mansione molto particolare, di modo che non omogeneo con il resto del collettivo, pu essere sensato rimuovere losservazione. Se invece redditi elevati sono rari ma possibili nel collettivo considerato, rimuovendo losservazione anomala impoveriamo i risultati dellindagine statistica, in quanto escludiamo dallanalisi un determinato segmento di popolazione. </p>