Upload
gastone-pagani
View
222
Download
0
Embed Size (px)
Citation preview
Numeri e notizie:un’introduzione
al data journalism
Aggiornamento professionaleper l’Associazione lombarda
dei giornalistiLezione del 4 dicembre 2014
Un titolo sbagliato
• Il titolo di questo corso non è del tutto corretto: il data journalism non è il giornalismo che si occupa di numeri
• Il giornalismo nasce dai numeri: le prime gazzette si occupavano di merci arrivate nei porti e dei loro prezzi
• Da sempre il giornalismo sportivo si occupa di numeri
Un titolo sbagliato
• Il data journalism è l’applicazione al giornalismo delle nuove tecnologie di elaborazione dei dati, non necessariamente numerici
• È un campo in rapida crescita che richiede molte competenze diverse: in questo senso questa è un’introduzione
• Si parlerà poco di grafica, ma molto di numeri: da qui la scelta del titolo
Le nuove tecnologie
• Un esempio di elaborazione dati
Esempi di data journalism
• Dottori e dollari• Obama e Romney, 2012 (in D3)• Il budget di Obama, 2012 (in D3)• Siccità negli Usa, 2012 (in R)• Formula 1 (in Rchart e D3)
…ma anche:
L’immigrazione in Germania e Gran Bretagna, 2014
Il data journalism
• Il data journalism si compone di diverse fasi:1. La ricerca e il recupero dei dati2. La pulizia dei dati3. L’esplorazione e l’elaborazione dei dati4. La pubblicazione e la visualizzazione dei
dati
Data visualisation
• I grafici non sono l’unica conclusione possibile per un lavoro di data journalism anche se è innegabile che la presentazione grafica dei dati è molto efficace
• La data visualization va molto al di là delle semplici infografiche: è compito complesso, spesso svolto da statistici e fa parte della scienza statistica. La disciplina si allarga fino a lambire l’Intelligenza artificiale (machine learning)
• Questa introduzione si occuperà poco dell’elaborazione grafica finale, anche se l’attenzione ai grafici costituirà comunque una parte importante della lezione
Gli strumenti del data journalism
Gli strumenti del data journalism
• Ogni fase del data journalism può avvalersi di programmi software diversi, di complessità variabile
• Il data journalist «lone ranger» dovrebbe imparare a usare diversi programmi. Per questo il data journalism appare da subito come un lavoro di équipe
Gli strumenti del data journalism
• La quantità di strumenti a disposizione è tale che è possibile perdersi
• Data visualisation, una lista di software
Gli strumenti del data journalism
• Esistono anche strumenti molto duttili – come R, o anche Python – che permettono di fare cose diverse come estrarre, pulire, elaborare e visualizzare i dati
• Sono però linguaggi di programmazione, duttili perché poco «friendly»
• In ogni caso, il sostegno di strumenti più semplici può essere utile
• R è un programma e un linguaggio di programmazione disegnato per l’elaborazione statistica dei dati.
• È un open source ed è stato via via ampliato: oggi permette anche grafici interattivi (per i quali esistono però strumenti dedicati più adeguati
• È gratuito e funziona anche sui computer «bloccati» dalle aziende
• Rivela un’impostazione scientifica• Si scarica da http://www.r-project.org/
Gli strumenti di questo corso
Gli strumenti di questo corso
•Per la pulitura dei dati, si illustrerà l’uso di OpenRefine, disegnato per il data journalism•Per l’elaborazione dei dati si userà un foglio di calcolo – Excel e/o Calc della suite LibreOffice
Gli strumenti di questo corso
• OpenRefine è un foglio elettronico disegnato dalla Google per il data journalism
• È molto prezioso, ma i comandi non sono immediati. Esiste un breve manuale, in inglese
• È gratuito e funziona anche sui computer «bloccati» dalle aziende
• Si scarica da openrefine.org/
Gli strumenti di questo corso
• Excel è un foglio elettronico della suite Office di Windows. Usato anche dall’Fmi o dalle Università per l’elaborazione dei dati.
• Calc è un prodotto analogo opensource, gratuito. Non funziona sui computer «bloccati». La suite LibreOffice si scarica da www.libreoffice.org/
• Per lo scraping dei dati da internet si illustrerà la procedura su Google Spreadsheet. Lavora on line e si trova su docs.google.com/spreadsheets
Gli strumenti di questo corso
• Sarà comunque fornito un elenco di altri prodotti software utilizzabili dai data journalist
La ricerca dei dati
Dove cercare i dati
• Quando non sono forniti da fonti personali, i dati sono da cercare su internet
• Esistono diverse modalità di accesso:– Banche dati pubbliche e internazionali
• Quasi sempre producono frame di dati su richiesta
– Banche dati private– Siti internet
Banche dati internazionali
• Sono banche dati legate a organizzazioni internazionali
• Quasi tutte hanno una banca dati• Esempi:
– Fondo monetario internazionale– Nazioni Unite– Ocse 1 e 2– Federal Reserve di St. Louis– Eurostat
Banche dati internazionali
Molto spesso nelle banche dati internazionali è possibile ricavare dati sui paesi in via di sviluppo che non sono disponibili nel paese stesso
Esempi:Banca mondialeOpenData for Africa
Banche dati internazionali
• Qui l’elenco delle agenzie statistiche dell’Onu
• Qui l’elenco delle agenzie statistiche internazionali
• Qui l’elenco di altre agenzie internazionali
Banche dati internazionali
• Non mancano banche dati internazionali gestite da privati o non-profit
• Esempi:– Quandl– OpenCorporates (aziende)– Investigative Dashboard– Alltime Athletics
Istituti di Statistica
• La maggior parte dei paesi ha un suo istituto nazionale di statistica, non sempre indipendente non sempre attendibile
• Qui l’elenco• Per l’Italia è l’Istat• Più utile della home page è la sua banca
dati I.Stat– Per il commercio estero c’è Coeweb
Cercare altri dati: dove?
• La ricerca di dati non ufficiali, non pubblici, o non immediatamente reperibili segue le stesse regole della ricerca delle notizie
• Molte istituzioni e organizzazioni hanno a disposizioni banche dati
• In più, si hanno a disposizione i motori di ricerca, a cominciare da Google
Usare Google per cercare dati
• Per cercare dati con Google occorre usare gli operatori di ricerca.
• Qui la guida• Con site: si può limitare la ricerca a un
sito particolare. Per esempio site:ilsole24ore.com (senza www)
• Con type: posso individuare i file di dati usando l’estensione. Per esempio type: xls
Le estensioni dei files di dati
• .xls, .xlsx -> Excel• .cvs, tsv e simili -> dati separati da
virgole e tabulazioni (molto usati)• .htm, .html, .xlm -> file web• Attenzione: i dati separati da
virgole, .cvs, usano sicuramente il punto (e non la virgola), come decimali
I database ufficiali
• Due ricerche su Eurostat
Lo scraping dei dati
«Grattare» i dati dal web
• A volte i dati sono semplicemente presenti su una pagina web, per esempio una voce Wikipedia
• Per scaricarli ci sono diversi software che permettono di fare scraping. Alcuni di essi sono a pagamento
• Il più semplice è Google Spreadsheet, simile a Excel o Calc
Scraping con Google Spreadsheet
• Il comando da inserire è:=ImportHtml("URL","query",index)
• Url è l’indirizzo del sito• Query è la forma assunta dai dati, in
generale è table• Index è il numero della query, per
esempio il numero della tabella.
Un esempio di scraping
• Una pagina di Wikipedia
• Un secondo esempio
Altri strumenti di scraping
• Altri strumenti di scraping sono:– OutWit Hub – Import.io– Chrome extension Scraper – Scraperwiki
• Permettono, per esempio, di fare scraping su dati che compaiono su una serie di pagine web
Lo scraping dei testi pdf
• Il pdf è uno dei sistemi più diffusi: a differenza di html, il linguaggio del web, è stato però disegnato per la stampa non per strutturare logicamente i contenuti: recuperare i dati è complicato
• Scraperwiki permette di fare scraping su pdf, ma a pagamento (dopo il 5°)
• Un’altra opzione è il Salva come testo di Adobe Acrobat
• Altrimenti occorre usare Python…
Scraping da pdf
Scraping da un comunicato della Bce
Quando il sito è bloccato
• Si discute se lo scraping sia legale: non mancano sentenze
• Non tutti i siti permettono di fare scraping
Ripulire i dati: OpenRefine
Ripulire i dati
• Non sempre le banche dati sono mantenute in modo ordinato
• Spesso sono riempite da più persone, in tempi diversi: nomi, vie, numeri possono essere inseriti con modalità diverse. Gli errori di battitura sono sempre in agguato
• Per ripulire (ma anche per esplorare) i dati, Google ha creato – sostanzialmente per i giornalisti – OpenRefine: gratuito, non è sempre di uso immediato
• Si scarica anche sui computer «bloccati»
Un esempio di ripulitura dei dati
L’elaborazione dei dati
Partendo dai numeri
• Dedichiamoci ora soprattutto ai dati numerici, che sono il centro del nostro discorso e che sono i più difficili da elaborare
• L’idea che può venire subito in mente è che occorre innanzitutto esaminare i numeri e trarne qualche indicazione, per esempio calcolando variazioni, medie, e così via
Otto serie di dati
• Un esempio. Prendiamo in considerazione otto serie di dati, da accoppiare due a due:
X1 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y1 = 8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68
X2 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y2 = 9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74
X3 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y3 = 7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73
X4 = 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8Y4 = 6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89
Un’analisi numerica
• La media delle x è uguale a 9, in tutti i quattro casi
• La varianza delle x è uguale a 11• La media delle y è uguale a 7,50• La varianza delle y è 4.122 o 4.127• La correlazione tra le x e le y è 0.816• Si può «riassumere» ciascuna coppia di dati
con l’equazione y = 3 + 0.5x
ma…
La sorpresa
L’importanza dei grafici
• L’analisi esplorativa, sia effettuata dai giornalisti che dagli statistici più esperti, comincia sempre dai grafici
• I grafici dell’analisi esploratoria possono non avere nulla a che fare con i grafici finali, che hanno una funzione diversa, di comunicazione efficace: il grafico più utile per l’analisi – il boxplot – non comparirà mai sui giornali, il meno utile – la torta, magari in 3d – c’è spessissimo
• Molte regole sono comunque simili
Mostrare dati con i grafici
Napoleone e Charles Minard
Florence Nightingale
Trovare i casi estremi
I casi estremi
• Per valutare i singoli dati, occorre avere un punto di riferimento.
• A volte è esterno ai dati. Molte banche centrali tra cui la Bce, per esempio, hanno un obiettivo di inflazione del 2% nel medio periodo. Ogni singolo dato può essere valutato con quel punto di riferimento
• Altri hanno origine statistica: il Fondo monetario internazionale considera per esempio un livello di debito/pil superiore all’85% insostenibile per i paesi con accesso ai mercati e uno del 60% insostenibile per i paesi più poveri
I casi estremi
• In altri casi, è lo stesso insieme dei dati a fornire delle indicazioni
• Un minimo o un massimo, per esempio, danno già l’idea di trovarsi di fronte a un caso estremo
• Analogamente può accadere con un minimo o un massimo da x mesi, nelle serie temporali
• E’ però importante avere un punto di riferimento più preciso per i casi estremi importanti perché:
1. Possono rivelare una notizia2. Possono segnalare un errore nel data base
Riassumere i dati
• Per riassumere un insieme di dati la prima variabile da usare è la media:
µ = (x1 + x2 + … + xn-1 + xn)/n
• Una volta calcolata la media è molto importante capire quanto i singoli dati si allontanano dalla media:
( xi - µ )2
• La media di queste distanze è la varianza, la radice quadrata della varianza è la deviazione standard
• La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati
Riassumere i dati
• La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati
• L’idea è quella di misurare la distanza dei singoli dati dalla media con un’unità standard. Si può allora dire che il dato x1 è per esempio a due deviazioni standard dalla media.
• Quando i dati sono molto… ordinati – poi vedremo come ipotizzare questa simmetria - il 95% si colloca tra -2 e 2 deviazioni standard dalla media, il 99,7% tra -3 e 3 deviazioni standard.
Riassumere i dati
• Attenzione a non usare con troppa leggerezza questi parametri, pur molto diffusi.
• Su queste indicazioni, una flessione di Borsa del 6,8% (31 agosto 1998) potrebbe capitare in un caso su 20 milioni (o 76628 anni); una flessione del 7,7% (avvenuta un anno prima) in un caso su 50 miliardi (310,6 milioni di anni) e un crollo del 29,7% (19 ottobre 1987) di un caso su 1050, ossia 100.000 miliardi di miliardi di miliardi di miliardi di miliardi di giorni. L’universo ha circa 3.600 miliardi di giorni borsistici (365 meno sabati e domeniche in un anno).
• Si parla a volte di «code grasse», «fat tails».
Confrontare dati diversi
• Un esempio:– Antonio ha avuto 83/100– Francesca ha avuto 89/100
• Quindi Francesca è andata meglio di Antonio.• Ma Francesca e Antonio erano in due classi
diverse• Nella classe di Antonio la media è stata 74, in
quella di Francesca 80: i professori di Francesca erano più generosi
• Nella classe di Antonio la deviazione standard è stata di 4, in quella di Francesca di 6
Confrontare dati diversi
• VotoAntonio = 83 VotoFrancesca = 89
• MediaClasseAntonio = 74 MediaClasseFrancesca = 80
• SdClasseAntonio = 4 SdClasseFrancesca = 6
• Il voto «normalizzato» di Antonio è allora:(83-74)/4 = 2.25
• Il voto «normalizzato» di Francesca è:(89-80)/6 = 1.5
In realtà Antonio ha ottenuto un risultato migliore di Francesca
Il problema della media
• La media, e la deviazione standard, non sono però dati stabili
• Sono molto influenzati da quei «casi limite» che noi vogliamo individuare
• E’ come avere un Autovelox che a ogni multa fa salire la velocità alla quale scatta la foto
• Qualche anno fa, la Guinea Equatoriale appariva come uno dei paesi con il maggior reddito pro capite: in realtà c’erano poche persone e poche aziende ricchissime e la maggior parte della popolazione molto povera
La mediana
• Ci sono molti strumenti per ottenere un valore più stabile o «robusto»
• Nello sport si usa la «media olimpica»: il voto più alto e quello più basso vengono scartati
• L’altro sistema è calcolare la mediana: se metto in fila indiana, in ordine di reddito crescente, un insieme di persone, il reddito mediano è il reddito della persona «in mezzo» e divide il gruppo in due parti (oppure la media delle due persone «al centro» se il numero di persone è pari)
• Se su 100 persone, 99 guadagnano mille euro al mese e 1 un milione, il reddito mediano è mille euro
Verso un po’ di ordine
• La prima cosa da fare è confrontare la mediana e la media
• Se sono molto vicine i dati sono simmetrici e posso continuare a usare la media, la deviazione standard e i valori critici della deviazione standard
• Se sono lontane e la media è maggiore della mediana: è possibile trovare casi limite (o più casi limite) superiori alla media
• Se sono lontane e la media è minore della mediana, è possibile trovare casi limite (o più casi limite) inferiori alla media
La mediana
• Una volta diviso l’insieme in due parti, attraverso la mediana, posso ulteriormente dividere in due i due sottogruppi con lo stesso sistema: ottengo il primo quartile Q1 e il terzo quartile Q3(la mediana è il secondo quartile)
• La differenzaIQR = Q3 - Q1
(lo… scarto interquartile) può sostituire la deviazione standard
La mediana
IQR = Q3 - Q1
•I casi limite sono al di sotto diQ1 – 1,5*IQR
e al di sopra diQ3 + 1,5*IQR
•Tutto un po’ complicato… Come semplificare?
•La soluzione è sul sito www.alcula.com
Deviazioni standard
• Se si accetta di perdere precisione, si ci può comunque affidare alla deviazione standard.
• La probabilità che un dato sia alla distanza di due deviazioni standard della media non è mai maggiore di ¼ (25%) o 1/22 .
• La probabilità che sia alla distanza di tre deviazioni standard non è mai maggiore dell’11% (1/32)
• La probabilità che sia alla distanza di sei deviazioni standard no è mai maggiore del 2.8%.
• Quando i dati sono «ordinati», la probabilità che un dato sia a distanza di sei deviazioni standard è di 0,000000001 % …
Le serie temporali
Le serie temporali
• La prima valutazione, di fronte a una serie temporale è piuttosto il calcolo delle variazioni
• Per dati quotidiani si calcola in primo luogo la variazione quotidiani, per dati mensili variazioni mensili
• Nei dati macroeconomici si usa spesso anche la variazione annuale
• La formula per la percentuale è:
(Xn/xn-1 - 1)*100
Le medie mobili
• Per alcuni dati particolarmente volatili, per esempio quelli su import, export, quantità di moneta, è opportuno cercare di individuare una tendenza di fondo isolandola dalle variazioni temporanee
• Il modo più semplice è quello di calcolare la media mobile
• In genere trimestrale per i dati macroeconomici, ma per le quotazioni finanziari si può usare, insieme, la media a 14 giorni, quella a 200 giorni ecc.
Le medie mobili
• Per usare la media mobile, al posto del dato di novembre si usa la media novembre-ottobre-settembre, al posto del dato di ottobre la media ottobre-settembre-agosto ecc.
• Si disegna il grafico, sovrapponendolo a quello con i dati puntuali
• Se serve, si calcolano le variazioni tra un mese e l’altro usando la stessa formula dei dati puntuali
Le insidie della statistica
• Le statistiche possono essere molto insidiose, e occorre fare tanta attenzione su come usarle
• Non sarebbe impossibile ricavare dai dati ufficiali l’indicazione secondo cui nell’Unione europea il numero degli analfabeti è di circa 26 milioni
• Non sarebbe impossibile trovare anche una correlazione tra il livello di alfabetismo e la misura delle scarpe
• Una notizia…
Le insidie della statistica
Le insidie della statistica
• In passato sono state elaborate correlazioni perfette tra l’inflazione britannica e la temperatura di Londra, due variabili senza alcun legame
• E’ possibile stabilire, in alcuni paesi, una correlazione tra il consumo di gelati e il numero dei morsi di serpente. Sono due grandezze indipendenti ma legate alle stagioni e alla temperatura atmosferica
• In ogni caso, la correlazione statistica non segnala mai, da sola, un rapporto di causa ed effetto ma soltanto un legame che può anche rivelarsi temporaneo o mutare caratteristiche nel tempo
Le insidie della statistica
Il paradosso di Simpson
University of California, Berkeley - 1973Candidati Ammessi
Uomini 8442 44%Donne 4321 35%
Il paradosso di Simpson
DipartimentoCandidati Ammessi Candidati Ammessi
A 825 62% 108 82%B 560 63% 25 68%C 325 37% 593 34%D 417 33% 375 35%E 191 28% 393 24%F 373 6% 341 7%
Uomini Donne