of 53 /53
I diversi tipi di caratteri e le rappresentazioni grafiche più appropriate. Dr. Simone Celant.

I diversi tipi di caratteri e le rappresentazioni grafiche ... · Il diagramma a barre Il diagramma a barre è un grafico in cui ad ogni modalità è associata una barra, di altezza

  • Author
    others

  • View
    3

  • Download
    0

Embed Size (px)

Text of I diversi tipi di caratteri e le rappresentazioni grafiche ... · Il diagramma a barre Il diagramma...

  • I diversi tipi di caratteri e le rappresentazioni grafiche più

    appropriate.Dr. Simone Celant.

  • I tipi di caratteri statistici

    I caratteri statistici si dividono in due categorie fondamentali, i caratteri qualitativi ed i caratteri quantitativi.

    I caratteri qualitativi rappresentano caratteristiche nominali, e sono espressi mediante aggettivi o sostantivi.

    I caratteri quantitativi rappresentano caratteristiche misurabili, e sono espressi mediante numeri.

  • Le operazioni consentite

    La classificazione dei caratteri statistici rappresenta una gerarchia: tutte le operazioni che possono essere effettuate sui caratteri più “semplici” possono essere effettuate anche su quelli più “strutturati”, ma non è vero il viceversa.

    Quindi tutto ciò che posso applicare ai caratteri qualitativi può essere applicato anche a quelli quantitativi, ma esistono operazioni sui caratteri quantitativi che non possono essere applicate a quelli qualitativi.

  • Le rappresentazioni graficheLe rappresentazioni grafiche sono un modo per sintetizzare in maniera visivamente efficace le informazioni contenute in una tabella.

    Un grafico può essere di grande aiuto nella comprensione di un fenomeno, e nell'individuazione di caratteristiche specifiche della popolazione che si sta studiando. Per questa ragione, è importante utilizzare il grafico adatto al tipo di dati che si stanno analizzando.

    La rappresentazione grafica comunque non sostituisce le sintesi numeriche ed i calcoli algebrici.

  • I caratteri qualitativi

    I caratteri qualitativi si suddividono a loro volta in due sotto-categorie, i caratteri qualitativi sconnessi ed i caratteri qualitativi ordinabili.

    I caratteri qualitativi sconnessi sono quelli che non hanno una struttura d'ordine intrinseca.

    Sono caratteri qualitativi sconnessi il sesso, il colore degli occhi di una persona, la sua provenienza geografica, il suo stato civile.

  • I caratteri qualitativi sconnessi

    Le uniche operazioni possibili sui caratteri qualitativi sconnessi sono l'osservazione della presenza o dell'assenza di una caratteristica sulle unità statistiche, calcolo delle frequenze e l'identificazione della moda.

    1. Gianni ha gli occhi verdi?2. Quante persone qui dentro sono di sesso maschile?3. Qual è la regione di provenienza più diffusa tra gli studenti di Tor Vergata?

  • I caratteri qualitativi sconnessi

    Le rappresentazioni grafiche più utilizzate per i caratteri qualitativi sconnessi sono il diagramma a torta ed il diagramma a barre.

    Il diagramma a torta si basa sulla suddivisione di un cerchio in tanti spicchi quante sono le modalità di risposta, la cui area è proporzionale alle frequenze associate alle singole modalità.

  • Il diagramma a torta

    Esempio: prendiamo un collettivo di 100 persone, le suddividiamo per sesso e scopriamo che sono tutti maschi.

  • Il diagramma a tortaConsideriamo ora di avere 60 maschi e 40 femmine: l'area dello spicchio corrispondente alla modalità M è pari al 60% dell'area totale

  • Il diagramma a torta

    Prendiamo ora in considerazione una variabile con diverse modalità, la provenienza geografica.

  • Il diagramma a torta su Excel

    Per costruire un diagramma a torta su Excel bisogna selezionare sul foglio di lavoro la distribuzione (etichette e frequenze) che si vuole rappresentare, selezionare il comando per la composizione di rappresentazione grafiche (varia a seconda della versione di Excel, in tutte è un pulsante che si trova sopra il foglio di lavoro) e selezionare l'opzione raffigurante un diagramma a torta.

    Nell'ultima versione di Office, il diagramma a torta può essere selezionato direttamente dal menu “Inserisci”.

  • Il diagramma a barre

    Il diagramma a barre è un grafico in cui ad ogni modalità è associata una barra, di altezzaproporzionale alla frequenza con cui quella modalità è selezionata dalle unità statistiche.

    Le barre possono anche essere orizzontali (in questo caso il grafico si chiama diagramma a nastri), di lunghezza proporzionale alla frequenza.

    Vediamo come si comporta il diagramma a barre sulle tre distribuzioni viste per il diagramma a torta.

  • Il diagramma a barre

    Esempio #1: collettivo di 100 persone, tutti maschi.

  • Il diagramma a barre

    Esempio #2: collettivo di 100 persone, 60 maschi e 40 femmine.

  • Il diagramma a barre

    Esempio #3: collettivo di 100 persone per provenienza geografica

  • Il diagramma a barreIl diagramma a barre viene visualizzato su Excel in modo analogo rispetto a quanto visto per il diagramma a torta.

    Si selezionano i dati, comprese le etichette, si seleziona tramite pulsante il comando per la creazione dei grafici e si seleziona il diagramma a barre.

    Nell'ultima versione di Office, il diagramma a barre può essere selezionato direttamente dal menu “Inserisci”, tuttavia va impropriamente sotto il nome di Istogramma. Excel chiama diagramma a barrequello con le barre orizzontali (nastri).

  • Torta e diagramma a barre

    Il diagramma a torta ed il diagramma a barre sono dunque una rappresentazione grafica della distribuzione di frequenze del carattere oggetto di studio.

    Nel momento in cui abbia senso effettuare una distribuzione di frequenze per qualunque tipo di carattere, è possibile utilizzare questi due tipi di grafico.

  • I caratteri qualitativi ordinabili

    I caratteri qualitativi ordinabili sono quelli le cui modalità suggeriscono una struttura d'ordine.

    Il tipico esempio di carattere qualitativo ordinabile è il titolo di studio: in ordine crescente, una persona può possedere nessun titolo, licenza elementare, licenza media, titolo professionale, maturità, laurea triennale, laurea magistrale, titolo superiore alla laurea (master, PhD).

  • I caratteri qualitativi ordinabili

    I caratteri qualitativi ordinabili prevedono l'utilizzo degli stessi tipi di grafici che si usano per i caratteri qualitativi sconnessi, quindi principalmente diagramma a torta e diagramma a canne d'organo.

    Il fatto che la struttura d'ordine consenta alcune operazioni di sintesi che non si possono effettuare con i caratteri qualitativi sconnessi permette l'utilizzo di tipologie di grafico che vedrete più avanti nel corso.

  • Diagramma a torta

    Diagramma a torta della distribuzione di 100 individui per titolo di studio.

  • Diagramma a barre

    Diagramma a barre verticali (con Excel, impropriamente, istogramma) della distribuzione di 100 individui per titolo di studio.

  • I caratteri quantitativi

    Esistono diverse suddivisioni dei caratteri quantitativi. La prima, e più semplice, è la suddivisione in caratteri quantitativi discreti e continui.

    I caratteri quantitativi discreti sono espressi da numeri interi: il numero di componenti di una famiglia, il numero di libri che ho letto in un anno, il voto ad un esame.

  • I caratteri quantitativi continui

    I caratteri quantitativi continui sono invece tutti quei caratteri che sono espressi da numeri reali e da un'unità di misura continua: l'altezza di una persona (in metri, in centimetri, in pollici...), il reddito di una famiglia (in euro, dollari, sterline...), il peso di un oggetto (in grammi, chili, libbre) e via dicendo.

  • I caratteri quantitativiMolti caratteri numerici, discreti o continui, possono assumere valori in range molto ampi. Si pensi alla distribuzione delle città italiane per popolazione residente: il numero di persone è un carattere discreto, che però varia tra poche centinaia e svariati milioni. Per questa ragione, la distribuzione di frequenza semplice è spesso inutile, perché buona parte dei valori compariranno con frequenza unitaria o quasi.

    Per questa ragione si ricorre alle distribuzioni divise in classi: il carattere viene diviso in classi di ampiezza non necessariamente sempre uguale, e si verifica quante unità statistiche cadono nella diverse classi.

  • I caratteri quantitativi

    Ovviamente, nel caso in cui si abbia a che fare con caratteri quantitativi discreti e con range molto limitato, nulla vieta di utilizzare diagrammi a barre od a torta per rappresentare la relativa distribuzione di frequenza.

    Ad esempio, il carattere “numero di figli del nucleo familiare” ha un numero di possibili valori che va da 0 ad una decina: questi numeri possono essere a tutti gli effetti considerati delle etichette.

  • La suddivisione in classiDalla distribuzione del reddito su 15 unità statistiche, passiamo ad una distribuzione divisa in classi, con la prima classe che parte da 0 e l'ultima classe aperta (“Più di 40000”) per includere tutti i valori possibili.

  • La suddivisione in classi

    La suddivisione in classi è arbitraria: nel farla, assicuratevi che la suddivisione abbia un senso!

    Le classi devono coprire tutti i valori possibili: nel caso del reddito, ad esempio, da 0 in su: non ha senso una distribuzione che parta da valori negativi.

    Le classi devono essere consecutive: dove finisce una classe deve iniziare la successiva, ed i valori estremi devono appartenere o ad una o all'altra classe, non ad entrambe.

  • La suddivisione in classiConsderiamo la seguente distribuzione in classi:

    Ci sono 2 individui in una classe di ampiezza di 20000 Euro e 3 individui in una classe di ampiezza di 30000 Euro.

    La classe 20001-50000 ha una frequenza assoluta maggiore, ma in che classe le unità statistiche sono più “dense”?

    Classi di Reddito Freq.20000 o meno 220001-50000 3

  • La densità

    Nella prima classe ci sono dunque 2 persone in 20000Euro; nella seconda 3 persone in 30000 Euro: la densità è la stessa.

    La densità è una caratteristica che misura quanto le unità statistiche si addensano nelle varie classi. Sostanzialmente, funziona da correttivo alla distribuzione di frequenze semplice.

    Classi di Reddito Freq.20000 o meno 220001-50000 3

  • La densità

    In questa distribuzione, invece, ci sono 8 persone in una classe ampia 10000 euro, e 12 in una classe ampia 30000 Euro.

    La seconda classe è ampia 3 volte la prima; la frequenza della seconda classe è meno del doppio della frequenza della prima. Quindi la prima classe, pur avendo una frequenza assoluta più piccola, è più densa della seconda.

    Classi di reddito0-10000 8

    10001-40000 12

  • Calcolo della densità

    La densità serve per la costruzione degli istogrammi, che sono un tipo di rappresentazione grafica particolarmente adatto per le variabili quantitative.

    La densità si costruisce a partire dalle frequenze relative:

    fj = nj/n

  • Densità – Classi di pari ampiezza

    Se le classi in cui il carattere oggetto di studio hanno tutte la stessa ampiezza, per la costruzione dell'istogramma è sufficiente utilizzare le frequenze relative.

    L'istogramma si costruisce poi come un diagramma a barre, in cui le barre sono consecutive e attaccate le une alle altre, di larghezze proporzionali alle ampiezze delle classi (quindi in questo caso tute uguali) ed altezze proporzionali alle frequenze relative.

  • Istogramma: Classi di pari ampiezza

  • Come si legge la tabella?Nella tabella del lecido precedente compaiono i due simboli |–| e –|.

    Come si nota, nella tabella l'estremo superiore di una classe e quello inferiore di quella successiva coincidono. La barra verticale serve a specificare in quale classe vanno inclusi gli estremi.

    In altre parole, la prima classe va da 7 a 76 dipendenti, estremi inclusi; la seconda da 76 (escluso) a 145 (incluso); la terza da 145 (escluso) a 214 (incluso). E via dicendo.

  • Come si legge la tabella?Si potrebbe obiettare che basterebbe scrivere che la seconda classe va dal valore 77 al valore 145, la terza va dal valore 146 al valore 214 e così via.

    Vero. Si pensi tuttavia ad un carattere prettamente continuo, come il tempo: nella prima classe, vogliamo includere tutti quelli che ci impiegano non più di 15 minuti a completare una gara, nella seconda tutti quelli che impigano da 15 a 30 minuti. Che livello di approssimazione dovrei sceglere per indicare il valore successivo a 15 minuti? 15:01? 15:00.1? 15:00.001?

    Meglio utilizzare la suddivisione 0 –| 15 e 15 –| 30.

  • Densità – Classi di diverse ampiezzeSe le classi in cui il carattere oggetto di studio hanno diverse ampiezze, per il calcolo delle densità di frequenza bisogna dividere le frequenze relative per l'ampiezza delle rispettive classi:

    hj = fj / aj

    Fatto questo calcolo, l'istogramma si cosrtuisce come un diagramma a barre con barre consecutive, di larghezza proporzionale ad aj e di altezza proporzionale ad hj.

  • Istogramma: Classi di diverse ampiezze

  • Come si legge la tabella?

    In virtù di quanto detto prima, la tabella del luci precedente considera le seguenti classi: da 7 a 15 estremi inclusi (ampiezza 9), da 15 (escluso) a 50 (ampiezza 35), da 50 (escluso) a 100 (ampiezza 50), da 100 (escluso) a 350 (ampiezza 250).

    Quindi la prima classe, pur avendo una frequenza assoluta inferiore a quella delle due successive, è più densa delle altre, e nell'istogramma emerge come quella con il valore più elevato.

  • L'estremo destro della distribuzione

    Può capitare, e nella pratica capita spesso, che l'estremo destro della distribuzione non sia specificato. Nella distribuzione dei lucidi precedenti l'ultima classe avrebbe potuto essere lasciata aperta con una dicitura tipo “oltre 100 dipendenti”.

    Per la costruzione dell'istogramma è necessario avere l'estremo destro di tutte le classi: sta dunque a voi decidere arbitrariamente un estremo destro (sensato!) per il calcolo. Nel caso dell'età, con la tipica classe “oltre 65 anni”, non ha senso utilizzare come estremo destro 150: sceglietene uno che abbia senso.

  • Gli istogrammi su Excel

    Su Excel gli istogrammi semplicemente non possono essere ottenuti. Come abbiamo visto prima, Excel chiama Istogramma il diagramma a barre.

    In pratica, non c'è verso di spiegargli che il carattere di riferimento è continuo: Excel considera gli intervalli delle categorie di risposta, e quindi delle etichette, e disegna delle barre separate.

    Invece nell'istogramma gli intervalli sono contigui, non c'è separazione.

  • Le serie storiche o temporali

    Una serie storica è una serie di osservazioni del medesimo fenomeno ad intervalli regolari di tempo.

    Esempi di serie storiche:- rilevazioni trimestrali del Prodotto Interno Lordo dell'Italia effettuate dall'ISTAT- prezzo orario delle azioni di una compagnia- profitto annuo di un'azienda- temperatura massima giornaliera in una determinata località

  • Un semplice esempio di serie storica

  • Il time plot

    Il grafico più semplice per rappresentare una serie temporale è il time plot, chiamato anche line plot, che rappresenta l'evoluzione della serie rispetto al tempo.

    Il grafico nel lucido precedente (che rappresenta semplicemente la serie della velocità di download degli ultimi 28 minuti e 42 secondi su eMule) è un time plot.

  • Il time plot

    Il time plot è una rappresentazione su assi cartesiani.

    Sull'asse delle X viene rappresentato il tempo, su quello delle Y i valori del carattere oggetto di studio.

    Il grafico risultante è una rappresentazione dell'evoluzione del fenomeno oggetto di studio nel tempo.

    Nel lucido seguente, troviamo il time plot della serie del consumo energetico in Italia dal 1993 al 2007.

  • Il time plot

  • Il time plot, o line plot, su Excel

    Per ottenere il time plot di una serie temporale su Excel bisogna seguire sempre la medesima procedura.

    Selezionare i dati che si vogliono rappresentare in forma grafica etichette incluse; selezionare tramite il pulsante il comando per la costruzione guidata di grafici e selezionare il “diagramma a linee”.

    Nell'ultima versione di Office, il time plot può essere selezionato direttamente dal menu “Inserisci”.

  • Le coordinate polari

    Se il fenomeno di cui si sta analizzando la serie storica può considerarsi continuo (ossia soggetto a variazioni continue nel tempo, come ad esempio le fluttuazioni stagionali) è possibile rappresentare la serie mediante le coordinate polari.

    Si pensi ad una serie di osservazioni trimestrali di un fenomeno: è interessante visualizzare i confronti tra gli stessi trimestri in anni diversi.

  • Le coordinate polari

  • Le coordinate polariSi tratta sostanzialmente di suddividere un cerchio in settori, in modo da avere un numero di segmenti che partono dall'origine pari al numero di periodi delle variazioni (ad esempio, 4 segmenti per analizzare le fluttuazioni stagionali, 7 per i giorni della settimana, e via dicendo).

    Su questi segmenti vengono appuntati i valori della serie nei vari periodi considerati, poi si uniscono in modo da avere tante linee quanti sono i cicli che si stanno esaminando (nell'esempio del lucido precedente, abbiamo i 4 trimestri su 2 anni).

  • Le coordinate polari su Excel

    Su Excel, almeno sulla versione per Windows XP, il grafico a coordinate polari si chiama Radar.

    Per ottenerlo, si procede come segue. I periodi diversi vanno messi su colonne diverse (nell'esempio, i due anni sono su colonne adiacenti, ognuna delle quali contiene le 4 osservazioni trimestrali); si selezionano i dati che si vogliono rappresentare e si seleziona il grafico a radar.

  • I cartogrammi

    I cartogrammi servono a rappresentare una serie territoriale.

    Una serie territoriale è una sequenza dei valori assunti da uno stesso carattere in diverse aree geografiche nello stesso periodo di tempo.

    Esempi di serie territoriale sono il PIL dei paesi dell'Unione Europea nel 2009, il tasso di disoccupazione al 30 settembre 2010 nelle varie regioni italiane, e via dicendo.

  • I cartogrammi

    Un cartogramma è una carta geografica sulla quale compaiono gli aggregati territoriali su cui il carattere viene rilevato, con colori o simboli diversi a seconda dei valori osservati del carattere oggetto di studio. Dev'essere accompagnato da una leggenda, altrimenti è virtualmente illeggibile.

    Esistono programmi specifici per ottenere dei cartogrammi, su software generici come Excel non è possibile farne.

  • I cartogrammi

    Per rendere intuitiva la lettura, spesso vengono usati colori via via più vivi all'aumentare dei valori osservati del carattere, come nel grafico qui a sinistra relativo al numero di imprese per regione nel 1999 (la Lombardia è evidentemente quella che ne aveva di più).

    Pagina 1Pagina 2Pagina 3Pagina 4Pagina 5Pagina 6Pagina 7Pagina 8Pagina 9Pagina 10Pagina 11Pagina 12Pagina 13Pagina 14Pagina 15Pagina 16Pagina 17Pagina 18Pagina 19Pagina 20Pagina 21Pagina 22Pagina 23Pagina 24Pagina 25Pagina 26Pagina 27Pagina 28Pagina 29Pagina 30Pagina 31Pagina 32Pagina 33Pagina 34Pagina 35Pagina 36Pagina 37Pagina 38Pagina 39Pagina 40Pagina 41Pagina 42Pagina 43Pagina 44Pagina 45Pagina 46Pagina 47Pagina 48Pagina 49Pagina 50Pagina 51Pagina 52Pagina 53