Upload
alessandro-stefani
View
224
Download
0
Embed Size (px)
Citation preview
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
L’analisi Bivariata
Studia la relazione fra coppie di variabili.
Le funzioni dell’analisi bivariata sono:1.Stabilire se date due variabili (x e y) esiste tra loro una relazione di indipendenza o di associazione2.In caso di associazione, quantificare (ove possibile) il grado di associazione tra coppie di variabili mediante coefficienti.
Cosa bisogna tenere a mente quando si effettua un analisi bivariata:1.L’analisi bivariata studia relazione statistiche e quindi probabilistiche;2.Distinzione tra variabili indipendenti e variabili dipendenti;3.Le tecniche di analisi bivariata variano in base al tipo di variabili considerate
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Tecniche di analisi bivariata
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
L’analisi Bivariata
L’analisi bivariata ha come prodotto principale una tavola di contingenza (o tabella a doppia entrata, o incrocio).
Rispetto alla distribuzione di frequenza la tavola di contingenza tiene contemporaneamente conto di due variabili: la prima posta in colonna, la seconda in riga.
Oltre alle frequenze assolute, possiamo chiedere al software di restituire un output con le frequenze relative.A seconda della richiesta effettuata, se percentualizzare per colonna o per riga, si ottengono informazioni differenti.
Grande importanza riveste dunque il tipo di percentualizzazione. Sinteticamente:•Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga;•Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna.I totali, di riga e di colonna, costituiscono le “frequenze marginali” e corrispondono alle frequenze delle variabili prese singolarmente (monovariate).
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Esempi di informazioni ottenute con diverse percentualizzazioni
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Misurare l’associazione tra due variabili
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Logica e test del Chi-quadrato
Il test del chi-quadrato è un test di “verifica” delle ipotesi che ci da conto della significatività della relazione fra due variabili nominali.Il test rientra nella famiglia dei test delle ipotesi in quanto permette di confrontare una serie di dati osservati con la serie di dati attesi in base ad un’ipotesi teorica e di stimare la bontà di questa ipotesi.
Si tratta di falsificare l’ipotesi nulla (H0), ovvero di assenza di relazione statistica fra due variabili. Se l’ipotesi di assenza di relazione viene respinta, automaticamente viene accettata l’ipotesi di ricerca (H1) che sostiene l’esistenza della relazione.
Due concetti essenziali: •Frequenze osservate: è il numero dei dati di una cella effettivamente rilevati•Frequenze attese (expected): è la frequenza teorica che si dovrebbe ottenere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna associazione.
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Il test del chi-quadrato si basa sulla differenza tra frequenze osservate e frequenzeattese.
Se la frequenza osservata è “molto” diversa rispetto alla frequenza attesa, allora c’è un associazione tra le due variabili
Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra tabella delle frequenze osservate e tabella delle frequenze attese. È zero nel caso di indipendenza perfetta nei dati.
Logica e test del Chi-quadrato
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Esempio di calcolo MANUALE del chi quadrato
787*969/1745 787*776/1745
507*969/1745 507*776/1745
451*969/1745 451*776/1745
437,022 349,978
281,538 225,462
250,441 200,559
(312 - 437,022)2/437,022 (475 - 349,978)2/349,978
(353 - 281,538)2/281,538 (154 - 225,462)2/225,462
(304 - 250,441)2/250,441 (147 - 200,559)2/200,559
35,766 44,661
18,139 22,651
11,454 14,303
146,974
Step 1:Calcolo delle fe
Step 2:Applic. della formula
Σ=
Data la tavola di contingenza
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Distribuzione teorica del Chi-quadrato
La tavola di distribuzione del chi-quadrato ci dice se un certo valore del chi quadrato è sufficientemente piccolo da poter essere attribuito ad errori casuali (ovvero ad una distribuzione casuale delle unità nelle celle della tabella) o se esiste una qualche relazione fra le due variabili e a che livello di probabilità tale relazione è significativa. Il controllo sulle tavole di distribuzione è necessario in quanto, a determinati livelli di probabilità, anche valori del chi-quadrato lontani dallo zero potrebbero rendere compatibile il risultato con l’ipotesi nulla H di indipendenza fra le variabili.
Come si effettua il controllo del valore ottenuto con quello della tavola di distribuzione?
•Bisogna innanzitutto calcolare i gradi di libertà di una tabella:g.d.l. = (n. di righe – 1) * (nr. di colonne -1)
e.s. In una tabella a doppia entrata composta da due variabili ciascuna con quattro modalità: g.d.l. = (4 - 1) * (4 - 1) = 9
•In secondo luogo va individuato il livello di probabilità cui riferirsi•Si confrontano valori calcolati con quelli della tavola di distribuzione del chi-quadrato
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
L’analisi Bivariata
Convenzionalmente si respinge l’ipotesi nulla di indipendenza (H0) se p ≤ 0,05, cioè se il valore del chi-quadrato è così grande da avere solo il 5% di probabilità di essere dovuto al caso (cioè ad errori casuali) ed il 95% di essere invece addebitabile ad una relazione fra le variabili.
g.d.l. = (3 – 1) * (2 – 1) = 2significatività con p < 0,005
Esercizio: data la tabellae il valore χ2=146,974
•Calcolare i gradi di libertà
Data la tavola di distribuzione del χ2
•Valutare a che livello di probabilità la relazione è significativa (se lo è).
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Misure di associazione
Il chi-quadrato ci dice circa la significatività della relazione tra due variabili, ma non ci dice nulla circa l’intensità (o forza) di questa relazione.
Per le variabili nominali si parla di misure di associazione.Le misure principali si basano sul χ2 pertanto esso appare sempre al numeratore o al denominatore.
Perché non è possibile utilizzare il χ2 come misura della forza di una relazione?Semplicemente perché i valori del χ2 sono direttamente proporzionali alla numerosità campionaria.
Tale indice però ha un difetto: non è normalizzato, ossia non ha un campo di variazione compreso tra 0 e 1 e pertanto rende difficile sia la sua interpretazione che il raffronto con indici diversi (provenienti da altre popolazioni). Per phi il valore minimo (di assoluta indipendenza) è zero, ma il valore massimo varia a seconda delle dimensioni della tabella.
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Cramèr, sulla base della considerazione che il valore massimo di χ2 è (k - 1)*N, dove k è il minore fra il numero di righe e di colonne (Corbetta, p. 586), pensa di dividere il valore del χ2 proprio per questa quantità.
Tale indice assume valori compresi fra 0 (indipendenza) e 1 (relazione perfetta)
Anche Pearson pensa ad una soluzione all’impossibilità di confrontare i valori del χ2
La sua soluzione non permette tuttavia una piena confrontabilità fra valori ottenuti con variabili diverse in quanto il limite superiore della sua C varia a seconda delle dimensioni della tabella.
Misure di associazione
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Misure di cograduazione
Per le variabili ordinali, si parla invece di misure di cograduazioneEntra i gioco oltre all’esistenza e alla forza di una relazione anche il concetto di direzione della relazione.
Le misure di cograduazione si basano sul confronto fra i valori assunti dalle variabili X ed Y su tutte le possibili coppie di casi:Su un caso i valori di X e Y sono entrambi maggiori (o minori) di quelli delle stesse variabili su un altro caso abbiamo concordanza (P = coppia di casi concordate)Se un caso ha un valore maggiore di X e uno minore di Y rispetto ad un altro caso abbiamo discordanza (Q = coppia di casi discordante)Terzo caso: la coppia di casi presenta lo stesso valore su X e/o su Y, abbiamo una coppia di casi appaiata
Il coefficiente più famoso è il gamma di Goodman e Krusal (1954)
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
L’analisi Bivariata
Per ovviare a questi limiti si può ricorrere ad altre due misure:Tau-b (o tau q), per le tabelle quadrateTau-c (o tau r), per le tabelle rettangolari
Con k numero minore tra righe e colonne
I coefficienti di Kendal, come il gamma, sono ambedue bidirezionali
Tale coefficiente varia tra -1 e +1Tende a sovrastimare la forza di un’associazione (perché non considera le coppie appaiate)Inoltre, risente del numero delle modalità delle due variabili (aumenta all’aumentare della sensibilità di una delle classificazione delle variabili categoriali ordinate)
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Altre misure di cograduazione
• Lambda di Goodman e Kruskal che misura la dipendenza del carattere Y dal carattere X• D di Sommer, primo coefficiente uni-direzionale. Rispetto al gamma, al denominatore
troviamo Lc, le coppie appaiate, ovvero le coppie formate da casi che hanno lo stesso valore sulla variabile in colonna, considerata dipendente. D indica la prevalenza di coppie P (cograduate) e (Q contrograduate) nell’insieme delle coppie non legate sulla variabile indipendente.
• Nel caso di variabili ordinali con un elevato numero di modalità (es. graduatorie o valori derivanti da un termometro dei sentimenti) la misura di cograduazione più utilizzata è il ρ (rho) di Spearman
Dove d è la differenza tra la posizione di un soggetto nella graduatoria relativa a due diversi criteri, cioè il suo punteggio sulle due variabili messe in relazione, e N è la numerosità della popolazione (Marradi, 1997)
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Rappresentazione grafica congiunta di due variabili
A barre affiancate
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
A barre sovrapposte
Rappresentazione grafica congiunta di due variabili
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Esercitazione
Data le variabili “GC/GS” e “migliorati/peggiorati” (creata nel corso delle lezioni precedenti )
effettuare l’analisi bi-variata facendo attenzione alle percentualizzazioni e utilizzando i coefficienti più opportuni.
Teoria e pratica della valutazioneLaboratorio – Lezione VIIIL’analisi bivariata
Esercitazione
Tavola di contingenza e chi-quadrato per approfondimento*migliorati/peggiorati
Lettura della tavola
Analisi della correlazione tra percezione del rischio e scartoT1/T2