Upload
ezzelin-carrara
View
215
Download
0
Embed Size (px)
Citation preview
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
La logica della regressioneNello studio delle relazioni tra due (o più) variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra (o delle altre), cioè ad individuare un’opportuna funzione che metta in relazione due o più variabili (di cui una dipendente e le altre indipendenti o esplicative).
Nel caso di una sola variabile indipendente si parla di regressione semplice; In presenza di due o più variabili indipendenti siamo nel campo della regressione
multiplaIn ambedue i casi possiamo ipotizzare modelli di regressione lineare o non lineare
Obiettivi Descrizione: rappresentare tramite funzione l’andamento in media dei valori di una
variabile al variare dell’altra Interpretazione: mettere in evidenza relazioni tra variabili per consentire una spiegazione
alla luce di precise teorizzazioni Previsione: valutare il valore che assumerà la variabile dipendente in corrispondenza d’in
valore noto della variabile indipendente (esplicativa)
Operazioni preliminari
Poiché la regressione lineare semplice è applicabile ESCLUSIVAMENTE a variabili cardinali, la rappresentazione grafica più adatta è la rappresentazione cartesiana. Facendo corrispondere ad una delle due variabili (quella indipendente) l’asse delle X, all’altra l’asse delle Y, collochiamo sul piano i casi studiati. Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i valori ottenuti sulla variabile indipendente (X) e dipendente (Y).
Questo è uno dei pochi casi in cui è necessario effettuare preliminarmente una delle operazioni che, per le analisi viste in precedenza, venivano condotte nella fase conclusiva: il grafico.
La distinzione tra variabile indipendente e dipendente è particolarmente importante in quanto i valori del coefficiente di regressione differiscono a seconda della scelta.
La rappresentazione grafica produrrà una nuvola di punti detta diagramma di dispersione (scattergram o scatterplot)
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
L’importanza dello scatterplot
Corbetta, 1999
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Regressione lineare sempliceIl tipo di legame più semplice fra due variabili è sicuramente quello lineare.
Data una nuvola di punti in cui si ravvisa un andamento lineiforme, ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque, sintetizzi la nuvola
Sarebbe irrealistico pensare infatti che vi sia relazione perfetta fra due variabili, ovvero che per tutti i punti siano collegabili fra di loro con una retta.
Y
X
Vogliamo cioè studiare il comportamento di una variabile (Y) come funzione di un’altra variabile (X).
Y= f (X)
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Regressione lineare
Y
X
Più realistico invece è pensare ad una situazione in cui i punti (casi) si dispongano secondo un andamento lineiforme e, per tale motivo, sia possibile immaginare una retta che sintetizzi, meglio di altre rette possibili, l’informazione data dai punti.
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Equazione della retta
Y = a + bX
Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che, meglio di tutte le altre è in grado di sintetizzarla
Cosa sono questi parametri?
a è l’intercetta, ovvero in punto in cui la retta intercetta l’asse delle y, o se preferite l’ordinata della retta quando l’ascissa è 0
b è il coefficiente angolare, ovvero la pendenza della retta
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Coefficienti
La matematica ci permette di determinare a e b a partire dai valori delle due variabili X e Y sui casi. Come? Utilizzando il “metodo dei minimi quadrati”
Tale metodo riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i valori di Y osservati (nei dati)
Coefficiente di regressione
Intercetta
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Coefficiente di regressione b
Soffermiamoci sulla formula del coefficiente di regressione:
Cosa abbiamo al numeratore?Cosa abbiamo al denominatore?
Dividendo il numeratore per la numerosità campionaria (N) abbiamo la covarianza.Dividendo il numeratore per la numerosità campionaria (N) abbiamo la varianza.
Dunque covarianza fra X e Y
varianza di Xb =
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Regressione lineareCome abbiamo detto in precedenza, la retta di regressione non da una rappresentazione perfetta della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono mai allineati perfettamente sulla retta stessa.
Pertanto bisogna introdurre un ulteriore coefficiente (e) detto errore o residuo.
L’equazione diventa la seguente: Y= a + bX + e
Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di regressione e il valore effettivamente osservato nei dati.
A differenza dei coefficienti a e b che, come abbiamo visto sono valori reali, il coefficiente e è una componente stocastica dell’equazione e dunque non osservabile.
...e è dunque il residuo non spiegato, relativo a ciascuna osservazione
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Regressione lineare
Il residuo è definito come la differenza tra i valori osservati (yi)ed i corrispondenti valori teorici ( ), che si collocano sulla retta di regressione
Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità, rispetto al corrispondente valore osservato, che non è spiegato dalla relazione lineare con la variabile indipendente.
Y
X
Y= a + bX + e
β1
X1 X2 X3 X4 X5
Q1
Q2
Q3
Q4
Q5
P1
P2
P3
P4
P5
e5
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Goodness of fitIl metodo dei minimi quadrati garantisce l’individuazione che sintetizza in maniera ottimale la nuvola dei punti.La fase conclusiva della validità o della bontà dell’adattamento della regressione è volta a controllare che la retta di regressione sia realmente in grado di spiegare l’andamento delle osservazioni.
Scomposizione della devianza
Devianza totale dei valori della variabile dipendente; misura la variazione dei valori di y intorno alla loro media
Devianza dei valori stimati (o dev di regressione); variazione spiegata attribuibile alla relazione fra X e Y
Devianza dei residui (o residua); variazione attribuibile a fattori estranei alla relazione fra X e Y
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Scomposizione della devianzaDunque la devianza totale è composta da:
SST = SSR + SSESomma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori
La devianza è una misura di variabilità: pertanto la devianza delle osservazioni è il risultato del contributo di due componenti.
La variabilità dei valori stimati; espressa dalla devianza di regressione. Tale parte è la parte “spiegata” dalla relazione lineare
La variabilità dei punti attorno alla retta; espressa dalla devianza residua. Tale valore ((DEV) E) anche se una sua prossimità a 0 indica che la rappresentazione (sintesi) fornita dalla retta di regressione è soddisfacente, non è direttamente utilizzabile per misurare la bontà dell’adattamento perché il suo valore numerico è influenzato dall’ordine di grandezza delle variabili utilizzate
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Indice di determinazione lineare
Per tale motivo si utilizza l’indice di determinazione lineare Rsquared.Tale indice viene costruito facendo il rapporto tra devianza di regressione (SSE) e devianza totale (SST)
Poiché è un rapporto al tutto, tale indice ha un campo di variazione compreso tra 0 e 1
Dove 0 indica un pessimo adattamento della retta ai datiE 1 indica un adattamento perfetto.
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Regressione e SPSS
… abbiamo già detto che occorre partire dal grafico (scatterplot) al fine di controllare (anche se approssimativamente, ad occhio) che fra le variabili vi sia un associazione di tipo lineare (e non curviforme).
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Regressione e SPSS
Asse delle ordinate, per la variabile dipendente
Asse delle ascisse, per la variabile indipendente
Labeling dei casi
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
È possibile impostare un filtro
Peso per le variabili del modello
Solo regressione multipla
Scatterplot
Numero di imprese locali
Numero di imprese locali
Bilancio della regione
Bilancio della regione
Modello di analisi
Bilancio della regione = a + b Numero di imprese locali
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Output di SPSS
È il coefficiente di correlazione di Bravis-Pearson
Ricordiamo varia tra 0 e 1 dove 1 è un accostamento perfetto della retta ai dati
Serve solo in caso di regressione multipla
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
È la nostra a (intercetta)È il nostro b (coefficiente angolare)
Per tanto l’equazione della retta è:
Y = -591,367 + 0,009 X
Bilancio della regione = - 591,367 + 0,009 Numero di imprese locali
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Devianza spiegata e non spiegata:Regressione=devianza spiegata dalla rettaResiduo= devianza non spiegata dalla retta
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Residui
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione
Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione