Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione La logica della regressione Nello studio delle relazioni tra due (o più) variabili,

Teoria e pratica della valutazioneLaboratorio – Lezione XIIILa regressione

La logica della regressioneNello studio delle relazioni tra due (o più) variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra (o delle altre), cioè ad individuare un’opportuna funzione che metta in relazione due o più variabili (di cui una dipendente e le altre indipendenti o esplicative).

Nel caso di una sola variabile indipendente si parla di regressione semplice; In presenza di due o più variabili indipendenti siamo nel campo della regressione

multiplaIn ambedue i casi possiamo ipotizzare modelli di regressione lineare o non lineare

Obiettivi Descrizione: rappresentare tramite funzione l’andamento in media dei valori di una

variabile al variare dell’altra Interpretazione: mettere in evidenza relazioni tra variabili per consentire una spiegazione

alla luce di precise teorizzazioni Previsione: valutare il valore che assumerà la variabile dipendente in corrispondenza d’in

valore noto della variabile indipendente (esplicativa)

Operazioni preliminari

Poiché la regressione lineare semplice è applicabile ESCLUSIVAMENTE a variabili cardinali, la rappresentazione grafica più adatta è la rappresentazione cartesiana. Facendo corrispondere ad una delle due variabili (quella indipendente) l’asse delle X, all’altra l’asse delle Y, collochiamo sul piano i casi studiati. Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i valori ottenuti sulla variabile indipendente (X) e dipendente (Y).

Questo è uno dei pochi casi in cui è necessario effettuare preliminarmente una delle operazioni che, per le analisi viste in precedenza, venivano condotte nella fase conclusiva: il grafico.

La distinzione tra variabile indipendente e dipendente è particolarmente importante in quanto i valori del coefficiente di regressione differiscono a seconda della scelta.

La rappresentazione grafica produrrà una nuvola di punti detta diagramma di dispersione (scattergram o scatterplot)


L’importanza dello scatterplot

Corbetta, 1999


Regressione lineare sempliceIl tipo di legame più semplice fra due variabili è sicuramente quello lineare.

Data una nuvola di punti in cui si ravvisa un andamento lineiforme, ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque, sintetizzi la nuvola

Sarebbe irrealistico pensare infatti che vi sia relazione perfetta fra due variabili, ovvero che per tutti i punti siano collegabili fra di loro con una retta.

Y

X

Vogliamo cioè studiare il comportamento di una variabile (Y) come funzione di un’altra variabile (X).

Y= f (X)


Regressione lineare

Y

X

Più realistico invece è pensare ad una situazione in cui i punti (casi) si dispongano secondo un andamento lineiforme e, per tale motivo, sia possibile immaginare una retta che sintetizzi, meglio di altre rette possibili, l’informazione data dai punti.


Equazione della retta

Y = a + bX

Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che, meglio di tutte le altre è in grado di sintetizzarla

Cosa sono questi parametri?

a è l’intercetta, ovvero in punto in cui la retta intercetta l’asse delle y, o se preferite l’ordinata della retta quando l’ascissa è 0

b è il coefficiente angolare, ovvero la pendenza della retta


Coefficienti

La matematica ci permette di determinare a e b a partire dai valori delle due variabili X e Y sui casi. Come? Utilizzando il “metodo dei minimi quadrati”

Tale metodo riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i valori di Y osservati (nei dati)

Coefficiente di regressione

Intercetta


Coefficiente di regressione b

Soffermiamoci sulla formula del coefficiente di regressione:

Cosa abbiamo al numeratore?Cosa abbiamo al denominatore?

Dividendo il numeratore per la numerosità campionaria (N) abbiamo la covarianza.Dividendo il numeratore per la numerosità campionaria (N) abbiamo la varianza.

Dunque covarianza fra X e Y

varianza di Xb =


Regressione lineareCome abbiamo detto in precedenza, la retta di regressione non da una rappresentazione perfetta della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono mai allineati perfettamente sulla retta stessa.

Pertanto bisogna introdurre un ulteriore coefficiente (e) detto errore o residuo.

L’equazione diventa la seguente: Y= a + bX + e

Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di regressione e il valore effettivamente osservato nei dati.

A differenza dei coefficienti a e b che, come abbiamo visto sono valori reali, il coefficiente e è una componente stocastica dell’equazione e dunque non osservabile.

...e è dunque il residuo non spiegato, relativo a ciascuna osservazione


Regressione lineare

Il residuo è definito come la differenza tra i valori osservati (yi)ed i corrispondenti valori teorici ( ), che si collocano sulla retta di regressione

Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità, rispetto al corrispondente valore osservato, che non è spiegato dalla relazione lineare con la variabile indipendente.

Y

X

Y= a + bX + e

β1

X1 X2 X3 X4 X5

Q1

Q2

Q3

Q4

Q5

P1

P2

P3

P4

P5

e5


Goodness of fitIl metodo dei minimi quadrati garantisce l’individuazione che sintetizza in maniera ottimale la nuvola dei punti.La fase conclusiva della validità o della bontà dell’adattamento della regressione è volta a controllare che la retta di regressione sia realmente in grado di spiegare l’andamento delle osservazioni.

Scomposizione della devianza

Devianza totale dei valori della variabile dipendente; misura la variazione dei valori di y intorno alla loro media

Devianza dei valori stimati (o dev di regressione); variazione spiegata attribuibile alla relazione fra X e Y

Devianza dei residui (o residua); variazione attribuibile a fattori estranei alla relazione fra X e Y



Scomposizione della devianzaDunque la devianza totale è composta da:

SST = SSR + SSESomma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori

La devianza è una misura di variabilità: pertanto la devianza delle osservazioni è il risultato del contributo di due componenti.

La variabilità dei valori stimati; espressa dalla devianza di regressione. Tale parte è la parte “spiegata” dalla relazione lineare

La variabilità dei punti attorno alla retta; espressa dalla devianza residua. Tale valore ((DEV) E) anche se una sua prossimità a 0 indica che la rappresentazione (sintesi) fornita dalla retta di regressione è soddisfacente, non è direttamente utilizzabile per misurare la bontà dell’adattamento perché il suo valore numerico è influenzato dall’ordine di grandezza delle variabili utilizzate


Indice di determinazione lineare

Per tale motivo si utilizza l’indice di determinazione lineare Rsquared.Tale indice viene costruito facendo il rapporto tra devianza di regressione (SSE) e devianza totale (SST)

Poiché è un rapporto al tutto, tale indice ha un campo di variazione compreso tra 0 e 1

Dove 0 indica un pessimo adattamento della retta ai datiE 1 indica un adattamento perfetto.


Regressione e SPSS

… abbiamo già detto che occorre partire dal grafico (scatterplot) al fine di controllare (anche se approssimativamente, ad occhio) che fra le variabili vi sia un associazione di tipo lineare (e non curviforme).


Regressione e SPSS

Asse delle ordinate, per la variabile dipendente

Asse delle ascisse, per la variabile indipendente

Labeling dei casi



È possibile impostare un filtro

Peso per le variabili del modello

Solo regressione multipla

Scatterplot

Numero di imprese locali

Numero di imprese locali

Bilancio della regione

Bilancio della regione

Modello di analisi

Bilancio della regione = a + b Numero di imprese locali



Output di SPSS

È il coefficiente di correlazione di Bravis-Pearson

Ricordiamo varia tra 0 e 1 dove 1 è un accostamento perfetto della retta ai dati

Serve solo in caso di regressione multipla


È la nostra a (intercetta)È il nostro b (coefficiente angolare)

Per tanto l’equazione della retta è:

Y = -591,367 + 0,009 X

Bilancio della regione = - 591,367 + 0,009 Numero di imprese locali


Devianza spiegata e non spiegata:Regressione=devianza spiegata dalla rettaResiduo= devianza non spiegata dalla retta


Residui



Documents

Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione La logica della regressione Nello studio delle relazioni tra due (o più) variabili,