15
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla Martedì 15 ottobre 2012 A cura di Matteo Forgiarini

1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

Embed Size (px)

Citation preview

Page 1: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

1

Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia

Esame di

Analisi Multivariata dei Dati

La regressione lineare multiplaMartedì 15 ottobre 2012

A cura di Matteo Forgiarini

Page 2: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

2

Esercitazione N°2 – La regressione lineare multipla

La regressione multipla

Ma non sempre la realtà è semplice…

In alcuni casi occorre utilizzare più di una variabile indipendente per spiegare (la varianza di) una variabile dipendente.

Nelle precedenti analisi abbiamo ipotizzato che una variabile dipendente venga spiegata – prevista – da una sola variabile indipendente: abbiamo analizzato il modello di regressione semplice.

Un modello di regressione che preveda 2 o più variabili indipendenti e una sola variabile dipendete è chiamato modello di regressione multipla.

Page 3: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

3

Esercitazione N°2 – La regressione lineare multipla

Nella regressione multipla, il coefficiente b di ogni x esprime solo l’effetto diretto della x sulla y al netto degli effetti indiretti prodotti mediante l’interazione con le altre variabili indipendenti. Infatti l’effetto indiretto di una VI sulla y esiste solo se la correlazione tra le VI è diversa da 0; in caso contrario, non essendoci interazione tra le VI, gli effetti indiretti saranno nulli.

wbxbay xywwyx ..ˆ

I coefficienti di regressione b cosa rappresentano?

Nella regressione semplice i coefficienti b esprimono l’intero legame tra la x e la y.

Nella regressione multipla la loro interpretazione è più complessa…

Come nella regressione semplice, la costante “a” rappresenta l’intercetta della retta, ovvero il valore di y quando tutte le x hanno valore 0.

Il coefficiente di ogni VI è chiamato coefficiente parziale di regressione tra la VI e y ed è ottenuto parzializzando l’effetto delle altre VI su y.

La regressione multipla

Page 4: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

4

Esercitazione N°2 – La regressione lineare multipla

Con spss è possibile stimare i parametri della retta di regressione multipla…

Nell’esempio proposto, la variabile “peso” viene considerata variabile dipendente.

Il modello prevede due VI.

Selezioniamo questa opzione per ottenere le stime dei coefficienti di un modello di regressione sia con una sola VI sia con le due VI.

La regressione multipla

Page 5: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

5

Esercitazione N°2 – La regressione lineare multipla

I parametri del modello di regressione multipla sono tutti significativi (p-value<0.05). Il modello con due VI infatti ottiene una proporzione di varianza spiegata (0,916) maggiore del modello con una sola VI (0,622). Possiamo concludere che utilizzare anche “lunghezza” per spiegare “peso” migliora significativamente il modello; infatti il coefficiente parziale di regressione stimato per “lunghezza” risulta significativamente diverso da 0

Notiamo come il metodo “stepwise” permetta di confrontare la bontà dei due modelli ottenuti e di verificare la significatività dei parametri di tutti i modelli. Al contrario, con il metodo “enter” vengono considerate contemporaneamente tutte le VI inserite.

Coefficientsa

717,510 91,659 7,828 ,000

4,248 ,706 ,789 6,015 ,000

-794,052 182,197 -4,358 ,000

3,283 ,360 ,609 9,130 ,000

3,651 ,427 ,571 8,553 ,000

(Constant)

potenza del motore

(Constant)

potenza del motore

lunghezza (cm)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: peso (in Kg)a.

Modello 1: regressione semplice:

y=“peso”, x=“potenza del motore”.

Modello 1: regressione multipla:

y=“peso”, x1=“potenza”,x2=“lunghezza”.

Model Summary

,789a ,622 ,605 107,63258

,957b ,916 ,908 52,02760

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), potenza del motorea.

Predictors: (Constant), potenza del motore, lunghezza(cm)

b.

La regressione multipla

Page 6: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

6

Esercitazione N°2 – La regressione lineare multipla

Continuiamo l’analisi degli output del modello di regressione multiplo…

I coefficienti parziali di regressione indicano solo l’effetto diretto che ogni VI produce sulla y e vengono infatti stimati parzializzando l’effetto delle altre VI.

Il segno della loro stima permette di capire la direzione della relazione (positiva o negativa) tra la VI e la y. Se il segno è positivo al crescere della VI, anche la y cresce; se il segno è negativo, ad un aumento della VI corrisponde una diminuzione della y. In particolare nel modello proposto i coefficienti indicano che il crescere della potenza del motore e della lunghezza, producono un aumento del peso dell’auto.

Ma…

La stima dei coefficienti parziali non ci permette di comprendere in modo chiaro il contributo unico di ogni VI: per l’analisi di un modello di regressione multipla è importante avere anche una stima della quantità di varianza della y che ogni VI permette di spiegare…

Coefficientsa

717,510 91,659 7,828 ,000

4,248 ,706 ,789 6,015 ,000

-794,052 182,197 -4,358 ,000

3,283 ,360 ,609 9,130 ,000

3,651 ,427 ,571 8,553 ,000

(Constant)

potenza del motore

(Constant)

potenza del motore

lunghezza (cm)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: peso (in Kg)a.

La regressione multipla

Page 7: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

7

Esercitazione N°2 – La regressione lineare multipla

Il contributo unico delle VI

In particolare occorre distinguere due indici che permettono di comprendere il contributo unico di ogni VI:

Il contributo unico di una VI può essere

stimato grazie al quadrato della

correlazione parziale: ipotizzando che y

venga spiegata da x e w,

Pr2yw.x

indica l’effetto di w dopo aver rimosso tutta

la variabilita’ spiegata da x.

Pr2yw.x indica la proporzione di varianza

spiegata da w rispetto alla parte di varianza

di y che non viene spiegata da x.

Il contributo unico di una VI può anche

essere valutato come la varianza della y

spiegata unicamente dalla VI: ipotizzando

che y venga spiegata da x e w, il quadrato

della correlazione semi-parziale tra y e w

Sr2yw.x

indica la varianza di y spiegata

unicamente da w.

Page 8: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

8

Esercitazione N°2 – La regressione lineare multipla

e

WX

a

c

b

ea

apr xyw

.

2 aebca

asr xyw

.

2

Il contributo unico delle VI

Page 9: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

9

Esercitazione N°2 – La regressione lineare multipla

La correlazione parziale

Per stimare i contributi unici di ogni VI in un modello di regressione multipla risulta quindi importante calcolare la matrice di correlazioni parziali tra un set di variabili...

In questa finestra occorre inserire le variabili fra le quali si vuole calcolare la correlazione parziale.

Nell’esempio proposto le correlazioni vengono parzializzate mantenendo costante la variabile “lunghezza”.

Page 10: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

10

Esercitazione N°2 – La regressione lineare multipla

Correlations

1,000 -,001 ,046 ,152 ,011

. ,996 ,834 ,489 ,960

0 21 21 21 21

-,001 1,000 ,894 ,545 ,745

,996 . ,000 ,007 ,000

21 0 21 21 21

,046 ,894 1,000 ,663 ,820

,834 ,000 . ,001 ,000

21 21 0 21 21

,152 ,545 ,663 1,000 ,695

,489 ,007 ,001 . ,000

21 21 21 0 21

,011 ,745 ,820 ,695 1,000

,960 ,000 ,000 ,000 .

21 21 21 21 0

Correlation

Significance (2-tailed)

df

Correlation

Significance (2-tailed)

df

Correlation

Significance (2-tailed)

df

Correlation

Significance (2-tailed)

df

Correlation

Significance (2-tailed)

df

capienza bagagliaio (litri)

peso (in Kg)

potenza del motore

capienza serbatoio (litri)

prezzo da catalogo (lire)

Control Variableslunghezza (cm)

capienzabagagliaio

(litri) peso (in Kg)potenza

del motore

capienzaserbatoio

(litri)prezzo da

catalogo (lire)

La matrice contiene le correlazioni tra le coppie di variabili calcolate parzializzando l’effetto di “lunghezza”. Ogni cella (non appartenente alla diagonale principale) contiene la correlazione prxy.lunghezza.

Nell’esempio proposto, 0.894=prpotenza peso.lunghezza è la correlazione parziale tra potenza e peso; pr2=(0,894)2=0,799 indica la proporzione di varianza di “peso” spiegata da “potenza” rispetto alla quantità di varianza di “peso” non spiegata dall’altra VI “lunghezza”.

Nell’esempio proposto la correlazione parziale tra “potenza” e “peso” risulta significativa (p.value<0,01): possiamo quindi concludere che rispetto alla varianza di “peso” non spiegata da “lunghezza”, la variabile “potenza” permette di spiegare una quantità di varianza della VD statisticamente significativa.

La correlazione parziale

Page 11: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

11

Esercitazione N°2 – La regressione lineare multipla

Selezioniamo questa opzione per ottenere le correlazioni semplici, parziali e semi-parziali

Attraverso questa procedura possiamo ottenere, oltre alle stime dei coefficienti del modello di regressione multiplo, anche le stime delle correlazioni semplici, parziali e semi-parziali (cfr. diapositive successive) che ci permettono di analizzare più in profondità il contributo unico delle singole variabili.

La correlazione parziale

Page 12: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

12

Esercitazione N°2 – La regressione lineare multipla

Coefficientsa

717,510 91,659 7,828 ,000

4,248 ,706 ,789 6,015 ,000 ,789 ,789 ,789

-794,052 182,197 -4,358 ,000

3,283 ,360 ,609 9,130 ,000 ,789 ,894 ,579

3,651 ,427 ,571 8,553 ,000 ,762 ,881 ,542

(Constant)

potenza del motore

(Constant)

potenza del motore

lunghezza (cm)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Zero-order Partial Part

Correlations

Dependent Variable: peso (in Kg)a.

I coefficienti del modello sono uguali a quelli stimati in precedenza.

In questa colonna troviamo le correlazioni semplici tra le due VI e la VD.

In questa colonna troviamo le correlazioni parziali tra le due VI e la VD; in particolare: 0,894=prpotenza peso.lunghezza;

0,881=prlunghezza peso.potenza. Notiamo che 0,894 corrisponde alla stima ottenuta calcolando la matrice delle correlazioni parziali tra le variabili. Per stimare 0,881 all’interno della matrice delle pr, avremmo dovuto eseguire la medesima procedura per creare la matrice, ma parzializzando l’effetto della variabile “potenza”.

Elevando al quadrato le pr possiamo calcolare il contributo unico delle due VI.

(0,894)2=0,799; la variabile “potenza” spiega il 79% della varianza di “peso” che non viene spiegata da “lunghezza”.

(0,881)2=0,776; la variabile “lunghezza” spiega il 77% della varianza di “peso” che non viene spiegata da “potenza”.

La correlazione parziale

Page 13: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

13

Esercitazione N°2 – La regressione lineare multipla

Come accennato in precedenza, è possibile stimare il contributo unico di una VI anche mediante la correlazione semi-parziale tra le VI e la VD.

In particolare il quadrato della correlazione semi-parziale indica la parte di varianza della VD spiegata unicamente dalla VI al netto della varianza della VD che la VI spiega in comune con le altre VI.

Sr2xy.w indica la parte di varianza della y spiegata dalla x al netto della parte di varianza della y che x spiega in

comune con w.

Coefficientsa

717,510 91,659 7,828 ,000

4,248 ,706 ,789 6,015 ,000 ,789 ,789 ,789

-794,052 182,197 -4,358 ,000

3,283 ,360 ,609 9,130 ,000 ,789 ,894 ,579

3,651 ,427 ,571 8,553 ,000 ,762 ,881 ,542

(Constant)

potenza del motore

(Constant)

potenza del motore

lunghezza (cm)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Zero-order Partial Part

Correlations

Dependent Variable: peso (in Kg)a.

Nell’esempio proposto, 0,579 indica la correlazione semi-parziale srpotenza peso.lunghezza.

In modo analogo 0,542=srlunghezza peso.potenza.

Possiamo quindi affermare che la variabile “potenza” spiega, senza tenere conto del contributo in comune con “lunghezza”, il 33,5% della varianza di “peso”: (0,579)2=0,335.

Similmente, il contributo unico della variabile “lunghezza” al netto del contributo comune a “potenza” risulta: (0,542)2=0,293: la variabile “lunghezza” spiega il 29,3% della varianza di “peso”.

Correlazioni semi-parziali

La correlazione semi-parziale

Page 14: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

14

Esercitazione N°2 – La regressione lineare multipla

Una particolarità

Coefficientsa

717,510 91,659 7,828 ,000

4,248 ,706 ,789 6,015 ,000 ,789 ,789 ,789

-794,052 182,197 -4,358 ,000

3,283 ,360 ,609 9,130 ,000 ,789 ,894 ,579

3,651 ,427 ,571 8,553 ,000 ,762 ,881 ,542

(Constant)

potenza del motore

(Constant)

potenza del motore

lunghezza (cm)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Zero-order Partial Part

Correlations

Dependent Variable: peso (in Kg)a.

Procediamo con l’analisi dei tre tipi di correlazione…

Notiamo che se ipotizziamo un modello di regressione semplice la correlazione semplice, parziale e semi-parziale sono uguali… perché!?!

Perché in un modello di regressione semplice il legame diretto tra x e y è l’unico che vi sia… non esiste altro legame che si debba parzializzare: la proporzione di varianza spiegata di y da parte di x coincide con il contributo unico di x poiché non occorre parzializzare nessun effetto di altre VI:

r2xy=pr2

xy=sr2xy

Page 15: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare multipla

15

Esercitazione N°2 – La regressione lineare multipla

L’R2 del modello

Model Summary

,789a ,622 ,605 107,63258 ,622 36,180 1 22 ,000

,957b ,916 ,908 52,02760 ,294 73,155 1 21 ,000

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

R SquareChange F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), potenza del motorea.

Predictors: (Constant), potenza del motore, lunghezza (cm)b.

Coefficientsa

717,510 91,659 7,828 ,000

4,248 ,706 ,789 6,015 ,000 ,789 ,789 ,789

-794,052 182,197 -4,358 ,000

3,283 ,360 ,609 9,130 ,000 ,789 ,894 ,579

3,651 ,427 ,571 8,553 ,000 ,762 ,881 ,542

(Constant)

potenza del motore

(Constant)

potenza del motore

lunghezza (cm)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Zero-order Partial Part

Correlations

Dependent Variable: peso (in Kg)a.

Nel modello di regressione multipla è più complesso: la proporzione di varianza spiegata R 2 del modello è formata dai contributi di ogni variabile…

R2=r2potenza peso + sr2

lunghezza peso.potenza=(0,789)2 + (0,542)2=0,622 + 0,293=0,9157

R2=r2lunghezza peso + sr2

potenza peso.lunghezza=(0,762)2 + (0,579)2=0,58 + 0,335=0,9152

Notiamo come nel modello di regressione semplice la proporzione di varianza spiegata dalla VI sia coincidente con il quadrato della correlazione semplice corr(xy): R2=0,7892=0,622.

Regr. Mult.

Regr. Sempl.