34
Regressione lineare multipla Metodi Quantitativi per la Ricerca 2020/21 Agnese Vitali

Regressione lineare multipla - UniTrento · 2020. 11. 23. · 3 La regressione lineare multipla •Generlmente vogliamo considerare “l’effetto” simultaneo di più variabili

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

  • Regressione linearemultipla

    Metodi Quantitativi per la Ricerca

    2020/21

    Agnese Vitali

  • Argomenti trattati

    • La regressione lineare multipla: elementi di base

    • Equazione di previsione parziale

    • “Controllare” per una variabile

    • Bontà del modello: Adjusted R2

    • Test F

  • 3

    La regressione lineare multipla

    • Generlmente vogliamo considerare “l’effetto” simultaneo di più variabili esplicative sulla variabiledipendente

    • Possiamo quindi estendere il modello di regressione

    • Per due variabili esplicative, X1 and X2, l’equazione di previsione sarà:

    𝑌 = a + b1 X1 + b2 X2

    Nota: Non è più l’equazione di una retta! Bensì di un piano

  • 4

    Esempio: Incassi settimanali, canzoni

    Y = Incassi(settimanasuccessive all’uscita)

    X1 = Advertising budget (£)

    X2 = N. volte suRadio 1

    Source: Field (2009).

  • • Ipotizziamo che entrambe X1 e X2 abbiamo un “contributo” nello spiegare Y

    • L’equazione del modello nella popolazione è:

    α è il valore di 𝑌 quando sia X1 che X2 sono =0

    5

    Il Modello e significato dei coefficient dellaregressione

    Yi = α + β1X1i + β2X2i + ui

    𝑌 = α + β1X1i + β2X2i

  • 6

    Significato dei coefficienti della regressione

    • Regressione bivariata

    Y = a + bX

    b “effetto” di X su Y

    • Regressione multipla

    Y = a + b1X1 + b2X2

    b1 effetto” di X1 su Y, controllando per X2

  • 7

    Esempi

    • Regressione bivariata: test di intelligenza (Y) e altezza (X) dei bambini

    Risultato: I bambini più alti sono più intelligenti! L’altezza causa l’inteligenza?

    Per cosa dovremmo “controllare”? Di quale altraimportante variabile dovremmo tener conto nellaregressione?

    L’età dei bambini

  • 8

    Conseguenze dell’uso di più variabiliesplicative

    • Migliori previsioni – la maggior parte deifenomeni sociali non diepndono da un solo fattore

    • Dopo aver controllato per una seconda variabileX2, l’associazione tra X1 e Y può modificarsi

  • 9

    Esempio: Voto in matematica

    • Dati: PISA 2018

    • Programme for International Student Assessment

    • Dati internazionali standardizzati su outcome educativi di 15-enni

    • https://www.oecd.org/pisa/, ci focalizziamo sui dati italiani (CNTRYID==380)

    https://www.oecd.org/pisa/

  • 10

    Esempio: Voto in matematica

    • Variabile dipendente:

    Y voto in matematica (matematica)

    • Iniziamo con una sola variabile esplicativa:

    X1 indice di ricchezza della famiglia (HOMEPOS)

  • Dallo scatterplot deduciamo che potrebbeesserci un’associazione lineare tra Y (=votoin matematica) e X (=ricchezza dellafamiglia)

    → Possiamo quindi procedere con la regression lineare

    Scatterplot tra voto in matematica e indice di ricchezza della famiglia

  • Equazione di previsione:

    𝑌 = 495.49 + 34.01 X1

    Output regression bivariata

    Come interpretiamo il coefficiente 34.01?Come interpretiamo 495,49?

  • Output regression bivariata

    In questo esempio, ha senso interpretare l’intercetta?

    SI: la variabile HOMEPOS può assumere valore 0

  • 14

    Esempio: Voto in matematica

    • Usiamo ora due variabili esplicative:

    X1 indice di ricchezza della famiglia (HOMEPOS)

    X2 tempo settimanale dedicato allo studio dellamatematica in minuti (MMINS)

  • Matrice degli scatterplot

    Relazione tra Y e tempo dedicato allostudio(X2):Potrebbe esserci associazione lineare

    Relazione tra Y e ricchezza della famiglia (X1):Potrebbe esserci associazione lineare

    Relazione tra X1 e X2:non c’è associazione

    Importante assunzione del modello di regressionemultipla

  • Output regressione

    Equazione di previsione:

    Y = 482.56+ 31.05 X1 + 0.08 X2

    Come interpretiamo l’intercetta?E’ il valore predetto di Y quando sia X1 che X2 =0Come interpretiamo il coefficiente di X1, 31,05?E’ il cambiamento medio in Y corrispondente ad un aumentounitario di X1, controllando per X2

  • • Usiamo l’equazione di previsione per stimare il voto in matematicaquando:

    −Indice di ricchezza della famiglia è alto =4

    −Minuti settimanali dedicati allo studio di matematica è nella media =220.5

    Voto matematica = 482.56+ 31.05 *4 + 0.08 *220.5 = 624.4

    Equazione di previsione:

    Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio

  • • Stimiamo ora il voto in matematica quando:−Indice di ricchezza della famiglia è sotto la media = -3

    −Minuti settimanali dedicati allo studio di matematica è nella media =220.50 (come prima)

    Voto matematica = 482.56+ 31.05 *(-3) + 0.08 *220.5 = 407.05

    → a parità di impegno (=tempo dedicato allo studio della materia), glistudenti con famiglie più ricche hanno mediamente voti più alti in matematica

    Equazione di previsione:

    Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio

  • 19

    • Qual’è l’“effetto” della ricchezza della famiglia (X1) controllando per tempo dedicato allo studio (X2)?

    • Poniamo tempo di studio= al suo valore medio =220.5 e sostituiamo nell’equazione di previsione:

    = 482.56+ 31.05 ricchezza + 0.08* 220.5

    = 482.56+ 31.05 ricchezza + 17.64

    = 500 + 31.05 ricchezza

    Interpretazione di b1

    Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio

  • Equazione di regressione parziale

    Per tempo dedicato allo studio = 220.5:

    Voto matematica = 500 + 31.05 ricchezza

  • Equazione di regressione parziale

    • Fissando un valore di X2=tempo dedicato allo studio, l’equazione:

    si semplifica, diventa l’equazione di una retta:

    Voto matematica = 500 + 31.05 ricchezza

    Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio

  • Equazione di regressioneparziale

    Fissando un valore di X2=tempo dedicato allo studio (quindicontrollando per X2), abbiamo ottenuto un’equazione di regressione parziale tra Y e X1

    →Interpretazione di b1=31.05 come nel caso della regressionebivariata:

    per ogni aumento unitario in X1=ricchezza della famiglia, Y=votoin matematica aumenterà, in media, di 31.05, controllando per X2 = tempo dedicato allo studio

  • 23

    • Quando fissiamo il valore di X2, lo poniamo ugualead una costante (=un numero), quindicontrolliamo per X2

    • Nella regressione multipla, il coefficiente b1 descrive l’effetto della variabile X1, controllandoper l’effetto che le altre variabili esplicative hannosu Y

    • In una regression bivariata, il coefficiente b1 descrive l’effetto della variabile X1 ignorando tuttele altre possibili variabili

  • Equazione di regressione parziale

    • Fissando un valore di X2=tempo dedicato allo studio, l’equazione:

    si semplifica, diventa l’equazione di una retta:

    Voto matematica = 500 + 31.05 ricchezza

    • La pendenza di questa retta è la stessa per qualsiasi valore di X2:

    X2 = 220.5: Voto matematica = 500 + 31.05 ricchezza

    X2 = 600: Voto matematica = 531 + 31.05 ricchezza

    • Invece l’intercetta cambia al cambiare di X2

    Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio

  • 25

    Posto MMINS (X2)= 220.5:

    Y = 500+ 31.05 X1

    Posto MMINS (X2)= 600:

    Y = 531 + 31.05 X1

  • 26

    Coefficiente di correlazione multipla

    • In una regressione bivariata, il coefficiente di correlazione r descrive l’associazione lineare tradue variabili

    • In una regressione multipla, usiamo ilcoefficiente di correlazione multipla R

    • E’ la correlazione tra i valori osservati di Y e i valoridi Y predetti dal modello di regressione

  • 27

    R-Quadro

    • Nella regressione multipla, R2 è il quadrato del coefficiente di correlazione multipla R

    • R2 misura la proporzione della varianza totale in Y che può essere spiegata dalle variabili esplicative (= spiegata dal modello)

  • 28

    Proprietà di R2

    • Come nel caso del modello bivariato:

    −Varia tra 0 e 1

    −Più vicino a 1, migliore il modello

    • In più: R2 non decresce quando includiamoun’ulteriore variabile esplicativa nel modello

  • 29

    Adjusted R2

    • Adjusted R2 è una correzione di R2 che tieneconto del numero di variabili esplicative (k) usatenel modello + l’ampiezza campionaria (n)

    • Se n è grande rispetto a k, adjusted R2 assumeràun valore vicino a R2

  • Circa l’8% della variabilità nei voti in matematica in Italia è spiegata dal modello (2 varabili indipendenti)

    → Il modello spiega poco

  • • Aggiungiamo una terza variabile esplicativa nel modello: ilvoto in scienze, e confrontiamo la bontà di questo modellocon il precedente

    Circa il 70% della variabilità nei voti in matematica in Italia è spiegata dal modello (3 varabili indipendenti)

    → Il modello spiega bene

  • 32

    Test F

    • R2 (o adjusted R2) spesso basso, soprattutto nellescienze sociali, tipicamente < 10%

    • Alternativamente, possiamo testare l’influenza chele variabili esplicative del modello collettivamentehanno su Y

    • Ipotesi:

    H0: β1 = β2 = … = βk = 0

    HA: Almeno un βi ≠ 0 (cioè il modello è “utile”)

  • 33

    Test F in STATA

    p-value<

  • Letture

    • Agresti – Finlay:

    −Capitolo 10, paragrafo 10.2

    −Capitolo 11, paragrafi da 11.1 a 11.4 (compresi)