II.2. Regress£o Linear Mltipla - fenix-edu.isa. Tal como na Regress£o Linear Simples, ... de

  • View
    215

  • Download
    0

Embed Size (px)

Text of II.2. Regress£o Linear Mltipla - fenix-edu.isa. Tal como na Regress£o Linear Simples,...

II.2. Regresso Linear Mltipla

Por vezes, necessrio mais do que uma varivel preditora paramodelar a varivel resposta de interesse.

Exemplo: Num estudo sobre uma populao experimental de clonesda casta Tinta Francisca, realizado no Tabuao em 2003, forammedidos os valores das seguintes variveis para 24 videiras:

teor de antocianas (varivel antoi, em mg/dm3);

fenis totais (varivel fentot);

pH (varivel pH).

H interesse em estudar a relao entre o teor de antocianas (varivelresposta) e o teor de fenis totais e pH.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 196 / 457

A nuvem de pontos - uma perspectiva

As n = 24 observaes em trs variveis descrevem agora umanuvem de 24 pontos em R3.

Neste ngulo de viso, a nuvem de pontos em R3 nada tem deespecial.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 197 / 457

A nuvem de pontos - outra perspectiva

Noutro ngulo de viso percebe-se que os pontos se dispersamaproximadamente em torno de um plano.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 198 / 457

Plano em R3

Qualquer plano em R3, no sistema x0y0z, tem equao

Ax +By +Cz+D = 0 .

No nosso contexto, e colocando:

no eixo vertical (z) a varivel resposta Y ;

noutro eixo (x) um preditor X1;

no terceiro eixo (y) o outro preditor X2,

A equao fica (no caso geral de planos no verticais, com C 6= 0):

Ax1 +Bx2 +Cy +D = 0 y =D

C A

Cx1

B

Cx2

y = b0 +b1x1 +b2x2

Esta equao generaliza a equao da recta, para o caso de haverdois preditores.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 199 / 457

Regresso Mltipla - representao grfica (p = 2)

x1

y

x2

Y = b0 +b1x1 +b2x2

Y = b0 +b1x1 +b2x2 a equao dum plano em R3 (x10x20y).Pode ser ajustado pelo mesmo critrio que na RLS: minimizar SQRE.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 200 / 457

O caso geral: p preditores

Caso se pretenda modelar uma varivel resposta, Y , com base em pvariveis preditoras, x1, x2, ..., xp, uma generalizao da equao deregresso linear simples admite que os valores de Y oscilam em tornoduma combinao linear (afim) das p variveis preditoras:

y = b0 +b1x1 +b2x2 + ...+bpxp .

Trata-se da equao dum hiperplano em Rp+1, que define a relaode fundo entre Y e os p preditores.

Tal como na Regresso Linear Simples, admite-se que dispomos de nconjuntos de observaes para ajustar este hiperplano:

{(x1(i),x2(i), ...xp(i),yi

)}ni=1

.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 201 / 457

As dificuldades na representao grfica

A representao grfica usual da nuvem de n pontos observadosexige p+1 eixos: um para Y e um para cada um dos p preditores.

Para p > 2, so necessrios mais de trs eixos e a visualizaotorna-se impossvel.

As caractersticas fundamentais dessas representaes so:

Existem p+1 eixos um para cada varivel em questo.

Existem n pontos um para cada indivduo (unidadeexperimental) observado.

Tem-se uma nuvem de n pontos num espao (p+1)-dimensional.

Na regresso linear mltipla admite-se que os pontos se dispem emtorno de um hiperplano em Rp+1, de equaoy = b0 +b1x1 +b2x2 + ...+bpxp.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 202 / 457

Outra representao grfica

A representao grfica em Rp+1 das n observaes de Y e as pvariveis preditoras no a nica possvel.

H outra representao possvel dos dados, que casa conceitosgeomtricos e conceitos estatsticos e til na determinao dosparmetros ajustados.

As n observaes de Y definem um vector em Rn:

~y = (y1,y2,y3, ...,yn) .

Da mesma forma, as n observaes de cada varivel preditoradefinem um vector de Rn.

~xj = (xj(1) ,xj(2),xj(3) , ...,xj(n)) (j = 1,2, ...,p).

Podemos representar todas as variveis por vectores em Rn.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 203 / 457

A representao em Rn, o espao das variveis

cada eixo corresponde a um indivduo observado;

cada vector corresponde a uma varivel.

O vector de n uns, representado por ~1n, tambm til.

Ind. 2

Ind. 3

Ind. 4

...

Ind. 1 Rn

Ind n

~1n

~x1

~x3

~x2

~y

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 204 / 457

Vantagens da representao grfica alternativa

Os n valores ajustados~yi tambm definem um vector de Rn, ~y, que uma combinao linear dos vectores ~1n,~x1,~x2, ...,~xp:

b0~1n +b1~x1 +b2~x2 + ...+bp~xp = b0

111...1

+b1

x1(1)x1(2)x1(3)

...x1(n)

+ ...+bp

xp(1)xp(2)xp(3)

...xp(n)

=

b0 +b1x1(1) +b2x2(1) + ...+bpxp(1)b0 +b1x1(2) +b2x2(2) + ...+bpxp(2)b0 +b1x1(3) +b2x2(3) + ...+bpxp(3)

. . .b0 +b1x1(n) +b2x2(n) + ...+bpxp(n)

=

y1y2y3...

yn

= ~y

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 205 / 457

A matriz X e o seu subespao de colunas

Recordemos alguns conceitos dados na UC lgebra Linear dos 1os.ciclos do ISA.

O conjunto de todas as combinaes lineares de p+1 vectores~1n,~x1, ...,~xp chama-se o subespao gerado por esses vectores.

Colocando os vectores ~1n,~x1, ...,~xp nas colunas duma matriz X,de dimenso n (p+1), podemos chamar a este subespao osubespao das colunas da matriz X, C (X) Rn. um subespao de dimenso p+1 (se os vectores foremlinearmente independentes, isto , nenhum se pode escrevercomo combinao linear dos restantes).

Qualquer combinao linear dos vectores coluna da matriz X dada por X~a, onde~a = (a0,a1,a2, ...,ap) o vector doscoeficientes que define a combinao linear.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 206 / 457

Um produto matricial X~aO produto da matriz Xn(p+1) por um vector~a Rp+1 umacombinao linear das colunas de X:

X~a =

1 x1(1) x2(1) xp(1)1 x1(2) x2(2) xp(2)1 x1(3) x2(3) xp(3)...

......

. . ....

1 x1(n) x2(n) xp(n)

a0a1a2...

ap

=

a0 +a1x1(1) +a2x2(1) + ...+apxp(1)a0 +a1x1(2) +a2x2(2) + ...+apxp(2)a0 +a1x1(3) +a2x2(3) + ...+apxp(3)

. . .a0 +a1x1(n) +a2x2(n) + ...+apxp(n)

= a0~1n +a1~x1 +a2~x2 + ...+ap~xp

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 207 / 457

Os parmetros

Cada escolha possvel de coeficientes~a = (a0,a1,a2, ...,ap)corresponde a um ponto/vector no subespao C (X).

Essa escolha de coeficientes nica caso as colunas de X sejamlinearmente independentes, isto , se no houver dependncialinear (multicolinearidade) entre as variveis~x1, ...,~xp, ~1n.

Um dos pontos/vectores do subespao a combinao lineardada pelo vector de coeficientes ~b = (b0,b1, ...,bp) que minimiza:

SQRE =n

i=

e2i =n

i=

(yi yi)2

onde os yi so os valores observados da varivel resposta eyi = b0 +b1 x1(i)+b2 x2(i)+ ...+bp xp(i) os valores ajustados. acombinao linear que desejamos determinar.

Como identificar esse ponto/vector?

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 208 / 457

Geometria

Vamos usar argumentos geomtricos.

Dispomos de um vector de n observaes de~y que est em Rn

mas, em geral, no est no subespao C (X).

Queremos aproximar esse vector por outro vector,~y = b0~1n +b1~x1 + ...+bp~xp, que est no subespao C (X).

Vamos aproximar o vector de observaes~y pelo vector ~y dosubespao C (X) que est mais prximo de~y.

SOLUO:

Tomar a projeco ortogonal de~y sobre C (X) : ~y = H~y.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 209 / 457

A projeco ortogonal de~y sobre C (X)

C (X)

Rn ~y

~y = H~y

O vector de C (X) Rn mais prximo dum vector~y Rn o vector ~yque resulta de projectar ortogonalmente~y sobre C (X).

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 210 / 457

O critrio minimiza SQRE

O vector ~y que minimiza a distncia ao vector de observaes~yminimiza tambm o quadrado dessa distncia, que dado por:

dist2(~y,~y) = ~y~y2 =n

i=1

(yi yi)2 = SQRE .

Ou seja, o critrio minimiza a soma de quadrados dos resduos.

Trata-se do mesmo critrio que foi usado na Regresso LinearSimples.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 211 / 457

SQRE na projeco ortogonal

C (X)

Rn ~y

SQRE = ~y~y

~y = H~y

O quadrado da distncia de~y a ~y SQRE , a soma dos quadradosdos resduos.

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 212 / 457

A projeco ortogonalA projeco ortogonal de um vector~y Rn sobre o subespao C (X)gerado pelas colunas (linearmente independentes) de X faz-sepr-multiplicando~y pela matriz de projeco ortogonal sobre C (X):

H = X(XtX

)1Xt .

Logo, temos:

~y = H~y

~y = X(XtX)1Xt~y = ~b

A combinao linear dos vectores ~1n,~x1, ...,~xp que gera o vector maisprximo de~y tem coeficientes dados pelos elementos do vector ~b:

Os parmetros ajustados na RL Mltipla

~b = (XtX)1Xt~y .

J. Cadima (ISA - ULisboa) Estatstica e Delineamento 2018-19 213 / 457

As trs Somas de QuadradosNa Regresso Linear Mltipla definem-se trs Somas de Quadrados,de forma idntica ao que se fez na Regresso Linear Simples:

SQRE Soma de Quadrados dos Resduos (j definida):

SQRE =n

i=1

(yi yi)2 .

SQT Soma de Quadrados Total: