Regress£o linear m .Logo, o que determina se uma regress£o © do tipo simples ou mltipla ©

  • View
    213

  • Download
    0

Embed Size (px)

Text of Regress£o linear m .Logo, o que determina se uma regress£o © do tipo simples ou...

Regresso linear mltiplaUniversidade Estadual de Santa Cruz

Ivan Bezerra Allaman

Introduo

A regresso mltipla uma generalizao da regresso simples, vistoque, h mais de uma varivel explicativa no modelo. Logo, o quedetermina se uma regresso do tipo simples ou mltipla o nmero devariveis explicativas no modelo.

comum encontrar alguns materiais se referir a regresso do tipopolinomial como mltipla simplesmente por haver no modelo o termo desegundo grau, terceiro grau, etc. Se h uma regresso com termos acimado de primeiro grau, mas a varivel explicativa continua sendo apenasuma, ento temos uma regresso simples.

Existem tambm alguns materiais referindo a regresso mltipla comoregresso multivariada. O termo "multivariado", utilizado em anlisesestatsticas quando ocorre mais de uma varivel resposta. Alis, onmero de variveis respostas que determina se a anlise do tipounivariado ou multivariado.

2/43

Objetivo

Estudar a relao funcional entre variveis, sendo uma resposta e duasou mais explicativas.

Estabelecer um modelo para entender a relao funcional entre asvariveis.

Fazer predies como o modelo ajustado principalmente para valoresque no foram observados na amostra.

3/43

O modelo

em que: = a varivel dependente

= so parmetros a serem estimados = so as variveis independentes

= o erro aleatrio referente a variabilidade em quem no pode serexplicada pelas variveis .

O modelo matemtico que estabele a relao funcional entre as variveis definido como:

y = + + + + + 0 1x1 2x2 kxk

y

, , ,0 1 k, , ,x1 x2 xk

y

sx

4/43

Estimao dos parmetros (Mnimosquadrados)

Utiliza-se o mtodo dos mnimos quadrados para estimao dosparmetros.

A idia exatamente a mesma que foi apresentada para regressosimples. No entanto, por se tratar de "k" variveis explicativas, inviveltermos uma equao para estimarmos os parmetros. Logo, lanamosmo da lgebra matricial para tal feito. Portanto, podemos reescrever omodelo de regresso j apresentado na forma matricial como:

Y = X +

5/43

em que: um vetor coluna das observaes com dimenses . uma matrix das variveis explicativas.

um vetor coluna dos parmetros que se quer estimar com dimenses .

um vetor coluna dos resduos com dimenses .

Y = n 1

X = n (k + 1)

=

(k + 1) 1

= n 1

Logo, a equao de quadrados mnimos para estimar os parmetros deum modelo de regresso :

= ( X Y XT )1XT

6/43

Aplicao

1. Gerente da Butler Trucking Company queremavaliar se o tempo de viagem para entregar umacarga est em funo das milhas percorridas e donmero de entregas deliveries. Um amostraaleatria simples de dez tarefas de entregaforneceram os seguintes dados:

Tempo de viagem(horas)

Milhaspercorridas

Nmero de entregasdeliveries

9.3 100 4

4.8 50 3

8.9 100 4

6.5 100 2

4.2 50 2

6.2 80 2

7.4 75 3

6.0 65 4

7.6 90 3

6.1 90 2

7/43

Tem-se as seguintes matrizes:

Os valores 1 na matriz X uma constanteutilizada para estimar o .

Logo, os valores estimados dos parmetros daregresso so:

Y = X =

9.3

4.8

8.9

6.5

4.2

6.2

7.4

6

7.6

6.1

1

1

1

1

1

1

1

1

1

1

100

50

100

100

50

80

75

65

90

90

4

3

4

2

2

2

3

4

3

2

0

8/43

X =XT

10

800

29

800

67450

2345

29

2345

91

( X =XT )1

2.756

0.0207

0.3453

0.0207

0.000298

0.00108

0.3453

0.0010785

0.148835

Y =XT

67

5594

202, 2

=

0, 8687

0, 0611

0.9234

9/43

Logo, o modelo de regresso ajustado :

ou de uma maneira mais "coloquial",

= 0, 8687 + 0, 06114 + 0, 9234 y x1 x2

= 0, 8687 + 0, 06114 milhas + 0, 9234 entregasy

10/43

Interpretao do modelo ajustado

No caso de uma regresso mltipla, os coeficientes que acompanham asvariveis independentes so interpretados de modo diferente comparado regresso linear simples.

No exemplo anterior a interpretao a equao ajustada a seguinte:

O aumento em uma unidade nas milhas percorridas, aumenta emmdia o tempo de viagem em 0,06114 horas quando todas as outrasvariveis independentes permanecem constantes.

Entretanto, o aumento em uma unidade no nmero de entregasdeliveries aumenta em mdia o tempo de viagem em 0,9234 horasquando todas as demais variveis independentes permanecemconstantes.

-

-

11/43

Coeficiente de determinao mltiplo

em que: a soma de quadrados de regresso a soma de quadrados total

Tem a mesma interpretao e clculo como no caso da regressosimples.

No entanto, utilizamos o maisculo para representar tal eficincia,uma vez que, no tem relao direta com o coeficiente de correlao.

Logo, tem-se:

R2

=R2SSR

SST

SSR = ( ni=1 yi y)2

SST = ( ni=1 yi y)2

12/43

Coeficiente de determinao mltiploajustado

Quanto maior o nmero de variveis independentes no modelo, maiorser o . Logo, uma medida que corrija este inconveniente se faznecessrio. Portanto, o coeficiente de determinao mltiplo ajustadocorrige este problema, pois leva em considerao o nmero de variveisno modelo de regresso.

O clulo o seguinte:

R2

= 1 ( (1 ))R2ajustn 1

n p 1R2

13/43

Aplicao

2. Considere o exemplo 1. Calcule o coeficiente dedeterminao mltiplo ajustado.

Calculando primeiro o coeficiente dedeterminao mltiplo sem ajuste.

Calculando o coeficiente de determinaomltiplo ajustado.

= = = 0, 9038R2SSR

SST

21, 60

23, 9

R2ajust =

=

=

1 ( (1 0, 9038))10 1

10 2 1

1 0, 1237

0, 8763

14/43

Inferncia sobre os i

Pressupostos do modelo

So os mesmos j abordados para regresso simples.

16/43

Teste de hiptese

Tambm tem a mesma abordagem para regresso simples com umapequena diferena. No caso formulao das hipteses temos:

{: = 0H0 i: 0Ha i

17/43

em que tem distribuio t de student com graus de liberdade,sendo k o nmero de variveis independentes.

Na estimao do desvio padro dos (que so os estimadores dos )tem-se:

bi i

=sbiserro

x2i( xi)

2

n

Lembre-se de que a varivel independente relacionada ao .

Logo, tem-se a seguinte estatstica de teste:

xi bi

t =bi

sbi

t n k 1

18/43

Aplicao

3. Considere ainda o exemplo 1. Avalie se asvariveis independentes so significativas.

As hipteses so:

e

{: = 0H0 milhas: 0Ha milhas

{: = 0H0 entregas

: 0Ha entregas

19/43

Testando primero o coeficiente para a varivel"milhas".

serro

sbmilhas

t

pvalor

=

=

=

=

= 0, 57312, 299

10 2 1

= 0, 00990, 5731

58, 7367

= 6, 1720, 0611

0, 0099(1 pt(6.172, 7)) 2 = 0, 0004576

20/43

Testando o coeficiente para a varivel"entregas".

sbentregas

t

pvalor

=

=

=

= 0, 21820, 5731

2, 6267

= 4, 2320, 9234

0, 2182(1 pt(4.232, 7)) 2 = 0, 0039

21/43

Mtodo de seleo de variveis

Quando existem muitas variveis independentes, a intepretao domodelo ajustado se torna muitas vezes difcil e de pouca aplicabilidadeprtica.

Logo, um mtodo que nos retorne um modelo mais parcimoniosopossvel se faz necessrio.

Dentre os mtodos de seleo iremos citar apenas o mtodo stepwisecom o critrio de Akaike (AIC) para a escolha do modelo maisparcimonioso.

O mtodo stepwise ser abordado computacionalmente, uma vez que,manualmente trabalhoso e a medida que aumenta o nmero devariveis se torna impossvel.

Portanto, iremos utilizar a funo stepAIC do pacote MASS.

O exemplo abaixo ser executado diretamente com o programa R.

22/43

Aplicao

4. O artigo "Response surface methodology forprotein extraction optimization of red pepperseed" forneceu os seguintes dados a respeito davarivel reposta ppro = produo proteica (%) edas variveis independentes temp = temperatura (

), ph = pH, text = tempo de extrao (min) esolv = razo solvente/refeio.C

23/43

temp ph text solv ppro temp ph text solv ppro

35 7.5 30 15 9.74 45 8.5 50 25 12.25

45 7.5 30 15 9.91 30 8.0 40 20 11.84

35 8.5 30 15 11.80 50 8.0 40 20 11.84

45 8.5 30 15 11.69 40 7.0 40 20 8.32

35 7.5 50 15 10.68 40 9.0 40 20 12.22

45 7.5 50 15 10.71 40 8.0 20 20 11.28

35 8.5 50 15 10.91 40 8.0 60 20 12.72

45 8.5 50 15 11.77 40 8.0 40 10 9.63

35 7.5 30 25 9.84 40 8.0 40 30 11.17

45 7.5 30 25 9.82 40 8.0 40 20 12.08

35 8.5 30 25 11.78 40 8.0 40 20 11.95

45 8.5 30 25 12.31 40 8.0 40 20 11.77

35 7.5 50 25 11.06 40 8.0 40 20 11.71

45 7.5 50 25 11.24 40 8.0 40 20 12.02

35 8.5 50 25 12.31

24/43

a. Ajuste um modelo de segunda ordem completo eutilize o mtodo stepwise para obter o melhorconjuto de variveis