33
1 Regressão Linear - Introdução •Na análise de regressão linear pretende-se estudar e modelar a relação (linear) entre duas ou mais variáveis. • Na regressão linear simples relacionam-se duas variáveis, x e Y, através do modelo linear À variável Y chama-se variável dependente e à variável x variável independente ou explicativa. Exemplos: 1º) O número de horas de estudo poderá está relacionado com a nota obtida pelo aluno. As horas de estudo é a variável independente (x) e a nota obtida será a variável dependente (Y). 2º) A relação entre o nº de fogos florestais (Y) e a temperatura máxima mensal (x).

Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

  • Upload
    others

  • View
    19

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

1

Regressão Linear - Introdução

•Na análise de regressão linear pretende-se estudar e modelar a relação (linear) entre duas ou mais variáveis.

• Na regressão linear simples relacionam-se duas variáveis, x e Y, através do modelo linear

À variável Y chama-se variável dependente e à variável x variável independente ou explicativa.

Exemplos:1º) O número de horas de estudo poderá está relacionado com a nota obtida pelo aluno. As horas de estudo é a variável independente (x) e a nota obtida será a variável dependente (Y).

2º) A relação entre o nº de fogos florestais (Y) e a temperatura máxima mensal (x).

Page 2: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

2

Regressão Linear - Introdução

• Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes x1, x2, …, xk

através do modelo linear

Exemplos:1º) O peso de uma pessoa depende da sua altura, mas certamente também dependerá da sua idade, densidade dos ossos e perímetro da cintura. 2º) O consumo de energia dependerá da temperatura mas também dependedo preço da electricidade.

kk xxxY ββββ ++++= ...22110

Page 3: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

3

Regressão Linear Simples - Correlação

O ponto de partida da análise da regressão linear deve ser o estudo da existência (ou não) de uma relação linear entre as variáveis. Para estudar a relação entre duas variáveis existem métodos:

- gráficos: diagramas de dispersão- numéricos: coeficiente de correlação de pearson

Método gráfico: Os diagramas de dispersão consistem na representação gráfica dos pares ordenados (xi;Yi) num sistema de eixos cartesianos, de modo a observamos uma nuvem de pontos correspondentes à amostra obtida. Quanto mais os pontos representados se ajustarem a uma recta, melhor será a relação linear entre as variáveis.

Page 4: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

4

Regressão Linear Simples - Correlação

Exemplo: Num estudo realizado a 10 pessoas registaram-se as suas idades e os níveis de colesterol, tendo-se obtido:

20 30 40 50 60 70

idade

1,60

2,00

2,40

2,80

cole

ster

ol

Idade Colesterol30 1,6060 2,5040 2,2020 1,4050 2,7030 1,8040 2,1020 1,5070 2,8060 2,60

Diagrama

de dispersão:

De uma forma intuitiva podemos concluir que parece existir uma relação linear entre as variáveis, que matematicamente se traduzirá através de uma recta.

Page 5: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

5

Regressão Linear Simples - Correlação

Através dos seguintes gráficos pode-se concluir que:

Y

xHá uma forte correlação linear positiva.

Y

xHá uma forte correlação linear negativa.

Y

xHá uma fraca correlação linear.

Page 6: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

6

Regressão Linear Simples - Correlação

Método numérico: O coeficiente de correlação (amostral), ou coeficiente de correlação linear de Pearson, é uma medida habitual do grau de associação linear das variáveis:

( )( )

( ) ( ) YYXX

XY

n

i

n

iii

n

iii

SQSQSQ

yyxx

yyxxR =

∑ ∑ −−

∑ −−=

= =

=

1 1

22

1

onde SQXY, SQXX e SQYY também podem ser definidos por:

( )( )2

2

11

2

11

2

111 1

11

∑−∑=

∑−∑=∑∑−∑=

==

==

=== n

ii

n

iiYY

n

ii

n

iiXXn

ii

n

ii

n

iiiXY

yn

ySQ

xn

xSQyx

nyxSQ

Page 7: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

7

Regressão Linear Simples - Correlação

Interpretação do coeficiente de correlação (amostral):

• Este coeficiente varia entre -1 e 1:

• Quanto maior for o valor absoluto de R, mais forte será a associação linear entre as variáveis. Se R estiver próximo de zero então as variáveis serão não correlacionadas.

• Se R for positivo então a relação linear é positiva (x e Y variam no mesmo sentido) e se R for negativo a relação linear é negativa (x e Yvariam em sentidos opostos).

• Se R for igual a 1 ou -1 a relação linear será perfeita!

11 ≤≤− R

-1 -0,8 0,8 10

Forte correlação linear positiva

Forte correlação linear negativa

Fraca correlação linear

Page 8: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

8

Regressão Linear Simples – O modelo

Objectivo: Quando existe uma forte correlação entre as variáveis em estudo qual é a melhor relação linear entre as elas?

Método dos mínimos quadrados:

Um dos métodos mais utilizados para estimar a recta que melhor se ajusta aos valores observados é o método dos mínimos quadrados. Este método consiste em determinar os valores de e queminimizam a soma do quadrado dos erros (desvios dos valores observados Yi dos valores obtidos pelo modelo ).

ℜ∈+= 1010ˆ,ˆ;ˆˆˆ ββββ xY

0β 1β

iY

Page 9: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

9

Regressão Linear Simples – O modelo

Y

xix

iY

iY iexY 10

ˆˆˆ ββ += Os valores de e que minimizam a soma do quadrado dos erros

são dados por:

0β 1β

( )∑ −−=∑===

n

iii

n

iiE xYeSQ

1

2

101

2 ˆˆ ββ

xYSQSQ

XX

XY101

ˆˆeˆ βββ −==

Page 10: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

10

Regressão Linear Simples – O modelo

Exemplo: Pegando novamente no exemplo das variáveis Idade/Colesterol, verifica-se que:

Idade Colesterol30 1,6060 2,5040 2,2020 1,4050 2,7030 1,8040 2,1020 1,5070 2,8060 2,60

Coefficientsa

,924 ,142 6,516 ,000,028 ,003 ,955 9,071 ,000

(Constant)Idade

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Colesterola.

– ordenada na origem

– declive da recta

92400 ,^

02801 ,^=β

969;4.47;20400

2.21;42010

1

10

1

210

1

2

10

1

10

1

=∑=∑=∑

=∑=∑

===

==

ii

ii

ii

i

ii

ii

yxyx

yx

Page 11: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

11

Regressão Linear Simples – O modelo

Sendo a recta de regressão dada por:

Idade*,,Colesterol 02809240 +=

Page 12: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

12

Regressão Linear Simples – Avaliação do modelo

Estando o modelo de regressão linear estabelecido torna-se necessário avaliar a sua qualidade. Para isso existem vários métodos, gráficos e numéricos:

• Coeficiente de determinação

• Análise de resíduos

•Teste ao declive da recta

Page 13: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

13

Regressão Linear Simples – Avaliação do modelo

Coeficiente de determinação – R2:

• É uma medida da proporção da variabilidade de Y explicada pelo modelo de regressão linear, já que consiste na razão entre a soma dos quadrados dos resíduos e a soma dos quadrados total.

• Por definição, o coeficiente de determinação é:

T

R

YYXX

XY

SQSQ

SQSQSQR ==

2

2

( ) ( )2

1

2

1eˆ ∑ −=∑ −=

==

n

iiT

n

iiR YYSQYYSQ

onde já foram definidos anteriormente e se tem: YYXXXY SQSQSQ e,

Page 14: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

14

Regressão Linear Simples – Avaliação do modelo

• O coeficiente de determinação é simplesmente o quadrado do coeficiente de correlação amostral.

• R2 só pode assumir valores entre 0 e 1:

• Em geral, se a relação entre x e Y for fortemente linear R2 deve assumir um valor próximo de 1 (superior a 0.9).

• No entanto, se R2 estiver próximo de zero deve-se ter cuidado com as conclusões a tirar. Pode não significar que o modelo de regressão linear esteja desajustado.

10 2 ≤≤ R

Page 15: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

15

Model Summary

,955a ,911 ,900 ,16493Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Idadea.

Coeficiente de correlação

Coeficiente de determinação

Exemplo: Considerando novamente no exemplo das variáveis Idade/Colesterol, verifica-se que :

Regressão Linear Simples – Avaliação do modelo

logo .

6.78;456.2;2769 === XYYYXX SQSQSQ

911.0e955.0 2 == RR

No SPSS:

Page 16: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

16

Regressão Linear Simples – Avaliação do modelo

Análise dos resíduos:

• Este método de análise da qualidade do modelo de regressão consiste em representar graficamente os valores preditos versus resíduos, .

• Se ajustamento for bom, os pontos representados não devem apresentar qualquer correlação ou padrão: devem ser normais, comvariância constante e independentes.

• O diagrama de resíduos deve apresentar uma mancha de pontos aleatórios e com a mesma dispersão em torno do eixo dos xx.

( )ii eY ;ˆ

Page 17: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

17

Regressão Linear Simples – Avaliação do modelo

Exemplo: No exemplo que tem sido considerando, efectuando as previsões e calculando os erros correspondentes obtém-se:

30 1,6 1,76 -0,16

60 2,5 2,60 -0,10

40 2,2 2,04 0,16

20 1,4 1,48 -0,08

50 2,7 2,32 0,38

30 1,8 1,76 0,04

40 2,1 2,04 0,06

20 1,5 1,48 0,02

70 2,8 2,88 -0,08

60 2,6 2,60 0,00

ix iYiY iii YYe ˆ−=

Page 18: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

18

Regressão Linear Simples – Avaliação do modelo

Teste ao declive da recta:

• Esta análise da qualidade de ajustamento do modelo de regressãolinear é no fundo a resposta à questão:

Será que Y depende mesmo de x?

• Para responder a esta pergunta realiza-se o teste de hipóteses:

A forma mais simples de se tomar uma decisão é usando a estatística e o p-value que resultam da tabela ANOVA.

• Deve-se rejeitar a hipótese nula, e portanto assumir que x influencia Y, se o p-value for baixo (menor do que 0.05).

0:0: 1110 ≠= ββ HvsH

E

R

MQMQ

F =

Page 19: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

19

Regressão Linear Simples – ANOVA

ANOVA – Analysis of Variance

• A análise da variância, num modelo de regressão linear, consiste em separar a variabilidade das observações em duas parcelas: variabilidade devida à regressão e a variabilidade residual.

( ) ( ) ( )∑ −+∑ −=∑ −===

n

iii

n

ii

n

ii YYYYYY

1

2

1

2

1

2 ˆˆ

ERT SQSQSQ +=

• O significado da regressão é tanto maior quanto maior for SQR e menor for SQE.

• Usualmente esta informação é agrupada numa tabela: tabela ANOVA.

Page 20: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

20

Regressão Linear Simples – ANOVA

Tabela ANOVA

n – 1SQTTotal

n – 2SQEResidual

MQR = SQR1SQRRegressão

Desvios Quadráticos

Médios

Graus de Liberdade

(Nº de variáveis independentes)

Variações

(Somas dos desvios

quadráticos)

Fontes de variação

2−=

nSQ

MQ EE

Page 21: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

21

Regressão Linear Simples – ANOVA

Exemplo: A tabela ANOVA do exemplo das variáveis Idade/Colesterol é dada (no SPSS) por:

ANOVAb

2,238 1 2,238 82,291 ,000a

,218 8 ,0272,456 9

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Idadea.

Dependent Variable: Colesterolb.

Conclusão:

• A estatística F toma o valor 82,291 e o p-value do teste é nulo. Por assumir um valor baixo, pode-se concluir que faz sentido utilizar um modelo de regressão linear entre estas variáveis.

( )027,0/238,2≈

Page 22: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

22

Regressão Linear Múltipla – O modelo

Um modelo de regressão linear múltipla descreve a relação (linear) entre um conjunto de variáveis independentes, X1,X2,…,Xk, e uma variável dependente Y:

kk xxxY ββββ ++++= ...22110

• Para estimar coeficientes do modelo, , pode-se aplicar novamente o método dos mínimos quadrados e minimizar a soma do quadrado dos erros:

kβββ ,...,, 10

( )∑ ++−−==

n

ikikii xxYSQE 1

2

110ˆ...ˆˆ βββ

Page 23: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

23

Regressão Linear Múltipla – O modelo

• Após a realização dos cálculos adequados, os estimadores dos coeficientes são dados pelas soluções das igualdades:

onde .

kk

YXXXkXX

YXXXkXX

xxY

SQSQSQ

SQSQSQ

kkkk

k

βββ

ββ

ββ

ˆ...ˆˆ

ˆ...ˆ...

ˆ...ˆ

110

1

1

1

1111

−−−=

=++

=++

( ) ∑∑−∑=∑ −=i iq

i ipi iqip

i iqipqXpX XXn

XXXXSQ 12

Page 24: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

24

Regressão Linear Múltipla – O modelo

Exemplo: Supondo agora que o nível de colesterol numa pessoa depende da sua idade e também do seu peso, registou-se o peso das 10 pessoas analisadas anteriormente.

Idade Peso Colesterol30 57 1,6060 65 2,5040 78 2,2020 67 1,4050 72 2,7030 63 1,8040 84 2,1020 64 1,5070 59 2,8060 68 2,60

Coefficientsa

,188 ,411 ,458 ,661,029 ,003 ,958 10,438 ,000,011 ,006 ,172 1,878 ,103

(Constant)idadepeso

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: colesterola.

21 011.0029.0188.0ˆ xxY ++=

Considerando x1 como sendo a variável Idade e x2 a variável Peso, o modelo é:

Page 25: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

25

Regressão Linear Múltipla – Avaliação do modelo

Novamente existem diversos métodos para analisar a qualidade de ajustamento do modelo de regressão linear múltipla e a sua significância:

• Coeficiente de determinação (ajustado)

• Análise gráfica das previsões e dos resíduos

• Teste ao significado da regressão

Page 26: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

26

Regressão Linear Múltipla – Avaliação do modelo

Coeficiente de determinação (ajustado):

• O coeficiente de determinação, para a regressão múltipla, é definido de forma análoga ao da regressão simples:

• Tal como anteriormente se o ajustamento do modelo for bom, R2

estará próximo de 1.

No entanto:• Na regressão múltipla já não se tem o quadrado de nenhum coeficiente de correlação.

• Ao introduzirmos novas variáveis independentes no modelo o valor de R2 aumenta, o que pode induzir em erro uma vez que muitas variáveis pode não significar um melhor modelo. Para contornar o problema é usual considerar o coeficiente de determinação ajustado.

T

R

SQSQR =2

Page 27: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

27

Regressão Linear Múltipla – Avaliação do modelo

O coeficiente de determinação ajustado define-se pela expressão:

onde k representa o nº de variáveis independentes no modelo.

( )( ) T

Ea SQkn

SQnR

11

12

−−−

−=

Model Summaryb

,970a ,941 ,924 ,14379Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), peso, idadea.

Dependent Variable: colesterolb.

Exemplo: No exemplo anterior tem-se R2 = 0.924, o que representa boas indicações quanto à qualidade do modelo.

Page 28: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

28

Regressão Linear Múltipla – Avaliação do modelo

Análise gráfica:

• Como o modelo de regressão múltipla é uma hipersuperfície, nem sempre é possível verificar simultaneamente o comportamento de Y em função das diversas variáveis independentes. Normalmente analisa-se a relação entre Y e cada uma das variáveis x individualmente, através dos respectivos diagramas de dispersão.

• Um outro método gráfico muito utilizado consiste em representargraficamente as observações versus os valores previstos . Se o modelo for adequado, os valores previstos devem estar próximos dos observados e portanto o diagrama de dispersão deve conter todos os pontos próximos da recta .

iYiY

xY =

Page 29: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

29

Regressão Linear Múltipla – Avaliação do modelo

Exemplo: No exemplo anterior verifica-se que os pontos estão próximos da recta , o que sugere que o modelo considerado não será desajustado.

xY =( )

ii YY ˆ;

ColesterolObservado Previsto

1,60 1,662,50 2,612,20 2,171,40 1,482,70 2,401,80 1,732,10 2,241,50 1,452,80 2,832,60 2,64

iYiY

Page 30: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

30

Regressão Linear Múltipla – Avaliação do modelo

• A análise dos resíduos é completamente análoga à da regressão linear simples: quanto mais aleatória for a disposição dos pontos em torno do eixo das abcissas melhor será a qualidade do modelo.

( )ii eY ;ˆ

Exemplo: Ao lado encontra-se

representado o diagrama dos

resíduos do exemplo anterior.

Page 31: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

31

Regressão Linear Múltipla – Avaliação do modelo

Teste ao significado da regressão:

• Pretende-se com esta análise testar se tem significado considerar no modelo de regressão todas as variáveis independentes x1,…,xk. As hipóteses a considerar são:

• Mais uma vez deve-se usar a estatística e o p-value que decorre da tabela ANOVA para tomar uma decisão.

• Rejeita-se a hipótese nula, e assume-se que há variáveis independentes a influenciar Y, se o p-value for baixo (≤ 0.05).

0Algum:0...: 110 ≠=== jk HvsH βββ

E

R

MQMQ

F =

Page 32: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

32

Regressão Linear Múltipla – ANOVA

A interpretação da tabela ANOVA é análoga ao caso da regressão simples e no contexto da regressão linear múltipla é dada por:

n – 1SQTTotal

n – k – 1SQEResidual

kSQRRegressão

Desvios Quadráticos

Médios

Graus de Liberdade

(Nº de variáveis independentes)

Variações

(Somas dos desvios

quadráticos)

Fontes de variação

kSQ

MQ RR =

1−−=

knSQ

MQ EE

Page 33: Regressão Linear - Introdução · Regressão Linear - Introdução • Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes

33

Regressão Linear Múltipla – ANOVA

Exemplo: A tabela ANOVA do exemplo considerado é dada por:

Como o p-value do teste é zero, poderá fazer sentido utilizar um modelo de regressão linear com todas estas variáveis independentes.

ANOVAb

2,311 2 1,156 55,897 ,000a

,145 7 ,0212,456 9

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), peso, idadea.

Dependent Variable: colesterolb.