Modelo de Regressão Linear Simples · 2019-09-12 · Objetivos –Modelo de Regressão Linear...

Preview:

Citation preview

Modelo de Regressão Linear Modelo de Regressão Linear Modelo de Regressão Linear Modelo de Regressão Linear SimplesSimples

Prof.a Dr.a Simone Daniela Sartorio de Medeiros

DTAiSeR-Ar

1

IntroduçãoIntrodução

Considere uma variável aleatória Y de interesse. Já vimos que podemosescrever essa variável como sendo:

mY

onde m é o valor esperado desta variável e é o erro.

Esse modelo sugere que podemos utilizar a esperança e a variância de Ypara descrever essa variável de forma resumida.

2

No R:y<- c(10,12,25,23,26,12,15)ybarra = mean(y); ybarravar(y)

e = y - ybarra ; eround(mean(e),4)var(e)

cbind(y, ybarra, e)

• Portanto podemos dizer que o erro é também umavariável aleatória que tem média zero e variânciaigual de a Y.

• Esse erro é geralmente chamado de resíduo erepresenta os inúmeros fatores que, conjuntamente,fazem as observações de Y oscilarem em torno de .

• No caso particular de Y ter distribuição Normal,teremos também que:

),0(~ 2yN

Uma variável auxiliarUma variável auxiliar

Considere agora que exista uma outra variável X, com alguma relação coma variável Y.

Isso sugere uma maneira alternativa de estudar Y tendo como baseinformações sobre X. Portanto, as quantidades que descrevem Y são agoraesperanças e variâncias condicionadas a valores específicos de X, ou seja:

]|[]|[ xYVarexYE

onde x é um valor conhecido de X.

3

onde x é um valor conhecido de X.

• Se existir uma certa associação entre X e Y,

talvez os valores de E[Y|x] sigam um padrão e

os valores de Var[Y|x] sejam menores do que Var[Y]

HistóriaHistóriaA teoria de regressão teve origem no

século XIX com Galton.

Francis Galton foi um antropólogo, meteorologista, matemático e

estatístico inglês.

Em um de seus trabalhos ele estudou a relação entre a altura dos pais e dos filhos (Xi e Yi),

procurando saber como a altura do pais influenciava a altura do filho. Notou que se os pais fossem muito alto ou muito baixo, o filho

teria uma altura tendendo à média.

Por isso, ele chamou de regressão, ou seja, existe uma tendência de os dados regredirem à média.

4

É muito útil quantificar essa associação.

Existem muitos tipos de associações possíveis, iremos apresentar o tipo derelação mais simples, que é a relação linear simples.

Quantificando a associação entre 2 variáveis quantitativasQuantificando a associação entre 2 variáveis quantitativas

Objetivos Objetivos –– Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples

1) Determinar como duas variáveis se relacionam;

2) Estimar a função que determina a relação entre as variáveis;

3) Usar a equação ajustada para prever valores da variável dependente.

5

DefiniçãoDefinição::Dados n pares de valores (x1 , y1), (x2 ,y2), …, (xn , yn), chama-se de coeficiente

de correlação linear de Pearson entre as duas variáveis X e Y a:

Coeficiente de Correlação de PearsonCoeficiente de Correlação de Pearson

Esse mede o grau de associação entre 2 variáveis quantitativas e também da proximidade dos dados a uma reta.

Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se aproxima deuma reta.

ou seja, a média dos produtos dos valores padronizados das variáveis.

yx

n

iYiXi

ssn

mymx

YXcorrr)1(

)ˆ)(ˆ(

),( 1

–1 ≤ r ≤ 1

No R:cor(x,y)

6

Ou seja,r = cor(X, Y) ≈ 0

A correlação é forte positiva se

r = cor(X, Y) ≈ +1

A correlação é forte negativa se

r = cor(X, Y) ≈ –1

Classificação da correlaçãoClassificação da correlação

Não existe associação

–1 ≤ r ≤ 1

7

+1–1 0

Correlação negativa Correlação positiva

Existe associação

Existe associação

CUIDADOCUIDADO

Você já deve ter visto inúmeras vezes estudos correlacionando coisas. Mas sem saber tudo sobre os dois ou mais fatores, ou sem buscar saber,

você pode acabar sendo enganado achando que uma coincidência é

8Site: http://www.tylervigen.com/spurious-correlations

você pode acabar sendo enganado achando que uma coincidência é causalidade.

Pra provar isso, Tyler Vigen fez um site mostrando coisascompletamente aleatórias que se relacionam em gráfico, podendo ser umarelação diretamente proporcional ou inversamente. Veja:

9

Assim, se pudermos descrever a E[Y|x] como:

XxYE ]|[

A variável aleatória Y será então descrita como:

]|[ xYEY

10

XY

Este modelo chama-se modelo de regressão linear simples

em que:

O modelo de regressão linear simples é dado por:

yi = + xi + i , i=1,2,...,n

Ou

Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples

y = + x +

em que:Y é a variável dependente (variável resposta, ou variável endógena);

X é a variável independente (covariável, variável explanatória, variável

regressora, ou variável exógena);

, e x são constantes;

é o intercepto (ou coeficiente linear), isto é, o valor de y quando x = 0;

é a declividade (ou coeficiente angular): quando x aumenta 1 unidade, y

aumenta unidades.11

Significado dos parâmetros do modelo de regressão linear simplesSignificado dos parâmetros do modelo de regressão linear simples

x=1

yyi = α + xi

x

y

adjacentecat

opostocat

ˆtan

.

.ˆtan

Y

^ ^ ^

^

12

α

x x+1

α (intercepto); quando a região experimental inclui X=0, α é o valor da média da distribuição de Yem X = 0, caso contrário, não tem significado prático como um termo separado (isolado) no modelo;

(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre amudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidadede Y por unidade de acréscimo em X.

X

^

Pressuposições do modelo de regressãoPressuposições do modelo de regressão

Para procedermos ao estudo da regressão linear simples, as seguintesexigências do modelo devem ser satisfeitas:

1) Os erros ei são independentes Cov(ei, ej) = 0, todo i,j=1, ..., n; i j.2) Os erros ei têm média nula E(ei) = 0;3) Os erros ei possuem variância constante Var(ei) = 2 ;4) Os erros ei possuem distribuição normal com média zero e variância

constante 2 ei ~ N(0, 2).constante 2 ei ~ N(0, 2).

Além destas, poderíamos acrescentar:

a) Existe uma relação linear entre X e Y.b) A variável X é pré-determinada com precisão (fixa), enquanto que Y é uma

variável aleatória.

OBS: Se X for uma variável aleatória, e, portanto, sujeita a erros de determinação, podemos admitir os valores de X pré-determinados, isto é, fixos, sem prejudicar a

validade dos resultados. 13

EstimaçãoEstimação dosdos parâmetrosparâmetros

Seja uma amostra de observações de tamanho n, onde cada elemento dessaamostra tem duas informações (variáveis).

Existe alguma associação entre essas variáveis? Faz sentido?Como determinar o “melhor” modelo para representar esses dados?

14

Y

X

Y

EstimaçãoEstimação dosdos parâmetrosparâmetros

VALOR

3,5

4,5

5,5

6,5

15

Y

IDADE

1,5

2,5

2 6 10 14 18 22

X

Assim, considerando nosso modelo original:yi = + xi + ei

VALOR

2,5

3,5

4,5

5,5

6,5

e2

e1

e3

EstimaçãoEstimação dosdos parâmetrosparâmetros

n

i

n

iiii xyeS

1 1

22 )]([),(

IDADE

1,5

2,5

2 6 10 14 18 22

X

e5

16

Como determinar a estimativa de e ?Através do método de estimação dos mínimos quadrados (MMQ).

yi = + xi + ei ei = yi – ( + xi)

n

i

n

iiii xyeS

1 1

22 )]([),(

Deseja-se encontrar os valores de α e β que minimizem a soma de quadrados dos desvios, S(,).

Para encontrar o mínimo, basta derivar S(,) em

17

Para encontrar o mínimo, basta derivar S(,) em relação a α e β e igualar a zero.

OBS: Lembre-se de verificar se este é mesmo um ponto de mínimo!!!

n

i

n

iiii xyeS

1 1

22 )]([),(

02)1(2),(

11

n

iii

n

iii xyxy

S

02)(2),(

1

2

1

n

iiiii

n

iiii xxyxxxy

S

(I)

(II)

(I)

Para minimizar S(,) temos:

0ˆˆ11

n

ii

n

ii xny

2

1211

x

x

xy

yx

n

iin

n

ii

n

iin

n

x

x

n

xy

yx

n

iin

ii

n

ii

n

iin

iii

2

1

1

2

11

18

11 ii

n

ii

n

ii xyn

11

ˆˆ

xy ˆˆ

(II) 0ˆˆ1

2

11

n

ii

n

ii

n

iii xxyx

0ˆˆ1

2

1

11

1

n

ii

n

ii

n

ii

n

iin

iii xx

n

x

n

y

yx

0ˆ 1

1

211

1

nx

nyx i

ii

ii

iii

Estimação dos parâmetrosEstimação dos parâmetros

XX

XY

n

in

n

ii

n

iin

iii

s

s

x

n

yx

yx

2

11

1

Os estimadores e de mínimos quadrados para e , respectivamente são:

xy ˆˆˆ

xyn

x

n

yn

ii

n

ii

ˆˆˆ 11

iin

ii

n

x

x

1

1

2

Assim, a curva estimada é dada por:Logo, encontrando os valores

estimados de α e β obtém então os valores esperados de Y.

19

Nove amostras de solo foram preparadas com diversas quantidades defósforo inorgânico (X). Plantas de milho, que foram cultivadas em ambos ossolos, foram colhidas ao final do 38º dia e analisadas para verificar a quantidadede fósforo que elas continham (Y). A partir daí foi estimada a quantidade defósforo disponível no solo. Os valores observados foram os que se seguem:

ExemploExemplo

P inorgânico no solo (x) 1 4 5 9 11 13 23 23 28

Objetivo: É possível prever o P nas plantas utilizando apenas a informação de Pinorgânico no solo?

Faça um gráfico de dispersão, verifique se as variáveis possuem algumarelação. Se sim, encontre a equação que possa representar essa relação.

20

P inorgânico no solo (x) 1 4 5 9 11 13 23 23 28

P nas plantas (y) 64 71 54 81 76 93 77 95 109

No R:

ExemploExemplo

Pelo gráfico é possível verificar que existe um relação linear

crescente (ou positiva) entre as variáveis X e Y.

No R:

x<- c( 1, 4, 5, 9, 11, 13, 23, 23, 28)y<- c(64, 71, 54, 81, 76, 93, 77, 95, 109)

# O gráfico de dispersãoplot(x, y, pch=19)

# Coeficiente de correlaçãocor(x,y)0.8049892

O coeficiente de correlação linear de Pearson confirma e quantifica a existência

dessa relação, sendo uma relação fortemente positiva. Ou seja, se a variável

X cresce, Y cresce também.

21

ExemploExemploNo R: RLS<- lm(y ~ x); RLScoef(RLS)

abline(RLS, col=‘red’) # Veja como o modelo estimado está explicando os dados

xy ˆˆˆ

22

xy

xy

416894,1580381,61ˆ

ˆˆˆ

Tarefa 1: Obtenha essa equação sem o uso do software. Faça as contas na mão.

Será que realmente existe uma relação entre Y e X?

Será que o coeficiente de inclinação da regressão linear é significativamente diferente de zero?

Respondemos essas questões através da construção da análise de variância (ANOVA) para testar o modelo de regressão linear.

Análise de VariânciaAnálise de Variância

A divisão da variação na amostra dos valores de y em uma variação que pode ser atribuída à

regressão linear (chamada de Soma de Quadrados de Regressão - SQReg) e uma

variação residual (variação dos pontos acima e abaixo da reta de regressão - SQRes), ou seja:

SQTotal = SQReg + SQRes

23

n

i

n

inyx

2

Em que:Análise de VariânciaAnálise de Variância

n

y

ySQTotal

n

iin

ii

2

1

1

2

No R:sum(x); sum(x^2)

sum(y); sum(y^2)

sum(x*y)

XX

XY

n

iin

ii

ii

ii

i

n

ii

s

s

n

x

x

n

yx

yx

gSQ2

2

1

1

2

11

1

Re

gSQSQTotalsSQ ReRe 24

H0: β = 0H0: β ≠ 0

FV gl. SQ QM Fcalc

Regressão linear 1 SQReg QMReg=SQReg/1 QMReg/QMRes

Resíduo n – 2 SQRes QMRes=SQRes/(n – 2) -

Análise de VariânciaAnálise de Variância

Número de parâmetros do modelo – 1 = 2 – 1 =1

Resíduo n – 2 SQRes QMRes=SQRes/(n – 2) -

Total n – 1 SQTotal - -

Conclusão:

Rejeitaremos H0 a um nível de significância pré fixado α se Fcalc > F(1, n-2) ,concluindo que β ≠ 0 e portanto, a regressão é significativa.

Caso contrario, aceitamos H0 .

25

No R: anova(RLS)

ExemploExemplo

Conclusão: Rejeitaremos H0 a um nível de significância de 1%, pois Fcalc > F(1, 7, 1%) , concluindo que β ≠ 0 e portanto, a regressão é significativa.

26

VerificandoVerificando asas pressuposiçõespressuposições dodo modelomodelo

shapiro.test(rstudent(RLS))

# valores preditos versus resíduos estudentizadosplot(predict(RLS), rstudent(RLS), ylim=c(-5,5))abline(h=c(-3,3), lty=2)

27

Intervalo de confiança para os Intervalo de confiança para os αα e e

n

ii

n

xx

x

nsQMtIC

1

2

2

2/;2

)(

1Reˆ:%);(

]4447,83;7171,39[734

169

9

1114,355809,61:%)99;(

2

%1,495,0;7

tIC

=0,01

n

ii

n

xx

sQMtIC

1

22/;2

)(

Reˆ:%);(

28

]7982,2;0356,0[734

35,1141,4169:%)99;( 495,0;7 tIC

confint(RLS, level=.99)

PrediçãoPredição

Um dos usos mais comuns de regressão é a estimativa (ou predição) de umvalor de y para um determinado valor para x (que não foi incluído no estudo).Isso é obtido pela substituição do valor particular de x na equação de regressãolinear. Assim, por exemplo, se x = 20 ppm de fósforo inorgânico, teremos:

No R:plot(x,y, pch=19); abline(RLS, col="red")

y_chapeu<- function(x) {coef(RLS)[1] +

OBS: Só podemos fazer a predição dentro do intervalo de x estudado (no caso, de 1 a 28). A utilização de valores fora desse intervalo recebe o nome de

extrapolação e, deve ser usada com muito cuidado, pois o modelo adotado pode não ser correto fora do intervalo estudado.

9,89)20).(417,1(58,61)20(ˆ y

y_chapeu<- function(x) {coef(RLS)[1] + coef(RLS)[2]*x}

y_chapeu(20)

29

No R:

cbind(y, y_chapeu(x))

30

CoeficienteCoeficiente dede DeterminaçãoDeterminação

A quantidade R2, ou r2, é conhecida como coeficiente de determinação. Essamedida indica a proporção da variação na variável Y que é explicada pelaregressão em X, sendo dada por:

Quanto mais próximo de 1 maior é a relação entre X e Y.

SQTotal

gSQYXcorrrR

Re),( 222 0 ≤ R2 ≤ 1

Quanto mais próximo de 1 maior é a relação entre X e Y.

648197,02274

1474Re2 SQTotal

gSQR

Interpretação:

64,8% da variação em Y é explicada pela relação linear com X.

Portanto, ainda permanecem 35,2% de variação devida ao acaso (inexplicada).

Assim, no exemplo:

31

Adequação do modeloAdequação do modelo

Para verificar se o modelo de regressão é adequado utilizamos o coeficientede determinação R2. Contudo, como o R2 depende do número de observações daamostra, o coeficiente de determinação ajustado acaba sendo mais utilizado:

1

)1( 22

kn

kRnRajustado

Sendo:Sendo: k o número de parâmetros fixos desconhecidos do modelo menos 1.

Exemplo: Para a regressão linear simples k = 1; n o tamanho da amostra observada.

0,5977119

164,0)19(2

ajustadoR

Assim, no exemplo:

OBS: Sua interpretação é a mesma do R2

32

ExemploExemplo

No R:

summary(RLS)Call:lm(formula = y ~ x)

Residuals:Min 1Q Median 3Q Max

-17.169 -1.166 1.003 6.668 13.000

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 61.5804 6.2477 9.857 2.35e-05 ***x 1.4169 0.3947 3.590 0.00886 ** ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.69 on 7 degrees of freedomMultiple R-squared: 0.648, Adjusted R-squared: 0.5977 F-statistic: 12.89 on 1 and 7 DF, p-value: 0.008859

33

• Cuidado com algumas situações:

OBS: O R2 deve ser analisado com cuidado, pois R2 grande não implica necessariamente que o modelo seja

um bom preditor linear.

34

• Cuidado com algumas situações:

OBS: Dizer que não existe relação linear entre X e Y não implica que não existe relação. Pode existir outro tipo de relação entre variáveis.

35

Interpretações errôneas Interpretações errôneas do Rdo R22 e re r

1) Um alto coeficiente de correlação indica que predições úteis podem ser feitas. Istonão é necessariamente correto. Observe se as amplitudes dos intervalos de confiançasão grandes, isto é, não são muito precisos.

2) Um alto coeficiente de correlação indica que a equação de regressão estimada estábem ajustada aos dados. Isto também não é necessariamente correto (veja Figura 1).

3) Um coeficiente de correlação próximo de zero indica que X e Y não sãocorrelacionadas. Idem (veja Figura 2).

Figura 1. Tem um alto valor de r; o ajuste de uma equação de regressão linear não é adequada

Figura 2. Tem um baixo valor de r; porém existe uma forte relação entre X e Y.

36

Calibração ou capacidade de predição de novas observações, pode ser feita usando uma nova amostra e comparando os valores estimados com os

observados.

Ou seja, dado um valor de Y0, para o qual o correspondente valor de X0 é desconhecido, estimar o valor de X0.

CalibraçãoCalibração

37

Tipos de modelos de regressãoTipos de modelos de regressão

• RegressãoRegressão linearlinear simplessimples: quando há relação de um única variável resposta (Y)com uma única variável explanatória (X)

y = 0 + 1 x +

• RegressãoRegressão linearlinear múltiplamúltipla: quando há relação de um única variável resposta(Y) com duas ou mais variável explanatória (X1 , X2 , ..., Xp)

y = 0 + 1 x1 + 2 x2 + ... + p xp +

OBS: Considere que cada unidade amostral pode ser escrita como:

y = 0 + 1 x1 + 2 x2 + ... + p xp +

• RegressãoRegressão linearlinear multivariadamultivariada: quando há relação de um conjunto de duas oumais variáveis respostas (Y1 , Y2 , ..., Yk) com um conjunto de duas ou maisvariável explanatória (X1 , X2 , ..., Xp) sendo que este último conjunto pode serdiferente (ou igual) para cada uma das variáveis.

• RegressãoRegressão nãonão linearlinear: ocorre quando pelo menos uma das primeiras derivadasparciais referentes aos parâmetros desconhecidos (0 , 1 , 2 , ...,p ) dependemde algum parâmetro desconhecido. Exemplo:

y = 0 + 1 [1 – exp(– 2 x)] + 38

Recommended