Regressão - solar.unifei.edu.brE3o.pdf · • Coeficiente de determinação múltipla (R2): Avalia o ajuste da equação de regressão múltipla aos dados amostrais. • Coeficiente

Regressão

PRE-01 – Probabilidade e EstatísticaProf. Marcelo P. Corrêa

IRN/Unifei

Regressão – Introdução • Analisar a relação entre duas variáveis (x,y) através da

equação (equação de regressão) e do gráfico (gráfico de regressão) que representa tal relação.

• Equação de regressão – Relação entre:– x: variável independente (preditora, explanatória)– í: variável dependente (resposta)

• Hipóteses:– Estudos de relações lineares– Cada valor de x:

• y é uma variável aleatória com distribuição normal• todas as distribuições de y têm a mesma variância• a média da distribuição dos valores de y se localiza sobre a reta de

regressão

Equação de Regressão

xbyb 1o −=( ) ( )( )( ) ( )221

xxn

yyxynb

∑∑∑∑∑

−

−=

o 1ˆy mx b y b b x= + ⇒ = +

intercepto de yinclinação

bob1

→ estatísticas amostrais βoβ1

→ estatísticas populacionais

o 1y x= β +β

Exemplo

( ) ( )( )( ) ( )1 2 22

n xy x y 4(77) (14)(19)b 1,16666664(58) (14)n x x

− −= = =

−−

∑ ∑ ∑∑ ∑

x y x y xy x² y²2 4 2 4 8 4 163 3 3 3 9 9 93 4 3 4 12 9 166 8 6 8 48 36 64

14 19 77 58 105Σ

o 1 ob y b x b 4,75 1,166667.3,5 0,667= − ⇒ = − =

y 0,667 1,167x= + Estimativa dey=βo + β1x

Exemplo

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6 7x

y

x y2 43 33 46 8

y 0,667 1,167x= +

EXEMPLO DE CÁLCULO USANDO STATDISK

Utilizando a equação de regressão

• Prevendo y com base em x– Se existe correlação linear: usar a equação de regressão

• Cuidados com a predição! Manter o valor da previsão de acordo com valores reais (no alcance da amostra).

• Usar a equação para a população da amostra.• Verificar se a previsão é viável (datas, intervalos de valores, etc.)

– Se não existe correlação linear entre x e y: y (previsto) = y

• No 1° exemplo, podemos, portanto, prever qual seria y para x = 5.

y = 0,667+1,1667(5) = 6,5

y = 3,865 + 2,168xAvaliar a quantidade de hemoglobina para um paciente que apresente 5,5

unidades de medidas de glóbulos vermelhos

y = 3,865 + 2,168(5,5)

y = 15,789

A média dos dados amostrais de hemoglobina é de 13,906

Exemplo

Resumindo, para prever uma variável, temos:

Calcular o valor de r

Testar a hipótese: ρ = 0

Há correlação linear significante ?(ρ = 0 é rejeitada ?)

Predição pelaEquação de Regressão

Predição pelamédia amostral

da variável aser prevista

sim não

Outras ferramentas para análise

• Mudança marginal (b1) : variação de uma variável em relação a variação, em uma unidade, da outra variável emparelhada. – No exemplo em que b1 = 2,168, temos que a taxa de

hemoglobina vai aumentar de 2,168 para cada aumento de uma unidade de glóbulos vermelhos.

0.00

0.20

0.40

0.60

0.80

1.00

1.20

1.40

1.60

1.80

0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00

• Outliers e pontos influentes:– Pontos que afetam

fortemente o gráfico da reta de regressão

• Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (í).

Resíduo = y – í

• Propriedade dos mínimos quadrados: Soma dos quadrados dos rezíduos deve ser mínima

Outras ferramentas para análise

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6 7x

yx y y^ resíduo2 4 3.0 1.03 3 4.2 -1.23 4 4.2 -0.26 8 7.7 0.3

Σ(res2) = 2,5

Outras ferramentas para análise• Desvio total: Distância entre o ponto (x,y) e a reta horizontal que

passa pela média amostral.• Desvio explicado: Distância entre o valor predito e a reta horizontal

que passa pela média amostral.• Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a

reta de regressão.

Desvio total = Desvio explicado + Desvio não-explicado

Variação total = Variação explicada + Variação não-explicada

ˆ ˆ( y y ) ( y y ) ( y y )− = − + −

2 2 2ˆ ˆ(y y) (y y) (y y)− = − + −∑ ∑ ∑

Exemplo

• No nosso primeiro exemplo, tínhamos:– Admitiremos uma correlação linear significativa– Equação da reta de regressão: í = 1.1667x + 0.6667– A média dos valores de y é 4,75– Um dos pares de dados amostrais é (3, 4)– Substituindo x = 3 na equação, temos o ponto 4,1666... que é

um dos pontos sobre a reta de regressão.

Desvio total: (y y) 4 4,75 0,750ˆDesvio explicado: (y y) 4,1667 4,75 0,583

ˆDesvio não-explicado: (y y) 4 4,1667 0,1667

− = − =− = − =

− = − =

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6 7x

y Desvio explicado

Desvio não-explicado

Exemplo

• No nosso primeiro exemplo, tínhamos:– Admitiremos uma correlação linear significativa– Equação da reta de regressão: í = 1.1667x + 0.6667– A média dos valores de y é 4,75– Um dos pares de dados amostrais é (3, 4)– Substituindo x = 3 na equação, temos o ponto 4,1666... que é

um dos pontos sobre a reta de regressão.

2

2

2

Variação total: (y y) 14,8

ˆVariação explicada: (y y) 12,3

ˆVariação não-explicada: (y y) 2,5

− =

− =

− =

∑∑

∑

Continuando nossa análise...• Coeficiente de determinação (r2): Quantidade de

variação em y, explicada pela reta de regressão.

r2 indica a % da variação total em y que pode ser explicada pela relação linear (x,y).

No caso do exemplo: r2 = 12,3/14,8 = 0,831.

83,1% da variação total em y que pode ser explicada pela relação linear (x,y).

total Variaçãoexplicada Variação

)yy()yy(

r 2

22 =

−−

=∑∑

Continuando nossa análise...• Erro padrão da estimativa (se): Medida de como os

pontos amostrais se afastam da reta de regressão. – se maiores: pontos mais afastados da reta de regressão– e vice-versa

No nosso exemplo:

2nxybyby

2n)yy(

s 1o22

e −−−

=−−

= ∑∑∑∑

e105 0,667(19) 1,1667(77)s 1,1180 1,12

4 2− −

= = =−

E mais...

• Intervalo de predição

No exemplo: Vimos que quando x = 5 a melhor predição para y é 6,50. No entanto, diz-se que ao se usar valores mais precisos de y, bo e b1, obtemos 6,47. Usando um NS de 95% determine o quão preciso é o valor 6,47. Se α = 0,05 tα/2 = 4,303

( ) ( )2

oe 222

n(x x)1ˆ ˆy E y y E com E t s 1n n x x

α

−− < < + = + +

−∑ ∑

n–2 graus de liberdade

( ) ( )

2

21 4(6,5 3,5)E 4,303(1,12) 1 4,303.1,12.1,5 7, 229044 4 58 14

−= + + = =

−

Continuando...

ˆ ˆy E y y E6,47 7,22904 y 6, 47 7,22904

0,76 y 13,70

− < < +− < < +

− < <

Para x = 5, estamos 95% certos de que o valor de y está entre – 0,76 e 13,70.

Vejam bem que, como o tamanho amostral é muito pequeno, o intervalo de predição é grande!

Portanto, o valor de y pode variar muito em relação ao valor predito 6,47

Regressão múltipla

• Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk)

b1, b2,..., bk estimativas amostrais de β1, β2,..., βk

β1, β2,..., βk coeficientes das variáveis independentes x1, x2,..., xk

βo valor de y quando todas as variáveis são nulas (parâmetro populacional)bo estatística amostral e estimativa de βo

• Extremamente complicado. Exige o uso de pacotes estatísticos!

o 1 1 2 2 k ky b b x b x ... b x= + + + +

Regressão múltipla

• Coeficiente de determinação múltipla (R2): Avalia o ajuste da equação de regressão múltipla aos dados amostrais.

• Coeficiente de determinação múltipla ajustado: R2 modificado para levar em conta o número de variáveis e o tamanho amostral.

k = número de variáveis independentes (x1, x2,..., xk)n = tamanho da amostra

• Valor P: Medida da significância da Eq. Reg. Múltipla

)R1()]1k(n[

)1n(1R 22ajustado −

+−−

−=

Exemplo: Regressão Múltipla

• DadosColesterol Idade Altura Peso

522 58 180 76127 22 168 65740 32 182 8149 31 174 79

230 28 172 69316 46 176 75590 41 169 61466 56 171 91121 20 173 79578 54 167 6378 17 160 70

265 73 173 84250 52 186 86265 25 172 68273 29 173 94272 17 180 107972 41 156 8075 52 194 99

138 32 168 75139 20 177 62

Um estudo mostra os seguintes dados coletados no posto de saúde de um bairro da cidade.

É possível predizer o nível de colesterol a partir da idade, altura e peso ?

Exemplo: Regressão Múltipla

y = 2010,28 + 6,45*idade – 11,67*altura + 1,25*peso

Será que o uso de outras variáveis poderíamos “melhorar” a predição ?

Por exemplo, o uso de batimentos cardíacos (pulsação) ou o IMC.

Documents

Regressão - solar.unifei.edu.brE3o.pdf · • Coeficiente de determinação múltipla (R2): Avalia o ajuste da equação de regressão múltipla aos dados amostrais. • Coeficiente