Upload
vantram
View
226
Download
0
Embed Size (px)
Citation preview
Regressão
PRE-01 – Probabilidade e EstatísticaProf. Marcelo P. Corrêa
IRN/Unifei
Regressão – Introdução • Analisar a relação entre duas variáveis (x,y) através da
equação (equação de regressão) e do gráfico (gráfico de regressão) que representa tal relação.
• Equação de regressão – Relação entre:– x: variável independente (preditora, explanatória)– í: variável dependente (resposta)
• Hipóteses:– Estudos de relações lineares– Cada valor de x:
• y é uma variável aleatória com distribuição normal• todas as distribuições de y têm a mesma variância• a média da distribuição dos valores de y se localiza sobre a reta de
regressão
Equação de Regressão
xbyb 1o −=( ) ( )( )( ) ( )221
xxn
yyxynb
∑∑∑∑∑
−
−=
o 1ˆy mx b y b b x= + ⇒ = +
intercepto de yinclinação
bob1
→ estatísticas amostrais βoβ1
→ estatísticas populacionais
o 1y x= β +β
Exemplo
( ) ( )( )( ) ( )1 2 22
n xy x y 4(77) (14)(19)b 1,16666664(58) (14)n x x
− −= = =
−−
∑ ∑ ∑∑ ∑
x y x y xy x² y²2 4 2 4 8 4 163 3 3 3 9 9 93 4 3 4 12 9 166 8 6 8 48 36 64
14 19 77 58 105Σ
o 1 ob y b x b 4,75 1,166667.3,5 0,667= − ⇒ = − =
y 0,667 1,167x= + Estimativa dey=βo + β1x
Exemplo
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7x
y
x y2 43 33 46 8
y 0,667 1,167x= +
EXEMPLO DE CÁLCULO USANDO STATDISK
Utilizando a equação de regressão
• Prevendo y com base em x– Se existe correlação linear: usar a equação de regressão
• Cuidados com a predição! Manter o valor da previsão de acordo com valores reais (no alcance da amostra).
• Usar a equação para a população da amostra.• Verificar se a previsão é viável (datas, intervalos de valores, etc.)
– Se não existe correlação linear entre x e y: y (previsto) = y
• No 1° exemplo, podemos, portanto, prever qual seria y para x = 5.
y = 0,667+1,1667(5) = 6,5
y = 3,865 + 2,168xAvaliar a quantidade de hemoglobina para um paciente que apresente 5,5
unidades de medidas de glóbulos vermelhos
y = 3,865 + 2,168(5,5)
y = 15,789
A média dos dados amostrais de hemoglobina é de 13,906
Exemplo
Resumindo, para prever uma variável, temos:
Calcular o valor de r
Testar a hipótese: ρ = 0
Há correlação linear significante ?(ρ = 0 é rejeitada ?)
Predição pelaEquação de Regressão
Predição pelamédia amostral
da variável aser prevista
sim não
Outras ferramentas para análise
• Mudança marginal (b1) : variação de uma variável em relação a variação, em uma unidade, da outra variável emparelhada. – No exemplo em que b1 = 2,168, temos que a taxa de
hemoglobina vai aumentar de 2,168 para cada aumento de uma unidade de glóbulos vermelhos.
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
1.80
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
• Outliers e pontos influentes:– Pontos que afetam
fortemente o gráfico da reta de regressão
• Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (í).
Resíduo = y – í
• Propriedade dos mínimos quadrados: Soma dos quadrados dos rezíduos deve ser mínima
Outras ferramentas para análise
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7x
yx y y^ resíduo2 4 3.0 1.03 3 4.2 -1.23 4 4.2 -0.26 8 7.7 0.3
Σ(res2) = 2,5
Outras ferramentas para análise• Desvio total: Distância entre o ponto (x,y) e a reta horizontal que
passa pela média amostral.• Desvio explicado: Distância entre o valor predito e a reta horizontal
que passa pela média amostral.• Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a
reta de regressão.
Desvio total = Desvio explicado + Desvio não-explicado
Variação total = Variação explicada + Variação não-explicada
ˆ ˆ( y y ) ( y y ) ( y y )− = − + −
2 2 2ˆ ˆ(y y) (y y) (y y)− = − + −∑ ∑ ∑
Exemplo
• No nosso primeiro exemplo, tínhamos:– Admitiremos uma correlação linear significativa– Equação da reta de regressão: í = 1.1667x + 0.6667– A média dos valores de y é 4,75– Um dos pares de dados amostrais é (3, 4)– Substituindo x = 3 na equação, temos o ponto 4,1666... que é
um dos pontos sobre a reta de regressão.
Desvio total: (y y) 4 4,75 0,750ˆDesvio explicado: (y y) 4,1667 4,75 0,583
ˆDesvio não-explicado: (y y) 4 4,1667 0,1667
− = − =− = − =
− = − =
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7x
y Desvio explicado
Desvio não-explicado
Exemplo
• No nosso primeiro exemplo, tínhamos:– Admitiremos uma correlação linear significativa– Equação da reta de regressão: í = 1.1667x + 0.6667– A média dos valores de y é 4,75– Um dos pares de dados amostrais é (3, 4)– Substituindo x = 3 na equação, temos o ponto 4,1666... que é
um dos pontos sobre a reta de regressão.
2
2
2
Variação total: (y y) 14,8
ˆVariação explicada: (y y) 12,3
ˆVariação não-explicada: (y y) 2,5
− =
− =
− =
∑∑
∑
Continuando nossa análise...• Coeficiente de determinação (r2): Quantidade de
variação em y, explicada pela reta de regressão.
r2 indica a % da variação total em y que pode ser explicada pela relação linear (x,y).
No caso do exemplo: r2 = 12,3/14,8 = 0,831.
83,1% da variação total em y que pode ser explicada pela relação linear (x,y).
total Variaçãoexplicada Variação
)yy()yy(
r 2
22 =
−−
=∑∑
Continuando nossa análise...• Erro padrão da estimativa (se): Medida de como os
pontos amostrais se afastam da reta de regressão. – se maiores: pontos mais afastados da reta de regressão– e vice-versa
No nosso exemplo:
2nxybyby
2n)yy(
s 1o22
e −−−
=−−
= ∑∑∑∑
e105 0,667(19) 1,1667(77)s 1,1180 1,12
4 2− −
= = =−
E mais...
• Intervalo de predição
No exemplo: Vimos que quando x = 5 a melhor predição para y é 6,50. No entanto, diz-se que ao se usar valores mais precisos de y, bo e b1, obtemos 6,47. Usando um NS de 95% determine o quão preciso é o valor 6,47. Se α = 0,05 tα/2 = 4,303
( ) ( )2
oe 222
n(x x)1ˆ ˆy E y y E com E t s 1n n x x
α
−− < < + = + +
−∑ ∑
n–2 graus de liberdade
( ) ( )
2
21 4(6,5 3,5)E 4,303(1,12) 1 4,303.1,12.1,5 7, 229044 4 58 14
−= + + = =
−
Continuando...
ˆ ˆy E y y E6,47 7,22904 y 6, 47 7,22904
0,76 y 13,70
− < < +− < < +
− < <
Para x = 5, estamos 95% certos de que o valor de y está entre – 0,76 e 13,70.
Vejam bem que, como o tamanho amostral é muito pequeno, o intervalo de predição é grande!
Portanto, o valor de y pode variar muito em relação ao valor predito 6,47
Regressão múltipla
• Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk)
b1, b2,..., bk estimativas amostrais de β1, β2,..., βk
β1, β2,..., βk coeficientes das variáveis independentes x1, x2,..., xk
βo valor de y quando todas as variáveis são nulas (parâmetro populacional)bo estatística amostral e estimativa de βo
• Extremamente complicado. Exige o uso de pacotes estatísticos!
o 1 1 2 2 k ky b b x b x ... b x= + + + +
Regressão múltipla
• Coeficiente de determinação múltipla (R2): Avalia o ajuste da equação de regressão múltipla aos dados amostrais.
• Coeficiente de determinação múltipla ajustado: R2 modificado para levar em conta o número de variáveis e o tamanho amostral.
k = número de variáveis independentes (x1, x2,..., xk)n = tamanho da amostra
• Valor P: Medida da significância da Eq. Reg. Múltipla
)R1()]1k(n[
)1n(1R 22ajustado −
+−−
−=
Exemplo: Regressão Múltipla
• DadosColesterol Idade Altura Peso
522 58 180 76127 22 168 65740 32 182 8149 31 174 79
230 28 172 69316 46 176 75590 41 169 61466 56 171 91121 20 173 79578 54 167 6378 17 160 70
265 73 173 84250 52 186 86265 25 172 68273 29 173 94272 17 180 107972 41 156 8075 52 194 99
138 32 168 75139 20 177 62
Um estudo mostra os seguintes dados coletados no posto de saúde de um bairro da cidade.
É possível predizer o nível de colesterol a partir da idade, altura e peso ?
Exemplo: Regressão Múltipla
y = 2010,28 + 6,45*idade – 11,67*altura + 1,25*peso
Será que o uso de outras variáveis poderíamos “melhorar” a predição ?
Por exemplo, o uso de batimentos cardíacos (pulsação) ou o IMC.