Upload
federal-university-of-bahia
View
5.042
Download
0
Embed Size (px)
Citation preview
REGRESSÃO LINEAR
Programa de Pós-Graduação em Ciências da Saúde
Disciplina de Bioestatística
Professor: Paulo N Rocha
Créditos: Bioestatística: Princípios e Aplicações. Sidia M. Callegari-Jacques.
Introdução Termo regressão à média: Francis Galton 1886
estatura dos filhos em relação à dos pais
Estudo da regressão aplica-se àquelas situações em que há razões para supor uma relação de causa x efeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação
Y = variável dependente (resposta)
X = variável independente (explicativa ou preditiva)
Y = A + Bx, onde:Y = variável dependenteA = coeficiente linear (valor de y quando x = 0)B = coeficiente angular (inclinação da reta; acréscimo ou decréscimo em y para cada acréscimo de uma unidade em x)x = variável independente
EQUAÇÃO DA LINHA RETA
Diferentes notações
Livro de Sidia M. Callegari-JacquesY = A + Bx (população)Ŷ = a + bx (amostra, estimativa)
Outros autoresY = α + βx (população)Ŷ = β0 + βx (amostra, estimativa)
μY|X = β0 + βx (amostra, estimativa)
Reta que ilustra a equação y = 10 – 2x
X y
0 10
1 8
2 6
3 4
4 2
5 0
1
B = -2
Gráfico de dispersão
Quantidade de poluente
(ug/ml)
Escore de dano ecológico
1 3
2 6
3 7
4 10
5 10
6 12
A regressão linear simples é um procedimento que fornece equações de linhas retas que descrevem fenômenos em que há uma variável independente apenas
Two-way Scatter Plot
Stata Output
Os pontos experimentais É comum haver variação na variável dependente quando ela
é medida para um certo valor da variável independente
Pontos obtidos por um experimentador dificilmente se colocam exatamente em uma linha
Os desalinhamentos são interpretados como desvios, ao acaso, do comportamento geral do fenômeno
É por isso que se pensa em ajustar uma linha reta a pontos que não estão perfeitamente alinhados
A reta vai representar o comportamento médio dos valores de y à medida que x aumenta de valor
Modelo proposto
Linha reta: Y = A + Bx
Regressão: Y = A + Bx + ε, onde:ε representa a diferença (desvio) entre o
valor observado de y e o esperado pela reta
A linha reta representa o comportamento de valores de y médios esperados para distintos valores de x
Representação gráfica
Note que a variação é a mesma nas 4 subpopulações
Como traçar a reta da regressão? Como obter a melhor reta?
Mão livre: sujeito a erros de julgamento...Método analítico
Como fazer previsões para y a partir de valores conhecidos de x?Processo gráfico: sujeito a errosEquação da regressão
Obtenção da reta de regressão
Reta de regressão verdadeira: seria obtida se fossem conhecidos os valores de x e y para todos os indivíduos da populaçãoAltura verdadeira da reta: parâmetro AInclinação verdadeira da reta: coeficiente de
regressão B
O mais comum é estudar a regressão entre x e y utilizando uma amostra da população de pontosa e b são as estimativas dos parâmetros A e B
Método dos mínimos quadrados
Assim chamado porque garante que a reta obtida é aquela para a qual se tem as menores distâncias (ao quadrado) entre os valores observados (y) e a própria reta
Determinação das quantidades necessárias para obtenção dos coeficientes da reta de regressão
X(μg/ml) Y(dano) XY X2 Y2 Ŷ
1 3 3 1 9 3,72
2 6 12 4 36 5,43
3 7 21 9 49 7,14
4 10 40 16 100 8,86
5 10 50 25 100 10,57
6 12 72 36 144 12,28
Σ 21 48 198 91 438 48,00
Two-way Scatter Plot
Teste de significância da regressão
Etapas do teste de hipóteses da regressão Elaboração das hipóteses estatísticas
H0 : B = 0HA : B ≠ 0
Nível de significânciaα = 0,01
Determinação do valor crítico do testegl = n – 2 t0,01;4 = 4,604
Determinação do valor calculado do teste
Determinação do valor calculado do teste, decisão e conclusão
unidades. 1,71 aumente ecológico
dano o que se-espera poluente, do conc. na g/L 1 de acréscimo cada Para
0,01).( x sobrey de regressão existe que admitimos Logo,
zero.ser deve não (B) alpopulacion regressão de ecoeficient o :Conclusão
.0 ,604,4144,9 Como
padrão)-erros 9 aprox. de é zero e b entre distância (a 144,9187,0
71,1
187,00351,070
46,2
6)21(
91)26(
)19871,1()4802,2(438
)()2(
abaixo aalternativ fórmula a ,)()2(
)ˆ(
4;01,0
2
22
2
2
2
Hrejeita-sett
t
EP
n
xxn
xybyayEP
ouxxn
yyEP
EP
b
EP
Bbt
calc
calc
b
b
b
bbcalc
Stata Output
y = 8
Desvio explicado(ŷi – y)
Desvio não-explicado(yi – ŷi)
Desvio total(yi – y)
Desvio total = (yi – y)
Desvio explicado = (ŷi – y)
Desvio não explicado = (yi – ŷi)
Créditos: Neto, AS
(yi – y)2 = (ŷi – y)2 + (yi – ŷi)2
Soma total dos
quadrados
SST = SSR + SSE
Se medirmos estes desvios para cada yi e ŷi , elevarmos ao quadrado cada desvio, e somarmos os desvios
quadrados, teremos
Soma dos quadrados explicada
Soma dos quadrados não
explicada
Créditos: Neto, AS
SSR k MSR F = = SSE MSE n – k – 1
Teste estatístico
Créditos: Neto, AS
Fonte de variação
SS GL MS F
Regressão linear
SSR k MSR=SSR/k MSR/MSE
Residual SSE n-k-1 MSE=SSE/n-k-1
Total SST n-1
Tabela de análise de variância
Créditos: Neto, AS
COEFICIENTE DE DETERMINAÇÃO
SSR
SST
(ŷi – y) 2
(yi – y) 2r 2 = =
Créditos: Neto, AS
Stata Output
Utilidades da reta de regressão
Representar a dependência de uma variável quantitativa em relação à outra por meio de uma equação simples
Prever valores para a variável dependente y de acordo com valores determinados (inclusive não-observados) da variável independente x.
Pressupostos da regressão linear1. A variável y deve ter distribuição normal (ou
aproximadamente normal)
2. Homocedasticidade (a variação de y deve ser a mesma para cada valor de x)
3. Os pontos no gráfico devem representar uma tendência linear
4. Amostragem independente e aleatória
5. Variável x medida sem erro
Análise de resíduos Os resíduos representam a diferença entre aquilo que foi
observado e o que foi predito pelo modelo de regressão. Resíduo = E = (y - ˆy)
Calculam-se os resíduos para cada valor de y
Desenha-se um gráfico no qual os resíduos são colocados no eixo vertical e os valores esperados de y (ˆy), no horizontal.
Os pontos devem se distribuir de forma equilibrada acima e abaixo da linha imaginária paralela ao eixo x na altura do resíduo zero, formando uma faixa aproximadamente retangular
Residual versus Predicted (RVP) Plot
Gráficos de resíduos
Faixas em forma de curvaViolação ao pressuposto #2Não existe homocedasticidade
Faixas curvasViolação ao pressuposto #3A reta não é o modelo adequado
EXEMPLOS NO SPSS
Fim