Upload
vokhanh
View
221
Download
0
Embed Size (px)
Citation preview
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Regressão
Susana Barbosa
Mestrado em Ciências Geofísicas 2012-2013
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Regressão linear
x : variável explanatória
y : variável resposta
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráfico primeiro!
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráfico primeiro!
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráfico primeiro!
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Modelo linear
x : variável explanatória
y : variável resposta
yi = α + βxi + εi εi ∼ N (0,Σ)
Ajuste do modelo linear→ estimação de α, β e Σ
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Modelo linear
x : variável explanatória
y : variável resposta
yi = α + βxi + εi εi ∼ N (0,Σ)
Ajuste do modelo linear→ estimação de α, β e Σ
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Estimador (maxima verosimilhança)
Modelo linear
yi = α + βxi + εi εi ∼ N (0,Σ)
Estimador de maxima verosimilhança
β̂ = (xT Σ−1x)−1xT Σ−1y
V [β̂] = (xT Σ−1x)−1
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Matriz de covariância Σ
I erros não correlacionados e variância constante Σ = σ2I
I Σ é diagonal, entradas iguaisI OLS (ordinary least squares)
I erros não correlacionados e variância não constante Σ = σ2i I
I Σ é diagonal, entradas diferentesI WLS (weighted least squares)
I erros correlacionados Σ
I Σ é não diagonalI GLS (generalised least squares)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Matriz de covariância Σ
I erros não correlacionados e variância constante Σ = σ2I
I Σ é diagonal, entradas iguaisI OLS (ordinary least squares)
I erros não correlacionados e variância não constante Σ = σ2i I
I Σ é diagonal, entradas diferentesI WLS (weighted least squares)
I erros correlacionados Σ
I Σ é não diagonalI GLS (generalised least squares)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Matriz de covariância Σ
I erros não correlacionados e variância constante Σ = σ2I
I Σ é diagonal, entradas iguaisI OLS (ordinary least squares)
I erros não correlacionados e variância não constante Σ = σ2i I
I Σ é diagonal, entradas diferentesI WLS (weighted least squares)
I erros correlacionados Σ
I Σ é não diagonalI GLS (generalised least squares)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Regressão linear - dados independentes
yi = α + βxi + εi εi ∼ i.i.d N (0, σ2)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo> summary(lm(y∼x))
Call: lm(formula = y ∼ x)
Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422
Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo> summary(lm(y∼x))
Call: lm(formula = y ∼ x)
Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422
Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo> summary(lm(y∼x))
Call: lm(formula = y ∼ x)
Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422
Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo> summary(lm(y∼x))
Call: lm(formula = y ∼ x)
Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422
Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo (cont)
> confint(lm(y~x))
2.5 % 97.5 %(Intercept) -17.4351058 6.3946417x 0.4874383 0.5286817
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo (cont)
> summary(lm(y~-1+x))Call: lm(formula = y ~ -1 + x)Residuals: Min 1Q Median 3Q Max-315.64 -67.03 -3.33 60.64 320.06
Coefficients: Estimate Std. Error t value Pr(>|t|)x 0.49978 0.00525 95.2 <2e-16 ***
Residual standard error: 95.92 on 999 degrees of freedomMultiple R-squared: 0.9007, Adjusted R-squared: 0.9006F-statistic: 9063 on 1 and 999 DF, p-value: < 2.2e-16
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo (cont)
> AIC(lm(y~-1+x))[1] 11967.96
> AIC(lm(y~x))[1] 11969.13
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Análise de resíduos
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráficos dos resíduos
Resíduos vs valores estimados: visualização de padrões nosresíduos que sugiram outra dependência que não linear
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráficos dos resíduos
Grafico Q-Q: verificação visual de que os resíduos são consistentescom uma distribuição normal
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráficos dos resíduos
Grafico da raíz quadrada dos resíduos vs valores estimados:verificação visual de a variância é aproximadamente constante
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Gráficos dos resíduos
Grafico da distância de Cook: medida de influência (mede quanto arecta mudaria se o ponto fosse omitido)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Outliers
I Regressão resistente: tem por objectivo omitir outliers domodelo de regressão, de modo a que não contribuam para omodelo estimadoEx: lqs (package MASS)
I Regressão robusta: em vez de incluir outliers ou omiti-los, dápesos menores a outliers, reduzindo a sua influência no modeloestimadoEx: lrm (package MASS)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Outliers
I Regressão resistente: tem por objectivo omitir outliers domodelo de regressão, de modo a que não contribuam para omodelo estimadoEx: lqs (package MASS)
I Regressão robusta: em vez de incluir outliers ou omiti-los, dápesos menores a outliers, reduzindo a sua influência no modeloestimadoEx: lrm (package MASS)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Regressão usual Regressão robusta
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Previsão
A incerteza na previsão deve incluir
I a incerteza na recta estimadaIC a 95% para o declive da recta: β̂ ± t0.975SEb
I a variação de pontos individuais em torno da recta(desvio de novas observações para a recta estimada)
Nota: a recta de regressão só é válida no domínio no qual foiestimada (intervalo original de valores da variável independente) -cuidado com extrapolações!
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Bootstrap
Observações: (xi , yi), i = 1, ...n
I Re-amostragem com repetição→ m amostras i.i.d de comprimento n
I Estimação do modelo linear para cada uma das mamostras bootstrap
I Erro calculado a partir do desvio padrão das m estimativasobtidas para o declive
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Bootstrap
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Transformações
(Maindonald & Braun, 2010)
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Transformações
Transformações mais comuns
I logaritmo(ex: razao entre os valores mais alto e mais baixo elevada, & 10)
I raiz quadrada ou cubica(ex: dados de contagem ou eventos raros)
Transformação de Box-Cox
y(λ) = yλ−1λ se λ 6= 0
y(λ) = log(y) se λ = 0
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Regressão sinusoidal
yi = Acos(wxi) + Bsin(wxi) + εi
Parâmetros: A, B (amplitudes)
w = 2π/T , T período
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Regressão polinomial
y = a0 + a1x + a2x2 + ...+ anxn
Parâmetros: a0, a1,... an
n: grau do polinómio
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
Call: lm(formula = density ~ Time)Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 2.884e+01 6.585e-03 4379.27 <2e-16 ***Time 3.605e-03 1.659e-04 21.73 <2e-16 ***Residual standard error: 0.02685 on 66 degrees of freedomMultiple R-squared: 0.8774, Adjusted R-squared: 0.8755F-statistic: 472.3 on 1 and 66 DF, p-value: < 2.2e-16
Call: lm(formula = density ~ Time + I(Time^2))Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 2.880e+01 8.374e-03 3439.404 < 2e-16 ***Time 6.593e-03 5.600e-04 11.773 < 2e-16 ***I(Time^2) -4.330e-05 7.866e-06 -5.505 6.73e-07 ***Residual standard error: 0.02234 on 65 degrees of freedomMultiple R-squared: 0.9164, Adjusted R-squared: 0.9138F-statistic: 356.2 on 2 and 65 DF, p-value: < 2.2e-16
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013
Introdução Regressão linear Regressão de dados independentes Regressão não linear
Exemplo
density.lin <- lm(density ~ Time)density.poly <- lm(density ~ Time + I(Time^2))
AIC(density.lin)-295.0338
AIC(density.poly)-319.0584
Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013