Upload
internet
View
106
Download
0
Embed Size (px)
Citation preview
Universidade Federal de Minas GeraisInstituto de Ciências Exatas
Curso de Estatística
Laís Araújo Lopes de Souza Samantha Faasen Vagner Júnio Ferreira Prof.: Glaura Franco
Belo Horizonte, 11 de junho de 2012.
Roteiro
o Regressão Múltipla
o Resíduos
o Resíduos Estudentizados
o Ajuste do Modelo
o Exemplo
o Bootstrap nos resíduos
o Algoritmo Bootstrap resíduos
o ANOVA
o Gráficos
o Coeficientes
o Exercício
o Bibliografia
Regressão Múltipla
o Técnicas estatísticas para construir modelos que descrevem de
maneira razoável relações entre várias variáveis explicativas de um
determinado processo.
o Alguns objetivos:
Descrever a relação entre variáveis para entender um processo ou
fenômeno
Prever o valor de uma variável a partir do conhecimento de outras
variáveis
Substituir a medição de uma variável pelo conhecimento de outras
variáveis
Controlar os valores de uma variável em uma faixa de interesse
Regressão Múltipla
o Modelo
o valores das variáveis explicativas, isto é, constantes desconhecidas
o são parâmetros ou coeficientes da regressão
o erro aleatório do modelo, com média zero e variância
Suposições do Modelo
Suposições:
i) O erro tem média zero e variância desconhecida
ii) Os erros são não correlacionados
iii) Os erros têm distribuição normal
iv) As variáveis regressoras assumem valores fixos
Significado dos coeficientes de regressão
o O parâmetro 0 é o intercepto do plano de regressão
o O parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante e assim sucessivamente
7
Modelo de regressão linear múltipla em termos matriciais
... 1,122110 ipipiii XXXY
A expressão do modelo linear geral de regressão é dada por:
Em termos matriciais, precisamos definir:
n
ppnn
p
p
n XX
XX
XX
Y
Y
Y
.
.
.
.
.
..1
.....
.....
.....
..1
..1
.
.
2
1
1
1
0
1 x p
1,1
1,221
1,111
pn x
2
1
1n x 1n x
εβXY
8
Em termos matriciais, o modelo de regressão linear geral é dado
por: εXβY e é um vetor de variáveis aleatórias independentes e normalmente
distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por:
2
2
2
2
.00
....
0.0
0.0
)(
εσ
Assim, o vetor das observações Y tem esperança e variância dadas por:
IYσXβYE 22 )()( n x n1 x n
=2I
Resíduos
o Diagnóstico para a variável resposta é realizado através
de uma análise de resíduos. Os resíduos são definidos
como:
o Os resíduos podem ser considerados como erros
observados, para distingui-los do erro verdadeiro
desconhecido i no modelo de regressão:
Resíduos
o Para o modelo de regressão, temos a seguinte
pressuposição:
o Se o modelo é adequado, os resíduos devem refletir
essas propriedades
),0( 2~ Niid
i
Propriedades dos resíduos
o Média
o Variância
o Se o modelo está adequado, o QME é um estimador
não tendencioso da variância do erro
Propriedades dos resíduos
o Os resíduos não são variáveis aleatórias
independentes pois eles envolvem os valores os
quais são baseados na mesma equação de regressão
o Quando o tamanho da amostra é grande, o efeito de
dependência entre os resíduos é relativamente sem
importância e pode ser ignorado.
Resíduos Estudentizados
Vantagens
o Os resíduos estudentizados tem variâncias constantes e iguais a 1, o que consequentemente torna muito prática a procura por outliers
o Apropriado para verificar normalidade dos erros e homogeneidade
Desvantagem
o Dificuldade de detectar violações do modelo, uma vez que esses resíduos são menores
Ajuste do Modelo
o Análise Gráfica dos Resíduos
o 1. Gráfico dos resíduos versus variáveis preditoras
o 2. Gráfico dos resíduos absolutos ou quadráticos versus
variáveis preditoras
o 3. Gráficos dos resíduos versus valores ajustados (estimados)
o 4. Gráfico normal de probabilidades dos resíduos.
o Testes Estatísticos
Exemplo
o Dados referentes à doença de Chagas
o Variável resposta - Prazo para chegar ao hospital
o Variáveis explicativas – Tempo e Distância
Modelo:
Bootstrap nos resíduos
o 1- Ajustar o modelo e reter os valores ajustados e os resíduos
, i=1,...,n.
o 2- Para cada par na qual x é a variável explicativa
(possivelmente multivariada)adicionar um resíduo reamostrado
residual, para a variável resposta aleatoriamente .Em outras
palavras, criar variáveis respostas sintéticas , para a variável
resposta, , onde j é selecionado aleatoriamente a partir
da lista para cada i.
o 3- Volte a colocar o modelo usando as variáveis de resposta fictícios
e manter as quantidades de interesse (muitas vezes os
parâmetros estimada a partir dos sintéticos ).
o 4- Repetir os passos 2 e 3 um número estatisticamente significativo
de vezes.
Algoritmo Bootstrap resíduos
ANOVA
Diagrama de Dispersão
Gráfico resíduos versus valores ajustados
o Homocedasticidade isto é, constante
Gráfico resíduos Estudentizados versus valores ajustados
o Homocedasticidade
Gráfico resíduos versus Casos
o Independência
Gráfico resíduos Estudentizados versus Casos
o Independência
Gráfico resíduos versus Distância
o Independência
Gráfico resíduos Estudentizados versus Distância
o Independência
Gráfico de Probabilidade Normal dos resíduos
o Resíduos Normais
Gráfico de Probabilidade Normal dos resíduos Estudentizados
o Resíduos não Normais
Teste de Normalidade Resíduos
Teste de Normalidade resíduos Estudentizados
Coeficientes
Exercício
o Realize o Bootstrap conforme o procedimento descrito anteriormente e calcule o vício dos parâmetros.
Bibliografia
o Chernick, M. R., Labudde, R. A., 2011. An Introduction to Bootstrap Methods with Applications to R. John Willey and Sons
o Efron B, Tibshirani R. 1993. An Introduction to the bootstrap. New York: Chapman and Hall