TRABALHO DE REGRESSÃO-TUDO

Embed Size (px)

Citation preview

Sumrio1. 2. Introduo................................ ................................ ................................ ............. 2 Metodologia ................................ ................................ ................................ ......... 32.1 2.2 2.3 2.4 Modelo de Regresso Linear ................................ ................................ .............................. 3 Avaliao na qualidade do ajuste ................................ ................................ ....................... 4 Anlise de Diagnstico ................................ ................................ ................................ ....... 5 Violao das Suposies do Modelo de Regresso Linear ................................ ................... 6

3. 4. 5. 6.

Aplicao ................................ ................................ ................................ .............. 8 Concluso ................................ ................................ ................................ ............ 12 Anexos ................................ ................................ ................................ ................ 13 Referncia Bibliogrfica ................................ ................................ ...................... 22

1. IntroduoAnlise de regresso uma tcnica de modelagem utilizada para analisar a relao entre uma varivel dependente (Y) e uma ou mais variveis independentes X1, X2, X3,..., Xn. O objetivo dessa tcnica identificar (estimar) uma funo que descreve, o mais prximo possvel, a relao entre essas variveis e assim podermos predizer o valor que a varivel dependente (Y) ir assumir para um determinado valor da varivel independente X. O presente relatrio ter como objetivo aplicar a teoria de regresso linear nos dados coletados do INMET ( Instituto de Meteorologia) na cidade de Manaus no ano de 2009. Ser feita uma anlise completa de diagnostico e ser testada a validao das suposies do modelo de regresso.

2

2. Metodologia2.1 Modelo de Regresso LinearA regresso nasce da tentativa de relacionar um conjunto de observaes de certas variveis designadas genericamente por , com as leituras de uma certa grandeza Y. No caso da regresso linear, est subjacente uma relao do tipo:

onde seriam os parmetros da relao linear procurada e as variveis so muitas vezes designadas por variveis explicativas, uma vez que tentam explicar as razes da variao de Y. O a parcela de erro, no qual resultar sempre que for estimar os . Na forma Matricial o modelo dado por: Portanto, .

Suposio do Modelo de Regresso Linear Mltipla

S0 - O modelo sendo estimado de, de fato, correto; S1S2: S3:

S4: X tem colunas linearmente independentes S5: O erro normalmente distribudo. Estimao por Mnimos Quadrados Ordinrios (MQO)

A estimativa no tendenciosa de

pelo mtodo dos mnimos quadrados dada por:

outras iguais) teria como resultado um aumento de em .

Os coeficientes do modelo linear representam a variao na resposta prevista que resulta de uma variao de uma unidade no valor ajustado das respectivas var iveis. Se todas as variveis forem ortogonais (suposio S4), o aumento de uma unidade em (supondo as

3

2.2 Avaliao na qualidade do ajuste Erro Quadrtico O valor minimizado do quadrado dos erros pode ser calculado atravs de: Varincia do erro Supondo que os erros so independentes e tm a mesma varincia, a estimativa da varincia do erro dada por:

Ainda,

com estimativa dada por

Coeficiente de Determinao O coeficiente de determinao, usado como medida de qualidade do ajuste, dado por:

: Modelo Ajustado : Modelo Ruim ou seja o coeficiente que mede a proporo da variao de Y em relao mdia que explicada pela regresso. Intervalo de Confiana para Se a suposio S5 valida ento se estima os parmetros

, sendo

Pela quantidade pivotal, para o intervalo de confiana para

dado por

onde

o quantil associado distribuio qui-quadrado com n-p graus de liberdade.(marginalmente)

Testes de Hipteses para os

Hipteses:

4

Estatstica de Teste: liberdade.

, que tem distribuio t de Student com n-p graus de

2.3 Anlise de DiagnsticoDistoantes (Outliers) Outliers so valores extremos, atpicos, ou seja, so observaes que no so bem ajustadas pelo modelo. Resduos que so outliers podem ser identificados a partir de um grfico dos resduos versus a varivel preditora ou valores ajustados. O uso dos resduos semi studentizados so particularmente teis, pois fcil identificar resduos que esto muitos desvios padres a partir de zero. Regra: considera-se outliers os resduos que esto 4 ou mais desvios padres a partir de zero. Alavancagem Pontos de Alavanca so observaes cujo os regressores apresentam padro atpico. A medida de alavancagem mais usada : ou seja, so elementos da diagonal da matriz

grande para observaes cujos regressores apresentam padro distante. Para ser isso, considere uma regresso simples. Regra: Observaes que ultrapassam 2 ou 3 vezes o valor mdio ( ou ) Resduos Studentizados (Pontos Aberrantes) Observaes cujo os valores da varivel resposta apresentam valores atpicos so ditos pontos aberrantes. Seja, o resduo de pearson e o estimador de MQO obtido aps a remoo da i-sima observao, a matriz com a i-sima linha removida e o vetor com o elemento removido. Com isso temos . Assim, o resduo pode ser o melhor estimador do erro do que o resduo usual . Sob normalidade os erros o resduo studentizado ser: Regra: os resduos estudentizado fora do intervalo pontos aberrantes.

so considerados

5

Influencia Uma medida bastante utilizada para detectar pontos influentes a distancia de cook, dado por

onde

o residuo padronizado. e na segunda

Regra: Para a primeira especificao um critrio especificao .

2.4 Violao das Suposies do Modelo de Regresso Linear

Violao da Hiptese S2 (Heroscedasticidade)

A heteroscedasticidade se apresenta como uma forte disperso dos dados em torno de uma reta; uma disperso dos dados perante um modelo regredido. Uma definio mais precisa seria na qual uma distribuio de frequncia em que todas as distribuies condicionadas tm desvios padro diferentes. O contrrio desse fenmeno, a homocedasticidade, se d pela observncia do postulado, isto , os dados regredidos encontram-se mais homogeneamente e menos dispersos (concentrados) em torno da reta de regresso do modelo. Supe onde indica homoscedasticidade com varincia do erro constante. Com a varincia Heteroscedstica, temos para onde , portanto ser .

Admite-se que a varincia heterocedstica siga um processo: , onde um fator de peso que indica a proporo de mudana da varincia em relao ao seu valor mdio . Sendo assim, a matriz tem sua diagonal composta pelos , representada por

, ondeonde a matriz de covarincia dos erros que admite a presena de varincia de heteroscedasticidade. O estimador por MQO (Mnimos Quadrados Ordinrios): mais o teorema de Gauss Markov, onde este tem as seguintes suposies: (S0) Relao linear entre a media de Y e X; (S1) Homoscedasticidade para todos os valores de X; (S2) No correlao entre dois valores quaisquer de Y ; (S3) X deve assumir pelo menos dois valores distintos. 6 no satisfaz

Portanto segue uma alternativa que satisfaa o teorema de Gauss Markov, sendo a estimao por MQG (Mnimos Quadrados Generalizados):

onde,

Violao da Hiptese S4 (Multicolinearidade)

Consiste em um problema comum em regresses, onde as variveis independentes possuem relaes lineares exatas ou aproximadamente exatas. O ndcio mais claro da existncia da multicolinearidade quando o R bastante alto, mas nenhum dos coeficientes da regresso estatisticamente siginificativo segundo a estatstica t convencional. As consequncias da multicolinearidade em uma regresso so a de erros-padro elevados no caso de multicolinearidade moderada ou severa e at mesmo a impossibilidade de qualquer estimao se a multicolinearidade for perfeita. Quando h multicolinearidade a providencia retirar variveis correlacionadas do modelo ou o aumento da amostra. Violao da Hiptese S3 (Autocorrelao)

Teste de Durbin-Watson para Autocorrelao

O teste de Durbin Watson indica que o modelo ajustado para o preo de venda do telhado no possui

autocorrelao, com um p-valor de 0,206 para 5% de

confiabilidade, sob as seguintes hipteses:

O teste inclusivo se compararmos a estatstica de teste D-W com os pontos

retirados da prpria tabela de Durbin Watson, onde temos para n=26 observaes, os pontos dLc=1,22 e dUc=1,55, sendo que ocasionou dLc