implica§µes do AIC - lira.pro.br .do melhor modelo de regress£o linear mltipla Elimina§£o

  • View
    214

  • Download
    0

Embed Size (px)

Text of implica§µes do AIC - lira.pro.br .do melhor modelo de regress£o linear mltipla...

1. 2.000] (IP:0 | 10:13:35 | --:--:-- | --:-- | ------ ) Discuta o significado e possveis implicaes do AIC O AIC (Critrio de Informao de Akaike) baseado na teoria de informao, a qual foi

desenvolvido por Hirotugu Akaike em 1974. uma das formas para escolher o melhor modelo de regresso. Esse ndice utilizado como um parmetro de avaliao da adequao dos modelos, tornando possvel verificar ao mesmo tempo qualidade da informao e qualidade da ligao entre as variveis com o nmero de variveis que utilizada. Quanto menor esse ndice mais adequado e est o modelo aos dados. Este critrio combina quanto o modelo explica com o nmero de variveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em nmero de variveis.

ok

2. [4.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta os captulos desta semana. O captulo 19 trata de regresso mltipla e sua aplicabilidade. Neste sentido o autor aborda

vrios passos antes de se rodar a regresso mltipla. Dentre esses passos tem-se a classifico das variveis, onde os preditores podem ser numricos ou categricos e se a varivel apresenta apenas dois nveis (ex.: sexo) ela chamada varivel dicotmica ou binria e se tiver mais de dois considerada multinvel. Registrar as variveis categricas como numricas. Para isso alguns softwares permitem entrar com dados categricos (sexo, raa, etc), outros no. Neste caso, o autor sugere que se renomei suas variveis categricas (descritivas) com cdigos numricos. Assim, preditor binrio (macho e fmea) passa a ser (0 e 1).

Um outro passo criar um grfico de disperso antes de rodar a regresso: Para isso o outor sugere primeiramente checar os erros e plotar seus dados em histogramas que demonstrem como os valores de suas variveis se distribuem e traar a relao entre cada preditor e a varivel dependente e as relaes entre as prprias variveis preditoras. Para analisar os dados da regresso mltipla fundamental se certificar que seus dados assumiram aquela anlise. Hipteses: a variabilidade nos resduos relativamente constante e no depende do valor de y e os resduos so aproximadamente distribudos normalmente.Com relao ao erro, quanto menor melhor, o que levar a um alto valor de R2 e F estatstico significativo.

Regresso logstica O objetivo principal do texto mostrar quando utilizar a regresso logstica, para isso so

revistos os conceitos de regresso, visto como rodar a anlise e como entender os resultados gerados e como possvel localizar erros. A regresso logstica pode ser usada para se verificar a relao entre uma ou mais variveis preditoras e uma varivel categrica dependente, essa varivel geralmente descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou no (0). No texto, utilizam-se como exemplo, dados de mortalidade devido exposio radiao gama, observando apenas a letalidade em curto prazo por doses agudas e no efeitos a longo prazo como cnceres ou alteraes genticas. Pode-se observar que em baixas doses, quase todos sobrevivem e em altas doses, quase todos morrem.

O autor expe que a teoria da Regresso Logstica complicada e os seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificaes); Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; Especifique o que so preditores e o que a varivel dependente; Informe ao programa as respostas que deseja (sumrio das variveis, tabela de coeficientes de regresso probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretao das respostas o captulo apresenta: 1- Analise o sumrio de informaes das suas variveis: mdia e desvio padro (variveis numricas); 2- Avalie a adequao do modelo: o programa indica o quanto a funo se ajustou aos seus dados e te d vrias medidas associadas ao valor de p (probabilidade apenas da flutuao aleatria, na ausncia de qualquer efeito real na populao); 3- Cheque a tabela de coeficientes de regresso: cada preditor aparece numa linha separada, h um alinha para o intercepto, a primeira coluna quase sempre o valor ajustado do coeficiente de regresso, a segunda coluna corresponde ao erro padro do coeficiente e a coluna do valor de p (Pr) indica se o coeficiente significativamente diferente de zero.

Para selecionar o melhor modelo de regresso linear mltipla podemos usar os seguintes mtodos:

O captulo 19 trata de regresso mltipla e sua aplicabilidade. Neste sentido o autor aborda vrios passos antes de se rodar a regresso mltipla. Dentre esses passos tem-se a classifico das variveis, onde os preditores podem ser numricos ou categricos e se a varivel apresenta apenas dois nveis (ex.: sexo) ela chamada varivel dicotmica ou binria e se tiver mais de dois considerada multinvel. Registrar as variveis categricas como numricas. Para isso alguns softwares permitem entrar com dados categricos (sexo, raa, etc), outros no. Neste caso, o autor sugere que se renomei suas variveis categricas (descritivas) com cdigos numricos. Assim, preditor binrio (macho e fmea) passa a ser (0 e 1).

Um outro passo criar um grfico de disperso antes de rodar a regresso: Para isso o outor sugere primeiramente checar os erros e plotar seus dados em histogramas que demonstrem como os valores de suas variveis se distribuem e traar a relao entre cada preditor e a varivel dependente e as relaes entre as prprias variveis preditoras. Para analisar os dados da regresso mltipla fundamental se certificar que seus dados assumiram aquela anlise. Hipteses: a variabilidade nos resduos relativamente constante e no depende do valor de y e os resduos so aproximadamente distribudos normalmente.Com relao ao erro, quanto menor melhor, o que levar a um alto valor de R2 e F estatstico significativo.

Regresso logstica O objetivo principal do texto mostrar quando utilizar a regresso logstica, para isso so

revistos os conceitos de regresso, visto como rodar a anlise e como entender os resultados gerados e como possvel localizar erros. A regresso logstica pode ser usada para se verificar a relao entre uma ou mais variveis preditoras e uma varivel categrica dependente, essa varivel geralmente descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou no (0). No texto, utilizam-se como exemplo, dados de mortalidade devido exposio radiao gama, observando apenas a letalidade em curto prazo por doses agudas e no efeitos a longo prazo como cnceres ou alteraes genticas. Pode-se observar que em baixas doses, quase todos sobrevivem e em altas doses, quase todos morrem.

O autor expe que a teoria da Regresso Logstica complicada e os seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificaes); Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; Especifique o que so preditores e o que a varivel dependente; Informe ao programa as respostas que deseja (sumrio das variveis, tabela de coeficientes de regresso probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretao das respostas o captulo apresenta: 1- Analise o sumrio de informaes das suas variveis: mdia e desvio padro (variveis numricas); 2- Avalie a adequao do modelo: o programa indica o quanto a funo se ajustou aos seus dados e te d vrias medidas associadas ao valor de p (probabilidade apenas da flutuao aleatria, na ausncia de qualquer efeito real na populao); 3- Cheque a tabela de coeficientes de regresso: cada preditor aparece numa linha separada, h um alinha para o intercepto, a primeira coluna quase sempre o valor ajustado do coeficiente de regresso, a segunda coluna corresponde ao erro padro do coeficiente e a coluna do valor de p (Pr) indica se o coeficiente significativamente diferente de zero.

ok

3. [2.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta diferentes estratgias para seleo do melhor modelo de regresso linear mltipla Eliminao Para Trs: esse mtodo iniciado com todas as variveis, e em cada etapa

uma varivel eliminada, sendo que a ordem das variveis no modelo de regresso dada por sua importncia, com isso o processo de eliminao iniciando com aquela de menor importncia. Todos os modelos so testados menos uma varivel, avaliando o efeito da retirada da ltima varivel de cada modelo, posteriormente, a varivel que ocasionou menor efeito com sua retirada eliminada. Aps ser eliminada a varivel no retorna, dando-se incio novamente ao mtodo com as variveis restantes at se obter o menor modelo de regresso capaz de explicar de forma similar o que explicado pela equao completa. Seleo Para Frente: esse

mtodo similar ou de eliminao para trs, sendo que neste o procedimento realizado em sentido contrrio. As variveis selecionadas para serem testadas so introduzidas uma a uma no modelo, adicionando as que supostamente teriam mais importncia, com isso so formandos diferentes modelos de regresso com seus respectivos efeitos. Uma vez retida a varivel no poder ser aproveitada. Aps o processo verificado e escolhido qual modelo melhor explica o fenmeno estudado.

Stepwise (forward): nesse mtodo os dois modelos explicados anteriormente so combinados. De incio o processo parecido ao da seleo para frente, no entanto a cada adio de duas variveis realizada a retirada de uma das variveis j presentes no modelo. Neste modelo testa-se todas as variveis eliminando-se algumas at se chegar a um modelo adequado, sendo que as variveis eliminadas podem ser reintroduzidas verificando-se assim se h alguma melhora no modelo, o mtodo continua at que no ocorra nenhuma modificao. Esse mtodo contm mais variais e isso aumenta as chances do modelo ser confivel. No entanto esse mtodo por usar uma grande quantidade de variveis aumento as chances de cometer o erro tipo I.

Stepwise (backward): Esse mtodo segue a mesma lgica e possui as mesmas limitaes do St