29
1. 2.000] (IP:0 | 10:13:35 | --:--:-- | --:-- | ------ ) Discuta o significado e possíveis implicações do AIC O AIC (Critério de Informação de Akaike) é baseado na teoria de informação, a qual foi desenvolvido por Hirotugu Akaike em 1974. É uma das formas para escolher o melhor modelo de regressão. Esse índice é utilizado como um parâmetro de avaliação da adequação dos modelos, tornando possível verificar ao mesmo tempo qualidade da informação e qualidade da ligação entre as variáveis com o número de variáveis que é utilizada. Quanto menor esse índice mais adequado e está o modelo aos dados. Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis. ok 2. [4.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta os capítulos desta semana. O capítulo 19 trata de regressão múltipla e sua aplicabilidade. Neste sentido o autor aborda vários passos antes de se rodar a regressão múltipla. Dentre esses passos tem-se a classificão das variáveis, onde os preditores podem ser numéricos ou categóricos e se a variável apresenta apenas dois níveis (ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de dois é considerada multinível. Registrar as variáveis categóricas como numéricas. Para isso alguns softwares permitem entrar com dados categóricos (sexo, raça, etc), outros não. Neste caso, o autor sugere que se renomei suas variáveis categóricas (descritivas) com códigos numéricos. Assim, preditor binário (macho e fêmea) passa a ser (0 e 1). Um outro passo é criar um gráfico de dispersão antes de rodar a regressão: Para isso o outor sugere primeiramente checar os erros e plotar seus dados em histogramas que demonstrem como os valores de suas variáveis se distribuem e traçar a relação entre cada preditor e a variável dependente e as relações entre as próprias variáveis preditoras. Para analisar os dados da regressão múltipla é fundamental se certificar que seus dados assumiram aquela análise. Hipóteses: a variabilidade nos resíduos é relativamente constante e não depende do valor de y e os resíduos são aproximadamente distribuídos normalmente.Com relação ao erro, quanto menor melhor, o que levará a um alto valor de R2 e F estatístico significativo. Regressão logística O objetivo principal do texto é mostrar quando utilizar a regressão logística, para isso são revistos os conceitos de regressão, é visto como rodar a análise e como entender os resultados gerados e como é possível localizar erros. A regressão logística pode ser usada para se verificar a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente, essa variável geralmente é descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou não (0). No texto, utilizam-se como exemplo, dados de mortalidade devido à exposição à radiação gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo prazo como cânceres ou alterações genéticas. Pode-se observar que em baixas doses, quase todos sobrevivem e em altas doses, quase todos morrem. O autor expõe que a teoria da Regressão Logística é complicada e os seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações); Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; Especifique o que são preditores e o que é a variável dependente; Informe ao programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretação das respostas o capítulo apresenta: 1- Analise o sumário de informações das suas variáveis: média e desvio padrão (variáveis numéricas); 2- Avalie a adequação do modelo: o programa indica o quanto a função se ajustou aos seus dados e te dá várias medidas associadas ao valor de p (probabilidade apenas da flutuação aleatória, na ausência de qualquer efeito real na população); 3- Cheque a tabela de coeficientes de regressão: cada preditor aparece numa linha separada, há um alinha para o intercepto, a primeira coluna é quase sempre o valor ajustado do coeficiente de regressão, a segunda coluna corresponde ao erro padrão do coeficiente e a coluna do valor de p (Pr) indica se o coeficiente é significativamente diferente de zero.

implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

Embed Size (px)

Citation preview

Page 1: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

1. 2.000] (IP:0 | 10:13:35 | --:--:-- | --:-- | ------ ) Discuta o significado e possíveis implicações do AIC O AIC (Critério de Informação de Akaike) é baseado na teoria de informação, a qual foi

desenvolvido por Hirotugu Akaike em 1974. É uma das formas para escolher o melhor modelo de regressão. Esse índice é utilizado como um parâmetro de avaliação da adequação dos modelos, tornando possível verificar ao mesmo tempo qualidade da informação e qualidade da ligação entre as variáveis com o número de variáveis que é utilizada. Quanto menor esse índice mais adequado e está o modelo aos dados. Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis.

ok

2. [4.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta os capítulos desta semana. O capítulo 19 trata de regressão múltipla e sua aplicabilidade. Neste sentido o autor aborda

vários passos antes de se rodar a regressão múltipla. Dentre esses passos tem-se a classificão das variáveis, onde os preditores podem ser numéricos ou categóricos e se a variável apresenta apenas dois níveis (ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de dois é considerada multinível. Registrar as variáveis categóricas como numéricas. Para isso alguns softwares permitem entrar com dados categóricos (sexo, raça, etc), outros não. Neste caso, o autor sugere que se renomei suas variáveis categóricas (descritivas) com códigos numéricos. Assim, preditor binário (macho e fêmea) passa a ser (0 e 1).

Um outro passo é criar um gráfico de dispersão antes de rodar a regressão: Para isso o outor sugere primeiramente checar os erros e plotar seus dados em histogramas que demonstrem como os valores de suas variáveis se distribuem e traçar a relação entre cada preditor e a variável dependente e as relações entre as próprias variáveis preditoras. Para analisar os dados da regressão múltipla é fundamental se certificar que seus dados assumiram aquela análise. Hipóteses: a variabilidade nos resíduos é relativamente constante e não depende do valor de y e os resíduos são aproximadamente distribuídos normalmente.Com relação ao erro, quanto menor melhor, o que levará a um alto valor de R2 e F estatístico significativo.

Regressão logística O objetivo principal do texto é mostrar quando utilizar a regressão logística, para isso são

revistos os conceitos de regressão, é visto como rodar a análise e como entender os resultados gerados e como é possível localizar erros. A regressão logística pode ser usada para se verificar a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente, essa variável geralmente é descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou não (0). No texto, utilizam-se como exemplo, dados de mortalidade devido à exposição à radiação gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo prazo como cânceres ou alterações genéticas. Pode-se observar que em baixas doses, quase todos sobrevivem e em altas doses, quase todos morrem.

O autor expõe que a teoria da Regressão Logística é complicada e os seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações); Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; Especifique o que são preditores e o que é a variável dependente; Informe ao programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretação das respostas o capítulo apresenta: 1- Analise o sumário de informações das suas variáveis: média e desvio padrão (variáveis numéricas); 2- Avalie a adequação do modelo: o programa indica o quanto a função se ajustou aos seus dados e te dá várias medidas associadas ao valor de p (probabilidade apenas da flutuação aleatória, na ausência de qualquer efeito real na população); 3- Cheque a tabela de coeficientes de regressão: cada preditor aparece numa linha separada, há um alinha para o intercepto, a primeira coluna é quase sempre o valor ajustado do coeficiente de regressão, a segunda coluna corresponde ao erro padrão do coeficiente e a coluna do valor de p (Pr) indica se o coeficiente é significativamente diferente de zero.

Page 2: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

Para selecionar o melhor modelo de regressão linear múltipla podemos usar os seguintes métodos:

O capítulo 19 trata de regressão múltipla e sua aplicabilidade. Neste sentido o autor aborda vários passos antes de se rodar a regressão múltipla. Dentre esses passos tem-se a classificão das variáveis, onde os preditores podem ser numéricos ou categóricos e se a variável apresenta apenas dois níveis (ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de dois é considerada multinível. Registrar as variáveis categóricas como numéricas. Para isso alguns softwares permitem entrar com dados categóricos (sexo, raça, etc), outros não. Neste caso, o autor sugere que se renomei suas variáveis categóricas (descritivas) com códigos numéricos. Assim, preditor binário (macho e fêmea) passa a ser (0 e 1).

Um outro passo é criar um gráfico de dispersão antes de rodar a regressão: Para isso o outor sugere primeiramente checar os erros e plotar seus dados em histogramas que demonstrem como os valores de suas variáveis se distribuem e traçar a relação entre cada preditor e a variável dependente e as relações entre as próprias variáveis preditoras. Para analisar os dados da regressão múltipla é fundamental se certificar que seus dados assumiram aquela análise. Hipóteses: a variabilidade nos resíduos é relativamente constante e não depende do valor de y e os resíduos são aproximadamente distribuídos normalmente.Com relação ao erro, quanto menor melhor, o que levará a um alto valor de R2 e F estatístico significativo.

Regressão logística O objetivo principal do texto é mostrar quando utilizar a regressão logística, para isso são

revistos os conceitos de regressão, é visto como rodar a análise e como entender os resultados gerados e como é possível localizar erros. A regressão logística pode ser usada para se verificar a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente, essa variável geralmente é descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou não (0). No texto, utilizam-se como exemplo, dados de mortalidade devido à exposição à radiação gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo prazo como cânceres ou alterações genéticas. Pode-se observar que em baixas doses, quase todos sobrevivem e em altas doses, quase todos morrem.

O autor expõe que a teoria da Regressão Logística é complicada e os seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações); Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; Especifique o que são preditores e o que é a variável dependente; Informe ao programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretação das respostas o capítulo apresenta: 1- Analise o sumário de informações das suas variáveis: média e desvio padrão (variáveis numéricas); 2- Avalie a adequação do modelo: o programa indica o quanto a função se ajustou aos seus dados e te dá várias medidas associadas ao valor de p (probabilidade apenas da flutuação aleatória, na ausência de qualquer efeito real na população); 3- Cheque a tabela de coeficientes de regressão: cada preditor aparece numa linha separada, há um alinha para o intercepto, a primeira coluna é quase sempre o valor ajustado do coeficiente de regressão, a segunda coluna corresponde ao erro padrão do coeficiente e a coluna do valor de p (Pr) indica se o coeficiente é significativamente diferente de zero.

• ok

3. • [2.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa

uma variável é eliminada, sendo que a ordem das variáveis no modelo de regressão é dada por sua importância, com isso o processo de eliminação é iniciando com aquela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da última variável de cada modelo, posteriormente, a variável que ocasionou menor efeito com sua retirada é eliminada. Após ser eliminada a variável não retorna, dando-se início novamente ao método com as variáveis restantes até se obter o menor modelo de regressão capaz de explicar de forma similar o que é explicado pela equação completa. Seleção Para Frente: esse

Page 3: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

método é similar ou de eliminação para trás, sendo que neste o procedimento é realizado em sentido contrário. As variáveis selecionadas para serem testadas são introduzidas uma a uma no modelo, adicionando as que supostamente teriam mais importância, com isso são formandos diferentes modelos de regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após o processo é verificado e escolhido qual modelo melhor explica o fenômeno estudado.

Stepwise (forward): nesse método os dois modelos explicados anteriormente são combinados. De início o processo é parecido ao da seleção para frente, no entanto a cada adição de duas variáveis é realizada a retirada de uma das variáveis já presentes no modelo. Neste modelo testa-se todas as variáveis eliminando-se algumas até se chegar a um modelo adequado, sendo que as variáveis eliminadas podem ser reintroduzidas verificando-se assim se há alguma melhora no modelo, o método continua até que não ocorra nenhuma modificação. Esse método contém mais variais e isso aumenta as chances do modelo ser confiável. No entanto esse método por usar uma grande quantidade de variáveis aumento as chances de cometer o erro tipo I.

Stepwise (backward): Esse método segue a mesma lógica e possui as mesmas limitações do Stepwise (forward), sendo que o método é realizado com a retirada das variáveis.

ok

4. • [2.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. O modelo pode ser validado realizando-se um novo experimento, o que torna possível

avaliar o quão confiável é o mesmo. Neste sentido, a estimativa do modelo selecionado será testada para explicar o que acontecerá nesse novo experimento. Através deste método gera-se uma nova situação experimental, no entanto, esta prática torna o experimento oneroso. O modelo também pode ser validado com a separação de parte dos dados (p.e. uma repetição de cada tratamento), sendo que esses dados não entrariam na análise para obtenção do coeficiente de determinação e da equação. Com o modelo selecionado será efetuado um teste para verificar se existe correlação entre a estimativa do modelo com o que acontecerá com o conjunto de dados separados. Caso exista correlação entre o modelo e os dados separados, pode-se concluir que o pode ser generalizado para a população.

ok

5. 2 Discuta o significado e possíveis implicações do AIC. O critério de informação de Akaike (AIC) é definido como: 2*(K-L)/N, onde L é a estatística

Log verossimilhança, N o número de observações e L o número de coeficientes estimados. Este critério é utilizado na escolha do melhor modelo de regressão, sendo considerado o melhor aquele que apresentar o menor AIC. O AIC leva em consideração o número de variáveis do modelo e a qualidade da ligação entre elas. Quanto menor o número de variáveis, mais o modelo se aproximará de uma explicação lógica da realidade e quanto menor o seu valor, melhor a regressão explica o fenômeno em estudo.

ok

6. 1.5 Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla. No modelo de regressão linear múltipla, mais de uma variável x (preditor) é usada para

estimar o valor de y (variável dependente). Alguns passos devem ser observados na execução de uma análise de regressão múltipla: listar as possíveis variáveis x que podem ser úteis para estimar y; coletar os dados de y separadamente em função de cada x; analisar a relação entre cada variável x e y e usar os resultados para eliminar as variáveis x que não estão fortemente relacionadas a y; observar a relação entre as variáveis x para evitar colinearidade (se duas variáveis são significativamente correlacionadas, apenas uma deve ser incluída no modelo de

Page 4: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

regressão); empregar as variáveis x, não correlacionadas, para encontrar o melhor modelo para seus dados e, finalmente, utilizar o melhor modelo para estimar y.

Cada um desses passos apresenta suas particularidades, mas, aqui, enfoque maior será dado às estratégias (como aplicar determinado critério) relacionadas à seleção do melhor modelo de regressão linear múltipla. Inicialmente testam-se todas as regressões possíveis, analisando o ajuste de todos os submodelos compostos pelos possíveis subconjuntos das p variáveis e identificando os melhores desses subconjuntos, segundo critérios de avaliação (Rp2, Ra2, QME, Cp de Mallows, AIC e BIC, dentre outros). Como a seleção de todas as regressões possíveis é morosa e, em casos onde há grande número de variáveis, muitas vezes inexequível, outros procedimentos foram desenvolvidos para selecionar o melhor subconjunto de variáveis sequencialmente, adicionando ou removendo variáveis em cada passo. São basicamente três procedimentos automáticos: seleção forward (assume que não há variável no modelo, apenas o intercepto. Neste método adiciona-se uma variável de cada vez e a primeira selecionada é aquela com maior correlação com a resposta), seleção backward (segue o caminho oposto do forward incorporando incialmente todas as variáveis e depois, por etapas, cada uma é ou não eliminada de acordo com testes F parciais calculados para cada variável como se ela fosse a última a entrar no modelo) e seleção stepwise (é uma modificação da seleção Forward em que cada passo todas as variáveis do modelo são previamente verificadas pelas suas estatísticas F parciais. Inicia-se com a variável que tiver maior correlação com a variável resposta; a cada passo, depois de incluir uma variável, aplica-se o backward para ver se será descartada alguma variável; continua o processo até não incluir ou excluir nenhuma variável).

Ainda deve-se observar na escolha do modelo final se o modelo faz sentido, se é útil para o objetivo pretendido, se todos os coeficientes são razoáveis e se a adequabilidade do modelo é satisfatória. Recomenda-se seguir o princípio da parcimônia, optando por modelos mais simples aos mais complexos, desde que a qualidade do ajuste seja similar.

Seguiu tão de perto algum texto que não percebeu que estava fugindo da pergunta.

7. 4 Discuta os capítulos desta semana. Capítulo 19: “More of a Good Thing: Multiple Regression” Traz a definição de regressão múltipla, como os dados devem ser preparados para serem

submetidos a esse tipo de análise, como interpretar os resultados, os fatores que afetam a análise e como estimar o tamanho da amostra necessária para uma análise de regressão múltipla.

Na regressão linear (y= a + bx), a (intercepto) e b (slope) são chamados coeficientes da regressão, y é a variável dependente e x é a variável independente (preditor). Se existe mais de uma variável independente, temos a regressão múltipla. No modelo linear uma linha reta passa o mais próximo possível de todos os pontos. Quando se tem duas variáveis independentes, um plano será traçado para um conjunto de dados em três dimensões. Para mais de dois preditores, será desenhada uma hipérbole num espaço multidimensional. A regressão linear múltipla pode ser usada para testar modelos teóricos, obter parâmetros que tenham significado físico e biológico, preparar curvas de calibração, desenvolver operações matemáticas sobre os dados, testar a significância das associações, etc. Para cada parâmetro do modelo (extensão do modelo linear simples) é calculada uma equação simultânea que envolve os parâmetros, a soma dos vários produtos das variáveis dependente e independentes, o slope e o intercepto.

Os preditores podem ser numéricos ou categóricos. Se a variável apresenta apenas dois níveis (ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de dois é considerada multinível. Cada nível deve apresentar pelo menos duas repetições (quanto mais repetições mais precisos e reais serão seus resultados). Para cada categoria o programa toma um nível como referência e avalia como cada um dos outros níveis afeta a variável dependente comparado a este. Assim, você deve escolher cuidadosamente sua referência. Para a variável que representa presença ou ausência de alguma condição, o nível de referencia deve representar a ausência dessa condição.

As variáveis categóricas devem ser renomeadas como numéricas, tendo em vista que alguns softwares permitem entrar com dados categóricos, mas outros não. Neste caso, você deve renomear suas variáveis categóricas (descritivas) com códigos numéricos. Assim, preditor binário (macho e fêmea) passa a ser (0 e 1). Antes de submeter os dados a regressão deve-se primeiramente checar os erros e plotá-los em histogramas que demonstrem como os valores de suas variáveis se distribuem no intuito de traçar a relação entre cada preditor e a variável dependente e as relações entre as próprias variáveis preditoras. Esses gráficos dão uma ideia de quais variáveis estão associadas umas

Page 5: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

com as outras, quão forte é essa associação e que não existem outliers em seus dados. A forma como você entra com seus dados e os resultados gerados vai depender do software que você usa, mas, geralmente se tem como resultados a descrição do modelo, um sumário dos resíduos, uma tabela de regressão e números que descrevem a capacidade do modelo em ajustar os dados.

Antes de concluir qualquer coisa certifique-se de que seus dados assumiram aquela análise. Deve-se observar se os pontos estão uniformemente acima e abaixo da linha e se a quantidade de pontos aparenta ser a mesma à esquerda, meio e direita do gráfico. Para analisar quanto seu modelo ajustou seus dados deve-se observar o erro padrão (quanto menor melhor), o valor de R 2 (quanto maior melhor) e se o F foi estatisticamente significativo.

Podem ocorrer situações especiais em regressões múltiplas como sinergismo e anti-sinergismo (acontece quando dois preditores exercem um efeito sinérgico em y, ou seja, se ambos forem aumentados em uma unidade, o valor de y mudará mais do que mudaria se se somasse os incrementos proporcionados pelo aumento individual em uma unidade) e colinearidade (forte correlação entre duas ou mais variáveis preditoras).

Muitos cálculos são necessários para se determinar o tamanho da amostra necessária a ser submetida à análise de regressão, mas estes são feitos por programas computacionais.

Capítulo 20: “A Yes-or-No Proposition: Logistic Regression” Você pode utilizar a regressão logística (RL) para analisar a relação entre uma ou mais

variáveis preditoras (variáveis X) e uma variável categórica dependente (y). Y categóricos geralmente incluem: vivo ou morto, chove ou não chove, houve ou não houve, respondeu ou não ao tratamento, votou ou não votou em determinado candidato, etc. Pode usar a RL para testar se x e y estão significativamente associados; analisar qualquer número de x, cada um com variáveis numéricas ou categóricas tendo dois ou mais níveis; quantificar a extensão de uma associação entre x e y; desenvolver uma fórmula para estimar a probabilidade de y a partir dos valores de x; fazer previsões de falso-positivo e falso-negativo; verificar como um preditor influencia y após ser ajustado pela influência de uma ou outra variável e determinar o valor de um preditor que produz certa probabilidade de obtenção de y. O autor utiliza como exemplos dados envolvendo a mortalidade devido à exposição à radiação gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo prazo como cânceres ou alterações genéticas. Observa-se então que em baixas doses quase todos os indivíduos sobrevivem e em altas doses, quase todos morrem.

Assim como na regressão múltipla, a análise desses dados parte da plotagem num gráfico de dispersão considerando a dose recebida como x (preditor) e a resposta (vivo ou morto) como y. A partir daí monta-se uma função que tenha forma de S, ou seja, nunca produz um valor de y fora de 0 e 1, não importa quão grande ou pequeno seja X. Esta função pode ser generalizada adicionando dois parâmetros ajustáveis (a e b): y=1/(1+e-(a+bX)), lembrando que a+bx representa a função da regressão linear, o resto da função é que define sua forma tipo S. O meio do S (y=0,5) sempre ocorre quando X=-b/a, ou seja, a declividade da curva é determinada pelo sinal de b.

Como os limites da curva de RL são 0 e 1, você não deve usar RL em situações onde a fração das observações não se aproximem desses limites. Assim, a RL não sera adequada para analisar a resposta de pacientes a determinada droga se doses muito altas dessa droga não causar 100% de cura ou se algum paciente se curou mesmo sem ingerir tal medicamento. A RL ajusta um modelo aos seus dados ajustando os valores de a e b que tornem a curva o mais próximo possível dos seus dados plotados e com esse modelo você pode estimar a probabilidade da resposta ocorrer.

A teoria da RL é difícil e os cálculos são complicados: 1- Seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações); 2- Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; 3- Especifique o que são preditores e o que é a variável dependente; 4- Informe ao programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão probabilidades estimadas, etc); 5- Peça para rodar e aguarde as respostas.

As respostas são analisadas através do sumário de informações das variáveis (média e desvio padrão), da adequação do modelo (o quanto a função se ajustou aos seus dados) e pela tabela de coeficientes de regressão. Finalmente você pode estimar probabilidades com a fórmula logística ajustada e calcular as doses efetiva e letais numa curva logística.

Algumas vezes é necessário fazer predições positivas ou negativas das probabilidades ao invés de cotá-las e isso pode ser feito comparando a probabilidade calculada à obtida de acordo com o resultado alcançado em um ponto de corte arbitrário qualquer, medindo a acurácia (estimativa correta), medindo a sensibilidade (estimar um resultado positivo quando suas observações são positivas) e avaliando a especificidade (estimar um resultado negativo quando as observações são

Page 6: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

negativas). O ponto ótimo entre a combinação de sensibilidade e especificidade é o equilíbrio entre o falso-positivo e falso-negativo e para identifica-lo você deve saber como um joga contra o outro, ou seja, como eles variam simultaneamente em função de diferentes pontos de corte.

Checando erros: não use uma função logística para dados não logísticos, observe a ocorrência de colinearidade e perda de significância, atente-se para a inversão de códigos pelo programa, não interprete mal a razão de odds para preditores numéricos, não interprete mal a razão de odds para preditores categóricos. .

ok

8. 2 Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. A validação do modelo se refere à estabilidade e razoabilidade dos coeficientes de

regressão, à plausibilidade e empregabilidade da função de regressão e à habilidade de generalizar inferências a partir da análise de regressão. Consiste numa parte útil e necessária do processo de construção/determinação do modelo de regressão. Quando um modelo de regressão é usado num experimento controlado, a repetição do experimento e sua análise servem para validar os resultados numa fase de estudo inicial se resultados similares para os coeficientes de regressão, capacidade preditiva e outros dados semelhantes forem obtidos. De forma semelhante, resultados de estudos observacionais confirmatórios são validados pela repetição do estudo com outros dados.

Existem três caminhos básicos para validação do modelo: 1- Coleta de novos dados para checar o modelo e sua capacidade preditiva: é o melhor

caminho de validação. Permite examinar se o modelo de regressão obtido dos dados anteriores é aplicável aos novos dados. Se sim, tem-se segurança acerca da aplicabilidade do modelo aos dados, além daqueles nos quais o modelo se baseou. Uma das principais limitações é a dificuldade em repetir determinados estudos, seja por questões financeiras, logísticas ou de outro recurso qualquer.

2- Comparações dos resultados com teorias, evidências empíricas e resultados simulados: comparação dos coeficientes e predições com resultados empíricos ou simulados podem ser executados. Infelizmente, existem poucas teorias que podem ser utilizadas na validação dos modelos de regressão.

3- Uso de uma amostra teste para checar o modelo e sua capacidade preditiva: quando o conjunto de dados é muito grande, dividem-se os dados em dois grupos. O primeiro, denominado amostra de treinamento, usado para criar o modelo e o segundo, denominado grupo de validação, usado para avaliar a capacidade preditiva do modelo selecionado. Esse procedimento é muitas vezes denominado validação cruzada e a divisão dos dados é uma tentativa de simular a repetição do estudo.

ok

9. [4.000] (IP:281473664905466 | 15:34:18 | 18:13:42 | 39:24 | 1.564) Discuta os capítulos desta semana. Capítulo 1 – Regressão Múltipla_Capítulo 19

Neste capítulo, o autor explica que a Regressão múltipla é aquela que você ajusta um plano para um conjunto de pontos de três dimensões, com mais de dois preditores. O nome se caracteriza por ter mais de duas variáveis de previsão (múltipla) e cada uma delas é multiplicada por um parâmetro e estes produtos são somados para dar o valor previsto. Semelhantemente à regressão linear comum, a múltipla haverá equações, todavia, são várias a depender da quantidade de parâmetros que se possua. Para iniciar uma regressão múltipla, inicialmente deve-se preparar os dados, de forma que estes sejam organizados em níveis (preditores categóricos ou numéricos), e sejam avaliados à um nível de referência, de preferência, escolhido pelo pesquisador. Assim, a regressão irá avaliar as variáveis quando uma está fixa, ou seja, não está variando. Para organização dos dados para entrada em programas estatísticos é necessário uma montagem prévia dos dados, onde deve

Page 7: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

conter uma linha por assunto e uma coluna para cada variável que você deseja no modelo, indicando ao software quais são as variáveis, os preditores, e a especificação de uma saída de resumo dos resíduos (opcional). Supostos adicionais de variáveis aumentam o R², onde para compensação é utilizado outro parâmetro, o R² ajustado, onde este dá um desconto na quantidade de variáveis, o que melhora a observação e confiança nos dados. Por este motivo, a análise dos resíduos é de suma importância para avaliar se o conjunto de dados se adequa ao modelo, onde estes devem se mostrar aleatórios e sem dependência. Às vezes, pode acontecer de duas variáveis ter efeito sinérgico, ou seja, uma tem efeito sobre a outra, uma forte ligação que se denomina colinearidade. Capítulo 2 – Regressão Logística_Capítulo 20 A regressão logística se expressa em base exponencial. Caracteriza-se por apresentar gráficos em forma de S onde analisa uma relação entre as variáveis preditoras. Pode ser utilizada para testar se o preditor e o resultado tem colinearidade, analisar duas categorias, onde pode ser ausência ou presença de um fator, avaliar a chance de conseguir o resultado, desenvolver uma fórmula para obter o resultado de uma variável de previsão, fazer previsões e análises de falso-positivo e falso-negativo, avaliar como o preditor influencia no resultado e determinar o valor do preditor que produz uma certa probabilidade. Para dados binários, não se deve encaixar uma linha reta. Em vez disso, você deve encaixar uma função que tem a forma de S, o que nos permite afirmar que nunca vai produzir um Y fora da faixa de 0 -1, não importa quão grande seja o X. Assim, a regressão logística é representada pela função: Y = 1/(1 + e-x), onde e é uma constante matemática 2,718. Para generalizar essa equação, podemos ajustar os dados da seguinte forma Y = 1/(1 + e-(a+bx)), onde a exponencial entra na função de uma reta. E ainda, podemos adequá-la ao modelo logístico multivariado, tendo a função Y = 1/(1 + e-(a+bx+cv+dw)). Para executar a regressão logística em software, deve-se fazer a verificação se existe uma coluna para a variável resultado e se esta tem apenas dois valores diferentes. Depois, verificar se conjunto de dados tem uma coluna para cada variável de previsão e se estão em um formato que o programa aceita. Então, informe ao programa de quais variáveis são os preditores e que variável é o resultado, e diga o que você quer, dessa forma, o programa irá executar e apresentar as respostas. Além disso, pode-se calcular a dose que se produz uma resposta a 50%, ou a 80%, o que é chamado de dose letal e dose efetiva respectivamente, colocando X em função de Y. Assim, para a dose letal, teremos a equção –a/b e para a dose efetiva 1,39 –a/b. Outro fato importante na regressão logística é escolher entre ter mais sensibilidade e especificidade, utilizadas principalmente para testes de triagem de doença. Dependendo do teste e do seu impacto, deve-se considerar uma alta sensibilidade ou alta especificidade como sendo o mais importante. Sensibilidade é quando se prevê um resultado sim quando ele é sim. Especificidade é quando se obtém um resultado não quando ele realmente é não. A questão da escolha entre os dois, observando as suas consequências pode ser conflitantes para algumas pessoas, todavia é provável que ninguém chegue a um acordo. Para isso, é importante que se faça uma análise do melhor corte que se vai obter uma melhor combinação de sensibilidade e especificidade. Neste caso, é utilizado as curvas de ROC que é um tipo de gráfico que mostra a troca entre a sensibilidade e especificidade. O seu uso vem da segunda guerra mundial, todavia pode ser utilizado atualmente para inúmeras coisas. O programa gera, de forma eficaz, vários cortes de 0 a 1 possíveis, calculando os valores previstos. Assim, pode ser escolhido o melhor corte, com a melhor especificidade e melhor sensibilidade para se encontrar uma melhor relação entre falsos-positivos e falsos-negativos. Capítulo 3 – Regressão de Poisson_Capítulo 21 O autor inicia o capítulo relatando a diferença entre GLM (Modelo linear generalizado) e LM (Modelo linear comum), onde afirma que o LM é o modelo linear que aprendemos e que utilizamos no nosso dia-a-dia e o GLM é um modelo mais generalizado, que inclui o LM e outros.

Page 8: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

Após, inicia a discussão sobre a regressão de Poisson, que uma regressão não linear utilizada para contagens e taxas de eventos independentes, ou seja, não agrupados de forma que, se ocorrer este agrupamento em determinado evento, teremos um efeito chamado de sobredispersão, ou seja, pode ocorrer de o desvio padrão ser maior que a raiz quadrada da média. Para análise, inicialmente, deve-se decidir qual a função que se adequa com os seus dados, o que será decidido através do conhecimento científico adquirido sobre determinado assunto que se deseja estudar. Para entrada de algum programa estatístico deve-se organizar os dados para regressão de Poisson, assim como faria para qualquer tipo de regressão. Após, dizer ao programa que as variáveis preditoras e de desfeicho são por nome ou por coleta apartir de uma lista de variáveis. Depois, especifique a função de ligação e a distribuição da variável, todavia, no final deve-se consultar o manual do seu software. Na execução desta deve ser inserida a equação que será ajustada e deixar que o programa trabalhe, assim ele irá gerar dados em que se pode calcula os parâmetros que deseja conhecer. Todavia, também pode ser utilizadas funções equivalentes, onde irá se obter diretamente os parâmetros que se deseja. Às vezes, pode ocorrer de acontecer que o gráfico que se obtem tem uma grande densidade de pontos, de forma que pode ser observado seu comportamento, mas não se sabe os pontos exatos em que a curva muda. Para isso, são utilizados artifícios como o LOWESS que fazem uma suavização dos pontos gerando uma curva. Para isso, deve ser relizado testes de suavização onde irá ser testado algumas frações de suavização (f), o que lhe permite explorar diferentes suavizações de frações. Esses f são decididos de acordo com o conhecimento científico do pesquisador, no qual ele irá observar as curvas geradas e decidir qual melhor se encaixa aqueles determinados pontos. Utilizada corretamente, este artifício permite o recolhimento máximo de informações possíveis dos gráficos gerados.

ok

10. [2.000] (IP:281473664905466 | 15:34:30 | 18:14:01 | 39:31 | 0.977) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla As estratégias são:

A. Testar todas as regressões possíveis É uma técnica trabalhosa e não prática, todavia é a única que garante o melhor modelo para os dados que se está estudando com regressão linear múltipla garantindo encontrar um melhor R². Nesta primeira técnica, se aplica todas as regressões possíveis para os arranjos que se pode realizar com todas as variáveis, encontrando com isto. Todavia, torna-se impraticável devido ao número de combinações total ser imensamente grande com um pequeno aumento de variáveis (por exemplo, 8 variáveis, obtêm-se 255 modelos possíveis), assim, algoritmo que é utilizado para todas as equações possíveis demanda que sejam analisados 2k-1, onde k representa o número de variáveis. Por esse motivo e por oferecer informações limitadas sobre realmente qual o melhor modelo, existem outros métodos que se tornam mais factíveis. B. Método de seleção Backward Nesta estratégia, faz-se uma estimativa do modelo máximo contendo todas as variáveis, de forma que o modelo é realizado todos os testes possíveis (F, p, R²), onde a posteriori iremos eliminar aquela de menor efeito no modelo podendo assim avaliar o efeito desta sobre o modelo. A principal desvantagem deste método reside em que uma vez retirada uma variável, não é possível a entrada novamente no modelo, e consequentemente não é possível observar seu efeito com outras combinações. C. Método de seleção Foward

Page 9: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

Esta estratégia é semelhante à Backward supracitada, todavia ao contrário, assim, iniciaremos com apenas 1 variável. Para tanto, seleciona-se a variável mais correlacionada com a variável dependente, e realiza o ajuste do modelo. Após, realiza-se a avaliação do modelo (R², F, p), colocamos outra variável o procedimento é realizado novamente, até chegar a um ponto que ao adicionar variáveis e fizermos a avaliação (R², F, p), estes testes não sejam significantes. Portanto, nenhuma variável mais deve ser incluída no modelo. A desvantagem deste método é semelhante ao anterior, uma vez que adicionada uma variável esta não poderá mais ser retirada para novas avaliações. D. Método Stepwise (Mistura de técnicas) Esta estratégia é uma mistura entre a Forward e Backward, anteriormente supracitados. Neste método é permitida a reavaliação das variáveis já inclusas no modelo, de forma que, uma variável já incluída no modelo pode tornar-se supérflua à medida que for sendo realizadas avaliações em processo de seleção. Neste contexto, a Stepwise Forward inicia-se com todas as variáveis, prosseguindo com a retirada de uma. Este processo é realizado duas vezes. Após, uma variável que foi retirada pode voltar a com uma das variáveis já retiradas. O processo é realizado até que qualquer variável que for retirada cause efeito no ajuste do modelo (R², F, p) de modo que se perca explicações. O Stepwise Backward segue de forma contrária ao forward, iniciando-se com apenas uma variável. Este método supre as desvantagens dos métodos anteriores, porém, a ordem de inclusão pode afetar os resultados, além aumentar a chance do erro tipo I devido ao grande número de modelos que serão gerados.

ok

11. [2.000] (IP:281473664905466 | 15:34:39 | 18:14:27 | 39:48 | 1.179) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. A. Antes da análise:

Para validação de qualquer modelo, inicialmente deve-se ter muito cuidado com a coleta dos dados, para que seja realizada de forma correta e segura. Além disso, deve-se checar se não há colinearidade e se seguem as premissas da análise de variância (homocedase, distribuição normal, amostra aleatória, erros experimentais independentes). Também, deve-se estimar bem o tamanho da amostra/experimento. B. Depois da análise: 1. Estudo confirmatório: Quando for possível, deve realizar outro experimento ao mesmo tempo do experimento que se gerou a regressão. Mas, neste caso, muitas vezes não é compensatório devido ao tempo e dinheiro. Assim, há a alternativa de em que é feita um bloco a mais, onde o mesmo não entre na regressão e possa ser comparado o valor real com o valor estimado pela equação. 2. Análise em amostra dividida Outra alternativa é colocar um número a mais de amostras em todo o experimento, dispondo as mesmas de forma aleatória, onde todos representem o experimento. Os mesmos não entrem na regressão e possam ser avaliados sob o valor real e o estimado, verificando se são similares ou muito diferentes.

muito bem levantado quanto à parte anterior à regressão.

Page 10: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

12. [1.000] (IP:281473664905466 | 15:34:51 | 18:14:37 | 39:46 | 9.288) Discuta o significado e possíveis implicações do AIC O AIC (Akaike Information Criterion) está relacionado com o modelo do desvio final

ajustado para quantas variáveis preditivas estão no modelo, ou seja, este critério combina quanto o modelo explica com o número de variáveis utilizadas para este modelo, onde o melhor modelo é aquele que apresentar o menor índice de AIC, pois explica o que está acontecendo com menor número de variáveis e melhor qualidade de inrfomação contida no modelo. Por isso, este critério avalia a qualidade da ligação das variáveis, o número de variáveis e a informação.

desta forma, fica difícil de diferenciar o AIC do R² corrigido...

13. [2.000] (IP:281473664859462 | 16:05:44 | 23:11:44 | 06:00 | 30.871) Discuta o significado e possíveis implicações do AIC Desenvolvido por Hirotugu Akaike em 1974, o Critério de Informação de Akaike (AIC) é

uma informação qualitativo que representa a distância entre o modelo estimado e o modelo real de distribuição dos dados observados. O AIC é obtido através da fórmula AIC = 2 x (k-L) / N, em que L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados. Assim, quanto menor o valor de AIC mais ajustado o modelo estimado está ao conjunto de dados. O AIC penaliza os modelos em função do número de parâmetros adicionados e é tomado para a escolha do modelo de regressão (quem tiver o menor AIC apresentasse como melhor modelo).

excelente

14. [2.000] (IP:281473664859462 | 17:58:33 | 23:53:42 | 55:09 | 4.944) Discuta os capítulos desta semana. No capítulo dezenove o autor enumera várias etapas que devem ser consideradas antes

de se rodar a regressão múltipla. Alguma delas foram: a classificação das variáveis, sendo que os preditores podem ser numéricos ou categóricos; o Registro das variáveis categóricas como numéricas. Para isso alguns softwares permitem entrar com dados categóricos. Neste caso, o autor sugere que se as variáveis categóricas (descritivas) sejam códigos numéricos; Criar um gráfico de dispersão antes de rodar a regressão: Para isso é necessário verificar os erros e plotar seus dados em histogramas que demonstrem a distribuição das variáveis. Para analisar os dados da regressão múltipla o capítulo deixa claro a importância de se certificar que seus dados de fato assumam aquela análise. Quanto menor o erro melhor, isso implica em um alto valor de R2 e F estatístico significativo. No capítulo vinte tem-se a regressão logística, onde o autor mostra quando utiliza-la, revendo os seus conceitos básicos, rodando uma regressão logística e analisando seus resultados, localizando erros para estimar o tamanho da amostra. Esta regressão pode ser usada para verificar a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente, geralmente é descrita de forma binaria [chance de um evento ocorre (1) ou não (0)]. A teoria da Regressão Logística é considerada difícil e os seus dados devem ter uma coluna y com dois valores diferentes (0 ou 1). Seus dados devem ter uma coluna para cada X formatadas de acordo com o software. Na interpretação das respostas é importante a análise do sumário de informações das suas variáveis de média e desvio padrão (variáveis numéricas); além disso, a adequação do modelo, pois o programa indica o quão ajustado foi a função aos seus dados e nos dá vários valores relacionados ao p. É importante checar a tabela de coeficientes de regressão, pois cada preditor aparece em uma linha separada.

isto não é discussão de três capítulos, mas uma síntese de um resumo de uma apresentação inicial do abstract ou algo do gênero...

15. [2.000] (IP:281473664859462 | 17:58:43 | 23:12:42 | 13:59 | 12.905) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla

Page 11: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

Podem ser utilizadas cinco estratégias para selecionar o melhor modelo de regressão linear múltipla: 1ª) Testar todas as regressões possíveis – esta estratégia garante qualquer solução para qualquer conjunto de variáveis, mas dependendo do número de variáveis do modelo haverá uma quantidade maior de combinações diferentes. Assim, quanto mais variáveis maior será o número de combinações diferentes e vise-e-versa. É importante ressaltar que com um número muito elevado de variáveis torna se quase impossível testar todas as combinações possíveis e isso aumentaria a chance de incorrermos no erro tipo I. 2ª) Eliminação para trás – Essa estratégia começa com uma regressão que inclui todas variáveis e a cada etapa é eliminada uma variável. Essa eliminação leva em consideração a ordem de importância entre as variáveis no modelo de regressão. Assim, inicia-se a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, verificando-se o efeito da retirada da última variável de cada modelo. Na sequência, elimina-se a variável de menor efeito com sua retirada. Portanto, ao se retirar tal variável esta não poderá ser aproveitada. Em seguida, reinicia-se o processo até se obter um menor modelo de regressão que explicará de forma equivalente a equação completa. 3ª) Seleção para frente – Nessa estratégia as variáveis vão sendo introduzidas progressivamente no modelo, inserindo, uma de cada vez, as variáveis que supostamente são mais importantes. Neste sentido, vai se obtendo diferentes modelos de regressão com seus respectivos efeitos. Cada vez que uma variável é retida, esta não poderá ser aproveitada. Após a verificação de todos os modelos, é selecionada a regressão que melhor explica aquele determinado fenômeno. 4ª) Stepwise (forward) – Essa é uma estratégia que combina os dois procedimentos anteriores o que conduz aos melhores resultados. É semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Deste modo, testa-se todas as variáveis eliminando algumas delas até chegar a um modelo adequado, porém as variáveis excluídas poderão ser novamente introduzidas para verificar se o modelo pode ser melhorado, esse processo irá ocorrer até não haver nenhuma modificação. 5ª) Stepwise (backward) – Trata-se de uma estratégia que possui os mesmos princípios metodológicos, no entanto contém as mesmas limitações do Stepwise (forward), contudo o processo operacional é de trás para frentes.

ok

16. [2.000] (IP:281473664859462 | 17:58:55 | 23:13:17 | 14:22 | 34.118) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Há dois caminhos para validação de modelos: (i) Realizar um novo experimento no intuito

de verificar a confiabilidade daquele modelo, testando se as estimativas do modelo selecionado explicarão o que ocorrerá no novo experimento. Esse caminho de validação garante uma nova variação do acaso, mas possui a desvantagem de se ter um alto custo; (ii) Durante a implantação do experimento separar um bloco ou uma repetição de um tratamento para que os dados desse bloco/repetição sejam analisados separadamente, ou seja, os dados desse bloco/repetição não participarão na obtenção do coeficiente de determinação do modelo. Posteriormente, realiza-se um teste para correlacionar se as estimativas do modelo correspondem com o que acontecerá com os dados separados. Se existir correlação, o modelo explica o que acontece com o novo conjunto de dados e consequentemente o modelo pode ser generalizado para a população. Não existindo correlação com o novo conjunto de dados, esse modelo não pode ser generalizado para explicar o que ocorre na população.

ok

17. [2.000] (IP:281473857275257 | 08:37:20 | 23:19:54 | 42:34 | 1.61) Discuta o significado e possíveis implicações do AIC O Critério de Informação de Akaike (Akaike‘s Information Criterion - AIC) é uma medida

geral da qualidade do ajuste de modelos baseada em k variáveis preditoras, que procura uma

Page 12: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

solução satisfatória entre o bom ajuste o princípio da parcimônia. Sugerido por Akaike, visa suprir um questionamento de até onde é razoável aumentar a ordem do modelo para conseguir uma melhor adequação aos dados permitindo que o modelo capte todas as características dos dados a serem modelados. O AIC é um critério que dá uma pontuação para o modelo, baseado em sua adequação aos dados e na ordem do modelo. Portanto, um modelo para a variável resposta (Y) é considerado melhor que outro se tiver um AIC mais baixo, favorecendo modelos com SQRE menor, mas também com menores parâmetros, ou seja, quanto menor, mais o modelo explica

com o menor uso de variáveis. Ele é calculado pela equação AIC=-2 ln〖f (x〗/θ ̂)+2k, onde o primeiro termo é uma bonificação por uma melhor adequação dos dados, em que f(x/θ ̂) é a função verossimilhança do modelo, e o segundo termo é a penalização, que é maior a medida que se aumenta a ordem, k. Embora largamente aceito e utilizado, tem limitações. Ele foi desenvolvido sob o conceito de que, assintoticamente (quando o tamanho da amostra tende a infinito), ele converge para o valor exato da divergência de Kullback-Leibler, que é uma medida de quanta informação é “perdida” ao tentar representar um conjunto T de medidas utilizando uma base conhecida L. No entanto, quando se tem um número finito de amostras, este estimador se torna polarizado. Com isto, por vezes o AIC não só falha em escolher um modelo mais parcimonioso, como por vezes escolhe o modelo de maior ordem entre todos os modelos comparados. Diante disto, alguns métodos são sugeridos para conseguir trabalhar satisfatoriamente com um número pequeno de amostras, como o AICc (AIC corrigido), KIC (Kullback Information Criterion), KICc (KIC corrigido), AKICc (Approximated KICc) e AICF (AIC Finite Sample), diferindo-os apenas no termo da penalização.

ok

18. [2.000] (IP:281473857275257 | 08:42:24 | 23:20:23 | 37:59 | 1.328) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Uma das estratégias é a construção de todos os modelos de regressão linear múltipla

possíveis (análise de 2k – 1 modelos), com um grande número de combinações e maior número de variáveis preditoras possíveis (k). Praticável graças aos diversos softwares de regressão, ela deve ser preferida às outras, pois é a única estratégia que garante encontrar o modelo com maior r2, critério comumente usado. O analista adiciona variáveis ao modelo até o ponto em que uma variável adicional não seja útil devido ao pequeno aumento resultante ao valor de r2p. Um segundo critério é considerar a média quadrática do erro (MQE), de modo que seja um mínimo na escolhendo dos regressores. Além desta, há outras estratégias, como: seleção em etapas; eliminação regressiva (eliminação Backward); seleção progressiva (seleção Forward); Stepwise (forward e backward) e um procedimento menos tradicional (NCSU). Na seleção em etapas, provavelmente a mais utilizada de seleção de variáveis, há a construção de uma sequência de modelos pela adição ou remoção de variáveis em cada etapa, cujo critério é um teste parcial F. O regressor com a maior estatística parcial F entra, desde que o valor observado de f exceda fentra. Então este teste é calculado para cada regressor no modelo e aquele com o menor valor observado de F será removido se o f observado < fsai. O procedimento continua até que nenhum outro regressor seja adicionado ou removido ao modelo. A seleção Forward, é uma variação da regressão em etapas e se baseia no princípio de que os regressores devem ser adicionados ao modelo um de cada vez até que não haja mais candidatos a regressor que produzam aumento significativo na soma quadrática da regressão A princípio, ajusta-se o modelo, selecionando a primeira variável a entrar no modelo como a variável mais correlacionada com a variável resposta. Se o teste F global for não significativo, para e conclui que nenhuma variável independente é importante preditora, se significativo, inclui a variável no modelo e determina-se o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão, observando qual modelo (de qual variável incluída) possui o maior teste F parcial. Caso os testes F parciais não sejam

Page 13: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

significativos, nenhuma variável mais deve ser incluída no modelo. Procedimento inverso à eliminação Backward. Já na eliminação Backward inicia-se com todos os K candidatos a regressor no modelo (estimativa do modelo máximo), testando todos os modelos tirando uma única variável, a que reflete menor efeito de retirada, e avaliando cada nova regressão, esse processo se repete com todos os modelos retirando mais uma variável. Então o regressor com menor estatística parcial F é removido, se essa estatística F for não significativa, ou seja, se f < fsai. A seguir, o modelo com K – 1 regressores é ajustado e o próximo regressor para potencial eliminação é encontrado. O procedimento termina quando nenhum regressor a mais pode ser eliminado. A técnica Stepwise consiste na mistura das duas técnicas anteriores, iniciando, na forward, com um passo de seleção para frente atrelado a um reexame (eliminação pra trás) das variáveis já incluídas no modelo, podendo ser retiradas e, também, essas retiras podem voltar ao modelo. O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo, as probabilidades F raramente são adequadas para determinar essa entrada ou saída de uma variável. O grande número de variáveis permite maior confiabilidade e ao mesmo tempo, pelo grande número de testes as chances de cometer o erro do tipo I aumentam. Na Stepwise (backward) o processo é igual ao forward, só que ao contrário. Há também um procedimento menos tradicional (NCSU), nele montam-se todos os modelos e calcula-se o AIC (Akaike Information Criteria) de cada um, seleciona-se o modelo com menor AIC, pois quanto menor, mais o modelo explica como o menor custo em números de variáveis.

2^k não 2k... 2k é 2*k... de resto ótimo

19. [1.500] (IP:281473857275257 | 08:42:12 | 23:20:44 | 38:32 | 19.828) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Após as análises para verificar a confiabilidade do modelo pode ser feito um estudo

confirmatório, ou seja, montagem de um novo experimento, o que representa um alto custo não só financeiro como também de tempo, havendo inclusive uma nova variação do acaso por ser montado em período diferente do experimento que deu origem ao modelo. Além desse estudo pode ser feito uma análise em amostra dividida, onde parte dos dados de um experimento é usada apenas para a construção do modelo e o restante para a confirmação, verificando o resultado dos outros blocos, para isso os dados devem ser separados aleatoriamente antes da análise, isso implica em uma possível não representação da população, mas da amostra.

o único ponto é que a forma como colocou a nova variação do acaso em um experimento de verificação como algo negativo, quando na realidade é um ponto positivo. de resto muito bom.

20. [4.000] (IP:281473857275257 | 08:42:02 | 23:22:04 | 40:02 | 7.31) Discuta os capítulos desta semana. No capítulo 19 o autor aborda um entendimento do que é regressão múltipla, da

preparação dos dados para uma regressão múltipla e a interpretação da saída, do entendimento como a sinergia e colinearidade afetam a análise de regressão, e por fim, da estimação do número de indivíduos que você precisa para uma análise de regressão múltipla. Esta regressão múltipla pode ser denominada, também, por regressão linear simples para mais de uma variável preditora (variável independente) o que é chamado de modelo de regressão linear múltipla normal. Ela pode ser aplicada para inúmeros fins, como: preparo de curvas de calibração; teste de modelos teóricos; fazer previsões e prognósticos; realizar operações matemáticas sobre os dados; etc. Alguns termos básicos estão relacionados à denominação regressão múltipla linear normal, significando: múltipla, o modelo tem mais de duas variáveis preditora; linear, cada variável preditora é multiplicada por um parâmetro, e estes produtos são somados para dar o valor previsto da variável resultado, podendo haver também, um parâmetro que é multiplicado por nada

Page 14: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

chamado termo constante ou intercepto; normal, a variável é numérica e contínua cujas flutuações aleatórias apresentam distribuição normal. No modelo de regressão múltipla há mais de uma variável preditora (mais do que dois parâmetros), onde se ajusta um plano para um conjunto de pontos em três dimensões gerando um “hiperplano” em quatro ou mais espaços dimensionais. Suas fórmulas são apenas simples expressões algébricas das fórmulas em linha reta, descritas de forma compacta usando notação matricial e calculadas por um pacote de softwares devido ao número maior de variáveis preditora. Para entender melhor como funcionam os cálculos, a montagem de um modelo de regressão múltipla envolve a criação de um conjunto de equações simultâneas, uma para cada parâmetro do modelo. As equações envolvem os parâmetros do modelo e as somas de vários produtos das variáveis dependentes e independentes envolvendo a inclinação, interceptação na linha reta e as somas de X, X2, Y e XY. Como resultado deste processo, pode-se obter também os erros padrões dos parâmetros. Mesmo com tantos programas disponíveis que podem fazer a regressão múltipla, pode ser necessário, a princípio, preparar os dados. Pois ao usar variáveis preditora categóricas (binária: gênero masculino e feminino, ou multinível) em um modelo de regressão múltipla pode-se obter resultados errados ou difíceis de interpretar corretamente, necessitando definir as coisas de maneira correta. Para isso precisa-se tabular quantos casos estão em cada nível, sendo necessário pelo menos dois casos por nível (ideal mais), caso contrário deve-se redistribuir os casos entre os níveis de forma mais uniforme possível e por consequência mais confiável e preciso serão os resultados. Além disso, deve-se escolher de forma sábia qual será o nível usado como referência que servirá para observar como cada um dos outros níveis afeta o resultado, em relação a esse nível de referência, e ainda, quando o software não aceita uma variável categórica como preditora deve-se recodifica-la como numérica, categóricas binárias pode ser recodificada para 0, e outro nível 1, já uma categórica multinível transformar em conjunto de variáveis binárias. Antes de realizar uma regressão múltipla deve-se criar um gráfico de dispersão, observando a distribuição dos seus dados. Verificando erros e gerando resumos e histogramas, traçando relações entre variável preditora e resposta, e também entre as próprias variáveis preditoras. A execução do software, em termos gerais, se inicia na organização dos dados (linha e coluna), indicando as variáveis dependentes e independentes, especificando qual saída deseja (se permitir) com gráficos, resíduos e outros programas de resultados, e por fim interpreta a saída. Os componentes de saída, são: descrição do modelo a ser montado; os resíduos; tabela de regressão ou coeficientes da tabela; o valor estimado do parâmetro; o erro padrão (precisão) da estimativa; valor t; valor p; o erro padrão residual; o coeficiente de correlação; a estatística f e o valor p associado. Independente dos cálculos antes de tirar conclusões de qualquer análise estatística certifica-se da normalidade dos seus dados e quão bem o modelo se ajusta aos dados, por meio de gráficos de variabilidade e normalidade dos resíduos, e dados observados versus o previsto. Quanto ao ajuste do modelo aos dados vários números de saída referem-se quão de perto o modelo se encaixa seus dados, como: erro padrão residual que é a dispersão média dos pontos observados a partir do modelo ajustado, quanto menor melhor; r2, quanto maior, melhor o ajuste; o teste F, indicando que o modelo prevê o resultado significativamente melhor do que o modelo nulo. Na regressão linear múltipla podem surgir situações especiais como interações sinérgicas e colinearidade. A primeira indica que quando ambos os preditores fossem aumentados em uma unidade, o resultado seria alterado por mais do que simplesmente a soma dos dois aumentos, podendo ser testada ajustando o modelo com um termo de interação (produto dessas variáveis), o sinal indica se a sinergia é negativa ou positiva. O segundo consiste no mistério do desaparecimento da significância, quando você roda uma regressão múltipla com todos os indicadores até então significativos, isso não faz o modelo ser pior na previsão dos resultados só torna difícil dizer qual variável realmente influencia o resultado. Esse problema pode ser resolvido calculando o tamanho necessário da amostra através de softwares (PS e GPower), mas o usuário pode ter problemas com input que quase certamente você não pode fornecer. Contudo, a boa experiência vai indica um tamanho o grande o suficiente para garantir que você obtenha um resultado significativo no teste de sua hipótese de pesquisa.

Page 15: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

(Capítulo20) Você pode usar a regressão logística para analisar a relação entre uma ou mais variáveis preditoras e uma variável categórica resultado (proposição sim ou não). Ela pode ser usada para testar se o preditor e o resultado são significativamente associados, pode analisar qualquer número de variáveis preditoras, cada uma das quais pode ser uma variável numérica ou uma categórica que possua dois ou mais níveis, desenvolver uma fórmula para prever a probabilidade de obter o resultado dos valores das variáveis preditoras, e muitas outras aplicações. Das muitas expressões que produzem gráficos em forma de S, a função logística é ideal para este tipo de dado. Se b (inclinação da curva na região média) for negativo a curva está virada de cabeça pra baixo, se o b é um número muito grande (positivo ou negativo) a curva logística é muito íngreme que se parece um degrau e se for 0 a função logística é uma linha reta. A teoria da regressão logística é difícil e os cálculos são complicados. No entanto, a maioria dos programas gerais de estatística pode executar regressão logística, e não é mais difícil do que executar um método linear simples ou de regressão linear múltipla. Tudo que tem que ser feito é: verificar se o seu conjunto de dados tem uma coluna para a variável resultado e que esta coluna tem apenas dois valores diferentes; verificar Verifique se o seu conjunto de dados tem uma coluna para cada variável de previsão e que essas colunas estão em um formato que o software aceite; os preditores podem ser quantitativos (como idade ou peso) ou categóricos (como gênero ou grupo de tratamento); informar ao seu programa quais variáveis são as preditoras e o resultado; informe ao seu programa qual saída você quer; pressionar o botão Go e ficar esperar. O programa pode fornecer algumas informações descritivas de resumo sobre as variáveis: médias e desvios-padrão dos indicadores que são variáveis numéricas, e uma contagem de quantos assuntos fez ou deixou de ter o resultado no evento. Alguns programas podem também fornecer a média e desvio padrão de cada variável numérica preditora. O resultado mais importante a partir de um programa de regressão logística é a tabela de regressão dos coeficientes, que se parece muito com a tabela de coeficientes de regressão linear ou multivariada por mínimos quadrados. Cada variável de previsão aparece em uma linha separada. Uma linha para o termo constante (ou intercepção). A primeira coluna é quase sempre o valor do coeficiente de regressão. A segunda coluna é geralmente o erro padrão (SE) do coeficiente. A coluna de valor p indica se o coeficiente é significativamente diferente de 0. Para cada variável de previsão, a regressão logística também deve fornecer o odds e seu intervalo de confiança de 95 por cento, ou col - como adicional UMNS na tabela de coeficientes ou como uma tabela separada. Se o software não fornece a fórmula, basta substituir a coeficiente de regressão da tabela de regressão logística para a fórmula. O modelo final produzido pelo programa de regressão logística é uma curva logística. Com a fórmula logística equipada, você pode prever a probabilidade de ter o resultado se você sabe o valor da variável preditora. Mas às vezes você preferir fazer uma previsão sim ou não em vez de citar uma probabilidade. Você pode fazer isso através da comparação da probabilidade calculada de conseguir um resultado sim a alguns valores arbitrários de corte (como 0,5) que separa uma previsão sim a partir de um sem previsão. Ou seja, você pode dizer: "Se a probabilidade prevista para um assunto é maior do que 0.5, vou prever sim; caso contrário , eu vou prever não ". O modelo de regressão logística pode fornecer várias saídas, mas estas saídas podem não ser muito fáceis de interpretar. Você pode tabular os resultados previstos e observados em uma tabela de classificação quádrupla. Na tabela de classificação, você pode calcular várias medidas úteis da capacidade de predição do modelo para qualquer valor de corte especificado, como: precisão geral, prever corretamente; sensibilidade, prever um resultado sim quando o resultado real é sim; especificidade, prevendo um não no resultado, quando o resultado real é não. Dependendo do teste e sobre o que acontece, um resultado falso-positivo ou falso-negativo, você tem que considerar se alta sensibilidade ou especificidade elevada é mais importante, não ambos ao mesmo tempo. Algumas pessoas podem dizer que a alta sensibilidade é mais importante do que alta especificidade para um teste de câncer de cólon, enquanto o inverso é verdadeiro para um teste de câncer de próstata. Mas outras pessoas podem discordar. Um modelo logístico equipado com um conjunto de dados pode produzir qualquer sensibilidade (entre 0 e 3 por cento) e de qualquer especificidade ( entre O e 100 por cento ), dependendo do valor de corte que você selecionar. O truque é escolher um valor de corte que dá a melhor combinação de sensibilidade e

Page 16: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

especificidade, atingindo o melhor equilíbrio entre previsões falso-positivas e falso-negativas. A curva ROC ajuda você a escolher um valor de corte melhor entre sensibilidade e especificidade para ter muito poucos falsos positivos. Para ter muito poucos falsos positivos: escolha um valor de corte superior para dar uma elevada especificidade. Para ter muito poucos falsos negativos: escolha um valor de corte inferior para dar maior sensibilidade. Todos os modelos de regressão com mais de uma variável de previsão pode ser atormentado com problemas de colinearidade (quando dois ou mais variáveis de previsão são fortemente correlacionada com o outro), e regressão logística não é exceção. Além disso, outro problema e a separação completa, também chamado de o problema preditor perfeito, é um problema particularmente desagradável (e surpreendentemente frequente) que é único para regressão logística. Por incrível que possa parecer, é um fato triste que uma regressão logística falhará se os dados é muito bom. O problema preditor perfeito pode “mordê-lo”, mesmo que cada variável passa nos testes onde se analisa se todas as variáveis individuais podem ser preditores perfeitos, uma vez que pode ocorrer se uma combinação de duas ou mais variáveis agindo em conjunto pode separar completamente o resultado. Infelizmente, não há nenhuma maneira fácil de detectar esta situação, classificando graficamente seus dados. Já no capítulo 21 são apresentados outros tipos úteis de regressão. A regressão de poisson, por exemplo, é frequentemente e só deve ser usada, por ser um tipo de regressão especializada para dada distribuição de dados, por estatísticos para analisar dados aleatórios independentes, com nº de ocorrência de acidentes em um intervalo de tempo, avaliando a tendência de aumento se significativa e taxa do aumento com erro padrão e intervalo de confiança. No entanto, a maioria dos pacotes de software tem uma técnica mais geral chamado de modelo linear generalizado (GLM) diferente do primeiro modelo linear generalizado abreviado como (LM). O GLM amplia os recursões em poder especificar uma transformação que transforma a combinação linear para o valor previsto, e também, os resultados poder ser contínuo ou inteiro, obedecendo a qualquer uma das funções de distribuição como normal, exponencial, binomial ou de poisson. A execução de uma regressão de poisson é semelhante a muitas tipos comuns de regressão, partindo da montagem doa dados (linha e coluna), indicando as variáveis preditora e resultado por nome ou coleta, dizendo o tipo de regressão específica a distribuição da variável dependente e a função da ligação (mais complexo e precisa de domínio do software), pressiona o botão e é só esperar. A saída, também, tem a mesma estrutura geral de outros tipos de regressão, com: coeficiente de regressão (ascensão do nº de acidentes por ano); erro padrão (SE) precisão do aumento da taxa estimada por ano; valor de p; AIC (quão bem se encaixa os dados neste modelo). O programa p também pode fornecer a taxa de evento anual previsto para cada ano. A regressão de Poisson pode fazer várias outras coisas, como: através do link “log”, é possível transformar uma tendência linear em não linear (e.g. exponencial), encaixando melhor a taxa acentuada de aumento observada nos dados usados pelo autor; permite fornecer, para cada ponto de dados, um intervalo juntamente com a contagem do evento; comparar outros modelos alternativos por meio do AIC; e acomodar sobredispersão para fazer a distribuição quase poisson ao invés de poisson, que não se aplica em ocorrências não independente. Outra regressão abordada pelo autor é a não linear, de existência mais independente, podendo aparecer por conta própria em qualquer lugar da fórmula e os coeficientes são referidos como parâmetros. A fórmula para ela pode ser qualquer expressão algébrica, qualquer número de variáveis preditora e qualquer número de parâmetros mais até que variáveis de previsão. Na sua execução, primeiro você decide qual função que você quer para se adequar aos seus dados, depois fornece suposições para cada um dos parâmetros que aparecem na função, que será refinado pelo software. Este refinamento pode não convergir para uma resposta, além desse problema há todas as outras complicações das várias regressões não lineares, como a colinearidade. O software R, um dos vários pacotes estatísticos de ajuste de curva não linear, pode ler arquivos de dados em vários formatos (Excel, Access, arquivo de texto, etc.), ou você pode atribuir os valores diretamente. Após a obtenção dos dados deve-se especificar a equação a ser ajustada aos dados, usando a sintaxe algébrica do R. Em seguida, você indica ao software os parâmetros a serem instalados e você dá alguns palpites, e refina-os em estimativas mais próximas à

Page 17: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

verdade, repetindo este processo até que ele chegue ao melhor. A saída da regressão é simples muito parecida com a saída de regressão linear, mostrando o valor do parâmetro, o erro padrão, e o valor de p. A partir desses valores você pode calcular outros parâmetros que desejar em sua pesquisa. Pode também, gerar facilmente o valor previsto para cada ponto de dados, a partir dos quais você pode sobrepor a curva ajustada para os pontos de dados observados. E ainda, fornece o erro padrão residual e o AIC. Às vezes você quer ajustar uma curva suave para um conjunto de pontos que não parecem se conformar com qualquer curva que você está familiarizado e não pode usar um método de regressão linear ou não linear. O que você precisa é uma espécie de regressão não paramétrica (e.g. LOWESS), que não assume qualquer modelo em particular (fórmula), mas sim apenas tenta desenhar uma linha suave através dos pontos de dados. Correr o LOWESS no software R é bastante simples, vó precisa fornecer o programa com as variáveis x e y, e ele faz o resto. A sua única saída é uma tabela de valores de y suavizada, uma para cada um dos dados, a partir do qual pode traçar uma linha sobreposta no gráfico de dispersão. O programa ainda permite que você ajuste a “rugidez” da curva especificando uma suavização (f= entre 0 e 1). Sempre que você faz regressões LOWESS, você tem que explorar diferentes suavizações de frações para encontrar o ponto ideal que dá o melhor equilíbrio, mostrando as características reais.

ok

21. [0.000] (IP:281473886816205 | 20:07:10 | 23:34:16 | 27:06 | 2.368) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. 1) a forma funcional de como as variáveis preditoras devem entrar no modelo de

regressão; 2) interações importantes que devem ser incluídas no modelo

qual a relação da resposta com a pergunta pelamordedeus? Você nem menciona validação, quanto mais suas consequências

22. [0.500] (IP:281473886816205 | 23:34:16 | 00:18:33 | 44:17 | 2653.902) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Existem duas principais estratégias no processo de seleção de variáveis:

Todos os modelos possíveis: considera todos os subconjuntos possíveis de variáveis explicativas, e considerando critérios de avaliação, seleciona o melhor deles. Seleção Automática: faz uma busca do melhor subconjunto de variáveis explicativas sem considerar todos os possíveis subconjuntos. Na prática, assumimos que a correta especificação funcional das variáveis explicativas é conhecida (por exemplo, $ 1/x_1 $, $ ln~x_2 $) e que não há outliers ou pontos influentes e então, aplicamos a técnica de seleção de variáveis. Entretanto, o ideal seria inicialmente, Identificar outliers e pontos influentes, Identificar eventuais colinearidade e heteroscedasticidade, Realizar quaisquer transformações que sejam necessárias, e então, aplicar seleção de variáveis.

e como seria esta seleção automática mesmo? além disto, de onde saiu esta estória de correta especificação funcional, quanto mais o que você quer dizer com estes exemplos?

Page 18: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

23. [1.500] (IP:281473886816205 | 00:18:33 | 00:36:00 | 17:27 | 2.912) Discuta o significado e possíveis implicações do AIC O critério de informação de Akaike, conhecido simplesmente como AIC, e

o critério de informação bayesiano, chamado de BIC, não são testes de hipótese, eles são ferramentas para seleção de modelos. Os critérios de informação apresentam duas vantagens sobre outros métodos de seleção como o R² de McFadden: O AIC e o BIC se baseiam na log-verossimilhança como o outro método e, além disso, consideram e penalizam a complexidade do modelo (número de parâmetros), o que busca o alinhamento com o princípio da parcimônia, essencial na modelagem estatística. Além disso, os modelos que estão sendo comparados não necessitam ser aninhados16, o que é a principal restrição na comparação de modelos via teste de hipótese.

só não vi qualquer coisa de implicação

24. [4.000] (IP:281473697077837 | 13:05:58 | 23:41:34 | 35:36 | 6.369) Discuta os capítulos desta semana. O capítulo 19 aborda regressão múltipla.Esse tipo de função é utilizada quando há mais

que um preditor e mais do que dois parâmetros.Nesse caso, o ajuste que se faz no gráfico é de um palno e não de uma reta, como no caso da regressão linear simples.A função múltipla é representada pela fórmula: Y= β0+ β1X1+ β2X2+...+ βkXK+ε A montagem de um modo de regressão múltipla linear envolve a criação de um conjunto de equações simultâneas, uma para cada parâmetro no modelo. As equações envolvem os parâmetros do modelo e as somas de vários produtos das variáveis dependentes e independentes, assim como as equações simultâneas para a regressão linear. Os preditores de um modelo de regressão múltipla pode ser numérico ou categórico. As diferentes categorias que uma variável pode ter são chamados níveis. Se uma variavel, como gênero, pode ter apenas dois níveis, como homem ou mulher, então ele é chamado de variável categórica binária; se ele pode ter mais de dois níveis, eu chamá-lo de uma variável muitinivel. Antes de usar uma variável categórica em um modelo de regressão múltipla é necessário, tabular quantos casos estão em cada nível. É preciso ter pelo menos dois casos (e de preferência mais) em cada nível. Quanto mais uniformemente os casos estiverem distribuídos nos níveis, mais preciso e confiável serão os resultados. Se um nível não contém casos suficientes, o programa pode ignorar esse nível. Para cada variável categórica em um modelo de regressão múltipla, o programa considera uma das categorias a ser o nível de referência, e avalia como cada um dos outros níveis afeta o resultado, em relação a esse nível de referência. Alguns softwares permitem que você especifique o nível de referência para uma variável categórica. A escolha do nível de referência permite que os resultados tenham significado. Se seu software de estatística permite que você insira variáveis categóricas como dados de caracteres é necessário apenas se certificar de que, para cada variável categórica, existirá casos suficientes em cada nível, e que o nível de referência foi escolhido sabiamente. Alguns softwares aceitam apenas variáveis numéricas como preditores, nesses casos é necessário recodificar as variáveis categóricas de texto descritivo dos códigos numéricos. Quando se trabalha com preditores binários, os dados são recodificados de forma muito simples e tomando como base o nível de referência pra 0 ou 1.Para as variáveis categóricas com mais de dois níveis é preciso separar a variável multinível em variáveis binárias. No texto, autor apresenta um exemplo com a variável raça e diferentes níveis(raça branca, raça negra, raça asiática e outras).Se por exemplo o nível de referência for raça branca apenas a variável correspondente a raça branca será recodificada com 1 e as demais serão recodificadas como zero.Para melhor elucidar as questões relacionadas á regressão múltipla o exemplo contém a idade, peso e pressão arterial sistólica de 16 indivíduos de um pequeno estudo clínico.Os resultados do estudo clínico são expostos em forma de gráficos de dispersão obtidos a partir de diferentes emparelhamentos entre as variáveis.Esses gráficos dão idéia, por exemplo, de como e quanto as variáveis estão associadas umas com as outras,e se os gráficos apresentam ou não outliers. O autor também faz menção a um conjunto de etapas gerais que devem ser seguidas quando se trabalha com regressão múltipla:

Page 19: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

1. Montar os dados em um arquivo com uma linha por assunto e uma coluna para cada variável que se deseja no modelo; 2. Dizer ao software qual variável é o resultado e quais são os preditores; 3. Especificar o tipo de saída; 4. Iniciar os cálculos. O texto também exibe um tipo de saída típica de análise de regressão múltipla para o segundo exemplo utilizado (estudo clínico).A partir da saída é possível observar que o modelo , gera valores do resíduo, valores r, valores do desvio padrão, valor de p e valor de r quadrado ajustado. O autor também aconselha que para efeitos práticos, é preferível trabalhar com, amostras de tamanho simples e que a estimativa se baseie em um coeficiente de correlação clinicamente significativo entre o indicador mais importante e o resultado. Capítulo 20: A regressão logística é utilizada para analisar a relação entre uma ou mais variáveis preditoras e um resultado categórico variável (a variável Y).O uso da regressão logística depende como qualquer modelo, do objetivo do pesquisador: - Desenvolver uma formula para prever a probabilidade de obter um resultado dos valores das variáveis de previsão; -Fazer ou não previsões sobre o resultado que levem em consideração consequências de falso - positivos e falso – negativos; -Ver com um preditor influencia um resultado após o ajuste. Para ilustrar os conceitos de regressão logística o artigo apresenta um exemplo onde o autor examina a exposição à radiação de raios gama e seus efeitos a curto e longo prazo. O autor também expõe uma tabela onde relaciona a dose com a letalidade. Os resultados são tratados com variáveis binarias (entre 0 e 1) onde 0 corresponde ao individuo que sobreviveu e 1 o que sobreviveu, o que resulta em resultados restritos a duas linhas horizontais tornando o gráfico difícil de interpretar. Na montagem de uma função com forma S (função logística) é importante não tentar encaixar os resultados em uma linha reta, em uma parábola ou qualquer polinômio pois, para o exemplo citado, a fração de pessoas que morrem nunca podem se inferior a 0 ou superior a 1, preceito que certamente seria violado caso fosse utilizada uma função com forma diferente de S. Das muitas expressões matemáticas a função logística é a ideal para este tipo de dados, uma vez que, devido a sua própria natureza não importa quão grande é o valor de x ou o sinal, nunca será produzido um valor de Y fora da faixa 0 e 1. Na forma mais simples a função logística é escrita como: Y= 1/(1+e-x) A regressão logística é útil quando se trabalha com dados que produzem resultados extremos, como é o caso do experimento com radiação onde há uma dose 0 nenhum individuo morre e a doses extremamente grandes todo mundo morre. A regressão logística também pode ser empregada quando se trabalha com vários preditores. Por exemplo, a probabilidade da pessoa morrer por exposição a radiação, não dependera apenas à radiação propriamente dita, mas também devido a fatores como idade, sexo, peso, estado de saúde geral, comprimento de onda da radiação, quantidade de tempo de exposição à radiação. No texto o autor também discute como utilizar a regressão logística em seu software e afirma que para tal é necessário que o conjunto de dados tenham uma coluna para a variável resultável e que esta coluna tenha apenas dois resultados diferentes. O conjunto de dados também devera ter uma coluna para cada variável de previsão e as colunas deverão estar em um formato que o software aceite. Também é necessário informar quais variáveis são preditoras e quais variáveis são resultado. Como o programa fornece vários tipos de saídas de dados, é necessário informar o tipo de saída desejada. O programa indica o quão bem o a função representa os dados e pode fornecer essas medidas, a maioria das quais tem o valor de P associado. O programa também pode mostrar a formula logística equipada onde é possível prever o resultado a partir do valor da variável de previsão. Para o exemplo utilizado, o autor explica ainda, com é possível a partir do uso de álgebra simples calcular doses eficazes na curva logística. O modelo logístico devidamente equipado a um conjunto de dados, permite calcular a partir do preditor a probabilidade de ter o resultado. Se a probabilidade prevista para um assunto é maior de 0,5 será previsto SIM, caso

Page 20: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

contrario será previsto NÃO. A maioria dos softwares assume um valor de corte 0,5 a menos que seja dito a ele que use um outro valor. Quando se escolhe um ponto de corte para a conversão de uma probabilidade, muitas vezes pode-se atingir uma alta sensibilidade ou uma alta sensibilidade, mas não as duas ao mesmo tempo. Dependendo do teste pode ser produzido um valor falso-positivo ou falso-negativo, é preciso considerar se alta sensibilidade ou especificidade elevada é mais importante. A resposta para essa questão está na escolha de um valor de corte que dê a melhor combinação de sensibilidade e especificidade, atingindo um melhor equilíbrio entre previsões entre falso-positivas e falso-negativas. Capítulo 21 O autor inicia o texto diferenciando o modelo linear generalizado e o modelo linear geral, e demonstra que os dois só se assemelham no que diz respeito ás variáveis de previsão que aprecem no modelo combinadas linearmente. Em seguida o autor discorre sobre a regressão de Poisson. Segundo o autor a depender dos dados avaliados nem sempre é possível trabalhar com um modelo de regressão linear , nesses casos, em geral utilizam-se modelos lineares generalizados (MLG) que são uma poderosa alternativa para a transformação de dados. O modelo de Poisson, é um modelo especifico do modelo linear generalizado e possui uma distribuição de Poisson onde os dados devem possuir igual dispersão, ou seja, a média da variável resposta deve ser igual à variância. O autor também lista uma série de passos para executar uma regressão de Poisson e como interpretar a saída dos dados calculados pelo programa. A saída tem a mesma estrutura geral que a produção de outros tipos de regressão (valor de p, erro padrão, valor de z, coeficiente de regressão, AIC). A distribuição de Poisson é aplicada quando os eventos observados são todos de ocorrências independentes. Mas esta suposição não é cumprida se os eventos ocorrem em aglomerados. O desvio- padrão (DP ) de uma distribuição de Poisson é igual ao quadrado raiz da média da distribuição. Mas se o agrupamento está presente, e a DP dos dados for maior do que a raiz quadrada da média, ocorre uma situação chamada sobredispersão. No texto, autor também aborda questões referentes aos modelos não lineares, onde os coeficientes têm uma existência mais independente e podem aparecer por conta própria, em qualquer lugar na fórmula. A fórmula para um modelo de regressão não-linear pode ser qualquer expressão algébrica, envolvendo somas e diferenças, produtos e relações, juntamente com qualquer combinação de logarítmica, exponencial , trigonométrica, e outros funções matemáticas avançadas. Como para qualquer tipo de regressão antes de calcular os dados que serão analisados a partir do modelo de Poisson é necessário que estes estejam organizados de acordo com o objetivo da pesquisa e saber se estes dados se ajustam ao modelo escolhido, esse passo é muito importante, pois é a partir dele que serão produzidos resultados significativos ou não. O ajuste de curva não linear pode ser realizado por muitos pacotes estatísticos modernos, como SPSS, SAS, GraphPad Prism, e R, eles operam a partir de uma equação que é gerada a partir dos dados e fornece os parâmetro que se deseja conhecer. Os resultados obtidos em forma de gráfico em algumas situações onde se faz uso de regressões não-lineares, pode exibir um conjunto de pontos que parecem não se ajustar a nenhum tipo de curva conhecida(reta, parábola, exponencial , e assim por diante),nesses casos não é possível escrever uma equação para a curva que você quer para se adequar. Para corrigir esse tipo de problema, vários tipos de métodos de suavização de dados não paramétricos foram desenvolvidos. Um popular é chamado o LOWESS, que significa suavização localmente ponderada da dispersão. Muitos programas estatísticos, como SAS e R, pode fazer regressão LOWESS e ela é obtida a partir da designição de valores x e y em função de valores f específicos.

ok

Page 21: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

25. [1.000] (IP:281473697077837 | 13:08:18 | 23:45:20 | 37:02 | 6.638) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Quando se tem em mãos um conjunto de dados é necessário escolher um modelo que

apresente o melhor ajuste aos dados. Existem alguns parâmetros que são utilizados para avaliar a qualidade de um modelo, e é justamente baseado nesses parâmetros que se escolhe o modelo que mais se ajusta aos dados. Esses parâmetros são: - Soma dos quadrados do resíduo (SSR): É uma técnica matemática que tem por objetivo encontrar o melhor ajuste para um conjunto de dados, através da minimização da soma dos quadrados das diferenças entre o valor estimado e os dados observados. O método minimiza a soma do quadrado dos resíduos da regressão, aumentando o ajuste do modelo aos dados. Teste F: Quanto maior o F calculado, melhor a equação de regressão explica o comportamento das variáveis. Ou seja, a probabilidade dos resultados observados serem devidos ao efeito do tratamento para um valor de f significativo é infinitamente superior do que ser devido ao acaso. - Coeficiente de determinação (R²): É um coeficiente que informa o quanto a equação da regressão explica a variação da variável dependente(Y). O R² pode assumir valores de 0 a 1. Quanto mais os valores se aproximam de 1 melhor a equação explica a relação entre a variável independente e a variável dependente, ou seja, os pontos apresentam bom ajuste. Em situação oposta quanto mais os valores se aproximam de zero, menor é o ajuste, ou seja, a equação não serve , ou explica pouco a relação entre a variável dependente e a variável independente. Logo o R² é um bom critério para selecionar a melhor regressão. Porém, é preciso atentar para a quantidade de preditores do modelo, pois quanto mais preditores existem no modelo maior é o valor de R².No entanto, os preditores nem sempre tem um significado forte, o que contribuirá para o valor do coeficiente de determinação não corresponder à realidade. Nesses casos é necessário fazer uso do coeficiente de determinação ajustado. - Coeficiente de determinação ajustado: O R² ajustado não aumenta conforme o número de variáveis independentes é aumentado.Nesse caso o valor só aumenta se os parâmetros inseridos no modelo forem de fato significativos. Por isso a depender do tipo de dados que se trabalha é preferível optar usar o valor de R² ajustado como critério por ele explicar melhor a relação entre as variáveis em estudo. - Cp (Cp de Mallows): O critério Cpde Mallows é baseado no conceito do erro quadrático médio (EQM) dos valores ajustados pode ser determinado pela seguinte equação:Cp=(SQE(p)/QME)-n+2(p+1) Onde: SQE é a soma dos quadrados dos resíduos QME é o quadrado médio do modelo máximo n número de amostras p o número de variáveis. Selecionar modelos tomando como base o Cp consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p +1). - AIC (Critério de informação de Akaike):O critério admite a existência de um modelo “real” que descreve os dados que é desconhecido, e tenta escolher dentre um grupo de modelos avaliados.Esse critério considera que quanto menor o valor de AIC,melhor a equação explica a relação entre as variáveis.

misturou os critérios de escolha de modelo com as estratégias de seleção. O critério é como se decide qual dos diferentes modelos definidos em função da estratégia deve ser adotado.

26. [1.500] (IP:281473652438950 | 16:34:40 | 19:55:27 | 20:47 | 9.189) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Devemos sempre lembrar de checar a colinearidade e premissas da análise de variância,

desenhar bem a coleta de dados, feito isso, o procedimento para verificar a confiabilidade. A

Page 22: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

preocupação fundamental da validação do modelo é garantir que os resultados sejam generalizáveis à população e não específicos a amostra usada na estimação. A abordagem mais direta de validação é obter outra amostra da população e avaliar a correspondência dos resultados das duas amostras. Na ausência de uma amostra adicional pode-se avaliar a validade dos resultados de diversas maneiras. A primeira envolve o exame do valor R² ajustado, para verificar, por exemplo, se o modelo estimado não está superajustado à amostra, mantendo uma proporção adequada de observações por variáveis na variável estatística. Uma segunda abordagem é dividir a amostra, novos dados (uma nova amostra) ou, então, uma amostra reservada dos dados, que devem ser separados aleatoriamente antes da análise, deverá ser usada para verificar se o mesmo modelo pode ser usado com estes dados novos, se os coeficientes de regressão e os erros padrões são similares, e se as mesmas conclusões inferenciais seriam obtidas. Estima-se, portanto o modelo de regressão das amostras que foram separadas e comparam-se os resultados obtidos. Todavia o ideal seria fazer outro experimento para ver se essa regressão se confirma, mas isso teria uma grande inconveniência, que seria o custo da implantação de mais um experimento.

parece haver uma certa mistura entre validação e avaliação do modelo no ponto em que fala do R² ajustado.

27. [4.000] (IP:281473652438950 | 16:35:11 | 19:57:34 | 22:23 | 5.119) Discuta os capítulos desta semana. Capítulo 19: Regressão múltipla – a regressão múltipla é formalmente conhecida como

modelo comum de regressão linear múltipla, onde comum refere-se a variável que é uma variável numérica múltipla refere-se ao modelo que tem mais de duas variáveis de previsão e linear refere-se ao modelo que apresenta cada variável de previsão multiplicada por um parâmetro, e estes produtos são adicionados em conjunto para dar o valor previsto do resultado. A análise de regressão múltipla é uma metodologia estatística de previsão de valores de uma ou mais variáveis de resposta (dependentes) através de um conjunto de variáveis explicativas (independentes). Podemos usar a regressão múltipla em preparação de curvas de calibração, testes de modelos teóricos, obtenção de valores de parâmetros com o significado físico ou biológico, entre outros. Todas estas razões são aplicáveis à regressão múltipla. Sua aplicação é especialmente importante, pois permite que se estime o valor de uma variável com base num conjunto de outras variáveis. Existem vários programas que fazem regressão múltipla, ou seja, não precisamos executar esse procedimento a mão. Programas como SPSS, estatístico R, SAS. É necessário fazer uma preparação dos dados, pois um erro muito comum de vários pesquisadores é fazerem a execução imediata de uma regressão – ou alguma análise estatística – antes de dar uma olhada nos seus dados. O interessante é tabular os dados e observar como os valores das variáveis são distribuídos. Antes de tirar conclusões a partir de qualquer análise estatística, devemos nos certificar se os dados cumprem os pressupostos em que análise foi baseada. Duas hipóteses de regressão linear incluem o seguinte: que a quantidade de variabilidade nos resíduos é relativamente constante e não dependem do valor da variável dependente e os resíduos devem ser aproximadamente distribuídos normalmente. O importante é saber se os pontos parecem se espalharem uniformemente a cima e abaixo da linha ou estão ao longo da linha pontilhada. Existem situações especiais que surgem em regressão múltipla como: a interação – é quando duas variáveis exercem um efeito sinérgico em um resultado, podendo ser positivo ou negativo. Colinearidade – é um problema computacional que se desenvolve quando duas ou mais variáveis independentes possuem forte correlação. Isto pode introduzir sérios erros na previsão da variável dependente e torna difícil saber qual das variáveis realmente influenciou no resultado, felizmente é um erro de fácil detecção e correção. Podemos detectar através do teste t quando este assume resultados muito pequenos, R2 ou estatística F são muito grandes ou a variação de alguma variável independente for negativa. E para correção deste erro é necessário que uma das variáveis seja então excluída. Capítulo 20: Regressão logística- é utilizada para analisar entre uma ou mais variáveis de previsão e um resultado categórico, ou seja, apresenta níveis. Resultados categóricos incluem,

Page 23: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

por exemplo: vivo ou morto, chover ou não chover, respondeu ou não respondeu a um tratamento. Você pode usar uma regressão logística para testar se o preditor e o resultado estão associados de forma significativa; quantificar extensão de uma associação entre o indicador e o resultado; desenvolver uma formula para prever a probabilidade de obter o resultado dos valores das variáveis de previsão; fazer ou não previsões sobre o resultado que leva como consequências de previsões de falso-positivo e falso-negativo; determinar o valor de um preditor que produz uma probabilidade para o resultado. Na função logística não devemos encaixar dados binários em uma reta, em vez disso devemos atender a uma função que tem forma de S (uma forma que da Y envolvendo X e nunca produzir resultados que estejam fora da faixa de 0 a 1). Na função logística a parte a + bx determina a reta e a inclinação da curva será determinada por b. se b é positivo, a função logística é um S em forma de curva com inclinação ascendente; se b é zero, a função logística é uma linha reta ou horizontal cujo o valor de y é igual a 1; se b é negativo, a curva é virada de cabeça para baixo; se b é um numero muito grande (positivo ou negativo) a curva logística é tão íngreme que é chamada de função degrau. Assim como o modelo de regressão linear simples pode ser generalizado para lidar com vários preditores, podemos generalizar a forma logística para lhe dar com vários preditores da mesma forma, por exemplo, a chance de uma pessoa morrer de exposição à radiação pode depender não só da dose recebida, mas também da idade, sexo, peso, estado geral da saúde, tempos de exposição. Suponha que y é dependente de três preditores x, v e w, a regressão logística encontra os melhores valores dos parâmetros a, b, c e d, de modo que para qualquer conjunto particular de valores para x, v e w, podemos prever y. Para ocorrer uma regressão logística é preciso: se o conjunto de dados tem uma coluna para variável resultado (e que esta tem apenas dois valores) e uma coluna para variável de previsão (e que esta esteja no formato que o software aceite); informar ao programa quais variáveis são os preditores e qual variável é o resultado; informar ao programa o que se quer (um resumo das informações sobre as variáveis, medidas de ajuste, uma tabela de coeficiente de regressão, incluindo razão de chance e seus intervalos de confiança; medidas de previsão; curva ROC). As medidas de previsão em regressão logística estão relacionadas à questão de sensibilidade (capacidade de prever um resultado sim, quando o resultado real é sim) e especificidade (capacidade de prever um resultado não, quando o resultado real é não). A curva ROC é um gráfico que mostra um trade off sensibilidade/especificidade, mostrando a gama completa de sensibilidade e especificidade que pode ser alcançada para qualquer modelo logístico com base nos valores de corte selecionados entre 0 e 1. Para não gerar erros em regressão logística não devemos colocar dados numa função logística para dados não logísticos; deve-se checar a colinearidade; verificar a existência de inversão da codificação da variável resultado e ter cuidado ao interpretar os odds ratio. Capítulo 21 – Outros tipos úteis de regressão – os modelos lineares generalizados (MLG) representam a união de modelos lineares e não lineares, como a regressão múltipla, logística, ou Poisson. Muitos softwares oferecem MLG, para não precisar programar outras regressões especializas, ou seja, se o pacote não oferece regressão logística ou de Poisson, e dispõe de MLG, o problema esta resolvido. A regressão de Poisson tem por característica a analise de dados contados na forma de proporções ou razoes de contagem, por exemplo, o total de pessoas com uma determinada doença. Diferente das regressões lineares, nas regressões não lineares os coeficientes já não aparecem emparelhados com variáveis preditoras, são mais independentes, eles são referidos como parâmetros. Existindo assim varias funções não lineares que podem ser encontradas em pesquisas biológicas. Para suavizar uma curva é preciso uma espécie de regressão não paramétrica – que não assume qualquer modelo em particular, mais tenta desenhar uma linha suave através dos pontos dos dados. Um dos métodos mais utilizados é o LOWESS, muitos programas estatísticos como SAS e R podem fazer esse tipo de regressão. Quando aplicar o LOWESS deve-se dar os valores de x, y e f, sendo o valor de f entre 0 e 1, este valor deve ser escolhido de forma a interpretar melhor os dados.

ok

Page 24: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

28. [2.000] (IP:281473652438950 | 16:35:31 | 19:57:54 | 22:23 | 2.972) Discuta o significado e possíveis implicações do AIC O Critério de Informação de Akaike (AIC) é uma medida geral da qualidade de ajustamento

de modelos e admite a existência de um modelo "real" que descreve os dados que é desconhecido, e tenta escolher dentre um grupo de modelos avaliados. Esse índice observa ao mesmo tempo a qualidade da ligação entre as variáveis com o número variáveis que é utilizado (parecido com o R² em termos de log), ou seja, a quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente. Quanto menor o índice (AIC) mais ele explica com menor custo em número de variáveis, portanto o melhor.

excelente explicação do conceito

29. [2.000] (IP:281473652438950 | 16:35:53 | 19:58:35 | 22:42 | 16.222) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Visando obter o modelo que melhor explique um determinado comportamento a partir de

um conjunto de dados coletados, faz-se necessário avaliar e adotar alguma técnica que facilite a escolha adequada (acertada) por um determinado modelo, através de algum critério de escolha previamente determinado. Baseando-se nisto, existem algumas técnicas que podem ser utilizadas com este objetivo, a saber: - Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p – 1 de modelos possíveis. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I. - Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto, considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração das variáveis menos importantes, todavia, o início do teste é inverso, considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste. - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um

Page 25: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

aumento no número de testes realizados.

ok

30. [4.000] (IP:281473653672857 | 22:04:58 | 22:19:48 | 14:50 | 3.079) Discuta os capítulos desta semana. Capítulo 19: Regressão Múltipla

A regressão múltipla, contem mais de um preditor (e mais do que dois parâmetros). Por duas variáveis de previsão, um plano é ajustado para um conjunto de pontos em três dimensões, com mais de dois preditores é ajustado em um hiperplano aos pontos em quatro ou mais espaço dimensional. A regressão múltipla é formalmente conhecida como o modelo de regressão linear múltipla ordinária, onde ordinária significa que a variável é uma variável numérica contínua cujas flutuações aleatórias são normalmente distribuídas; múltipla que o modelo tem mais de duas variáveis de previsão; e linear que cada variável de previsão é multiplicada por um parâmetro, e estes produtos são somados para dar o valor previsto da variável. Como fUncões lineares tem-se como exemplo: Y = a + bX (linear simples); Y = a + bX + cX 2; Y = a + bX + CZ + DXZ. Como razões para se aplicar a regressão múltipla pode-se citar: testes de análise de regressão para a associação significativa, obtendo uma representação compacta dos dados, fazer previsões e prognósticos, realizando operações matemáticas sobre os dados , preparando-se curvas de calibração, testando modelos teóricos, e na obtenção de valores de parâmetros que têm significado físico ou biológico. A montagem de um modo de regressão múltipla linear envolve basicamente a criação de um conjunto de equações simultâneas, uma para cada parâmetro no modelo. As equações envolvem os parâmetros do modelo e as somas de vários produtos das variáveis dependentes e independentes, assim como as equações simultâneas para a regressão linear. Os preditores de um modelo de regressão múltipla pode ser numérico ou categórico. As diferentes categorias que uma variável pode ter são chamados níveis. Se variáveis, como gênero, pode ter apenas dois níveis, como homem ou mulher é uma uma variável categórica binária e se tem mais de dois neveis variável múltipla. Antes de usar uma variável categórica em um modelo de regressão múltipla, deve-se tabular quantos casos estão em cada nível, sendo necessários pelo menos dois casos em cada nível. A partir de uma variável múltipla pode-se formar variáveis binárias com os níveis de acordo com o foco da pesquisa. Para cada variável categórica em um modelo de regressão múltipla, o programa considera uma das categorias a ser o nível de referência, e avalia como cada um dos outros níveis afeta o resultado, em relação a esse nível de referência. O nível de referencia deve ser escolhido corretamente para que os resultados sejam significativos - Para uma variável que representa a presença ou a ausência de uma condição, o nível de referência deve representar a ausência da condição. - Para uma variável que representam os grupos de tratamento, o nível de referência deve ser o tratamento padrão. - Para uma variável que representa uma característica assunto, como sexo ou raça, o nível de referência é arbitrário. Algumas etapas gerais devem ser tomadas com o software para executar a regressão múltipla como montar os dados em um arquivo com uma linha por assunto e uma coluna para cada variável que você deseja no modelo; dizer ao software qual variável é o resultado e quais são os preditores. Na saída da maioria dos programas pode-se avaliar a descrição do modelo a ser montado, um resumo dos resíduos, a tabela de regressão, o erro padrão, os valores de t e p, o valor de p ajustado, o erro padrão residual, o R-quadrado e o teste F. E dependendo do software, se pode também obter vários outros resultados úteis da regressão como os valores previstos para a variável dependente e residuais. Antes de se ter conclusões deve-se decidir se os dados são adequados para a análise de regressão, observando a quantidade de variabilidade, os resíduos é relativamente constante e não depende do valor da variável dependente e se os resíduos são aproximadamente normalmente distribuídos. Deve-se ainda determinar se o modelo se ajusta bem ao conjunto de dados observando o erro padrão residual é a dispersão média dos pontos

Page 26: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

observados a partir do modelo ajustado (quanto menor esse número, melhor), o valor múltiplo R2 (quanto maior for , melhor o ajuste) e o teste F de significância que indica que o modelo prevê o resultado significativamente melhor do que o modelo nulo. O comportamento simultâneo de dois preditores pode influenciar um resultado através de interações (sinérgicos e anti-sinérgicos) e de colinearidade. Em alguns casos acontece que duas variáveis de previsão exercem uma efeito sinérgico sobre um resultado. Isto é, se ambos os preditores fossem aumentados em uma unidade, o resultado seria alterado por mais do que a soma dos dois. Se o coeficiente de interação tem um valor de p significativo (p <0,05), então as duas variáveis têm sinergia significativa entre eles. O sinal do coeficiente indica se a sinergia é positiva ou negativa (ANTT-sinergia). Capítulo 20: Regressão Logística A regressão logística pode ser usada para analisar a relação entre uma ou mais variáveis de previsão (as variáveis x) e um resultado variável categórico (variável Y). Através desta regressão pode-se testar se o preditor e o resultado são significativamente associados, superar as limitações do método de tabulação cruzada 2x2, quantificar a extensão de uma associação entre o indicador e o resultado, desenvolver uma fórmula para prever a probabilidade de obter o resultado dos valores das variáveis de previsão, fazer sim ou não previsões sobre o resultado que leva em conta as conseqüências de previsões falso-positivos e falso- negativos, ver como um preditor influencia o resultado após o ajuste para a influência de outras variáveis e determinar o valor de um preditor que produz uma certa probabilidade obtendo o resultado. Neste capítulo o autor explica a regressão logística envolvendo dados sobre mortalidade por exposição a radiação. Este exemplo examina a exposição à radiação de raios gama, que está em doses elevadas o suficiente para ser mortal e os efeitos na saúde a longo prazo. No primeiro gráfico apresentado é feita uma relação entre dose e letalidade, a dose recebida no eixo X (preditor) e o resultado (0 viveu; 1 morreu ) no eixo Y. Como a variável de resultado é binária, os pontos são restritos a duas linhas horizontais, tornando o gráfico da difícil de interpretar. Para uma melhor interpretação pode-se agrupar as doses em intervalos e plotar a fração de pessoas em cada intervalo que morreu. Quando se tem vários preditores de um resultado sim ou não pode-se usar o modelo logístico multivariável Y=1/(1 + e - (a+bX+Cv+Dw). Para executar a Regressão Logística com Software é preciso verificar se o conjunto de dados tem uma coluna para a variável resultado e que esta coluna tem apenas dois valores diferentes, verificar se o conjunto de dados tem uma coluna para cada variável de previsão e que essas colunas estão em um formato que o software aceita, informar o programa de quais variáveis são os preditores e qual variável é o resultado e informar o programa que se deseja. Podem ser obtidos o resumo das informações sobre as variáveis, medidas de bom de ajuste, tabela de coeficientes de regressão, incluindo razões de chance e seus intervalos de confiança entre outros. Dependendo do seu software utilizado para a regressão logística pode-se observar um valor p associado com o desvio de queda entre o modelo e do modelo final, um valor p do teste de Hosmer –Lemeshow, um ou mais valores pseudo-R-quadrado. O resultado mais importante a partir de um programa de regressão logística é a tabela de coeficientes de regressão. Nela cada variável de previsão aparece em uma linha separada, há uma linha para o termo constante, a primeira coluna é quase sempre o valor equipada do coeficiente de regressão, a segunda coluna é geralmente o erro padrão de coeficiente e a coluna de valor p indica se o coeficiente é significativamente diferente de 0. Para cada variável de previsão, a regressão logística também deve fornecer o acréscimo de relação e seu intervalo de confiança de 95%. O modelo final produzido pelo programa de regressão logística e a curva logística resultante.Um modelo logístico, devidamente equipado a um conjunto de dados , permite calcular a probabilidade de ter o resultado. Mas às vezes você preferir fazer uma previsão sim ou não em vez de citar uma probabilidade. Você pode fazer isso através da comparação da probabilidade calculada de conseguir um resultado sim a algum valor de corte arbitrário (como 0,5) que separa uma previsão sim a partir de um sem previsão. O programa de regressão logística fornece várias saídas de bondade de ajuste, mas estas saídas podem não ser muito fácil de interpretar. Um outro indicador , o que é muito intuitivo , é a

Page 27: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

extensão em que seu sim ou não coincide com as previsões dos resultados reais. Em uma das tabelas o autor mostra qratro quatros ilustrando a sensibilidade e especificidade, onde tem-se como precisão geral quando prevê corretamente, Sensibilidade quando prevê um resultado sim quando o resultado real é sim e especificidade quando prevê um não desfecho, quando o resultado real é não. As curvas de ROC mostram a troca de sensibilidade/especificidade para qualquer modelo logístico montado. Ela ajuda a escolher um valor de corte que dá o melhor compreensão entre sensibilidade e especificidade para ter muito poucos falsos positivos ou muito poucos falsos negativos. Alguns cuidados devem ser tomados ao se aplicar a regressão logística. Não utilizar regressão logística para ajustar os dados que não se comportam como a curva logística S. Tomar cuidado com a colinearidade e o desaparecimento significativo, verificar a existência de codificação reversa da variável de desfecho, não interpretar mal para predição numérica e para predição categórica e ter cuidado com a separação completa são os cuidados a serem tomados. Capítulo 21: Outros tipos de regressão Regressão de Poisson Os estatísticos frequentemente tem que analisar os resultados que consistem no número de ocorrências de um evento sobre algum intervalo de tempo, como o número de acidentes fatais em rodovias em uma cidade em um ano. Se as ocorrências parecem estar ficando mais numerosas conforme o tempo passa, você pode querer executar uma análise de regressão para ver se a tendência de aumento é estatisticamente significativa e estimar a taxa anual de aumento (com o seu erro padrão e intervalo de confiança). Como os eventos aleatórios independentes (como acidentes rodoviários) deve seguir uma distribuição de Poisson, eles devem ser analisados por uma espécie de regressão de Poisson projetado para os resultados. A maioria dos pacotes de software de estatística não oferecem nada de explicitamente do chamado Regressão de Poisson: Em vez disso, eles têm uma técnica de regressão mais geral chamada de modelo linear generalizado (GLM). O modelo linear generalizado é semelhante ao modelo linear geral apenas em que as variáveis de previsão geralmente aparecem no modelo de como a combinação linear familiar. Para se executar uma regressão de Poisson é preciso montar os dados, indicar no software que as variáveis preditoras e de desfecho são, ou por nome ou por coleta a partir de uma lista de variáveis e que o tipo de regressão que se deseja levar a cabo especificando a família de distribuição da variável dependente e a função de ligação. A saída da regressão de Poisson tem a mesma estrutura geral que a produção de outros tipos de regressão. Com a regressão de Poisson pode-se examinar as tendências não lineares, comparar modelos alternativos,trabalhar com observações desiguais de intervalos e acomodar eventos agrupados. Regressão não-linear Na regressão não-linear, os coeficientes não têm de aparecer emparelhado com variáveis preditivas, eles agora têm uma existência mais independente e pode aparecer por conta própria, em qualquer lugar na fórmula. A fórmula para um modelo de regressão não-linear pode ser qualquer expressão algébrica, envolvendo somas e diferenças, produtos e relações, e poderes e raízes, juntamente com qualquer combinação de logarítmica, exponencial , trigonométrica, e outras funções matemáticas avançada. A fórmula pode conter qualquer número de preditor variáveis e qualquer número de parâmetros.

excelente

31. [2.000] (IP:281473653672857 | 22:05:10 | 22:19:50 | 14:40 | 0.752) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Testar Todas as Regressões Possíveis – é a estratégia que garante o melhor modelo de

regressão possível, no entanto dependendo do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maior será o número de

Page 28: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

combinações, como exemplo um conjunto de 10 variáveis gera 1023 modelos possíveis. Dessa forma em casos onde há o número muito grande de variáveis, torna-se complicado avaliar todas as regressões possíveis, sendo que a cada teste realizado acarretará um aumento de chances de cometer o erro tipo1. Eliminação Para Trás – o processo inicia-se com a regressão completa utilizando todas as variáveis e em cada estágio é eliminada uma variável. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada. A variável retirada não é reaproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação completa. Seleção Para Frente – Tem o mesmo principio do método de eliminação para trás, só que este é realizado em sentido contrário. Dessa forma a cada etapa é acrescentada um variável a começar das mais importantes até se chegar ao modelo que melhor explique o conjunto de dados. Stepwise (forward) – é uma mistura das técnicas anteriores que conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo são testadas todas as variáveis, sendo que diferentemente do modelo anterior as variáveis retiradas podem ser novamente introduzidas de forma que é dado um passo para frente e dois para trás, assim ao retirar a uma variável outra variável retirada anteriormente é novamente testada. Por conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam. Stepwise (backward) – Esta técnica é realizada da mesma forma que a anterior põem ao contrario desta, de trás para frente.

bem sintetizado

32. [2.000] (IP:281473653672857 | 22:05:19 | 11:47:26 | 42:07 | 2888.507) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Existem dois principais caminhos para a validação de modelos: o primeiro é o estudo

confirmatório que seria a montagem de um experimento extra para avaliar a confiabilidade do modelo. Esse método garante uma nova situação experimental e consequentemente uma nova variação do acaso, assim pode-se testar se as estimativas do modelo selecionado explica realmente o que acontecerá nesse novo experimento. No entanto a desvantagem deste é o alto custo. Uma alternativa de menor custo seria a implantação de um bloco extra no experimento para que os dados desse bloco sejam analisados separadamente. Com o modelo selecionado é feito um teste para correlacionar se as estimativas do modelo correspondem ao que acontecerá com o novo conjunto de dados, deve ser verificado o modelo com os dados separados e com os resultados dos novos dados. A principal desvantagem desse método, é que este apresenta as mesmas condições experimentais do conjunto de dados separados ao restante do tratamento que gerou o modelo. Se existir correlação entre o modelo e os novos dados, o modelo explica o que acontece com o novo conjunto de dados, o modelo pode ser generalizado para a população e se não existir a correlação o modelo é especifico para as amostras e não pode ser generalizado para explicar o que acontece na população.

ótimo

33. [2.000] (IP:281473653672857 | 22:05:26 | 22:20:03 | 14:37 | 10.116) Discuta o significado e possíveis implicações do AIC O Critério de informação de Akaike (AIC) é uma medida geral da qualidade de ajustamento

de modelos a partir da distância ou informação, onde esta distância é uma medida de discrepância entre as linhas do modelo verdadeiro e o modelo aproximado, em que os modelos são penalizados em função do número de parâmetros. Pode também ser usado como um procedimento para identificação de modelo estatístico ou modelo misto.

Page 29: implicações do AIC - lira.pro.br · do melhor modelo de regressão linear múltipla Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa uma

O AIC é definido como: AIC = 2 x (k-L) / N Onde, L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados (incluindo a constante). Quanto menor for o valor encontrado, mais o modelo explica com o menor custo em número de variáveis. O IAC considera como características, a qualidade da informação, a ligação entre as variáveis (como estas se correlacionam) e o número de variáveis aplicadas ao modelo. Este critério tende a penalizar modelos constituídos por muitas variáveis, dessa forma quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade.

excelente