Regress£o Linear Mltipla Rejane Sobrino Pinheiro T¢nia Guill©n de Torres

  • View
    105

  • Download
    0

Embed Size (px)

Text of Regress£o Linear Mltipla Rejane Sobrino Pinheiro T¢nia Guill©n de Torres

  • Slide 1
  • Regresso Linear Mltipla Rejane Sobrino Pinheiro Tnia Guilln de Torres
  • Slide 2
  • Regresso linear mltipla Introduo Pode ser vista como uma extenso da regresso simples Mais de uma varivel independente considerada. Lidar com mais de uma varivel mais difcil, pois: mais difcil escolher o melhor modelo, uma vez que diversas variveis candidatas podem existir mais difcil visualizar a aparncia do modelo ajustado, mais difcil a representao grfica em mais de 3 dimenses s vezes, difcil interpretar o modelo ajustado Clculos difceis de serem executados sem auxlio de computador
  • Slide 3
  • Exemplo: Supondo dados de peso, altura e idade de 12 crianas: A regresso mltipla pode ser usada para estudar o peso e sua variao em funo da altura e idade das crianas.
  • Slide 4
  • Modelo O modelo de Regresso Linear Mltipla representado pela equao: As constantes: 0, 1, 2,..., k, so os parmetros populacionais. Os estimadores so representadas por: Um exemplo de regresso linear mltipla pode ser dado a partir da incluso de um termo de ordem mais elevada, como X 2. Embora seja a mesma varivel (X), esta pode ser interpretada como uma segunda varivel (X 2 ).
  • Slide 5
  • Usos da Regresso Mltipla Ajustar dados: estudar o efeito de uma varivel X, ajustando ou levando em conta outras variveis independentes. Obter uma equao para predizer valores de Y a partir dos valores de vrias variveis X 1, X 2,...,X k. Explorar as relaes entre mltiplas variveis ( X 1, X 2,..., X k ) para determinar que variveis influenciam Y.
  • Slide 6
  • A soluo dos mnimos quadrados a que minimiza a soma dos quadrados dos desvios entre os valores observados e a superfcie de regresso ajustada.
  • Slide 7
  • Pressupostos da Regresso Linear Mltipla Os pressupostos da regresso linear simples podem ser estendidos para a regresso linear mltipla 1.Existncia: Para uma combinao especfica das variveis independentes X 1, X 2,...,X k, Y uma varivel aleatria com uma certa distribuio de probabilidade, com mdia e varincia finitas. 2.Independncia: As observaes de Y so estatisticamente independentes umas das outras. Este pressuposto violado quando mais de uma observao feita de um mesmo indivduo.
  • Slide 8
  • Pressupostos da Regresso Linear Mltipla (cont...) 3.Linearidade: O valor mdio de Y para cada combinao especfica de X 1, X 2,...,X k uma funo linear de X 1, X 2,...,X k. Ou componente de erro do modelo, refletindo a diferena entre o valor observado para um indivduo e a verdadeira resposta mdia para o conjunto de indivduos de mesmas caractersticas. A relao entre Y e X i linear ou bem aproximada por uma funo linear.
  • Slide 9
  • Pressupostos da Regresso Mltipla (cont...) 4. Homocedasticidade: A varincia de Y a mesma para qualquer combinao fixa de X 1, X 2,...,X k. Este pressuposto pode parecer muito restritivo. Heterocedasticidade deve ser considerada somente quando os dados apresentarem bvia e significante no homogeneidade das varincias. Em geral, no considerar a homocedasticidade no acarreta efeitos adversos nos resultados. 5. Amostra aleatria ou representativa da populao.
  • Slide 10
  • Pressupostos da Regresso Mltipla (cont...) 6. Normalidade: para uma combinao fixa de X 1, X 2,..., X k, a varivel Y tem distribuio normal. Y ~ N (, 2 ) Ou de modo equivalente ~N (0, 2 )
  • Slide 11
  • Pressupostos da Regresso Mltipla 7. Normalidade de Y Este pressuposto no necessrio para o ajuste do modelo usando os mnimos quadrados, mas importante para a realizao da inferncia. Os testes de hipteses paramtricos usuais e os clculos dos intervalos de confiana utilizados nas anlises de regresso so bastante robustos, de modo que somente em casos em que a distribuio de Y se afaste muito da distribuio normal os resultados gerados sero inadequados. No caso de no normalidade, transformaes matemticas de Y podem gerar conjunto de dados com distribuio aproximadamente normal (Log Y, Y); no caso de varivel Y categrica nominal ou ordinal, mtodos de regresso alternativos so necessrios (logstica - dados binrios, Poisson - dados discretos) A Homocedasticidade e a Normalidade se aplicam distribuio condicional de Y | X 1, X 2,...,X k
  • Slide 12
  • Determinando a melhor estimativa para o modelo de regresso mltipla A abordagem dos mnimos quadrados Minimiza a soma dos quadrados dos erros ou as distncias entre os valores observados (Y i ) e os valores preditos pelo modelo ajustado.
  • Slide 13
  • A soluo de mnimos quadrados consiste nos valores de (chamados de estimadores de mnimos quadrados) para os quais a soma da equao anterior mnima. Cada um dos estimadores uma funo linear dos valores de Y. Se os valores de Y so normalmente distribudos e so independentes entre si, os estimadores tero distribuio normal, com desvios padres facilmente computveis.
  • Slide 14
  • Exemplo: Supondo dados de peso, altura e idade de 12 crianas: A velocidade do efeito da idade diminui com o passar da idade Apresentar o efeito da idade para determinadas faixas: Peso 1 para crianas de X anos Peso 2 para crianas de Z anos X Z Peso1 - Peso2
  • Slide 15
  • Interpretao dos coeficientes O coeficiente apresentado na tabela refere-se ao coeficiente parcial da regresso e difere do da regresso simples considerando a relao de cada varivel independente em separado. O coeficiente expressa o aumento mdio em Y dado um aumento de 1 unidade de X, sem considerar o efeito de qualquer outra varivel independente (mantendo todos os outros fatores constantes). Para um aumento de 1 unidade na altura, h um aumento mdio de 0.724 no peso, para crianas de mesma idade.
  • Slide 16
  • O coeficiente da regresso padronizado Interesse em ordenar os coeficientes por grau de importncia na predio de Y. Difcil comparar os coeficientes da regresso para saber qual varivel independente possui maior associao com a varivel dependente Y, pois cada varivel est em uma unidade diferente. O coeficiente padronizado permite comparao da importncia de cada varivel para a predio de Y. Se X aumenta em 1 desvio padro (Sx), indo para x + Sx, ento Y aumentaria.Sx unidades. Caso seja desejado que o aumento em Y seja dado em desvios padres de Y, podemos dividir a expresso por S Y, para saber quantos desvios padres possui o termo.Sx.Sx/Sy O coeficiente padronizado da regresso (standard estimates) representa o aumento mdio em Y (expresso em unidades de desvio padro de Y) por um aumento de 1 desvio padro em X, depois de ajustado por todas as outras variveis do modelo
  • Slide 17
  • padronizado
  • Slide 18
  • Se fizermos grficos separados entre as diversas variveis, poderemos ter uma viso de pedaos ou projees da superfcie ajustada. Suponhamos que a superfcie seja um plano (relao linear entre todos os fatores).
  • Slide 19
  • A tabela ANOVA da Regresso Mltipla Como no modelo de Regresso Simples: SSY= SSR + SSE R 2 = (SSY-SSE)/SSY R 2 sempre cresce medida que mais variveis so includas no modelo. Um acrscimo muito pequeno em R 2 pode no apresentar importncia prtica ou importncia estatstica. Variao total no explicada = Variao devida regresso + variao residual no explicada
  • Slide 20
  • F crtico = F k,n-k-1,1- P = 0.0052
  • Slide 21
  • SSE SSY Aqui, trabalha-se com os dados originais
  • Slide 22
  • Modelo 1: PESO = 0 + 1 ALTURA + ^ 1 Modelo 1: PESO i = 6.1898 + 1.0722 ALTURA + i
  • Slide 23
  • Modelo 2: PESO = 0 + 1 IDADE +
  • Slide 24
  • Modelo 3: PESO = 0 + 1 ALTURA + 2 IDADE + O modelo 3 possui melhor ajuste dos 3 modelos apresentados (maior R 2 ).
  • Slide 25
  • Modelo 4: PESO = 0 + 1 ALTURA + 2 IDADE + 3 (IDADE) 2 + R 2 modelo 3 = 0.780 e R 2 modelo 4 = 0.7803 ==> 0.7803 0.780? Modelo 3 mais parcimonioso. Efito da colinearidade fx pequena de idade; e a relao deve ser uma reta
  • Slide 26
  • Teste de hiptese em Regresso Mltipla Uma vez que o modelo est ajustado, algumas questes com respeito ao ajuste e sobre a contribuio de cada varivel independente para a predio de Y so importantes. So 3 questes bsicas a serem respondidas: 1. Teste sobre a contribuio global de todas as variveis tratadas coletivamente, o conjunto completo das variveis (ou, equivalentemente, o modelo ajustado propriamente dito) contribui significativamente para a predio de Y? 2. Teste da adio de uma varivel a adio de uma varivel independente em particular melhora significativamente a predio de Y (a predio que foi alcanada pelas variveis j existentes no modelo)? 3. Teste sobre a incluso de um grupo de variveis a adio de um conjunto de variveis independentes melhora significativamente a predio de Y obtida pelas outras variveis j previamente includas no modelo?
  • Slide 27
  • Estas perguntas so tipicamente respondidas com a realizao de testes de hipteses. Os testes podem ser expressos via o teste F. Em alguns casos, este teste pode ser equivalentemente realizado usando-se o teste t. Todo teste F em regresso envolve uma razo de varincias estimadas MS = SS/graus de liberdade F crtico =F numerador, denominador, 1-nvel de significncia do teste
  • Slide 28
  • 1. Teste para o modelo global Um modelo contendo k variveis independentes como a seguir: A hiptese nula para este teste: "Todas as k variveis independentes consideradas conjuntamente no explicam significativa quantidade de variao de Y H 0 : 1 = 2 =... = k = 0