Modelos de Regressão com apoio computacional

Embed Size (px)

Citation preview

MODELOS DE REGRESSOcom apoio computacionalGilbertoA. PaulaInstitutodeMatemticaeEstatsticaUniversidadedeSoPauloe-mail:giapaula@ime.usp.brPrefcioAreademodelagemestatsticaderegressorecebeuumgrandeimpulsodesdeacriaodosmodeloslinearesgeneralizados(MLGs)noinciodad-cadade70. Ocrescenteinteressepelareamotivouarealizaodevriosencontros informais no incio dos anos 80, a maioria deles na Inglaterra, atque em 1986 foi realizado na cidade de Innsbruck na ustria o 1st Internati-onal Workshop on Statistical Modelling(1st IWSM). Esse encontro tem sidorealizadoanualmentesendoqueoltimo(25thIWSM)aconteceuemjulhode 2010 na Universidade de Glasgow, Esccia. O 26th IWSM ser realizadoemjulhode2011emValncia,Espanha. NoBrasilareacomeouefetiva-mente a se desenvolvera partirde meados dadcadade 80 e emparticularapsa1aEscoladeModelosdeRegresso(1EMR)realizadanaUniversi-dade de So Paulo em 1989. As demais escolas ocorreram desde ento a cadadoisanossendoquealtima(11EMR)foi realizadaemmarode2009nacidade de Recife, PE. A 12EMR ser realizada em maro de 2011 na cidadede Fortaleza, CE.Este texto comeou a ser desenvolvido a partir de 1994 quando a dis-ciplinaModelos Lineares Generalizados passou a ser ministrada regular-mente no programa de ps-graduao em Estatstica do IME-USP. Uma ver-sopreliminardestetextofoi publicadaem2004noIME-USP. Otextoidirecionadoparaalunosquetenhamcursadoumsemestredeinfernciaes-tatstica e que tenham conhecimentos de regresso linear. Portanto, trata-sede um segundo curso de modelagem estatstica de regresso com um enfoqueinferencial bsico e vrias aplicaes. O texto tem sido tambm utilizado nadisciplinaTpicos de RegressoministradaaosalunosdoltimoanodoBacharelado em Estatstica do IME-USP.No Captulo 1 introduzimos a classe dos modelos lineares generalizadosjuntamente com alguns conceitos bsicos. Em seguida discutimos a estimaodos parmetros, propriedades assintticas dos estimadores de mxima veros-similhana e a aplicao de alguns testes estatsticos mais conhecidos. Umareviso abrangente de mtodos de diagnstico apresentada na sequncia, emque denimos pontos de alavanca e discutimos anlise de resduos, mtodosde deleo de pontos e inuncia local, dentre outros procedimentos. Discu-timostambmaseleodemodelos. Semprequepossvel asmetodologiasso apresentadas em separado para os modelos normais lineares e posterior-mente estendidas para toda a classe dos MLGs. O captulo concludo coma anlise de 6 conjuntos de dados atravs de MLGs apropriados.OCaptulo2dedicadoaosmodeloscomrespostagamaerespostanormalinversaparaaanlisededadosassimtricospositivos. Inicialmenteabordamos os modelos com resposta gama e apresentamos alguns resultadosinferenciais e tcnicas de diagnstico. Trs conjuntos de dados so analisados.Emseguida,alguns modelos usualmente aplicadosem Econometria so dis-cutidos e um exemplo apresentado. Em seguida so discutidos modelos comresposta normal inversa, alguns resultados tericos so apresentados e 2 con-juntos de dados so analisados. No nal do captulo discutimos MLGs duplos,em que a mdia e a disperso so ajustados simultneamente. Apresentamoso processo de estimao conjunto, alguns procedimentos de diagnstico e umexemplo ilustrativo.NoCaptulo3discutimosmodelosparaaanlisededadosbinrios,iicom nfase para os modelos logsticos lineares. Inicialmente uma reviso deprocedimentostradicionaisparaaanlisedetabelasdecontigncia2 2apresentada. Duas aplicaes so descritas nesta primeira parte do captulo.Em seguida abordamos o modelo logstico linear. Alguns procedimentos sorevisados, tais como seleo de modelos, anlise de dados retrospectivos, qua-lidadedoajusteetcnicasdediagnstico. Quatroconjuntosdedadossoanalisados. Discutimos no nal do captulo modelos de dose-resposta, sobre-disperso e modelos logsticos aplicados na anlise de dados emparelhados emais quatro aplicaes so apresentadas.NoCaptulo4abordamosalgunsmodelosparaaanlisededadosdecontagem, comdestaqueparamodeloscomrespostadePoissonemodeloscomrespostabinomialnegativa. Inicialmenteapresentamosumarevisodemetodologiastradicionaisparaaanlisedatabelasdecontingnciadotipo22 com dados de contagem. Uma aplicao apresentada. Em seguida dis-cutimos modelos de Poisson para a anlise de dados de seguimento e modeloslog-linearesdePoisson. Doisexemplossoapresentados. Nasequnciasoderivadosmodeloscomrespostabinomial negativaparaaanlisededadosdecontagemcomsobredisperso. Umprocessoiterativoparaaestimaodos parmetros, resultados assintticos emetodologias dediagnsticosoapresentados, bem como 3 aplicaes. Finalmente, modelos log-lineares comresposta de Poissonso comparados commodelos log-lineares comrespostamultinomial, sendo 2 conjuntos de dados analisados.OCaptulo5dedicadoaosmodelosdequase-verossimilhanaesequaesdeestimaogeneralizadas. Iniciamosocaptulocomaintrodu-odoconceitodequase-verossimilhana. Emseguidasoapresentadososmodelos de quase-verossimilhana para respostas independentes juntamentecomoprocessodeestimao, alguns resultados assintticos etcnicas dediagnstico. Duasaplicaessoapresentadas. Nasequnciaderivamosasequaes de estimao generalizadas para a anlise de dados correlacionadosiiinogaussianos. Apresentamosoprocessodeestimao, algunsresultadosassintticos e metodologias de diagnstico. Esse subtpico ilustrado com 3aplicaes. NoApndiceAsodescritososconjuntosdedadosusadosnasaplicaes e nos exerccios propostos. Subrotinas para a gerao de envelopesem so apresentadas no Apndice B para os principais MLGs.Nonal decadacaptulosopropostosexercciostericoseaplica-doseaolongodotextosoapresentadosprogramasespeciaisesubrotinasemR,particularmentenaanlisedosexemplos. Procuramosdiversicarasaplicaes com conjuntos de dados das diversas reas do conhecimento, taiscomo Agricultura, Biologia, Cincias Atuariais, Cincias Sociais, Economia,Engenharia, Geograa, Medicina, Nutrio, Pesca e Odontologia. Parte dosconjuntosdedadossooriundosdetrabalhosdesenvolvidosnoCentrodeEstatstica Aplicada (CEA) do IME-USP.ApginanaWebondeestodisponveisinformaessobreestetexto,os conjuntos de dados utilizados nos exemplos e exerccios, alguns programasespeccos e uma apostila sobreR, est no seguinte endereo:http://www.ime.usp.br/giapaula/mlgs.html.Finalizando, gostaramos de agradecer aos alunos que cursaramasdisciplinasModelos Lineares GeneralizadoseTpicos de Regressoemuito contribuiram com suas sugestes para o aprimoramento dos primeirosmanuscritos.So Paulo, dezembro de 2010Gilberto A. Paulae-mail:[email protected] ModelosLinearesGeneralizados 11.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Denio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . 51.3 Ligaes cannicas . . . . . . . . . . . . . . . . . . . . . . . . 71.3.1 Outras ligaes . . . . . . . . . . . . . . . . . . . . . . 81.4 Funo desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4.1 Resultados assintticos . . . . . . . . . . . . . . . . . . 151.4.2 Anlise do desvio . . . . . . . . . . . . . . . . . . . . . 161.5 Funo escore e informao de Fisher . . . . . . . . . . . . . . 201.5.1 Escore e Fisher para . . . . . . . . . . . . . . . . . . 201.5.2 Escore e Fisher para . . . . . . . . . . . . . . . . . . 221.5.3 Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 221.5.4 Casos particulares . . . . . . . . . . . . . . . . . . . . . 231.6 Estimao dos parmetros . . . . . . . . . . . . . . . . . . . 251.6.1 Estimao de . . . . . . . . . . . . . . . . . . . . . 251.6.2 Estimao de . . . . . . . . . . . . . . . . . . . . . . 261.6.3 Distribuio assinttica . . . . . . . . . . . . . . . . . . 271.7 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . . . . 28vSUMRIO1.7.1 Hipteses simples . . . . . . . . . . . . . . . . . . . . . 281.7.2 Modelos encaixados. . . . . . . . . . . . . . . . . . . . 321.7.3 Modelo de anlise de varincia . . . . . . . . . . . . . . 371.7.4 Regresso linear simples . . . . . . . . . . . . . . . . . 381.7.5 Hipteses restritas . . . . . . . . . . . . . . . . . . . . 391.8 Bandas de conana . . . . . . . . . . . . . . . . . . . . . . . 401.8.1 Modelo normal linear. . . . . . . . . . . . . . . . . . . 401.8.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 411.9 Tcnicas de diagnstico: Modelo normal linear. . . . . . . . . 411.9.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 411.9.2 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 451.9.3 Resduos. . . . . . . . . . . . . . . . . . . . . . . . . . 481.9.4 Outra interpretao parati. . . . . . . . . . . . . . . 511.9.5 Inuncia . . . . . . . . . . . . . . . . . . . . . . . . . 521.9.6 Ilustrao . . . . . . . . . . . . . . . . . . . . . . . . . 551.9.7 Inuncia local . . . . . . . . . . . . . . . . . . . . . . 561.9.8 Grco da varivel adicionada . . . . . . . . . . . . . . 631.9.9 Tcnicas grcas . . . . . . . . . . . . . . . . . . . . . 641.10 Tcnicas de diagnstico: Extenso para os MLGs . . . . . . . 661.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 661.10.2 Resduos. . . . . . . . . . . . . . . . . . . . . . . . . . 681.10.3 Inuncia . . . . . . . . . . . . . . . . . . . . . . . . . 721.10.4 Inuncia local . . . . . . . . . . . . . . . . . . . . . . 731.10.5 Grco da varivel adicionada . . . . . . . . . . . . . . 751.10.6 Tcnicas grcas . . . . . . . . . . . . . . . . . . . . . 761.11 Seleo de modelos . . . . . . . . . . . . . . . . . . . . . . . . 771.11.1 Modelo normal linear. . . . . . . . . . . . . . . . . . . 771.11.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 791.12 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80viSUMRIO1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 801.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 851.12.3 Sobrevivncia de bactrias . . . . . . . . . . . . . . . . 881.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 901.12.5 Consumo de combustvel . . . . . . . . . . . . . . . . . 941.12.6 Salrio de executivos . . . . . . . . . . . . . . . . . . . 971.13 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1042 ModelosparaDadosPositivosAssimtricos 1142.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1142.2 Distribuio gama . . . . . . . . . . . . . . . . . . . . . . . . . 1152.3 Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 1182.3.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 1192.3.2 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 1202.4 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1212.4.1 Comparao de cinco tipos de turbina de avio . . . . 1212.4.2 Espinhel de fundo. . . . . . . . . . . . . . . . . . . . . 1272.4.3 Aplicao em seguros. . . . . . . . . . . . . . . . . . . 1362.5 Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1422.5.1 Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 1432.5.2 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 1442.6 Distribuio normal inversa . . . . . . . . . . . . . . . . . . . 1462.7 Modelos com resposta normal inversa . . . . . . . . . . . . . . 1492.7.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 1492.7.2 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 1492.8 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1502.8.1 Comparao de cinco tipos de snack . . . . . . . . . . 1502.8.2 Projeo de vendas . . . . . . . . . . . . . . . . . . . . 1582.9 Modelagem simultnea da mdia e da disperso . . . . . . . . 160viiSUMRIO2.9.1 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 1632.9.2 Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 1652.9.3 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 1682.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1713 ModelosparaDadosBinrios 1783.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1783.2 Mtodos clssicos: uma nica tabela2 2 . . . . . . . . . . . 1793.2.1 Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 1803.2.2 Modelo probabilstico no condicional . . . . . . . . . . 1823.2.3 Modelo probabilstico condicional . . . . . . . . . . . . 1833.2.4 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 1873.3 Mtodos clssicos: ktabelas2 2. . . . . . . . . . . . . . . . 1903.3.1 Estimao da razo de chances comum. . . . . . . . . 1913.3.2 Testes de homogeneidade . . . . . . . . . . . . . . . . . 1923.4 Mtodos clssicos: tabelas2 k. . . . . . . . . . . . . . . . . 1943.5 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1963.5.1 Associao entre fungicida e desenvolvimento de tumor 1963.5.2 Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 1983.6 Regresso logstica linear . . . . . . . . . . . . . . . . . . . . . 1993.6.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 1993.6.2 Regresso logstica simples . . . . . . . . . . . . . . . . 2003.6.3 Regresso logstica mltipla . . . . . . . . . . . . . . . 2043.6.4 Bandas de conana . . . . . . . . . . . . . . . . . . . 2053.6.5 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 2063.6.6 Amostragem retrospectiva . . . . . . . . . . . . . . . . 2103.6.7 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 2123.6.8 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 2133.6.9 Aplicaces . . . . . . . . . . . . . . . . . . . . . . . . . 215viiiSUMRIO3.6.10 Modelos de dose-resposta . . . . . . . . . . . . . . . . . 2293.6.11 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 2313.6.12 Estimao da dose letal . . . . . . . . . . . . . . . . . 2383.6.13 Modelos de retas paralelas . . . . . . . . . . . . . . . . 2393.6.14 Sobredisperso . . . . . . . . . . . . . . . . . . . . . . 2423.6.15 Modelo logstico condicional . . . . . . . . . . . . . . . 2543.7 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2624 ModelosparaDadosdeContagem 2754.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2754.1.1 Mtodos clssicos: uma nica tabela2 2 . . . . . . . 2764.1.2 Estraticao: ktabelas2 2. . . . . . . . . . . . . . 2824.2 Modelos de Poisson. . . . . . . . . . . . . . . . . . . . . . . . 2844.2.1 Propriedades da Poisson . . . . . . . . . . . . . . . . . 2844.2.2 Modelos log-lineares: ktabelas2 2 . . . . . . . . . . 2854.2.3 Modelos gerais de Poisson . . . . . . . . . . . . . . . . 2894.2.4 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 2914.2.5 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 2924.2.6 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 2934.3 Modelos com resposta binomial negativa . . . . . . . . . . . . 2974.3.1 Distribuio binomial negativa . . . . . . . . . . . . . . 2974.3.2 Modelos de regresso com resposta binomial negativa . 2994.3.3 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 3034.3.4 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 3044.3.5 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 3054.3.6 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 3064.3.7 Sobredisperso e quase-verossimilhana. . . . . . . . . 3154.4 Relao entre a multinomial e a Poisson . . . . . . . . . . . . 3194.4.1 Modelos log-lineares hierrquicos . . . . . . . . . . . . 322ixSUMRIO4.4.2 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 3244.5 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 3304.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3305 ModelosdeQuase-Verossimilhana 3395.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3395.2 Respostas independentes . . . . . . . . . . . . . . . . . . . . . 3425.2.1 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 3465.3 Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 3535.4 Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 3555.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3595.5.1 Ataques epilpticos . . . . . . . . . . . . . . . . . . . . 3595.5.2 Condio Respiratria . . . . . . . . . . . . . . . . . . 3655.5.3 Placas dentrias . . . . . . . . . . . . . . . . . . . . . . 3685.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371xCaptulo1ModelosLinearesGeneralizados1.1 IntroduoDurantemuitosanososmodelosnormaislinearesforamutilizadosnaten-tativadedescreveramaioriadosfenmenosaleatrios. Mesmoquandoofenmeno sob estudo no apresentava uma resposta para a qual fosse razo-vel asuposiodenormalidade, algumtipodetransformaoerasugeridaa m de alcanar a normalidade procurada. Provavelmente a transformaomais conhecida foi proposta por Box e Cox (1964), a qual transforma o valorobservadoy(positivo) emz=_y1se = 0logy se = 0,sendoumaconstantedesconhecida. OobjetivodatransformaodeBoxeCox, quandoaplicadaaumconjuntodevalores observados, produziraproximadamenteanormalidade, aconstnciadevarinciaetambmali-nearidadeE(Z)=, emque=1 + 2x2 + + pxp. Noentanto, isso11.1 Introduoraramente ocorre para um nico valor de (Box e Draper, 1987).Comodesenvolvimentocomputacionalocorridonadcadade70, al-gunsmodelosqueexigiamautilizaodeprocessositerativosparaaesti-maodosparmetroscomearamasermaisaplicados, comoporexemploomodelonormal nolinear. Todavia, apropostamaisinteressanteepo-demos dizer inovadora no assunto foi apresentada por Nelder e Wedderburn(1972),quepropuseramosmodeloslinearesgeneralizados(MLGs). Aideiabsicaconsisteemabrirolequedeopesparaadistribuiodavarivelresposta,permitindo que a mesma pertena famlia exponencialde distri-buies, bemcomodarmaiorexibilidadeparaarelaofuncionalentreamdiadavarivelrespostaeopreditorlinear. Assim,porexemplo,paradadosdecontagem, emvezdeaplicarmosatransformao ynosentidodebuscarmosanormalidadedosdadoseconstnciadevarincia,podemossuporqueadistribuiodeY Poissonequearelaofuncional entreamdia deY e o preditorlinear dadaporlog =. Essa relao funcionalconveniente, umavezquegaranteparaquaisquervaloresdosparmetrosdo preditor linear um valor positivo para. Similarmente, para propores,podemos pensar nadistribuiobinomial paraarespostaenumarelaofuncional do tipo log{/(1 )}, em que a proporo esperada de suces-sos. Nelder e Wedderburn propuseram tambm um processo iterativo para aestimao dos parmetros e introduziram o conceito de desvio que tem sidolargamenteutilizadonaavaliaodaqualidadedoajustedosMLGs, bemcomo no desenvolvimento de resduos e medidas de diagnstico.Inmeros trabalhos relacionados com modelos lineares generalizados fo-ram publicados desde 1972. Um aplicativo, GLIM (Generalized Linear Interac-tive Models) (ver Aitkin et al., 1989), foi desenvolvido para o ajuste dos MLGsehojeoutrosaplicativos, taiscomooS-Plus(http://www.insightful.21.1 Introduocom),R(http://www.r-project.org),SAS(http://www.sas.com),STATA(http://www.stata.com), MATLAB (http://www.mathworks.com) e SUDAAN(http://www.rti.org/sudaan) apresentam rotinas para o ajuste dos MLGs.Os modelos de quase-verossimilhana, que estendem a ideia dos MLGsparasituaesmaisgeraisincluindodadoscorrelacionados, forampropos-tos por Wedderburn(1974). Os modelos de disperso(Jrgensen, 1983)ampliamolequedeopesparaadistribuiodavarivel resposta. LiangeZeger(1986)estendemosmodelosdequase-verossimilhanapropondoasequaesdeestimaogeneralizadas(EEGs)quepermitemoestudodeva-riveis aleatrias correlacionadas no gaussianas. Os modelos no lineares defamliaexponencial(CordeiroePaula,1989eWei,1998)admitempreditornolinearnosparmetros. Temosaindaosmodelosaditivosgeneralizados(Hastie e Tibshirani, 1990) que supem preditor linear formado tambm porfunessemiparamtricaseosmodeloslinearesgeneralizadosmistos(Bres-low e Clayton, 1993 e McCulloch e Searle, 2001) que admitem a incluso deefeitos aleatrios gaussianos no preditor linear. Recentemente, Lee e Nelder(1996, 2001) estenderam o trabalho de Breslow e Clayton propondo modeloslineares generalizados hierrquicos em que o preditor linear pode ser formadoporefeitosxoseefeitosaleatriosnogaussianos. Muitosdessesresulta-dossodiscutidosnolivrodeLee, NelderePawitan(2006). ExtensesdeMLGs para sries temporais,anlise de dados de sobrevivncia,modelos deespao de estado e outros modelos multivariados so descritas, por exemplo,em Fahrmeir e Tutz (2001). Referncias de texto no assunto so os livros deMcCullagh e Nelder (1989) e Cordeiro (1986).Nestecaptulointroduzimososmodeloslinearesgenralizadoseapre-sentamosvriosresultadosrelacionadoscomestimao, testedehipteses,mtodos de diagnstico e seleo de modelos na classe dos MLGs.31.2 Denio1.2 DenioSejamY1, . . . , Ynvariveisaleatriasindependentes, cadaumacomfunodensidade ou funo de probabilidades na forma dada abaixof(yi; i, ) = exp[{yiib(i)} + c(yi, )]. (1.1)Podemos mostrar sob as condies usuais de regularidadeE_logf(Yi; i, )i_= 0 eE_2logf(Yi; i, )2i_= E__logf(Yi; i, )i_2_,i, queE(Yi) =i=b(i)eVar(Yi) =1V (i), emqueVi=V (i) =di/di a funo de varincia e 1> 0 o parmetro de disperso. A fun-odevarinciadesempenhaumpapel importantenafamliaexponencial,uma vez que a mesma caracteriza a distribuio. Isto , dada a funo de vari-ncia, tem-se uma classe de distribuies correspondentes, e vice-versa. Essapropriedade permite a comparao de distribuies atravs de testes simplespara a funo de varincia. Para ilustrar, a funo de varincia denida porV ()=(1 ),00e()=_0t1etdtafunogama. Logo,fazendo = 1/, b() = log() e c(y, ) = (1)logy +loglog()obtemos (1.1).Para 0 < < 1 a densidade da gama tem uma pole na origem e decrescemonotonicamente quando y . A exponencial um caso especial quando=1. Para>1afunodensidadeassumezeronaorigem, temummximoemy= /edepoisdecresceparay . A2kumoutrocasoespecial quando=k/2e =k. Adistribuionormal obtidafazendo . Isto , quando grandeY N(, 1V ()). Temos que = E2(Y )/Var(Y ) o inverso do coeciente de variao deYao quadrado,ou seja, = 1/(CV )2, em que CV=_Var(Y)/E(Y ). A funo de varinciada gama dada porV () = 2.61.3 Ligaes cannicasNormalinversaSejaYuma varivel aleatria com distribuio normal inversa de mdia eparmetrodeforma,denotadaporYNI(, )ecujafunodensidade dada por1/2_2y3exp_(y )222y_= exp__y22+1_12_log(2y3/) +y__,emquey>0, >0. Fazendo = 122, b() = (2)1/2ec(y, ) =12log{/(2y3)}2yobtemos (1.1). A normal inversa se aproxima da normalquando . Ouseja,paragrandetemosqueYN(, 1V ()). Afuno de varincia ca aqui dada porV () = 3.Na Tabela 1.1 apresentamos um resumo dessas distribuies.Tabela1.1Principais distribuies pertencentes famlia exponencial.Distribuio b() V ()Normal 2/2 21Poisson elog 1 Binomial log(1 + e) log{/(1 )} n (1 )Gama log() 1/ 1/(CV )22N.Inversa 2 1/22 31.3 LigaescannicasSupondo conhecido, o logaritmo da funo de verossimilhana de um MLGcom respostas independentes pode ser expresso na formaL() =n

i=1{yiib(i)} +n

i=1c(yi, ).Um caso particular importante ocorre quando o parmetro cannico () coin-cide com o preditor linear,isto ,quandoi= i=

pj=1xijj. Nesse caso,71.3 Ligaes cannicasL() ca dado porL() =n

i=1{yip

j=1xijjb(p

j=1xijj)} +n

i=1c(yi, ).Denindo a estatstica Sj=

ni=1Yixij, L() ca ento reexpresso na formaL() =p

j=1sjjn

i=1b(p

j=1xijj) +n

i=1c(yi, ).Logo, pelo teorema da fatorizao a estatstica S = (S1, . . . , Sp)T sucienteminimal para o vetor = (1, . . . , p)T. As ligaes que correspondem a taisestatsticassochamadasdeligaescannicasedesempenhamumpapelimportantenateoriados MLGs. As ligaes cannicas mais comuns sodadas abaixo.Distribuio Normal Binomial Poisson Gama N. InversaLigao = log_1_= log = 1= 2= UmadasvantagensdeusarmosligaescannicasqueasmesmasgarantemaconcavidadedeL()econsequentementemuitosresultadosas-sintticos so obtidos mais facilmente. Por exemplo, a concavidade deL()garante a unicidade da estimativa de mxima verossimilhana de, quandoessaexiste. ParaligaesnocannicasWedderburn(1976)discutecondi-es para a existncia da concavidade deL().1.3.1 OutrasligaesLigaoprobitoSejaaproporodesucessos deumadistribuiobinomial. Aligaoprobito denida por1() = ,em que() a funo de distribuio acumulada da normal padro.81.3 Ligaes cannicasLigaocomplementolog-logA distribuio do valor extremo (logaritmo da exponencial) tem funo den-sidade dada porf(y) = exp{y exp(y)},emque 0ei= log i. Assim,D(y; ) = 2n

i=1{yilog(yi/ i) (yi i)}.Seyi= 0 oi-simo termo deD(y; ) vale2 i. Resumindo, temos o seguinteresultado para o modelo de Poisson:d2(yi; i) =_2{yilog(yi/ i) (yi i)} se yi> 0;2 ise yi= 0.BinomialNocasobinomial emqueassumimosYi B(ni, i), i=1, . . . , k, obtemosi=log{yi/(ni yi)}ei=log{ i/(1 i)}para0 PS,avarivelcorrespondentesaido modelo. Vamos suporqueX1tenho sado do modelo. Ento,ajustamoso modelo = + 2x2 + + qxq.Testamos H0: j=0contraH1: j=0paraj =2, . . . , q. SejaPomaiornveldescritivodentreos(q 1)testes. SeP > PS, entoavarivelcorrespondentesai domodelo. RepetimosoprocedimentoatqueocorraP PS.Mtodostepwise uma mistura dos dois procedimentos anteriores. Iniciamos o processo comomodelo=. Apsduasvariveisteremsidoincludasnomodelo, ve-ricamos seaprimeiranosai domodelo. Oprocessocontinuaatquenenhuma varivel seja includa ou seja retirada do modelo. Geralmente ado-tamos0, 15 PE, PS 0, 25. Uma sugesto seria usarPE= PS= 0, 20.781.11 Seleo de modelosMtododeAkaikeO mtodo proposto por Akaike (1974) basicamente se diferencia dos procedi-mentos anteriores por ser um processo de minimizao que no envolve testesestatsticos. A ideia bsica selecionarmos um modelo que seja parcimonioso,ou em outras palavras, que esteja bem ajustado e tenha um nmero reduzidode parmetros. Como o logaritmo da funo de verossimilhanaL() crescecom o aumento do nmero de parmetros do modelo, uma proposta razovelseria encontrarmos o modelo com menor valor para a funoAIC = L() + p,em que p denota o nmero de parmetros. No caso do modelo normal linearpodemos mostrar queAIC ca expresso, quando 2 desconhecido, na formaAIC = nlog{D(y; )/n} + 2p,em queD(y; ) =

ni=1(yi i)2.1.11.2 ExtensoparaosMLGsOs mtodos deseleodemodelos descritos naseoanterior podemserestendidosdiretamenteparaosMLGs. Algumasobservaes, contudo, sonecessrias. NoscasosderegressologsticaedePoissonotestedarazodeverossimilhanas, pelofatodeserobtidopeladiferenadeduasfunesdesvio, aparececomoomaisindicado. Paraoscasosderegressonormal,normal inversaegamaotesteF, por noexigir aestimativademximaverossimilana do parmetro de disperso, o mais indicado. Isso no impedeque outros testes sejam utilizados. J o mtodo de Akaike pode ser expressonumaformamaissimplesemfunododesviodomodelo. Nessecaso, ocritrio consiste em encontrarmos o modelo tal que a quantidade abaixo seja791.12 AplicaesminimizadaAIC = D(y; ) + 2p,emque D(y; ) denota o desvio do modelo e p o nmero de parme-tros. OsmtodosstepwiseedeAkaikeestodisponveisnoR. Omtodostepwise est disponvel apenas para modelos normais lineares. O comandostepwisedenidoporstepwise(Xvar, resposta),emqueXvardenotaamatrizcomosvaloresdasvariveisexplicativaserespostadenotaove-torcomasrespostas. PararodarmosocritriodeAkaikeprecisamosusarantesocomandorequire(MASS).UmamaneiradeaplicarmosocritriodeAkaike partindo do maior modelo cujos resultados so guardados no objetofit.model. Da, ento, devemos usar o comandostepAIC(fit.model).1.12 Aplicaes1.12.1 EstudoentrerendaeescolaridadeOconjuntodedadosdescritonaTabela1.6,extradodocensodoIBGE de2000, apresenta para cada unidade da federao o nmero mdio de anos deestudoearendamdiamensal (emreais)dochefeouchefesdodomiclio.Esses dados esto tambm armazenados no arquivocenso.dat. Para lermosos dados no R e coloc-los num arquivo com o mesmo nome externo, devemosfazercenso.dat = scan(censo.dat, what=list(uf= ,escolar=0, renda=0)).Propomosinicialmenteummodelonormal linear simplesemqueYdenote a renda eXa escolaridade. O modelo ca portanto dado poryi= + xi + i, i = 1, . . . , 27,801.12 Aplicaescomasuposiodequei N(0, 2),sendooserrosmutuamenteindepen-dentes. Estamos supondo que a amostra da Tabela 1.6 um corte transversal,isto,asinformaessobrerendaeescolaridadedasunidadesdafederaoso referentes a um determinado instante do tempo. Nesse caso, os erros sodevidos variabilidade da renda (dada a escolaridade) nos diversos instantesdo tempo. Assumimos que a relao funcional entreyiexi a mesma numdeterminado intervalo do tempo.Tabela1.6Escolaridade e renda mdiadomiciliar no Brasil em 2000.RR 5,7 685 AP 6,0 683AC 4,5 526 RO 4,9 662PA 4,7 536 AM 5,5 627TO 4,5 520 PB 3,9 423MA 3,6 343 RN 4,5 513SE 4,3 462 PI 3,5 383BA 4,1 460 PE 4,6 517AL 3,7 454 CE 4,0 448SP 6,8 1076 RJ 7,1 970ES 5,7 722 MG 5,4 681SC 6,3 814 RS 6,4 800PR 6,0 782 MT 5,4 775GO 5,5 689 MS 5,7 731DF 8,2 1499As estimativas dos parmetros (erro padro) so dadas por = 381, 28(69, 40) e= 199, 82(13, 03), indicando que o coeciente angular da reta altamente signicativo. Essa estimativa pode ser interpretada como o incre-mentoesperadonarendamdiadomiciliardeumaunidadedafederaoseotempodeescolaridademdiodomiciliarnaquelaunidadeforacrescidode811.12 AplicaesEscolaridadeRenda3 4 5 6 7 820060010001400(a)IndiceMedida h0 5 10 15 20 250.00.100.200.30(b)DFIndiceDistancia de Cook0 5 10 15 20 25012345(c)DFValores AjustadosResiduo Studentizado400 600 800 1000 1200-20246(d)DFFigura 1.5: Reta ajustada do modelo aditivo-normal e grcos de diagnsticopara o exemplo sobre renda e escolaridade.um ano.Aestimativadedadapors=77, 22, enquantoqueocoecientededeterminaofoi deR2=0, 904. Oajustedomodeloeaexibiodosresultados podem ser obtidos com os comandos abaixoattach(censo.dat)fit1.censo = lm(renda escolar)summary(fit1.censo).Ou,alternativamente,transformandooarquivocenso.datnumarquivodotipodata.frame, atravs dos comandoscenso.dat = data.frame(censo.dat)821.12 Aplicaesfit1.censo = lm(renda escolar, data=censo.dat)summary(fit1.censo).EscolaridadeRenda3 4 5 6 7 820060010001400(a)Valores AjustadosMedida h400 600 800 1000 14000.00.100.200.30(b)DFIndiceDistancia de Cook0 5 10 15 20 250.00.20.4(c)MAValores AjustadosComponente do Desvio400 600 800 1000 1400-3-2-10123(d)Figura1.6: Curvaajustadadomodelomultiplicativo-gamae grcos dediagnstico para o exemplo sobre renda e escolaridade.PelaFigura1.5ondesoapresentadosalgunsgrcosdediagnstico,alm da reta ajustada aos dados, notamos uma forte discrepncia do DistritoFederal queaparececomopontodealavanca, inuenteeaberrante. Almdisso, notamos pela Figura 1.5d indcios de heteroscedasticidade, ou seja, umaumento da variabilidade com o aumento da escolaridade. Isso pode tambmsernotadonaFigura1.5a. Assim,podemosproporummodeloalternativo,831.12 Aplicaespor exemplo, com efeitos multiplicativos conforme dado abaixoi= e+xiei, i = 1, . . . , 27,comasuposiodequei G(1, ), sendooserrosmutuamenteindepen-dentes. Podemos ajustar esse modelo noR atravs dos comandosfit2.censo = glm(renda escolar, family=Gamma(link=log))summary(fit1.censo).Tabela1.7Estimativas de algumas quantidades com todos os pontos e quandoas observaes mais discrepantes so excludas do modelo gama.Estimativa Com todos Excludo Excludo Excludosos pontos DF MA DF e MA 4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077) 0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015) 192(52) 188(52) 223(62) 223(63)NaFigura1.6temosoajustedomodelogamaaosdadosbemcomoalgunsgrcosdediagnsticoquedestacamDFcomopontodealavancaeMA como ponto inuente.NaTabela1.7temosumaanliseconrmatriaevericamospoucasvariaes nas estimativas dos parmetros com a eliminao dessas unidadesdafederao. Finalmente, naFigura1.7temososgrcosnormaisdepro-babilidades para os modelos com efeitos aditivos (Figura 1.7a) e com efeitosmultiplicativos(Figura1.7b)enotamosumamelhoracomodaoedistri-buiodospontosdentrodoenvelopegeradonosegundocaso. Pelovalor841.12 AplicaesPercentis da N(0,1)Residuo Studentizado-2 -1 0 1 2-2024(a)Percentis da N(0,1)Residuo Studentizado-2 -1 0 1 2-3-2-10123(b)Figura1.7: Grcosnormaisdeprobabilidadesparaosmodelosajustadosaditivo-normal (a) e multiplicativo-gama (b) aos dados sobre renda e escola-ridade.daestimativadoparmetrodedispersoconclumos queomodelogamaaproxima-se bem de um modelo normal heteroscedstico.Portanto, o modelo nal ajustado ca dado por y= e4,98+0,28x.Desse modelo podemos extrair a seguinte intrepretao: e= e0,28= 1, 32(32%) o aumento relativo esperado para a renda se aumentarmos em 1 ano a es-colaridade mdia.1.12.2 ProcessoinfecciosopulmonarUtilizaremos agora os dados referentes a um estudo de caso-controle realizadonoSetordeAnatomiaePatologiadoHospitalHelipolisemSoPaulo,noperodode 1970a1982(Paulae Tuder, 1986) (ver arquivo canc3.dat).Umtotal de 175pacientes comprocessoinfeciosopulmonar atendidonohospital no perodo acima foi classicado segundo as seguintes variveis: Y,851.12 Aplicaestipodetumor(1: maligno,0: benigno);IDADE,idadeemanos;SEXO(0:masculino, 1: feminino); HL, intensidadedaclulahisticitos-linfcitos(1:ausente, 2: discreta, 3: moderada, 4: intensa)eFF, intensidadedaclulabrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). Para ler osdados do arquivocanc3.dat e armazen-los num arquivo do R com o mesmonome, fazemoscanc3.dat = scan(canc3.dat, what=list(tipo=0, idade=0, sexo=0,hl=0, ff=0)).Devemos informar o sistema que as variveis SEXO, HL e FF so qualitativas,isto , devemos transform-las em fatores. Os comandos so os seguintes:attach(canc3.dat)sexo = factor(sexo)sexo = C(sexo,treatment)hl = factor(hl)hl = C(hl,treatment)ff = factor(ff)ff = C(ff,treatment).OcomandoC(sexo,treatment), queoptativo, criaumavarivel binriaque assume valor zero para o sexo masculino e valor um para o sexo feminino.Analogamente,o comandoC(hl,treatment)cria variveis binrias para osnveisdiscreto, moderadoeintensodofatorHL. OmesmofazocomandoC(ff,treatment)paraofatorFF. Essamaneiradetransformarmostodofator de k nveis em k1 variveis binrias, denominado casela de referncia, padro em MLGs, porm pode no ser a modelagem mais conveniente emoutras situaes de interesse prtico. A casela de referncia seria, nesses doiscasos, o nvel ausente.Vamos considerar, como exemplo, a aplicao do modelo logstico ape-861.12 Aplicaesnas com os efeitos principaisPr{Y= 1 | } = {1 + exp()}1,emque=1+ 2IDADE + 3SEXO +

4i=14iHLi+

4i=15iFFi, comSEXO, HLie FFisendovariveis binrias correspondentes aos nveis deSEXO, HLeFF, respectivamente. Assumimosque41=51=0. Umaobservaoimportantequedevidoaofatodaamostragemtersidoretros-pectiva, o uso do modelo acima para fazermos previses somente vlido secorrigirmosaestimativadaconstante, 1(ver, porexemplo, McCullagheNelder, 1989, p. 113). DiscutimosissonaSeo3.6.6. Paraajustarmosomodelo acima, os passos so dados abaixofit1.canc3 = glm( tipo sexo + idade + hl + ff,family=binomial)summary(fit1.canc3).Tabela1.8Estimativas dos parmetros referentes ao modelo logstico ajustado aos dadossobre processo infeccioso pulmonar.Efeito Estimativa Efeito Estimativa Efeito EstimativaConstante -1,850(1,060) HL(2) -0,869(0,945) FF(2) -0,687(0,502)Sexo 0,784(0,469) HL(3) -2,249(0,968) FF(3) -1,025(0,525)Idade 0,065(0,013) HL(4) -3,295(1,466) FF(4) 0,431(1,123)As estimativas dos parmetros (erro padro aproximado) so apresen-tadas na Tabela 1.8. O desvio do modelo foi de D(y; ) = 157, 40 (166 grausdeliberdade),indicandoumajusteadequado. Comopodemosobservar,hindciosdequeachancedeprocesssoinfeciosomalignosejamaiorparaosexo feminino do que para o sexo masculino. Notamos tambm que a chancede processo maligno aumenta signicativamente com a idade e h indicaes871.12 Aplicaesde que tanto para a clula FF quanto para HL a chance de processo malignodiminui medidaqueaumentaaintensidadedaclula. Esseexemploserreanalizado no Captulo 3.1.12.3 SobrevivnciadebactriasDescrevemos na Tabela 1.9 (Montgomery, Peck e Vining, 2001, pgs. 201-202)o nmero de bactrias sobreviventes em amostras de um produto alimentciosegundo o tempo (em minutos) de exposio do produto a uma temperaturade300oF.Tabela1.9Nmero de bactrias sobreviventes e tempo de exposio.Nmero 175 108 95 82 71 50 49 31 28 17 16 11Tempo 1 2 3 4 5 6 7 8 9 10 11 12NaFigura1.8aapresentamosogrcodonmerodebactriassobre-viventescontraotempodeexposio. Notamosumatendnciadecrescenteequadrtica. Supondoqueasamostrasdoprodutoenlatadosubmetidostemperatura de 300oFtm o mesmo tamanho, podemos pensar, em princpio,queYi P(i), comYidenotandoonmerodebactriassobreviventesnai-simaamostrai=1, . . . , n. Comoparaigranderazovel assumirmosqueYisegueumadistribuioaproximadamentenormal (verSeo4.2.1),propomos inicialmente os seguintes modelos:yi= + tempoi + ieyi= + tempoi + tempo2i+ i,emquei N(0, 2). AsestimativasdosparmetrossoapresentadasnaTabela 1.10. Pelos grcos de envelope (Figuras 1.8b e 1.8c) notamos indciosdequeadistribuiodoserrospodeestarincorrretamenteespecicada. A881.12 Aplicaesmaioriados resduos assumevalor negativo. Notamos apresenadeumponto aberrante, observao #1. Uma outra tentativa seria aplicar respostaatransformaoraizquadradaqueconhecidanocasodaPoissoncomoestabilizadora da varincia alm de manter a aproximao normal (ver Seo4.2.1). Logo, podemos pensar em adotar os seguintes modelos alternativos:yi= + tempoi + ieyi= + tempoi + tempo2i+ i,emquei N(0, 2). AsestimativasdosparmetrossoapresentadasnaTabela 1.10.Tabela1.10Estimativas de algumas quantidades para os modelos com respostatransformada ajustados aos dados sobre sobrevivncia de bactrias.Parmetro Linear-Y Quadrtico-Y Linear-Y Quadrtico-Y 142,20(11,26) 181,20(11,64) 12,57(0,38) 13,64(0,51) -12,48(1,53) -29,20(4,11) -0,82(0,05) -1,27(0,18) 1,29(0,31) 0,04(0,01)R286,9% 95,5% 96,1% 97,8%Notamos uma melhora na qualidade do ajuste, particularmente no se-gundocaso. Porm, aindahindciospelosgrcosdeenvelope(Figuras1.8d e 1.8e) de violao nas suposies para os modelos, alm da presena daobservao #1 como ponto aberrante. Decidimos, ento, propor um modelolog-linear de Poisson em que assumimosYi P(i) e logi= + tempoi.As estimativas dos parmetros so apresentadas na Tabela 1.11.891.12 AplicaesTabela1.11Estimativas dos parmetros do modelode Poisson ajustado aos dados sobresobrevivncia de bactrias.Parmetro Estimativa E/E.Padro 5,30 88,34 -0,23 -23,00Desvio 8,42 (10 g.l.)Pelo grco de envelope (Figura 1.8f) no h evidncias de que o mo-delo esteja mal ajustado. Notamos tambm que a observao #1 foi acomo-dadadentrodoenvelopegerado. Parece,portanto,queesseltimomodelo o que melhor se ajusta aos dados dentre os modelos propostos. O modeloajustado ca ento dado por (x) = e5,300,23x,em que x denota o tempo de exposio. Logo, se diminuirmos de uma unidadeo tempo de exposio a variao no valor esperado ca dada por (x 1) (x)= e0,23= 1, 259.Ouseja, onmeroesperadode sobreviventes aumentaaproximadamente25,9%.1.12.4 EstudoseriadocomratosOexemploaseguirprovmdeumestudoseriadocomumtipodetumormalignoparaavaliar ainunciadasrie(passagemdotumor) namorte(caquexia)deumcertotipoderato(verPaula, BarbosaeFerreira, 1989;901.12 AplicaesTempoSobreviventes2 4 6 8 10 1250100150(a)1Percentis da N(0,1)Residuo Studentizado-1 0 1-202468(b)Percentis da N(0,1)Residuo Studentizado-1 0 1-202468(c)Percentis da N(0,1)Residuo Studentizado-1 0 1-20246(d)Percentis da N(0,1)Residuo Studentizado-1 0 1-2024(e)Percentis da N(0,1)Componente do Desvio-1 0 1-3-2-1012(f)Figura1.8: Diagramadedispersoegrcosnormaisdeprobabilidadesre-ferentes aos modelos ajustados aos dados sobre sobrevivncia de bactrias.Paulaetal., 1992). Osdadosestodescritosnoarquivocanc4.dat. Umtotal de 204 animais teve o tumor inoculado num determinado momento dasrie. Paracadaanimal, almdogrupodepassagem, foramobservadasasvariveis presena de MASSa tumoral, caquexia e o tempo de observao (emdias). EssesdadossoresumidosnaTabela1.12. Parainserirmososdadosdiretamente noR e armazen-los no arquivocanc4a.dat, devemos fazercanc4a.dat = scan(what=list(obs=0,rd=0))1: 6 2597 13 3105 8 27862: 12 1613 3 411 1 232.Agora, precisamos introduzir os fatores grupo de passagem e massa tumoral911.12 Aplicaesfnames = list(gp=c(P0-P6, P7-P18, P19-P28),mt=c(sim, nao)).Para informarmos o sistema a ordem em que os dados foram lidos, podemosusar o comandofac.design. Em seguida, fazemos o emparelhamentorato.design = fac.design(c(3,2), fnames, rep=1)attach(canc4a.dat)rato.df = data.frame(obs,rd,rato.design).As informaes completas sobre os dados esto armazenadas no arquivorato.df. Para uma vericao basta baterrato.df.Podemos agora(opcionalmente) criar umamatriz modelonopadrodosMLGsattach(rato.df)gp = C(gp,treatment)mt = C(mt,treatment).Vamos supor que Oij, o nmero de ratos caquticos no nvel i de massatumoral e grupo de passagem j, segue uma distribuio de Poisson de mdiaijtij, i = 1, 2 e j= 1, 2, 3. Temos que ij denota a taxa de caquexia (nmeromdiodemortesporunidadedetempo)etijototalderatos-diasnonvel(i, j). Consideramos inicialmente o modelo de Poisson com parte sistemticalogij= + i + j,emque1=0e1=0, queequivalesuposiodetemposexponenciaiscomo ser visto na Seo 4.2.2. Com essa notao, ser o efeito correspon-dente classeP0 P6 com desenvolvimento de massa,2a diferena entreosefeitosdosgrupossemecomodesenvolvimentodemassatumoral, 2adiferenaentreosefeitosdasclassesP7 P18eP0 P6e3adiferenaentreosefeitosdasclasses P19 P28eP0 P6. Emparticular, quando921.12 Aplicaesexpressamos os valores esperados de mortes para tijna forma de um modelolog-linear,teremos um oset dado porlogtij. Ou seja,o modelo que iremosajustarnoRtempartesistemticadadaporlogij=logtij+ + i + j.Logo, precisamos denir o oset no ajuste.Tabela1.12Nmero de ratos caquticos(O) e ratos dias deobservao(R-D) segundo o grupo de passageme o desenvolvimento de massa tumoral.Massa Grupo de passagemtumoral P0-P6 P7-P18 P19-P28Sim O 6 13 8R-D 2597 3105 2786No O 12 3 1R-D 1613 411 232Os passos so os seguintes:logt0 = log(rd)canc4a.fit = glm( obs gp + mt + offset(logt0),family=poisson)summary(canc4a.fit).Asestimativasdosparmetros(erropadroaproximado) sodadaspor =5, 875 (0, 312), 2=0, 334 (0, 365), 3=0, 040 (0, 434) e2=0, 860(0, 343). OdesviodomodelodadoporD(y; )=0, 84com2grausdeliberdade. Pelasestimativasacimanotamosqueofatorgrupodepassagemnosignicativo. Oajustedomodelosemesseefeitolevous estimativas = 5, 750(0, 192)e2= 0, 802(0, 315)comum desvio deD(y; ) = 1, 99 (4 graus de liberdade). Logo, o teste da razo de verossimi-lhanas para testar H0: 2= 3= 0 vale 1, 99 0, 84 = 1, 15 com 2 graus deliberdade, o que implica em no rejeitarmos a hiptese H0. Assim, o modelo931.12 Aplicaesadotadoincluisomenteoefeitomassatumoral. Temosque2signicati-vamente diferente de zero. A estimativa2= 0, 802 indica que os ratos quedesenvolvem massa tumoral (tumor maligno) sobrevivem mais do que os ra-tos que no desenvolvem o tumor! Esse resultado pode parecer em princpiocontraditrio, todaviadevemoslembrarquetodososratostiveramtumorinoculadomasnemtodosdesenvolverammassatumoral. Assim, podeserrazovel pensarmos que aqueles ratos que no desenvolveram massa tumoralnaverdadeteriamresistidomuitoparaqueamesmanosedesenvolvesse,levandoosmesmosaalgumtipodeesgotamentoeconsequentementeaumtempo mdio de vida menor do que o tempo mdio dos ratos em que o tumorse desenvolveu.Uma maneira alternativa de avaliarmos a suposio de distribuio dePoisson para Oijcom mdia ijtij atravs da incluso do termo logtijcomocovarivel, em vez de oset. Isto , supormos a parte sistemticalogij= + logtij + i + j. Assim, podemostestar H0: =1contraH1: =1. AnorejeiodeH0indica que a suposio de distribuio de Poisson paraOijparece serrazovel. No exemplo acima obtemos= 1, 390(0, 439), o que nos leva a norejeitarmosH0.1.12.5 ConsumodecombustvelNoarquivoreg2.dat(Gray, 1989) soapresentadas as siglas dos 48esta-dos norte-americanos contguos juntamente com as seguintes variveis: taxa(taxadocombustvelnoestadoemUSD),licena(proporodemotoristaslicenciados),renda(renda percapitaemUSD),estradas(ajudafederalparaas estradas em mil USD) e consumo (consumo de combustvel por habitante).941.12 AplicaesOinteressenesseestudotentarexplicaroconsumodecombustvel pelasvariveis taxa, licena, renda e estradas. O modelo proposto o seguinte:yi= + 1taxai + 2licencai + 3rendai + 4estradasi + i,emque yidenotaoconsumoanual decombustvel (por habitante) noi-simo estado, enquanto i so variveis aleatrias independentes normalmentedistribudasdemdiazeroevarincia2. AjustamosomodeloacimanoRemandamososresultadosparaoobjetofit1.reg2. Da entoaplicamoso mtodo de Akaike para selecionarmos o submodelo com menor AIC. Paratal, aplicamos os comandosrequire(MASS)stepAIC(fit1.reg1).Avarivelestradasfoieliminada. Osresultadosdomodeloselecionadosoapresentados na Tabela 1.13.Tabela1.13Estimativas dos parmetros referentesao modelo normal linear ajustado aosdados sobre consumo de combustvel.Efeito Estimativa E/E.PadroConstante 307,33 1,96Taxa -29,48 -2,78Licena 1374,77 7,48Renda -0,07 -4,00s265,94R20,675Portanto, podemosdizerqueparacadaaumentodeumaunidadenarenda, oconsumomdiodecombustvel diminui 0,07unidades. Paracada951.12 AplicaesIndiceAlavanca0 10 20 30 400.050.100.150.20CTNYSDTXNV(a)IndiceDistancia de Cook0 10 20 30 400.00.10.20.3WY(b)IndiceResiduo Studentizado0 10 20 30 40-4-2024WY(c)Valores AjustadosResiduo Studentizado400 500 600 700-4-2024WY(d)Figura 1.9: Grcos de diagnstico referentes ao modelo normal linear ajus-tado aos dados sobre consumo de combustvel.aumento de 1% na porcentagem de motoristas licenciados o consumo mdiodecombustvel aumenta13,75unidades, eparacadaaumentode1%noimposto do combustvel o consumo mdio diminui 29,48 unidades.NaFigura1.9temosalgunsgrcosdediagnsticoecomopodemosnotar h um forte destaque para o estado deWY, que aparece como inuente(Figura 1.9b) e aberrante (Figura 1.9c). Outros estados, tais comoCT, NY,SD, TX e NV (Figura 1.9a) aparecem como remotos no subespao gerado pelascolunasdamatrixX,emboranosejamconrmadoscomoinuentes. No961.12 Aplicaesh indcios pela Figura 1.9d de heteroscedasticidade.Pelo grco de envelope (Figura 1.10a) no h indcios fortes de afas-tamentos da suposio de normalidade para os erros, apesar da inuncia nogrco do estado de WY. O grco de envelope sem esse estado (Figura 1.10b)conrma esse suposio.Analisando os dados referentes ao estado deWY notamos que o mesmotem uma taxa de 7% (abaixo da mdia de 7,67%), uma renda percapita anualde USD 4345 (ligeiramente acima da mdia de USD 4241,83), uma proporodemotoristaslicenciadosde0,672(acimadamdiade0,570), pormumconsumomdiodecombustvel muitoalto968(quandoamdianacionalerade576,77). Talvezaslongasdistnciasdoestadotenhamobrigadoosmotoristasaumconsumoaltodecombustvel. Aeliminaodesseestadomuda substacialmente algumas estimativas, embora no mude a inferncia. Aestimativa da varivel licena cai 13,2%, a estimativa do intercepto aumenta27,8%, os2cai 17,1%eoR2aumenta4,1%. Asdemaisestimativasnosofrem grandes variaes. A incluso de alguma varivel que leve em conta adensidadedemogrcadecadaestado,conformesugeridoporGray(1989),poderia explicar melhor o estado deWY pelo modelo proposto.1.12.6 SalriodeexecutivosVamosconsideraragoraosdadosdescritosnoarquivosalary.datsobreosalrioanual (emmil USD) deumaamostraaleatriade220executivos(145 homens e 75 mulheres)(Foster, Stine e Waterman, 1998, pgs. 180-188).Osalrioserrelacionadocomasseguintesvariveisexplicativas: sexo(1:masculino; 0: feminino), anos de experincia no cargo e posio na empresa971.12 AplicaesPercentis da N(0,1)Residuo Studentizado-2 -1 0 1 2-2024(a)Percentis da N(0,1)Residuo Studentizado-2 -1 0 1 2-3-2-10123(b)Figura1.10: Grcosnormaisdeprobabilidadescomtodosospontos(a)esemoestadodeWY(b), referentesaomodelonormal linearajustadoaosdados sobre consumo de combustvel.(varia de 1 a 9),quanto maior o valor mais alta a posio. Apresentamos aseguir a comparao dos salrios mdios segundo o sexo.Sexo Amostra Mdia E.PadroMasculino 145 144,11 1,03Feminino 75 140,47 1,43Diferena Teste-t valor-PEstimativa 3,64 2,06 0,04E.Padro 1,77Ovalor-Pindicadiferenaaonvel de5%. Ignorandoasdemaisvariveisnotamos que os executivos ganham em mdia mais do que as executivas.PelaFigura1.11notamosindciosdeaumentodosalriocomoau-mentodaposioecomoaumentodaexperinciaparaambos os sexos,sugerindo inicialmente um modelo linear do tipoyi= + 1sexoi + 2experi + 3posici + i,981.12 AplicaesExperiencia HomensSalario Homens5 10 15 20 25110130150170Experiencia MulheresSalario Mulheres5 10 15 20120140160Posicao HomensSalario Homens2 4 6 8110130150170Posicao MulheresSalario Mulheres2 4 6 8120140160Figura1.11: Grcosdedispersoentresalrioeasvariveisexplicativasexperincia e posio.emqueyidenotaosalriodoi-simoexecutivodaamostra. Vamossuporaindaqueisoerrosindependentesenormalmentedistribudosdemdiazero e varincia2.AplicandoomtodoAICnenhumavarivelretiradadomodelo. Asestimativas so apresentadas na Tabela 1.14. Notamos portanto que na pre-senadeexperinciaeposioasmulheresganhamemmdiamaisdoqueoshomens. Quandoessasvariveissoignoradas,ocorreocontrrio,comofoi visto na anlise descritiva. Experincia e posio so variveis importan-tesedevemtambmpermanecernomodelo. Vamosvericaraseguirsepossvel incluirmos alguma interao de 1a. ordem. Essas interaes so de991.12 Aplicaesinteresse e tambm interpretveis. Por exemplo, presena de interao entreos fatores sexo e experincia signica que a diferena entre os salrios mdiosdeexecutivoseexecutivasnoamesmamedidaquevariaotempodeexperincia.Tabela1.14Estimativas dos parmetros referentesao modelo normal linear ajustado aosdados sobre salrio de executivos.Efeito Estimativa E/E.PadroConstante 115,262 82,25Experincia -0,472 -4,17Sexo -2,201 -2,04Posio 6,710 21,46R20,71s 6,77Tabela1.15TestesF para avaliar a inclusode cada interao de 1a. ordem nomodelo normal linear ajustado aosdados sobre salrio de executivos.Interao F-valor valor-PSexo*Exper 1,615 0,20Sexo*Posico 0,001 0,97Exper*Posio 7,594 0,00Na Tabela 1.15 so apresentados os valores da estatstica F bem como ovalor-P correspondente para testar a ausncia das interaes sexo*experincia,sexo*posio e experincia*posio, respectivamente, dado que esto no mo-deloconstante+sexo+experincia+posio. Portanto, serincludanomodelo apenas a interao experincia*posio. As estimativas do modelonal com a interao experincia*posio so apresentadas na Tabela 1.16.1001.12 AplicaesIndiceMedida h0 50 100 150 2000.020.060.1030139 178191213(a)IndiceDistancia de Cook0 50 100 150 2000.00.020.04430144(b)IndiceResiduo Padronizado0 50 100 150 200-2024(c)Valores AjustadosResiduo Padronizado120 130 140 150 160-2024(d)Figura 1.12: Grcos de diagnstico referentes ao modelo normal linear ajus-tado aos dados sobre salrio de executivos.NaFigura1.12soapresentados grcos de diagnstico. Algumasobservaes aparecem como pontos de alavanca (Figura 1.12a), trs observa-essodestacadascomopossivelmenteinuentes(Figura1.12b)enohindcios de pontos aberrantes e heteroscedasticidade (Figuras 1.12c e 1.12d).Retirando as observaes mais inuentes, #4 e #30, notamos variaes des-proporcionais em algumas estimativas, embora no ocorram mudanas infe-rencias. Esses pontos causam variaes, respectivamente, de -14% e 11% naestimativadocoecientedesexo. Aobservao#4umaexecutivacomsalrioanualdeUSD139mil,posio7e13,9anosdeexperincia(salriorelativamentebaixoparaessaposioeexperincia)eaobservao#301011.12 Aplicaesde um executivo com salrio anual de USD 110 mil, posio 2 e 2,4 anos deexperincia (menor salrio entre os executivos).Tabela1.16Estimativas dos parmetros referentesao modelo normal linear nal ajustadoaos dados sobre salrio de executivos.Efeito Estimativa E/E.PadroConstante 108,042 36,48Experincia 0,336 1,07Sexo -2,811 -2,58Posio 8,096 13,73Exper*Posio -0,135 -2,75R20,72s 6,67Percentis da N(0,1)Residuo Studentizado-3 -2 -1 0 1 2 3-4-202Figura1.13: Grconormal deprobabilidadesreferenteaomodelonormallinear nal ajustado aos dados sobre salrio de executivos.1021.12 AplicaesO modelo nal ajustado portanto dado por y = 108, 042 + 0, 336 exper 2, 811 sexo+8, 096 posic 0, 135 posic exper.Por exemplo, desse modelo, qual o salrio previsto para executivos com5 anos de experincia e posio 4?Executiva: USD 139,406 milExecutivo: USD 136,595 mil.O modelo ajustado para o grupo de mulheres dado por y = 108, 042 + 8, 096 posic + (0, 336 0, 135 posic) exper.Examinandoaequaoacimanotamosqueasexecutivascomposioaltae muita experincia tendem a ganharmenos do que executivas com posioalta e menos experincia. Isso quer dizer que aquelas executivas que perma-necerammenostemponocargotendemaganharmaisdoqueaquelasquecarem mais tempo no cargo. Mesmo resultado para os homens.Notamosnesteexemploaimportnciadainteraonainterpretaodosresultados. Ignorandoasvariveisposioeexperinciatemosqueosalrio mdio dos executivos signicativamente maior do que o salrio mdiodas executivas. Porm, quandoessas variveis entramnomodeloocorreocontrrio, paraumamesmaposioemesmaexperinciaas executivasganhamemmdiamais. PelaFigura1.13notamosquenohindciosdeafastamentos da suposio de normalidade para os erros.1031.13 Exerccios1.13 Exerccios1. SeY pertencefamliaexponencial dedistribuies, entoafunodensidade ou funo de probabilidades de Ypode ser expressa na formaf(y; , ) = exp[{y b()} + c(y; )],emqueb()ec(; )sofunesdiferenciveis. Supondoconhecidoseja L() = logf(y; , ) o logaritmo da funo de verossimilhana. SeL() pelo menos duas vezes diferencivel emmostre queE_L()_= 0 e E_2L()2_= E__L()_2_.2. SupondoagoradesconhecidomostrequeE(U)=0paraasdistri-buies normal, normal inversa e gama.3. Considere a distribuio estvel cuja densidade dada porf(y; , ) = a(y, )exp[{(y + 1) log}],emque >0, 0oparmetrodedisper-so ea(, ) uma funo normalizadora. Mostre que essa distribuiopertencefamliaexponencial. Encontreafunodevarincia. Ob-tenhaafunodesviosupondoumaamostradenvariveisaleatriasindependentes de mdiasie parmetro de disperso1.4. Considere a seguinte funo densidade de probabilidade:f(y; , ) =a(y, )(1 + y2)1/2exp[{y + (1 2)1/2}],emque01edecrescentepara0ehiioi-simoelementodadiagonal principal damatrizH=W1/2X(XTWX)1XTW1/2comi=(di/di)2/2i. Emparticularquando h um intercepto emio resduo componente do desviotDiassumea forma reduzidatDi= 2_1 hii{log( i/yi)}1/2.Estudos de simulao indicam que o resduo tDise aproxima da normalidade,particularmente para grande.1202.4 AplicaesQuandoai-simaobservaoexcludaadistnciadeCookaproxi-mada ca dada porLDi=hii(1 hii)2(yi i)2 2i.Grcos de tDiehii contra os valores ajustados i como tambm grcos dendices de LDiso recomendados para a anlise de diagnstico.2.4 Aplicaes2.4.1 ComparaodecincotiposdeturbinadeavioApresentamos na Tabela 2.1 (ver Lawless 1982, p. 201) os resultados de umexperimento conduzido para avaliar o desempenho de cinco tipos de turbinadealtavelocidadeparamotoresdeavio. Foramconsideradosdezmotoresde cada tipo nas anlises e foi observado para cada um o tempo (em unidadesde milhes de ciclos) at a perda da velocidade. Esses dados esto disponveisno arquivoturbina.dat.Tabela2.1Tempo at a perda da velocidade de cincotipos de turbina de avio.Tipo de turbinaTipo I Tipo II Tipo III Tipo IV Tipo V3,03 3,19 3,46 5,88 6,435,53 4,26 5,22 6,74 9,975,60 4,47 5,69 6,90 10,399,30 4,53 6,54 6,98 13,559,92 4,67 9,16 7,21 14,4512,51 4,69 9,40 8,14 14,7212,95 5,78 10,19 8,59 16,8115,21 6,79 10,71 9,80 18,3916,04 9,37 12,58 12,28 20,8416,84 12,75 13,41 25,46 21,511212.4 AplicaesDenotaremos por Tijotempoataperdadavelocidadeparaoj-simomotordetipoi, i =1, . . . , 5ej =1, . . . , 10. Natabelaabaixosoapresentadasasmdias,desviospadroecoecientesdevariaoamostraispara os cinco tipos de turbina.TempoDensidade0 5 10 15 20 25 300.00.020.040.060.08Figura2.2: Densidadeaproximadaparaotempoataperdadavelocidadepara todos os tipos de turbina de avio.Estatstica Tipo I Tipo II Tipo III Tipo IV Tipo VMdia 10,69 6,05 8,64 9,80 14,71D.Padro 4,82 2,91 3,29 5,81 4,86C. Variao 45,09% 48,10% 38,08% 59,29% 33,04%IgnorandootipodeturbinatemosnaFigura2.2adensidadeaproxi-madaparaotempoataperdadavelocidade. SeassumirmosqueTij G(, ) obtemos as estimativas de mxima verossimilhana = 9, 98(0, 73)1222.4 Aplicaes5101520251 2 3 4 5TipoTempoFigura 2.3: Boxplots sobre desempenho dos quatro tipos de turbina de avio.e=4, 01(0, 77), conrmandopelaestimativadeaassimetriadireitaparaadistribuiodotempoataperdadavelocidade. Contudo, pelosboxplots correspondentes aos tempos dos cinco grupos (ver Figura 2.3) no-tamosqueasmdiasparecemdiferir comotipodeturbina, enquantooscoecientes de variao parecem variar menos do que os desvios padro. Issosugere que uma distribuio gama de mdias diferentes e coeciente de vari-ao constante pode ser apropriada para explicar o tempo mdio at a perdada velocidade.VamosassumirentoqueTijsegueumadistribuiogamademdiaieparmetrodedisperso1. Amdefacilitarmosasinterpretaesdos resultadosoumesmofazermoscomparaescomomodelonormal li-near, vamos propor um modelo gama com ligao identidade, sendo a partesistemtica dada pori= + i,1232.4 Aplicaesem que1= 0. Para ajustarmos o modelo noR devemos fazer o seguinte:turbina = scan("turbina.dat", list(tipo=0, tempo=0))attach(turbina)tipo = factor(tipo)fit1.turbina = glm(tempo tipo, family=Gamma(link=identity))summary(fit1.turbina).As estimativas de mxima verossimilhana cam dadas por = 10, 693 (1, 543),2= 4, 643(1, 773),3= 2, 057(1, 983),4= 0, 895(2, 093)e5=4, 013(2, 623)indicandoparaotipoIIumtempomdiodesobrevivnciasignicativamente menor do que o tipo I ao nvel de 5%. Para o tipo V no-tamosumtempomdiomaiordoqueotipoIenquantoqueosoutrostrstipos apresentam tempos mdios pouco diferentes do tipo I. Esses resultadosconrmamaanlisedescritivaapresentadanaFigura2.3. Odesviodomo-delofoi deD(y; )=8, 861 5, 804=51, 43, com45grausdeliberdade,que leva aP = 0, 236 e indica um ajuste adequado.A estimativa de mxima verossimilhana (erro padro aproximado) doparmetrodedispersodadapor=5, 804(1, 129), indicandoqueasdistribuies dos tempos ataperdadavelocidadenodevemser muitoassimtricas. Podemostentaravaliaratravsdeumtesteapropriadoseosindciosobservadospelasestimativasindividuaisdasmdiassovericadosconjuntamente. Vamos, ento, tentar agrupar os tipos I, III e IV. As hipte-ses apropriadas so dadas porH0: 4= 3= 0 contraH1: 4 = 0ou3 = 0dogrupoIV. ComorelativamentealtopodemosaplicaraestatsticaFdada na Seo 1.7. SobH0obtemos D(y; ) = 9, 091 para 47 graus de liber-dade e sob a hiptese alternativa D(y; ) = 8, 861 para 45 graus de liberdade.1242.4 AplicaesA estatsticaF ca dada porF =(9, 091 8, 861)/28, 861/45= 0, 584,que leva a P = 0, 562, ou seja, pela no rejeio de H0. As novas estimativassodadas por =9, 71(0, 81),2= 3, 66(1, 19) e5=5, 00(2, 27).Obtemos=5, 66(1, 10)eD(y; ) =51, 47para47grausdeliberdadecomP = 0, 30.IndiceDistancia de Cook0 10 20 30 40 500.00.51.01.54749Figura2.4: GrcodadistnciadeCookaproximadareferenteaomodelogama ajustado ao dados sobre desempenho de turbinas de avio.NaFigura2.4temosogrcodendicesdadistnciadeCookapro-ximada. Notamos um forte destaque para a observao #49 seguida da ob-servao # 47 que correspondem, respectivamente, aos valores 25,46 e 12,75paraotempoataperdadavelocidadedeumdosmotoresdetipoIVetipo II. O valor 25,46, como mostra oboxplot correspondente na Figura 2.31252.4 Aplicaesdestoa dos demais tempos. A eliminao dessa observao aumenta a signi-cncia marginal de4, embora esse efeito continue no signicativo a 10%.No h mudanas inferenciais nos demais resultados.O grco normal de probabilidades com envelope para os componentespadronizados do desvio apresentado na Figura 2.5. Notamos, pelo grco,que no h indcios de afastamentos srios da suposio de distribuio gamaparaostemposataperdadavelocidadedosmotores, bemcomoparaasuposio de homogeneidade do coeciente de variao para os cinco grupos.Asequnciade comandos paraconstruirmos os grcos de diagnsticoenormal de probabilidades descrita no Apndice B.Percentis da N(0,1)Componente do Desvio-2 -1 0 1 2-3-2-10123Figura 2.5: Grco normal de probabilidades referente ao modelo gama ajus-tado aos dados sobre desempenho de turbinas de avio.Portanto, podemos concluir nesteexemploquenoexistediferenasignicativaentreostiposI, IIIeIV, enquantoostiposIIeVaparecem1262.4 Aplicaesdeformasignicativacomomenoremaiortempomdioataperdadavelocidade, respectivamente.cpueDensidade0 200 400 6000.00.0010.0020.0030.004Figura 2.6: Densidade aproximada da cpue para todas as embarcaes.2.4.2 EspinheldefundoOespinhel defundodenidocomoummtododepescapassivo, sendoutilizadoemtodoomundoemoperaesdepescadediferentesmagnitu-des, da pesca artesanal a modernas pescarias mecanizadas. adequado paracapturarpeixescomdistribuiodispersaoucombaixadensidade,almdeserpossvelutiliz-loemreasirregularesouemgrandesprofundidades. um dos mtodos que mais satisfazem s premissas da pesca responsvel, comalta seletividade de espcies e comprimentos, alta qualidade do pescado, con-sumo de energia baixo e pouco impacto sobre o fundo ocenico. No arquivopesca.dat esto parte dos dados de um estudo sobre a atividade das frotaspesqueirasdeespinhel defundobaseadasemSantoseUbatubanolitoral1272.4 Aplicaespaulista(videPaulaeOshiro, 2001). Aespciedepeixeconsideradaopeixe-batatapelasuaimportnciacomercial eampladistribuioespacial.Umaamostraden=156embarcaesfoi analisadanoperodode1995a1999sendo39dafrotadeUbatubae 117dafrotadeSantos. As vari-veisconsideradasparacadaembarcaosoasseguintes: frota(SantosouUbatuba), ano(95a99),trimestre(1ao4),latitude1(de23,25oa28,25o),longitude2(de 41,25oa 50,75o), dias de pesca, captura (quantidade de peixesbatatacapturados,emkg)ecpue(capturaporunidadedeesforo,kg/diasde pesca). Um dos objetivos desse estudo tentar explicar a cpue pelas vari-veisfrota,ano,trimestre,latitudeelongitude. Estudossimilaresrealizadosemoutrospasesvericaramquebastanterazovelsuporqueacpuetemdistribuio assimtrica direita, como o caso da distribuio gama (vide,por exemplo, Goni, Alvarez e Adlerstein, 1999).100200300400500600cpueSantos UbatubafrotaFigura 2.7: Boxplots da cpue segundo a frota.1distnciaaoEquadormedidaaolongodomeridianodeGreenwich2distnciaaomeridianodeGreenwichmedidaaolongodoEquador1282.4 Aplicaes100200300400500600cpue1995 1996 1997 1998 1999anoFigura 2.8: Boxplots da cpue segundo o ano.Para lermos o arquivopesca.dat noR devemos fazer o seguinte:pesca = source("pesca.dat", list(frota=0, ano=0, trimestre=0,latitude=0, longitude=0, diaspesca=0, captura=0, cpue=0))frota = factor(frota)ano = factor(ano)trimestre = factor(trimestre).Antes de propormos um modelo para tentar explicar a cpue mdia pelas va-riveisexplicativas,vamosapresentarumaanlisedescritivadosdados. NaFigura 2.6, em que temos a distribuio da cpue para todas as embarcaes,podemosnotarumaassimetriaacentuadadireitaconrmandoconstata-esdeestudosanteriores. JnasFiguras2.7, 2.8e2.9soapresentadosos boxplotsdacpuesegundoosfatoresfrota, anoetrimestre. Notamosuma superioridade da frota de Santos em relao frota de Ubatuba, pormpoucasdiferenasentreosnveisdosfatoresanoetrimestre,emboraoano1292.4 Aplicaes100200300400500600cpue1 2 3 4trimestreFigura 2.9: Boxplots da cpue segundo o trimestre.de 97 tenha uma mediana um pouco superior aos demais anos.Frota Estatstica 95 96 97 98 99Mdia 229,37 193,19 262,67 210,29 197,22Santos D.Padro 148,07 132,55 153,60 122,95 103,45C. Variao 64,55% 68,61% 58,48% 58,44% 52,45 %n 19 8 17 27 46Mdia 47,08 96,09 210,56 174,43 140,85Ubatuba D. Padro 4,73 59,19 77,51 99,16 71,59C. Variao 10,05% 61,60 % 36,81% 56,85% 50,83%n 3 12 6 5 13PelaFigura2.10notamos queafrotadeSantos preferelatitudes elongitudes maiores do que a frota de Ubatuba. Pelos diagramas de dispersoentre cpue e latitude e cpue e longitude apresentados naFigura2.11hindciosdeumligeirocrescimentodacpuecomalatitude, pormnoestbem denida a tendncia da cpue com a longitude.1302.4 AplicaesNa tabela dada a seguir so apresentadas as mdias, desvios padro ecoecientesdevariaoamostraisparaasfrotasdeSantoseUbatubarefe-rentes ao perodo 95-99.2425262728latitudeSantos Ubatubafrota42444648longitudeSantos UbatubafrotaFigura 2.10: Boxplots da latitude e longitude segunda a frota.Latitudecpue24 25 26 27 28100300500(a)Longitudecpue42 44 46 48100300500(b)Figura2.11: Diagramasdedispersodacpuecontralatitude(a)econtralongitude (b).Portanto, asuposiodecoecientedevariaoconstantepareceser1312.4 AplicaesbastanterazovelparaafrotadeSantos. ParaafrotadeUbatubaasesti-mativas de 95 e 97 destoam das demais, porm devemos levar em conta paraessa frota que as amostras so pequenas.Como todas essas anlises so marginais, no levando em conta a pre-sena das outras variveis, somente atravs de um modelo apropriado quepoderemos conhecer oefeitodecadavarivel explicativanapresenadasdemais. DenimosentoYijkcomosendoacpueobservadaparaai-simaembarcaodaj-simafrota, (Santos, j =1; Ubatubaj =2), nok-simoano e -simo trimestre (k, = 1, 2, 3, 4). Vamos supor que Yijk G(ijk, )com parte sistemtica dada porlogijk= + j + k + + 1Latitudeijk + 2Longitudeijk, (2.2)em quej,kedenotam, respectivamente, os efeitos daj-sima frota,k-simoanoe-simotrimestre. Comoestaremosassumindoparametrizaocaseladerefernciateremosasrestries1=0, 1=0e1=0. Temosainda que latitudeijke longitudeijkdenotam, respectivamente, a latitude elongitude dai-sima embarcao da frotajnok-simo ano e trimestre.Ajustamosaosdadosomodelogamacompartesistemticadadapor(2.2)eaplicandoomtododeAkaike(videSeo1.11.2)retiramosofatortrimestre, permanecendo no modelo os fatores frota e ano alm das variveisquantitativas latitude e longitude. Para ajustarmos o modelo e aplicarmos omtodoAIC devemos aplicar os seguintes comandos:attach(pesca)fit1.pesca = glm(cpue frota + ano + trimestre + latitude+ longitude, family=Gamma)summary(fit1.pesca)require(MASS)stepAIC(fit1.pesca).1322.4 AplicaesOprocedimentostepAICassumequeoparmetroconstante, ouseja,nomudadeummodeloparaooutro. ComoissoemgeralnosatisfeitodevemosaplicaralgumprocedimentoalternativoamdeconrmarmosomodeloescolhidopelomtodoAIC. Fizemosissoatravsdaestatsticadarazo de versossimilhanas, conrmando a retirada do fator trimestre.Tabela2.2Estimativas dos parmetros referentes ao modelogama ajustado aos dados sobre espinhel de fundo.Efeito Estimativa E/E.PadroConstante 6,898 3,00Latitude 0,204 2,81Longitude -0,150 -1,97Frota-Ubatuba -1,359 -3,68Ano96 -0,064 -0,26Ano97 0,141 0,74Ano98 -0,043 -0,25Ano99 -0,009 -0,06FrotaUb*Ano96 0,806 1,77FrotaUb*Ano97 1,452 3,20FrotaUb*Ano98 1,502 3,32FrotaUb*Ano99 1,112 2,76 3,67 9,17O teste da razo de verossimilhanas para incluirmos a interao entreos dois fatores que permaneceram no modelo, frota e ano, foi de RV= 14, 26para4graus deliberdadeeobtemos P=0, 0065. Portanto, ainteraoser includa no modelo. As estimativas do modelo nal que inclui os efeitosprincipais latitude, longitude, frota e ano alm da interao entre ano e frotasoapresentadas naTabela2.2e odesviodomodelofoi de D(y; ) =162, 66com144grausdeliberdadeeP=0, 14, indicandoummodelobemajustado. Notamosquemedidaqueaumentaalatitudeaumentaacpue,ocorrendo tendncia contrria medida que aumenta a longitude. Logo, para1332.4 Aplicaeslatitudes altas e longitudes baixas (dentro dos limites amostrais), esperamosvalores maiores para a captura por unidade de esforo. Com relao a frotaeano, comofoi includainteraoentreessesfatores, ainterpretaodasestimativas deve ser feita com um pouco mais de cuidado. Para isso, exibimosnaFigura2.12os valores esperados dacpuexandolatitudeelongitudenosvalores, respectivamente, 26oe46o. Notamospelaguraqueat96osvalores preditos para a frota de Ubatuba nessas latitude e longitude so bemmenores do que os valores preditos para a frota de Santos. Contudo, a partirde97asdiferenasentreosvalorespreditosparaasduasfrotasdiminuem.OsvalorespreditosparaafrotadeSantosvariampouconoperodo95-99,diferentemente dos valores preditos para a frota de Ubatuba.anocpue estimada95 96 97 98 9950100150200250SantosUbatubaFigura 2.12: Estimativas da cpue mdia para as frotas de Santos e Ubatubasegundo o ano de operao xando-se a latitude em 26oe a longitude em 46oatravs do modelo gama.1342.4 AplicaesValores AjustadosMedida h50 100 150 200 250 3000.00.40.8(a)IndiceDistancia de Cook0 50 100 1500.00.40.81.2(b)817Valores AjustadosComponente do Desvio50 100 150 200 250 300-202(c)Preditor LinearVariavel z4.0 4.5 5.0 5.54567(d)Figura 2.13: Grcos de diagnstico referentes ao modelo gama ajustado aosdados sobre espinhel de fundo.Os grcos de diagnstico (Figura 2.13) no apresentam pontos de ala-vanca ou aberrantes, nem indicaes de que a ligao utilizada inadequada.Contudo, duas observaes aparecem com destaque no grco de inuncia,asembarcaes#17e#8. Aembarcao#8dafrotadeUbatubaeob-teveumacpuede350numalatitudede24,25o(abaixodalatitudemdiade 26,22o) e longitude de 45,25o(prxima da longitude mdia de 46,28o) noanode98. Jaembarcao#17dafrotadeSantos, obteveumacpuede450numalatitudede24,75oelongitudede46,25onoanode99. Ambasembarcaes alcanaram cpues bastante altas em latitudes relativamente bai-xas, contrastandocomatendnciaapresentadapelomodelo. Aeliminao1352.4 Aplicaesdas embarcaes individualmente eemconjuntoalteraalgumas estimati-vaspormnomudaasconclusesinferenciais. Todososefeitoscontinuammarginalmente signicativos ao nvel de 10%. O grco normal de probabi-lidadescomenvelopegerado(Figura2.14)noapresentaindciosdequeadistribuio gama seja inadequada para explicar a cpue.Percentis da N(0,1)Componente do Desvio-2 -1 0 1 2-4-202Figura2.14: Grconormal deprobabilidades referenteaomodelogamaajustado aos dados sobre espinhel de fundo.2.4.3 AplicaoemsegurosAmdeilustrarmosumaaplicaonareadeseguros, vamosconsiderarparte dos dados descritos em de Jong e Heller (2008, pgs. 14-15) referentes aosvalores pagos de seguros individuais (em dlares australianos) por danos comacidentes pessoais no perodo de julho de 1989 a junho de 1999. As anlises1362.4 Aplicaesserorestritasaoperododejaneirode1998ajunhode1999, umtotal de769segurospagos. Almdovalorpagoaoseguradoseroconsideradasasseguintes variveis explicativas: legrep, representao legal (0: no, 1: sim)e optime, tempo operacional para pagamento do seguro. Essa ltima varivelassume valores no intervalo (0, 100) e por exemplo um valor 23 signica que23%dossegurosforampagosantesdoseguroemanlise. Comoestamosconsiderandoapenaspartedosdados(referentesaosltimos18meses), osvalores de optime iro variar de 0,1 a 31,9. O subconjunto de dados analisadoest descrito no arquivoinsurance.dat.Tempo Operacionallog(Valor do Seguro)0 5 10 15 20 25 3046810(a)Tempo Operacionallog(Valor do Seguro)0 5 10 15 20 25 306810(b)Figura 2.15: Diagrama de disperso entre o valor pago de seguro e o tempooperacional para os grupos sem representao legal (a) e com representaolegal (b).NaFigura2.15temosodiagramadedispersoentreologaritmodovalor pagoeotempooperacional paraosgrupossemrepresentaolegal1372.4 Aplicaes(Figura 2.15a) e com representao legal (Figura 2.15b) e as tendncias ajus-tadas de forma no paramtrica. Notamos pela Figura 2.15a um crescimentoaproximadamente quadrtico do logaritmo do valor pago com o tempo opera-cional, contudo a variablidade parece ser maior para valores baixos do tempooperacional. Jparaosindivduoscomrepresentaolegal(Figura2.15b),notamos que o logaritmo do valor pago cresce linearmente com o tempo ope-racional enquantoavariabilidadesemantmaproximadamenteconstante.Notamos tambm que os valores pagos de seguro so em geral maiores parao grupo com representao legal.0 20000 500000.000000.000040.000080.00012 Valor do SeguroDensidade(a)0 40000 1000000.000000.000040.000080.00012 Valor do SeguroDensidade(b)Figura 2.16: Distribuio do valor do seguro para os grupos sem representa-o legal (a) e com representao legal (b).NaFigura2.16temosadistribuioaproximadadovalorpagodese-1382.4 Aplicaesguroparaosdoisgrupos, semrepresentaolegal(Figrua2.16a)ecomre-presentao legal (Figura 2.16b). Em ambos os grcos podemos notar que adistribuio fortemente assimtrica direita, sugerindo distribuies gamaou normal inversa para explicar o valor pago de seguro.Vamos denotar por Yijo valor pago de seguro para o j-simo indivduodoi-simogrupo(i=0,semrepresentaolegalei=1comrepresentaolegal)ej=1, . . . , nisendon0=227en1=542. ConformesugeridopelasFiguras 2.16a e 2.16b assumiremos inicialmenteYij G(ij, i) tais quelog0j= 0 + 10optimej + 20optime2jelog1j= 1 + 11optimej.Tabela2.3Estimativas dos parmetros referentesaos modelos com resposta gama ajustadosaos dados sobre seguro.Parmetro Estimativa E/E.Padro07,223 44,13100,204 6,7220-0,005 -5,0800,78 12,5518,805 140,50110,023 5,4812,22 17,66As estimativas dos modelos propostos, queforamajustados separa-damente, sodescritas naTabela2.3. Notamos pelas estimativas queastendncias observadas nas Figuras 2.15a e 2.15b foram conrmadas de formasignicativa. Contudo, pelos grcos normais de probabilidades (Figura 2.17)notamos indcios de afastamentos da distribuio gama para o valor pago deseguro,principalmente para o grupo com representao legal. Para o grupo1392.4 Aplicaessemrepresentaolegal notamos queos menores valores doseguroforamsuperestimados pelo modelo. Os desvios dos dois modelos foram, respectiva-mente, de D(y; ) = 270, 43 com 224 graus de liberdade e D(y; ) = 581, 72com 540 graus de liberdade. Embora as estimativas de0e1sejam relati-vamente pequenas, h indcios pelos valores dos desvios que os modelos noesto bem ajustados.Percentis da N(0,1)Componente do Desvio-3 -2 -1 0 1 2 3-4-202(a)Percentis da N(0,1)Componente do Desvio-3 -2 -1 0 1 2 3-4-2024(b)Figura 2.17: Grco normal de probabilidades para os modelos com respostagama ajustados aos dados de seguro para os grupos sem representao legal(a) e com representaa legal (b).AnalisandoosgrcosdadistnciadeCook(Figura2.18a)eresduocomponente do desvio contra os valores ajustados (Figrua 2.18b) apenas parao grupo sem representao legal, notamos que no h indcios de observaesaberrantes, contudoalgumasobservaesaparecemcomopossivelmentein-uentes. Essasobservaesemgeral correspondemavaloresaltosparao1402.4 Aplicaesvalorpagodeseguro. Aeliminaodas10observaescommaisdetaquena Figura 2.18a no muda a inferncia, todos os coecientes continuam alta-mente signicativos, porm a estimativa de10aumenta quase 20%.IndiceDistancia de Cook0 50 100 150 2000.00.10.20.3(a)3042468899173203207221227Valores AjustadosComponente do Desvio2000 4000 6000 8000 10000-4-202(b)Figura 2.18: Grcos de diagnstico para o modelo com resposta gama ajus-tado aos dados de seguro para o grupo sem representao legal.Para o grupo com representao legal a utilizao de outras ligaes oumesmooutrasdistribuiessoalternativasamdetentarmosmelhoraraqualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos comrespostagamacommodeloscomrespostalog-Birnbaum-Saunders(log-BS)elog-Birnbaum-Saunders-t(log-BS-t)paraexplicarovalorpagodeseguroparaogrupocomrepresentaolegal, obtendoumajustesatisfatriocomos modelos log-BS-t. Essa distribuio acomoda melhor as observaes aber-rantes que correspondem a valores altos de seguro.1412.5 Elasticidade2.5 ElasticidadeOmodelolog-linearcomrespostagamapodeserutilizadoparaaestima-odaelasticidadeentreademandadeumprodutoeseupreounitrio.Como ilustrao, vamos supor queYdenota a demanda eXo preo unit-rio. usualemEconometria(ver,porexemplo,Gujarati,2006,Seo6.4)assumirmos queY= 1x2eu, (2.3)sendouumerroaleatrio, emgeralassumidoN(0, 2). Issoimplicaemeuseguirdistribuiolog-normal demdiae2/2evarinciae2(e2 1). Emvezdeumalog-normal podemosassumir, alternativamente, euG(1, ).Assim, teremos que a mdia deYdadox ca dada por(x) = 1x2,ousejalog(x) =log1+ 2logx, umMLGcomrespostagamaeligaologartmica.Para entendermos a elasticidade entre a demanda e o preo do produto,vamos supor que o preo aumenter 100% de modo que o novo preo sejadadoporxN=(1 + r)x, para00. NaFigura2.21temosadensidadedadistribuionormalinversavariandooparmetrodedispersoparaxado. Notamosquemedidaqueaumentaadistribuionormalinversacamaissim-tricaemtornodamdia. PodemosmostrarquemedidaqueaumentaY seaproximadeumadistribuionormal demdiaevarincia31.Similarmentedistribuiogama, anormal inversatorna-seatrativaparaoestudodevariveisaleatriasassimtricasetambmsimtricasemqueavarinciadependedeformacbicadamdia. Umadiscussosobreassu-1472.6 Distribuio normal inversaposiestericasparaaconstruodadistribuionormalinversapodeserencontrada, por exemplo, em Leiva, Barros e Paula (2009, Cap. 2).xf(x)0 1 2 3 4 5 60.00.20.40.6xf(x)0 1 2 3 4 5 60.00.20.4xf(x)0 1 2 3 4 5 60.00.10.20.30.40.5xf(x)0 1 2 3 4 5 60.00.10.20.30.40.5xf(x)0 1 2 3 4 5 60.00.20.4xf(x)0 1 2 3 4 5 60.00.20.4=1=2=3=4=6=10Figura2.21: Densidadesdadistribuionormalinversaparaalgunsvaloresdo parmetro de disperso e supondo = 2.Afunodesobrevivnciadadistribuionormalinversademdiae parmetro de disperso1(ver, por exemplo, Collett, 2003, pp. 198-199) dada porS(t) = {(1 t1)_t1exp(2/){(1 + t1)_t1}.A funo de risco dada porh(t) = f(t)/S(t) em quef(y) denota a funodensidade da NI(, ).1482.7 Modelos com resposta normal inversa2.7 ModeloscomrespostanormalinversaSejamY1, . . . , YnvariveisaleatriasindependentestaisqueYi NI(i, ).Estamosassumindoqueessasvariveispossuemmdiasdiferentesemesmadisperso1. Ademais, vamos suporg(i) = iem quei= xTicomxi=(xi1, . . . , xip)Tcontendo valores de variveis explicativas e= (1, . . . , p)Tsendoovetordeparmetrosdeinteresse. Asligaesmaisusadasnocasonormal inversa so identidade(i= i), logartmica(logi= i) e recprocaquadrtica(i= 2i), esta ltima sendo a ligao cannica.2.7.1 QualidadedoajusteComofoi vistonaSeo1.4odesviodeummodelocomrespostanormalinversa dado porD(y; ) = D(y; ) em queD(y; ) =n

i=1(yi i)2/(yi 2i), (2.5)com i=g1( i), i=xTieyi>0. Comodesconhecidodevemosestim-lo, porexemploatravsdemximaverossimilhana, cujasoluodadapor=n/D(y; ). Supondoqueomodelopostuladoestcorretotemos, para grande, que o desvio D(y; ) segue distribuio qui-quadradocom(n p)grausdeliberdade. Assim, valoresaltosparaodesviopodemindicar inadequao do modelo ou falta de ajuste.2.7.2 TcnicasdediagnsticoO resduo componente do desvio padronizado para os modelos com respostanormal inversa assumem a formatDi=2_1 hii(yi i) iyi,1492.8 Aplicaesemqueyi>0ehiioi-simoelementodadiagonal principal damatrizH=W1/2X(XTWX)1XTW1/2comi=(di/di)2/3i. Naexpressopara tDino caso da distribuio normal inversa o sinal do resduo o mesmode (yi i). Estudos de simulao indicam que o resduo tDise aproxima dadistribuio normal, particularmente para grande.Similarmente aos modelos com resposta gama podemos obter uma ex-presso aproximada para a distncia de Cook quando a i-sima observao excluda. Essa expresso ca dada porLDi=hii(1 hii)2(yi i)2 2i.AquitambmsosugeridosgrcosdetDiehiicontraosvaloresajustados ie grcos de ndices de LDi.2.8 Aplicaes2.8.1 ComparaodecincotiposdesnackVamos considerar nesta seo parte dos dados de um experimento desenvol-vido no Departamento de Nutrio da Faculdade de Sade Pblica da USPemque5formasdiferentesdeumnovotipodesnack, combaixoteordegordurasaturadaedecidosgraxos, foramcomparadosaolongode20se-manas. Neste novo produto a gordura vegetal hidrogenada, responsvel pelaxaodoaromadoproduto, foi substituda, totalmenteouparcialmente,porleodecanola. Asformassoasseguintes: A(22%degordura, 0%deleodecanola), B(0%degordura, 22%deleodecanola), C(17%degordura, 5% de leo de canola), D (11% de gordura, 11% de leo de canola)eE(5%degordura,17%deleodecanola). Oexperimentofoiconduzidode modo que nas semanas pares 15 embalagens de cada um dos produtos A,1502.8 AplicaesB, C, D e E fossem analisadas em laboratrio e observadas diversas variveis(verPaula,deMouraeYamaguchi,2004). Emparticular,vamosestudarocomportamentodatexturadosprodutosatravsdaforanecessriaparaocisalhamento. Os dados referentes a esta varivel esto disponveis no arquivosnack.dat.Para lermos o arquivosnack.dat noR devemos fazer o seguinte:snack = source("snack.dat", list(cisalhamento=0, grupo=0,semana=0))grupo = factor(grupo).A B C D E406080100120GrupoCisalhamentoFigura2.22: Boxplotsdaforadecisalhamentosegundoogrupoeparatodas as semanas.NotamospelaFigura2.22, emquesoapresentadososboxplotsdaforade cisalhamentosegundoogrupoe paratodas as semanas, que osgruposAeCpossuemosmaioresvalores,enquantoogrupoCtemvalores1512.8 Aplicaesintermedirios eos grupos DeEtmos menores valores. Nota-seumaassimetriadireitanadistribuiodaforadecisalhamentoparatodososgrupos. Esssas tendncias so conrmadas pela tabela dada a seguir em quesoapresentadasasmdias, desviopadroecoecientedevariaoparaafora de cisalhamento para cada grupo.Estatstica Grupo A Grupo B Grupo C Grupo D Grupo EMdia 66,201 55,294 61,632 51,027 50,257D.Padro 18,707 13,143 19,601 10,960 11,402C. Variao 28,20% 23,80% 31,80% 21,50% 22,70%2 4 6 8 10 12 14 16 18 20406080100120SemanasCisalhamentoFigura2.23: Boxplotsdaforadecisalhamentosegundoasemanaeparatodos os grupos.J na Figura 2.23, em que so apresentados os boxplots para todos osgrupos ao longo das 20 semanas, uma tendncia crescente observada at a1522.8 Aplicaes14asemana seguida de um decrescimento at a ltima semana. Vericamostambm, paracadasemana, queadistribuiodaforadecisalhamentomostra-seassimtricadireitasugerindoumadistribuiogamaounormalinversa. Esssas tendncias so conrmadas pela tabela dada a seguir em quesoapresentadasasmdias, desviopadroecoecientedevariaoparaafora de cisalhamento para cada semana.Estatstica Semana 2 Semana 4 Semana 6 Semana 8 Semana 10Mdia 50,95 44,66 50,08 55,57 60,15D.Padro 13,12 9,76 15,97 16,28 14,72C. Variao 25,80% 21,90% 31,90% 29,30% 24,50%Estatstica Semana 12 Semana 14 Semana 16 Semana 18 Semana 20Mdia 57,84 71,57 65,18 60,37 52,45D.Padro 13,61 20,17 16,95 10,25 12,58C. Variao 23,50% 28,20% 26,00% 17,00% 24,00%Assim, denotaremospor Yijkaforadecisalhamentoreferentek-simarplicadoi-simogruponaj-simasemana,parak=1, . . . , 15, j=2, 4, 6, . . . , 20ei =1(A),2(B),3(C),4(D)eE(5). AmdecompararmosasduasdistribuiesassimtricasvamossuporqueYijk G(ij, )eYijk NI(ij, ) com parte sistemtica dada porij= + i + 1semanaj + 2semana2j, (2.6)em que1= 0. Portanto o efeito da forma A, controlando pela semana,e + i(i=2,3,4,5)soosefeitosdasdemaisformasB,C,DeE,respecti-vamente. Estamos supondo a mesma tendncia para os cinco tipos de snack.Alternativamente poderamos incluir interao entre grupo e semana, possi-bilitando o ajuste de tendncias separadas para cada grupo.1532.8 AplicaesParaajustarmosomodelo(2.6)comrespostanormalinversasemin-terao devemos fazer o seguinte:s1 = semanas2 = s1*s1fit1.snack = glm(cisalhamento grupo + s1 + s2,family=inverse.gaussian(link=identity))summary(fit1.snack).Abaixo seguem os comandos para o ajuste com interaofit2.snack = glm(cisalhamento grupo + s1 + s2 + s1*grupo+s2*grupo, family=inverse.gaussian(link=identity))summary(fit2.snack).40 45 50 55 60 65 702101234Valores AjustadosResiduo de Pearson(a)40 45 50 55 60 65 702101234Valores AjustadosResiduo de Pearson(b)Figura 2.24: Grcos do resduo de Pearson contra os valores ajustados refe-rentes aos modelos gama (a) e normal inversa (b) ajustados aos dados sobresnacks .Este um exemplo em que h uma ligeira superioridade da distribuionormal inversa em relao distribuio gama. Embora a funo de varincia1542.8 Aplicaesda normal inversa seja cbica enquanto para a gama temos funo de varin-cia quadrtica, nem sempre possvel diferenciarmos de forma clara os doisajustes. Notamos pela Figura 2.24 que o grco de resduos de Pearson con-traosvaloresajustadosapresentaumatendnciasistemticacrescentesobomodelogama, queamenizadasobomodelocomerrosnormal inversa.Os dois modelos ajustam-se muito bem aos dados como podemos notar pelovalordodesviodomodelogamaD(y; )=756, 87(753g.l.) comP=0,35e pelo grco normal de probabilidades para o modelo com resposta normalinversa (Figura 2.25).3 2 1 0 1 2 342024Percentis da N(0,1)Componente do DesvioFigura 2.25: Grco normal de probabilidades referente ao modelo com res-posta normal inversa ajustado aos dados sobre snacks.Na Tabela 2.5 so apresentadas as estimativas sob o modelo com res-posta normal inversa. Todos os efeitos so altamente signicativos, em par-ticularoefeitodesemananaformaquadrtica. Controlandoesseefeito, a1552.8 Aplicaesmaior fora mdia de cisalhamento ocorre com o produto sob a forma A (au-sncia de leo de canola) e a menor fora mdia de cisalhamento ocorre comas formas D e E, conrmando-se as tendncias observadas na Figura 2.22.NaFigura2.26temososvalorespreditosparaos5gruposaolongodas20semanas. Aestimativadoparmetrodedispersoindicaqueadis-tribuio da fora de cisalhamento em cada grupo, xando o tempo, apro-ximadamentenormal. Contudo, avarinciadependedamdia. Aformacbica para a varincia mostrou-se ligeiramente superior forma quadrtica.Outrasformasparaajustarmosavarinciapodemsertestadas, comoporexemplo,atravsdemodelosdequase-verossimilhanaqueserodiscutidosnoCaptulo5. OparalelismoentreascurvasapresentadasnaFigura2.26devidonoinclusodeinteraoentresemanaegrupo. Alternativa-mente, poderamosincluirumafunoparacadagrupo, ouento, oefeitosemana poderia ser controlado atravs de funes no paramtricas (ver, porexemplo, Wood, 2006).Tabela2.5Estimativas dos parmetros referentes aomodelo com resposta normal inversaajustado aos dados sobre snacks.Efeito Estimativa E/E.PadroConstante 50,564 26,32Grupo B -10,916 -6,41Grupo C -5,459 -3,03Grupo D -15,357 -9,42Grupo E -16,596 -10,30Semana 2,727 8,18Semana2-0,091 -5,90 1005 -Algumas observaes foram detectadas como possivelmente inuentes(vide Figura 2.27): #2 (2asemana, grupoB), #8 (2asemana, grupo B), #101562.8 Aplicaes(2asemana, grupo B), #311 (2asemana, grupo C), #465 (2asemana, grupoD)e#744(ltimasemana, grupoE). Emboraosvalorespreditosparaaforadecisalhamentodessasamostrasestejamabaixodamdia, osvaloresobservados so em geral altos quando comparados com os valores dos grupos edas semanas correspondentes. Tambm o fato de 5 dessas observaes teremocorrido logo na segunda semana pode ser um indcio de alguma diculdadeinicial comoexperimento. Aeliminaodessas6observaesdototal de744 observaes leva a algumas variaes desproporcioanis. Por exemplo, asestimativas dos efeitos dos grupos B e C diminuem por volta de 8%. Todavia,no ocorrem mudanas inferenciais importantes.SemanaValor Predito5 10 15 2040506070ABCDEFigura2.26: Valorespreditosparaaforamdiadecisalhamentoparaas5formas de snacks atravs do modelo com resposta normal inversa.1572.8 Aplicaes40 45 50 55 60 65 700.000.050.100.150.20Valores AjustadosDistancia de Cook2810311465744Figura2.27: GrcodadistnciadeCookcontraosvaloresajustadosre-ferenteaomodelocomrespostanormal inversaajustadoaos dados sobresnacks.2.8.2 ProjeodevendasWhitmore(1986)(vertambmFaraway, 2006, Cap. 7)apresentaumcon-junto de dados em que o valor verdadeiro para as vendas relacionado comovalorprojetadoparaasvendasde20produtos. OsdadosestodescritosnaTabela2.6. Comoasvendastendematerumavariablidademaiorparavalores mais altos e os dados so positivos, a suposio de erros normais comvarinciaconstantenopareceserrazovel. Whitmore(1986)sugereumadistribuio normal inversa para a respostaYique denota o total de vendasreais para o i-simo produto e que i = E(Yi) relacionada com xi, o i-simovalor projetado, de forma lineari= xi, ou seja, uma regresso linear pas-sando pela origem. O diagrama de disperso dos dados descrito na Figura2.28, juntamentecomasretasajustadassoberrosgamaenormal inversa.Notamos que as retas ajustadas so similares.1582.8 Aplicaes0 1000 2000 3000 4000 5000 6000010002000300040005000Vendas ProjetadasVendas ReaisGamaN.InversaFigura 2.28: Modelos ajustados aos dados sobre vendas projetadas sob errosgama e normal inversa.Tabela2.6Vendas projetadas e reais devrios produtos.Projetada Real Projetada Real5959 5673 527 4873534 3659 353 4632641 2565 331 2251965 2182 290 2571738 1839 253 3111182 1236 193 212667 918 156 166613 902 133 123610 756 122 198549 500 114 99ComopodemosnotarpelosgrcosdoresduodePearsoncontraosvalores ajustados (Figura 2.29) os dois ajustes no parecem adequados, em-1592.9 Modelagem simultnea da mdia e da disperso0 1000 3000 50003210123Valores AjustadosResiduo de Pearson(a)0 1000 3000 50002101234Valores AjustadosResiduo de Pearson(b)Figura2.29: GrcosdoresduodePearsoncontraosvaloresajustadosre-ferentesaosmodeloscomrespostagama(a)enormalinversa(b)ajustadosaos dados sobre vendas projetadas.bora a suposio de erros gama seja mais razovel do que normal inversa. Porexemplo, as estimativas para o modelo gama so dadas por= 1, 089(0, 051)e=24, 94(7, 83). Assim,notamospelaestimativadequeototalproje-tadodevendasumbompreditordototal real vendidoeaestimativade indica que a distribuio do total real de vendas (dado o total projetado)pode ser aproximada por uma normal heteroscedstica.2.9 ModelagemsimultneadamdiaedadispersoEventualmente o coeciente de variao pode no ser constante variando comasobservaes. Smyth(1989)introduziuosmodeloslinearesgeneralizadosduploscommodelagemconjuntadamdiaedoparmetrodedispersoedesenvolveu um processo de estimao baseado no mtodo de mxima veros-1602.9 Modelagem simultnea da mdia e da dispersosimilhana que descreveremos a seguir. Contudo, outros mtodos alternativosdeestimao, taiscomomximaverossimilhanarestrita, forampropostosmaisrecentementecomointuitodereduzirovisdasestimativasdem-ximaverossimilhana, particularmentedos coecientes docomponentededisperso. Uma discusso a respeito desses mtodos pode ser encontrada emSmyth, Huela e Verbyla (2001).AmdeformalizarmososMLGsduplosvamossuporqueY1, . . . , Ynsovariveisaleatriasindependentescomfunodensidadeoufunodeprobabilidades expressa na formaf(y; i, i) = exp[i{yib(i)} + c(y, i)],emquec(y, i) =d(i) + ia(y) + u(y). Essadecomposio, comovimosnaSeo1.7.2,valesomenteparaasdistribuiesnormal,normalinversaegama da famlia exponencial. Alm disso, vamos supor queg(i) = i= xTi e h(i) = i= zTi,em quexi= (xi1, . . . , xip)Tezi= (zi1, . . . , ziq)Tcontm valores de variveisexplicativas e =(1, . . . , p)Te =(1, . . . , q)Tsoos parmetros aserem estimados.Seja=(T, T)T, entoologaritmodafunodeverossimilhanaca dado porL() =n

i=1[i{yiib(i)} + d(i) + ia(yi) + u(yi)]=n

i=1{iti + d(i) + u(yi)}, (2.7)em queti= yii b(i) + a(yi). Portanto,seiforxado a expresso (2.7)coincidecomologaritmodafunodeverossimilhanadeummodeloda1612.9 Modelagem simultnea da mdia e da dispersofamliaexponencial comrespostasindependentesT1, . . . , Tn(valoresobser-vadost1, . . . , tn),parmetroscannicos1, . . . , neparmetrodedispersoigual a1. Pelas propriedades da famlia exponencial segue queTi= E(Ti) = d(i) e Var(Ti) = d(i).Essas quantidades so descritas na Tabela 2.7 para as distribuies normal,normal inversaegama. Osresultadosacimapodemserobtidos, alterna-tivamente, aplicando-secondies usuais deregularidadenologaritmodaverossimilhana dado em (2.7).Tabela2.7Derivao de algumas quantidades para distribuies da famlia exponencial.Normal Normal inversa Gamatiyii12(2i+ y2i) {yi/22i+ 1i+ (2yi)1} log(yi/i) yi/id()12log12log log log()d() (2)1(2)1(1 + log) ()d() -(22)1-(22)11()Conforme observadopor Verbyla(1989) se chamarmos Di=2Ti(i = 1, . . . , n) segue queE(Di) = 1ie Var(Di) =E2(Di),emque=12, eportantoaexpresso(2.7)podeserinterpretadaparaosmodelos com resposta normal e normal inversa como um MLG de respostasindependentes D1, . . . , Dncomdistribuiogamademdias 11, . . . , 1n,respectivamente, eparmetrodedisperso1=2. Assim, paraixado,osparmetrosdadispersopodemserestimadosalternativamenteatravsdeumMLGcomrespostasindepe