Click here to load reader
View
223
Download
6
Embed Size (px)
1
MODELOS DE REGRESSO LINEAR MLTIPLA UTILIZANDO OS
SOFTWARES R E STATISTICA: UMA APLICAO A DADOS DE
CONSERVAO DE FRUTAS
Ceclia P. Sassi, Felipe G. Perez, Letcia Myazato, Xiao Ye, Paulo H. Ferreira-Silva e Francisco
Louzada
ICMC USP CP668 CEP 13.566-590, So Carlos, SP, Brasil
Resumo Neste artigo so apresentados ajustes de modelos de regresso linear mltipla usando os
softwares R e STATISTICA. Para isso, utilizou-se um conjunto de dados proveniente de uma
pesquisa sobre conservao de frutas. Observou-se que as variveis tempo de contato,
temperatura do processo e concentrao da soluo osmtica tm impacto de sinal positivo
sobre a varivel resposta, a perda de peso (em %) da fruta em questo (abacaxi).
Palavras-chave: planejamento de experimentos, regresso linear mltipla, tabela ANOVA,
software R, STATISTICA, conservao de frutas, anlise de resduos.
1. Introduo
Este artigo tem como foco a aplicao da regresso linear mltipla em dados relacionados
ao planejamento de experimentos (dados de conservao de frutas) e a utilizao de dois
softwares, o R e o STATISTICA, para as devidas anlises estatsticas.
O objetivo aqui , ento, ajustar modelos de regresso linear mltipla, mostrando em
paralelo a utilizao de dois softwares e explicando passo-a-passo cada funo e comandos
empregados.
O relatrio organizado da seguinte maneira. Na Seo 2 apresentado um breve
histrico dos dois softwares utilizados, o R e o STATISTICA. Na Seo 3 descrita a
metodologia empregada na anlise (regresso linear mltipla em planejamento de
2
experimentos). Na Seo 4 so apresentados os resultados obtidos quando da aplicao da
metodologia em questo a um conjunto de dados reais (dados de conservao de frutas).
Comentrios finais e concluses, na Seo 5, finalizam o relatrio.
2. Histrico
Nesta seo apresentado um breve histrico dos dois softwares utilizados neste
relatrio, nominalmente, o R (seo 2.1) e o STATISTICA (seo 2.2).
2.1. O software livre R
O software R foi desenvolvido por Robert Gentleman e Ross Ihaka, ambos do
Departamento de Estatstica da Universidade de Auckland, da Nova Zelndia, e o nome R
dado ao programa foi originado das iniciais dos autores, conhecidos por R & R.
O objetivo inicial de R & R, em 1991, era produzir um software para as suas aulas de
laboratrio baseado na linguagem S, utilizada pelo software comercial S-Plus, criado por Jonh
M. Chambers da AT&T, que atualmente ajuda muito no desenvolvimento e aperfeioamento
das ferramentas do programa.
Em 1993, algumas cpias foram disponibilizadas no StatLib, um sistema de distribuio
de softwares estatsticos. Incentivado por um dos primeiros usurios deste programa, Martin
Mchler do ETH Zrich (Instituto Federal de Tecnologia de Zurique, da Sua), R & R
lanaram em 1995 o cdigo fonte do R, um software que podia ser utilizado pela Internet.
Desde 1997, o software R atualizado e melhorado constantemente por um grupo de
profissionais que de certa forma dominam a linguagem do programa. Hoje em dia, o R tem
inmeros usurios, devido ao fato de ser gratuito, porm exigindo dos usurios a lgica de
programao.
Atravs do site http://cran.r-project.org, possvel fazer o download do programa, sendo
compatvel com quase todos os sistemas operacionais. Para us-lo necessrio que o
indivduo conhea e digite comandos, alm de poder criar suas prprias funes,
caracterizando-se, assim, como um programa flexvel, com inmeros recursos. O software
possui um conjunto de pacotes com atualizaes que acrescentam potencialidades verso
base do R e com uma grande aplicao em assuntos relacionados estatstica, como a
manipulao, avaliao e interpretao de dados.
3
Alm disso, o site citado acima apresenta vrias informaes sobre como usar o R e uma
central de correspondncias, na qual profissionais de vrias reas buscam permanentemente
mudanas no programa no intuito de facilitar ao mximo a sua utilizao pelo usurio.
2.2. O software STATISTICA
Em 1984, uma parceria de um grupo de professores universitrios e cientistas criou a
empresa StatSoft com o objetivo de desenvolver procedimentos estatsticos que no estavam
disponveis no mercado ou disponveis apenas no comando-driven.
Seus primeiros produtos foram o PsychoStat-2 e o PsychoStat-3, includo menu-driven
bibliotecas de procedimentos estatsticos flexvel, integrado, com gerenciamento de dados. Os
programas estavam disponveis em verses para todas as plataformas de microcomputador e
rapidamente ganharam popularidade.
Em 1985, a StatSoft comeou a crescer rapidamente, lanando seu primeiro produto no
mercado geral, o Suplemento de Estatstica para o Lotus 1-2-3. No mesmo ano, a empresa
lanou a StatFast, que foi o primeiro pacote de estatsticas divulgadas para o recm-
introduzido Apple Macintosh. Em 1986, aps o sucesso do Suplemento Estatstico de Lotus
1-2-3 e dos programas StatFast, duas novas unidades (o grupo de grficos analticos e de
otimizao numrica do grupo) foram adicionadas Pesquisa StatSoft e Departamento de
Desenvolvimento, criando tambm o CSS (sistema de estatsticas completo), com diversos
mdulos na rea da estatstica.
Entre 1988 e 1990, a organizao lanou uma verso do CSS com uma integrao nica
entre resultados numricos e grficos, em que toda a sada numrica poderia ser
interativamente visualizada em uma variedade de maneiras. Foi investido tambm na parte
grfica do sistema e um resultado importante dessa deciso foi a nova tecnologia grfica
introduzida em 1991 na linha de software STATISTICA.
Uma das muitas caractersticas nicas do CSS a abrangncia e a qualidade dos
procedimentos estatsticos, que foram desenvolvidos por especialistas nos respectivos campos
de investigao ou prtica. Em 1988, a empresa tambm lanou um programa mais poderoso
para o Macintosh, o MacSS (Macintosh Sistema Estatstico). Esses anos marcaram o aumento
constante na popularidade e reconhecimento da linha de software CSS.
A verso DOS do primeiro STATISTICA (a nova linha grfica do software
STATISTICA) foi lanada em Maro de 1991. O software STATISTICA/DOS ofereceu a
4
maior seleo de grficos em um nico sistema disponvel no mercado e uma srie de
vantagens tecnolgicas. Algumas de suas caractersticas nicas e solues de interface de
usurio se tornaram padres estatsticos e analticos para software grfico.
Em 1993, surge uma verso para Windows do STATISTICA. Entre 1994 e 1998, a
StatSoft lanou o software STATISTICA 4.0, 4.5, 5.0, 5.1, 97 Edition e 98 Edition, e eles
continuaram a definir o novo desempenho, capacidade e padres de abrangncia para as
estatsticas. Na viso dos usurios, esses lanamentos s melhoravam a qualidade do software.
Entre 2008 e 2009, o STATISTICA 9 atualizou toda a linha de produtos StatSoft para
computao de 64 bits.
Atualmente, a StatSoft a maior empresa do mundo que oferece sistemas de controle de
qualidade para empresas, apoiada por um servio completo de escritrios em 20 locais no
exterior, em todos os continentes. hoje uma das maiores fornecedoras mundiais de
softwares em todo o mundo analtico, e o seu principal produto, o software STATISTICA,
disponvel em vrios idiomas, usado em muitas universidades, institutos de pesquisa,
empresas e unidades em mais de 60 pases.
3. Metodologia
Nesta seo so apresentados conceitos sobre a regresso linear mltipla, que se referem
a uma situao em que a reta ajustada no descreve bem o conjunto de dados e, com isso,
podem ser levadas em considerao outras variveis independentes que possivelmente
influenciam no valor de Y, a varivel dependente. Ou seja, a regresso mltipla pode ser usada
no intuito de melhorar o modelo desenvolvido para explicar o comportamento das variveis
do banco de dados que esto sendo estudadas.
Em regresso mltipla, a varivel determinada aquela que tenha correlao significativa
com a varivel a ser prevista. A varivel est no centro das anlises e deve ser identificado o
seu impacto coletivo, assim como a contribuio de cada varivel separada para o efeito geral
da varivel preditora.
A regresso linear mltipla uma tcnica multivariada cuja finalidade principal obter
uma relao matemtica entre uma das variveis estudadas (varivel dependente ou resposta)
e o restante das variveis que descrevem o sistema (variveis independentes ou explicativas),
e reduzir um grande nmero de variveis para poucas dimenses com o mnimo de perda de
informao, permitindo a deteco dos principais padres de similaridade, associao e
5
correlao entre as variveis. Sua principal aplicao, aps encontrar a relao matemtica,
produzir valores para a varivel dependente quando se tm as variveis independentes
(clculo dos valores preditos). Ou seja, ela pode ser usada na predio de resultados, por meio
da regra estatstica dos mnimos quadrados.
A incluso de novas variveis na equao de ajuste pode ser feita para aumentar o grau de
correlao entre os dados tericos e reais. Tal modelo apresenta a seguinte equao:
0 1 1 ... p pY X X e = + + + + , (1) sendo pX a p-sima varivel observada, p o coeficiente associado p-sima varivel e
0 1 1 ... p pe Y Y Y X X = = o erro que apresenta distribuio normal com mdia
zero e varincia 2.