Click here to load reader

Modelos de Regressão Linear Múltipla Utilizando os Softwares R e

  • View
    223

  • Download
    6

Embed Size (px)

Text of Modelos de Regressão Linear Múltipla Utilizando os Softwares R e

  • 1

    MODELOS DE REGRESSO LINEAR MLTIPLA UTILIZANDO OS

    SOFTWARES R E STATISTICA: UMA APLICAO A DADOS DE

    CONSERVAO DE FRUTAS

    Ceclia P. Sassi, Felipe G. Perez, Letcia Myazato, Xiao Ye, Paulo H. Ferreira-Silva e Francisco

    Louzada

    ICMC USP CP668 CEP 13.566-590, So Carlos, SP, Brasil

    [email protected]

    Resumo Neste artigo so apresentados ajustes de modelos de regresso linear mltipla usando os

    softwares R e STATISTICA. Para isso, utilizou-se um conjunto de dados proveniente de uma

    pesquisa sobre conservao de frutas. Observou-se que as variveis tempo de contato,

    temperatura do processo e concentrao da soluo osmtica tm impacto de sinal positivo

    sobre a varivel resposta, a perda de peso (em %) da fruta em questo (abacaxi).

    Palavras-chave: planejamento de experimentos, regresso linear mltipla, tabela ANOVA,

    software R, STATISTICA, conservao de frutas, anlise de resduos.

    1. Introduo

    Este artigo tem como foco a aplicao da regresso linear mltipla em dados relacionados

    ao planejamento de experimentos (dados de conservao de frutas) e a utilizao de dois

    softwares, o R e o STATISTICA, para as devidas anlises estatsticas.

    O objetivo aqui , ento, ajustar modelos de regresso linear mltipla, mostrando em

    paralelo a utilizao de dois softwares e explicando passo-a-passo cada funo e comandos

    empregados.

    O relatrio organizado da seguinte maneira. Na Seo 2 apresentado um breve

    histrico dos dois softwares utilizados, o R e o STATISTICA. Na Seo 3 descrita a

    metodologia empregada na anlise (regresso linear mltipla em planejamento de

  • 2

    experimentos). Na Seo 4 so apresentados os resultados obtidos quando da aplicao da

    metodologia em questo a um conjunto de dados reais (dados de conservao de frutas).

    Comentrios finais e concluses, na Seo 5, finalizam o relatrio.

    2. Histrico

    Nesta seo apresentado um breve histrico dos dois softwares utilizados neste

    relatrio, nominalmente, o R (seo 2.1) e o STATISTICA (seo 2.2).

    2.1. O software livre R

    O software R foi desenvolvido por Robert Gentleman e Ross Ihaka, ambos do

    Departamento de Estatstica da Universidade de Auckland, da Nova Zelndia, e o nome R

    dado ao programa foi originado das iniciais dos autores, conhecidos por R & R.

    O objetivo inicial de R & R, em 1991, era produzir um software para as suas aulas de

    laboratrio baseado na linguagem S, utilizada pelo software comercial S-Plus, criado por Jonh

    M. Chambers da AT&T, que atualmente ajuda muito no desenvolvimento e aperfeioamento

    das ferramentas do programa.

    Em 1993, algumas cpias foram disponibilizadas no StatLib, um sistema de distribuio

    de softwares estatsticos. Incentivado por um dos primeiros usurios deste programa, Martin

    Mchler do ETH Zrich (Instituto Federal de Tecnologia de Zurique, da Sua), R & R

    lanaram em 1995 o cdigo fonte do R, um software que podia ser utilizado pela Internet.

    Desde 1997, o software R atualizado e melhorado constantemente por um grupo de

    profissionais que de certa forma dominam a linguagem do programa. Hoje em dia, o R tem

    inmeros usurios, devido ao fato de ser gratuito, porm exigindo dos usurios a lgica de

    programao.

    Atravs do site http://cran.r-project.org, possvel fazer o download do programa, sendo

    compatvel com quase todos os sistemas operacionais. Para us-lo necessrio que o

    indivduo conhea e digite comandos, alm de poder criar suas prprias funes,

    caracterizando-se, assim, como um programa flexvel, com inmeros recursos. O software

    possui um conjunto de pacotes com atualizaes que acrescentam potencialidades verso

    base do R e com uma grande aplicao em assuntos relacionados estatstica, como a

    manipulao, avaliao e interpretao de dados.

  • 3

    Alm disso, o site citado acima apresenta vrias informaes sobre como usar o R e uma

    central de correspondncias, na qual profissionais de vrias reas buscam permanentemente

    mudanas no programa no intuito de facilitar ao mximo a sua utilizao pelo usurio.

    2.2. O software STATISTICA

    Em 1984, uma parceria de um grupo de professores universitrios e cientistas criou a

    empresa StatSoft com o objetivo de desenvolver procedimentos estatsticos que no estavam

    disponveis no mercado ou disponveis apenas no comando-driven.

    Seus primeiros produtos foram o PsychoStat-2 e o PsychoStat-3, includo menu-driven

    bibliotecas de procedimentos estatsticos flexvel, integrado, com gerenciamento de dados. Os

    programas estavam disponveis em verses para todas as plataformas de microcomputador e

    rapidamente ganharam popularidade.

    Em 1985, a StatSoft comeou a crescer rapidamente, lanando seu primeiro produto no

    mercado geral, o Suplemento de Estatstica para o Lotus 1-2-3. No mesmo ano, a empresa

    lanou a StatFast, que foi o primeiro pacote de estatsticas divulgadas para o recm-

    introduzido Apple Macintosh. Em 1986, aps o sucesso do Suplemento Estatstico de Lotus

    1-2-3 e dos programas StatFast, duas novas unidades (o grupo de grficos analticos e de

    otimizao numrica do grupo) foram adicionadas Pesquisa StatSoft e Departamento de

    Desenvolvimento, criando tambm o CSS (sistema de estatsticas completo), com diversos

    mdulos na rea da estatstica.

    Entre 1988 e 1990, a organizao lanou uma verso do CSS com uma integrao nica

    entre resultados numricos e grficos, em que toda a sada numrica poderia ser

    interativamente visualizada em uma variedade de maneiras. Foi investido tambm na parte

    grfica do sistema e um resultado importante dessa deciso foi a nova tecnologia grfica

    introduzida em 1991 na linha de software STATISTICA.

    Uma das muitas caractersticas nicas do CSS a abrangncia e a qualidade dos

    procedimentos estatsticos, que foram desenvolvidos por especialistas nos respectivos campos

    de investigao ou prtica. Em 1988, a empresa tambm lanou um programa mais poderoso

    para o Macintosh, o MacSS (Macintosh Sistema Estatstico). Esses anos marcaram o aumento

    constante na popularidade e reconhecimento da linha de software CSS.

    A verso DOS do primeiro STATISTICA (a nova linha grfica do software

    STATISTICA) foi lanada em Maro de 1991. O software STATISTICA/DOS ofereceu a

  • 4

    maior seleo de grficos em um nico sistema disponvel no mercado e uma srie de

    vantagens tecnolgicas. Algumas de suas caractersticas nicas e solues de interface de

    usurio se tornaram padres estatsticos e analticos para software grfico.

    Em 1993, surge uma verso para Windows do STATISTICA. Entre 1994 e 1998, a

    StatSoft lanou o software STATISTICA 4.0, 4.5, 5.0, 5.1, 97 Edition e 98 Edition, e eles

    continuaram a definir o novo desempenho, capacidade e padres de abrangncia para as

    estatsticas. Na viso dos usurios, esses lanamentos s melhoravam a qualidade do software.

    Entre 2008 e 2009, o STATISTICA 9 atualizou toda a linha de produtos StatSoft para

    computao de 64 bits.

    Atualmente, a StatSoft a maior empresa do mundo que oferece sistemas de controle de

    qualidade para empresas, apoiada por um servio completo de escritrios em 20 locais no

    exterior, em todos os continentes. hoje uma das maiores fornecedoras mundiais de

    softwares em todo o mundo analtico, e o seu principal produto, o software STATISTICA,

    disponvel em vrios idiomas, usado em muitas universidades, institutos de pesquisa,

    empresas e unidades em mais de 60 pases.

    3. Metodologia

    Nesta seo so apresentados conceitos sobre a regresso linear mltipla, que se referem

    a uma situao em que a reta ajustada no descreve bem o conjunto de dados e, com isso,

    podem ser levadas em considerao outras variveis independentes que possivelmente

    influenciam no valor de Y, a varivel dependente. Ou seja, a regresso mltipla pode ser usada

    no intuito de melhorar o modelo desenvolvido para explicar o comportamento das variveis

    do banco de dados que esto sendo estudadas.

    Em regresso mltipla, a varivel determinada aquela que tenha correlao significativa

    com a varivel a ser prevista. A varivel est no centro das anlises e deve ser identificado o

    seu impacto coletivo, assim como a contribuio de cada varivel separada para o efeito geral

    da varivel preditora.

    A regresso linear mltipla uma tcnica multivariada cuja finalidade principal obter

    uma relao matemtica entre uma das variveis estudadas (varivel dependente ou resposta)

    e o restante das variveis que descrevem o sistema (variveis independentes ou explicativas),

    e reduzir um grande nmero de variveis para poucas dimenses com o mnimo de perda de

    informao, permitindo a deteco dos principais padres de similaridade, associao e

  • 5

    correlao entre as variveis. Sua principal aplicao, aps encontrar a relao matemtica,

    produzir valores para a varivel dependente quando se tm as variveis independentes

    (clculo dos valores preditos). Ou seja, ela pode ser usada na predio de resultados, por meio

    da regra estatstica dos mnimos quadrados.

    A incluso de novas variveis na equao de ajuste pode ser feita para aumentar o grau de

    correlao entre os dados tericos e reais. Tal modelo apresenta a seguinte equao:

    0 1 1 ... p pY X X e = + + + + , (1) sendo pX a p-sima varivel observada, p o coeficiente associado p-sima varivel e

    0 1 1 ... p pe Y Y Y X X = = o erro que apresenta distribuio normal com mdia

    zero e varincia 2.

Search related