EXTENS•ES DO ALGORTMO DE RVORES DE .com finalidades similares   regress£o linear mltipla,

  • View
    212

  • Download
    0

Embed Size (px)

Text of EXTENS•ES DO ALGORTMO DE RVORES DE .com finalidades similares   regress£o linear...

  • Rev. Bras. Biom., So Paulo, v.27, n.1, p.93-114, 2009 93

    EXTENSES DO ALGORTMO DE RVORES DE CLASSIFICAO PARA A ANLISE DE DADOS CATEGORIZADOS MULTIVARIADOS UTILIZANDO COEFICIENTES DE DISSIMILARIDADE E ENTROPIA

    Cesar Augusto TACONELI1 Silvio Sandoval ZOCCHI2

    Carlos Tadeu dos Santos DIAS2

    RESUMO: A anlise estatstica de grandes bancos de dados requer a utilizao de metodologias flexveis, capazes de produzir resultados esclarecedores e facilmente compreensveis frente a dificuldades como a presena de nmeros elevados de variveis, diferentes graus de associaes entre as mesmas e dados ausentes. A utilizao de rvores de classificao e regresso proporciona a modelagem de uma varivel resposta, categorizada ou numrica, com base em um conjunto de covariveis, sem esbarrar nas dificuldades mencionadas. A extenso multivariada de tcnicas de classificao e regresso por rvores tem sido estudada de maneira mais acentuada para situaes em que se tm mltiplas variveis resposta numricas. Prope-se neste trabalho metodologias fundamentadas em rvores de classificao multivariadas aplicadas anlise de mltiplas variveis resposta categorizadas, com base em coeficientes de dissimilaridade e entropia. Por meio de um estudo de simulao, verificou-se que os resultados produzidos pelos mtodos propostos so melhores quanto maiores as entropias e correlaes das variveis sob estudo. A anlise de dados de consumo de lcool e fumo dos habitantes do municpio de Botucatu-SP complementa o presente estudo, indicando, dentre outras coisas, o grau de escolaridade, a ocupao profissional e a possibilidade de compartilhar problemas com amigos como fatores que influenciam o perfil de consumo de lcool e fumo dos habitantes.

    PALAVRAS CHAVE: rvores de classificao; dissimilaridade; entropia; lcool e fumo; simulao multivariada.

    1 Introduo

    Levantamentos e experimentos so responsveis, muitas vezes, pela produo de dados complexos, com grande nmero de variveis e elementos, tornando necessria a aplicao de anlises estatsticas sofisticadas e originando, por vezes, resultados de difcil interpretao at mesmo para profissionais da rea estatstica. A proposta de mtodos capazes de produzir resultados de fcil compreenso em tais ocasies torna-se, ento, fundamental. Nesse contexto, tcnicas de classificao e regresso por rvores (Classification And Regression Trees CART - Breiman et al., 1984; DeAth e Fabricius,

    1 Departamento de Estatstica, Universidade Federal do Paran UFPR, CEP 81531-990, Curitiba, PR, Brasil.

    E-mail: taconeli@ufpr.br 2 Departamento de Cincias Exatas, Escola Superior de Agricultura Luiz de Queiroz ESALQ, Universidade de

    So Paulo USP, CEP 13418-900, Piracicaba, SP, Brasil. E-mail: sszocchi@esalq.usp.br / ctsdias@esalq.usp.br

  • Rev. Bras. Biom., So Paulo, v.26, n.4, p.93-114, 2009 94

    2000) surgem como uma alternativa preditiva/exploratria de grande valia, dadas a simplicidade e a versatilidade associadas.

    A construo de modelos de classificao e regresso por rvores possibilita a explicao de uma varivel resposta numrica (regresso) ou categorizada (classificao) por meio de um conjunto de covariveis e de suas eventuais interaes. O mtodo CART baseia-se na execuo de parties binrias sucessivas de uma amostra, com base nos resultados amostrados das covariveis, buscando a constituio de subamostras internamente homogneas. A classificao dessas subamostras realizada conforme alguma medida descritiva e a predio de novos elementos, executada por meio da estrutura de classificao constituda.

    Tcnicas de regresso e classificao por rvores podem ser empregadas como alternativa ou complemento a procedimentos estatsticos de regresso, agrupamentos e classificao. A versatilidade de tais tcnicas notria, comprovada por suas aplicaes com finalidades similares regresso linear mltipla, regresso logstica, anlise de sobrevivncia, anlise discriminante, correlao cannica e anlise de agrupamentos, dentre outros mtodos estatsticos. Alm disso, o CART destaca-se por sua flexibilidade, sem quaisquer restries quanto natureza e distribuio das variveis, e por sua simplicidade, tanto em relao construo do modelo quanto interpretao dos resultados.

    A extenso do CART anlise de dados multivariados vem sendo estudada e difundida com intensidade nos ltimos anos. O mrito da modelagem conjunta de mltiplas variveis resposta consiste na obteno de um nico modelo para a anlise de mltiplas variveis, permitindo tambm incorporar as possveis correlaes. A construo de rvores de classificao e regresso multivariadas requer, no entanto, critrios adequados quanto segmentao das amostras e avaliao da qualidade do modelo. Extenses multivariadas do CART permitem analisar dados longitudinais (Segal, 1992), respostas binrias mltiplas (Zhang, 1998) e respostas quantitativas mltiplas (DeAth, 2002; Miller e Franklin, 2002; Larsen e Speckman, 2004). Um procedimento de classificao e regresso por rvores capaz de acomodar diferentes tipos de variveis usando GEE (generalized estimation equations) proposto em Lee (2005).

    Propem-se aqui extenses do algoritmo de classificao por rvores para a anlise de mltiplas variveis resposta, baseadas em coeficientes de dissimilaridade e entropia. Essas tcnicas visam permitir o estudo de mltiplas variveis categorizadas por meio da construo de um nico modelo, conservando a estrutura de correlao dos dados e tornando mais compacta a anlise. Os procedimentos propostos so avaliados por meio de um estudo de simulao. Um exemplo com dados de consumo alcolico, cigarro e maconha, produzidos por questionrios aplicados a uma amostra de habitantes do municpio de Botucatu (SP) complementa a anlise.

    2 rvores de classificao univariadas

    A construo de uma rvore de classificao iniciada com a execuo de parties de uma amostra e das subamostras constitudas, sempre originando duas novas subamostras. Denomina-se n inicial amostra original, ns intermedirios s subamostras que do origem a novas subamostras e ns finais s subamostras no partidas. Denota-se por t um n qualquer. As referidas parties baseiam-se nos

  • Rev. Bras. Biom., So Paulo, v.27, n.1, p.93-114, 2009 95

    resultados amostrados das covariveis. Seja { } ,,...,2,1,, njY jj =X uma amostra de tamanho n de uma varivel resposta categorizada Y e de um vetor de covariveis

    ( )jpjj XXX ,...,, 21=X de dimenso p . Considere lX uma varivel ordenvel e um dos resultados amostrados para lX . Nesse caso, pode-se partir a amostra em duas, alocando os elementos a ns distintos conforme resposta positiva ou negativa questo ?"" ljX .

    Caso a varivel lX no seja ordenvel, considere A uma categoria (ou subconjunto de categorias) de lX . Alocam-se elementos a ns distintos conforme resposta (positiva ou negativa) questo ?"" AX lj .

    Seguindo os procedimentos descritos para segmentao de amostras, devem-se considerar todas as possveis parties proporcionadas pelas p covariveis sob estudo, respeitando, no entanto, restries quanto ao nmero mnimo de elementos nos ns a serem partidos ou constitudos, a fim de no comprometer a acurcea do modelo. As parties candidatas devem ento ser comparadas, executando-se aquela responsvel pela formao de subamostras com menores taxas de heterogeneidade. Com o objetivo de quantificar a heterogeneidade das subamostras obtidas, Breiman et al. (1984) definem diferentes coeficientes denominados medidas de impureza. Para rvores de classificao propem, por exemplo, a medida de entropia, apresentada em Zar (1999) como medida de diversidade de Shannon.

    Seja Y uma varivel categorizada e { }1 2, , ... , mY Y Y seu conjunto de resultados possveis. Define-se a entropia de um n t como ( ) ( )( )21( ) log

    mt k t kk

    t p y p y=

    = , sendo

    ( )kt yp a proporo de elementos alocados ao n t pertencentes classe k. Quando ( ) 0t kp y = , considera-se ( ) ( )( )2log 0t k t kp y p y = . Assim, tem-se que ( )( ) 0Mn t = ,

    quando ( ) 1=kt yp e ( ) kkyp kt = ,0 , situao em que todos os elementos pertencem a uma mesma categoria (heterogeneidade mnima). Alm disso, tem-se que

    ( ) 2( ) logMx t k = , quando ( ) { }mkkyp kt ,...,2,1,/1 = , ou seja, quando os elementos se dividem com iguais freqncias entre as categorias da varivel em questo (heterogeneidade mxima).

    Suponha que um n t seja dividido em dois novos ns ( Lt e Rt ), segundo uma partio s . Define-se a variao de heterogeneidade ocasionada por s como

    ( ) ( ) ( ) ( ), L RL Rn n

    s t t t tn n

    = (1)

    devendo ser selecionada e executada a partio s responsvel por maximizar ( ),s t . As subamostras originadas devem ser partidas de maneira semelhante descrita para o n inicial, com base no critrio de partio estabelecido. O procedimento repetido sucessivamente para os ns originados at a constituio de uma rvore com reduzido nmero de elementos em cada n final.

    Numa segunda etapa, inicia-se a busca por um modelo parcimonioso, ou seja, uma rvore que proporcione boa reduo na heterogeneidade do n inicial mediante

  • Rev. Bras. Biom., So Paulo, v.26, n.4, p.93-114, 2009 96

    constituio de um nmero moderado de ns. Com essa finalidade, deve-se executar o processo de poda, que consiste na obteno de uma seqncia de rvores de tamanhos decrescentes, a partir da rvore inicialmente produzida, com base em uma funo do tipo custo-complexidade (Breiman et al., 1984). Sejam MAXT a maior rvore, gerada pela

    execuo de sucessivas parties binrias dos ns originados, e T~

    o conjunto de ns

    finais para uma subrvore T qualquer de MAXT . Sejam, ainda, T~

    o nmero de ns finais

    de T e 0 uma constante real denominada parmetro de complexidade. Breiman et al. (1984) define a seguinte medida de custo-complexidade:

    ( ) ( ) TTRTR ~ += (2)

    sendo ( ) ( )t T

    R T t