Descoberta de Conhecimento com o uso de Text Mining: Cruzando

UUNNIIVVEERRSSIIDDAADDEE CCAATTÓÓLLIICCAA DDEE BBRRAASSÍÍLLIIAA Pró-Reitoria de Pós-Graduação e Pesquisa

Programa de Pós-Graduação Stricto Sensu em Informática Mestrado em Gestão do Conhecimento e da Tecnologia da Informação

Descoberta de Conhecimento com o uso de Text Mining: Cruzando o Abismo de

Moore

Edilberto Magalhães Silva

Brasília-DF 2002

Edilberto Magalhães Silva

Descoberta de Conhecimento com o uso de Text Mining: Cruzando o Abismo de

Moore

Prof. Dr. Hércules Antônio do Prado e

Prof. Dr. Edilson Ferneda Orientadores

Brasília-DF 2002

Dissertação apresentada ao Programa dePós-Graduação – Mestrado Stricto Sensu emGestão do Conhecimento e da Tecnologia daInformação da Universidade Católica de Brasília,como requisito parcial para obtenção do Título deMestre.

ii

Ficha Catalográfica

S586d Silva, Edilberto Magalhães

Descoberta de conhecimento com o uso de text mining: cruzando o abismode Moore / Edilberto Magalhães Silva. – Brasília, 2002.

174 p. Orientadores: Prof. Dr. Hércules Antônio do Prado e Prof. Dr. Edilson Ferneda. Dissertação (mestrado) – Universidade Católica de Brasília, 2002.

1. Inteligência organizacional. 2. Text mining. 3. CRISP-DM.4. KDT. 5. Aprendizagem organizacional. I. Título.

CDU 004.8

iii

Termo de Aprovação

Dissertação defendida e aprovada em 19 de dezembro de 2002, pela banca examinadora

constituída pelos professores:

______________________________________________ Prof. Dr. Hércules Antônio do Prado - Orientador

______________________________________________ Prof. Dr. Edilson Ferneda - Orientador

______________________________________________ Profa. Dra. Kira Maria Antonia Tarapanoff

______________________________________________ Prof. Dr. Eduardo Amadeu Dutra Moresi

iv

Dedicatória

A meus pais, Paulo Roberto e Maria de Fátima pelo apoio incondicional, pelo

amor, doação e educação dados ao filho que os ama muito.

A meus familiares, em especial, minhas irmãs, Cristiane e Ana Paula, pela

cooperação e privação das horas de convívio tão importantes para mim em decorrência da

dedicação a meus estudos.

A Júnior, Arthur, Eduardo, Marcos Vinnícius, Ana Clara e Lívia Maria os quais

me sinto honrado em tê-los como afilhados.

A meus avós in memorian.

v

Agradecimentos

A Deus que por tantos motivos reclamaria outra dissertação.

Aos administradores da RADIOBRÁS, Srs. Carlos Zarur e Luiz Antônio Duarte,

pelo apoio, em especial, ao Sr. José Roberto Barrozo pela amizade, conselhos e

gerenciamento no estudo de caso.

Aos professores Hércules Prado e Edílson Ferneda pela amizade, orientação e

sugestões, indispensáveis para a elaboração desta pesquisa

A ajuda valiosa de Leandro Wives pela disponibilização dos estudos realizados

na área de DCT e pelo fornecimento da ferramenta de mineração de texto Eurekha.

Ao Departamento de Ciência da Computação na pessoa do prof. Marcelo

Ladeira, que franqueou minha participação no curso Mineração de Dados oferecido, no

âmbito do projeto SARA - Saúde Apoiada em Raciocínio Automatizado (cooperação

UFRGS/UnB/UCB). A participação no referido curso foi de vital importância para o

desenvolvimento da aplicação de mineração de texto contida nesta dissertação.

A realização deste trabalho só foi possível graças à colaboração direta ou

indireta de várias pessoas, nossa gratidão a todas elas.

vi

Epígrafe

O Senhor é meu pastor, nada me faltará. Deitar-me faz em verdes pastos, guia-me mansamente a águas tranqüilas. Refrigera minha alma;

guia-me pelas veredas da justiça, por amor do seu nome. (Salmos 23; 1-3).

vii

Sumário

Lista de Figuras ...............................................................................................................................................x

Lista de Tabelas ..............................................................................................................................................xi

Lista de Abreviaturas ....................................................................................................................................xii

Resumo ..........................................................................................................................................................xiii

Abstract .........................................................................................................................................................xiv

Capítulo I - Introdução ................................................................................................................................15

Capítulo II - Apresentação do Problema.....................................................................................................19

2.1 - Importância das Informações Textuais nas Organizações ..................................................................20 2.2 - Uso de mineração de texto no mundo.................................................................................................21 2.3 - ‘Abismo’ de Moore ............................................................................................................................21 2.4 - Colocação do Problema ......................................................................................................................23 2.5 - Objetivos.............................................................................................................................................23 2.6 - Caracterização e Articulação da Pesquisa...........................................................................................24

Capítulo III - O Estado da Arte da DCT .....................................................................................................25

3.1 - KDT - Knowledge Discovery in Text.................................................................................................25 3.1.1 – Extração da Informação.............................................................................................................26 3.1.2 – Recuperação da Informação ......................................................................................................28

3.2 - Tecnologias para descoberta do conhecimento em Texto ..................................................................33 3.2.1 - Descobertas Reativa e Proativa..................................................................................................33 3.2.2 - Inteligência Competitiva.............................................................................................................35 3.2.3 - Tipos de Descoberta ...................................................................................................................36

3.3 - Diferenças entre Mineração de texto e Ferramentas de Busca ...........................................................37 3.4 - Síntese do Capítulo.............................................................................................................................39

Capítulo IV - Metodologia ............................................................................................................................42

4.1 - CRISP-DM .........................................................................................................................................42 4.1.1 - Definição e Entendimento do problema......................................................................................46 4.1.2 - Obtenção e Extração dos Dados.................................................................................................46 4.1.3 - Limpeza e Exploração dos Dados...............................................................................................47

viii

4.1.4 - Engenharia dos Dados................................................................................................................47 4.1.5 - Engenharia do algoritmo............................................................................................................48 4.1.6 – Mineração ..................................................................................................................................48 4.1.7 - Interpretação e Validação dos resultados ..................................................................................49 4.1.8 - Refinamento dos Dados e do Problema......................................................................................50

4.2 - Abordagens para DCT ........................................................................................................................50 4.2.1 - Abordagem de Palazzo ...............................................................................................................51 4.2.2 - Abordagem de Ah-Hwee Tan ......................................................................................................52 4.2.3 - Abordagem de Halliman .............................................................................................................53

4.3 - Abordagem Utilizada das Estratégias de DCT ...................................................................................55 4.4 - Síntese do Capítulo.............................................................................................................................56

Capítulo V - Compreensão do Negócio e Pré-Processamento....................................................................57

5.1 - Compreensão do Negócio...................................................................................................................57 5.1.1 - Objetivo do Negócio ...................................................................................................................58 5.1.2 - Avaliação da Situação ................................................................................................................61 5.1.3 - Objetivos da Mineração de Dados..............................................................................................67 5.1.4 - Plano do Projeto.........................................................................................................................68

5.2 - Entendimento dos Dados ....................................................................................................................71 5.2.1 - Relatório Inicial da Coleção.......................................................................................................71 5.2.2 - Descrição dos Dados ..................................................................................................................73 5.2.3 - Exploração dos Dados................................................................................................................74 5.2.4 - Qualidade dos Dados..................................................................................................................78

5.3 - Preparação dos Dados.........................................................................................................................79 5.3.1 - Seleção dos Dados ......................................................................................................................79 5.3.2 - Limpeza dos Dados.....................................................................................................................81 5.3.3 - Engenharia dos Dados................................................................................................................83 5.3.4 - Formatação dos Dados...............................................................................................................86

5.4 - Síntese do Capítulo.............................................................................................................................87

Capítulo VI - Modelagem..............................................................................................................................88

6.1 - Seleção da Técnica .............................................................................................................................88 6.1.1 - Descrição dos Dados e Sumarização..........................................................................................89 6.1.2 - Segmentação ...............................................................................................................................89

6.2 - Teste do modelo..................................................................................................................................91 6.3 - Modelo................................................................................................................................................92 6.4 - Avaliação Técnica ..............................................................................................................................96 6.5 - Síntese do Capítulo.............................................................................................................................98

ix

Capítulo VII - Pós-Processamento ...............................................................................................................99

7.1 - Avaliação............................................................................................................................................99 7.1.1 - Avaliação do Modelo ................................................................................................................100 7.1.2 - Revisão dos Processos ..............................................................................................................110 7.1.3 - Próximos passos .......................................................................................................................112

7.2 - Aplicação..........................................................................................................................................112 7.2.1 - Planejamento da Aplicação ......................................................................................................112 7.2.2 - Produção do relatório final ......................................................................................................113 7.2.3 - Revisão de projeto ....................................................................................................................114

7.3 - Síntese do Capítulo...........................................................................................................................115

Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento ..........................116

8.1 - Gestão do Conhecimento e Impactos da Mineração de Textos ........................................................117 8.2 - Modelo Genérico de Gestão do Conhecimento ................................................................................118

8.2.1 - Processos da Gestão do Conhecimento ....................................................................................119 8.2.2 - Fatores Facilitadores da Gestão do Conhecimento .................................................................122

8.3 - Contribuições da Mineração de Texto no Modelo de Gestão do Conhecimento..............................123 8.3.1 - Na Gestão da Empresa .............................................................................................................124 8.3.2 - No Modelo Genérico de Gestão do Conhecimento...................................................................125

8.4 - Síntese do Capítulo...........................................................................................................................126

Capítulo IX - Conclusões e Trabalhos Futuros.........................................................................................127

Capítulo X - Referências Bibliográficas.....................................................................................................131

Anexo A - Autorização e Avaliação da RADIOBRÁS.............................................................................134

Anexo B - Artigo no DM 2002.....................................................................................................................138

Anexo C - Artigo no KM Brasil 2002.........................................................................................................149

Anexo D - Artigo no ICEIS 2003 ................................................................................................................166

x

Lista de Figuras

Figura 2.1 - Comparação de uso entre técnicas de mineração. ........................................................................21 Figura 2.2 - Ciclo de vida de adoção de tecnologia. ........................................................................................22 Figura 3.1 - Etapas em uma indexação automática..........................................................................................31 Figura 4.1 - Ciclo de vida de DCBD segundo a CRISP-DM...........................................................................44 Figura 4.2 - Processo completo da DCBD.......................................................................................................45 Figura 4.3 - Abordagem de Palazzo.................................................................................................................51 Figura 4.4 - Abordagem de mineração de texto segundo Ah-Hwee Tan. ........................................................52 Figura 4.5 - Abordagem de Halliman. .............................................................................................................54 Figura 5.1 – Plano do projeto. .........................................................................................................................68 Figura 5.2 - Interface do Eurekha. ...................................................................................................................70 Figura 5.3 - Produção Mensal em 2001. ..........................................................................................................73 Figura 5.4 - Formato-padrão do conteúdo textos.............................................................................................74 Figura 5.5 - Padrão de nomenclatura do arquivo-texto....................................................................................74 Figura 5.6 - Incidência de palavras por mês (a)...............................................................................................76 Figura 5.7 - Incidência de palavras por mês (b)...............................................................................................76 Figura 5.8 - Utilitário de pesquisa textual........................................................................................................82 Figura 5.9 - Ciclo das tarefas da engenharia de dados.....................................................................................83 Figura 5.10 - Nomenclatura dos arquivos de C&T depois da engenharia dos dados.......................................85 Figura 5.11 - Nomenclatura depois da formatação dos textos. ........................................................................86 Figura 6.1 - Metodologia de agrupamento para DCT......................................................................................91 Figura 6.2 - Resultado do agrupamento de dezembro/01. ...............................................................................97 Figura 7.1 - Resultado da categorização de dezembro/01..............................................................................102 Figura 7.2 - Grandes assuntos abordados pelas notícias. ...............................................................................102 Figura 7.3 - Evolução na incidência das principais palavras em 2001. .........................................................103 Figura 7.4 - Palavras mais usadas..................................................................................................................104 Figura 7.5 - Distribuição de tipos de notícias. ...............................................................................................105 Figura 7.6 - Distribuição geográfica no Brasil...............................................................................................105 Figura 7.7 – Categorias das notícias no período ............................................................................................107 Figura 7.8 - Categorias das notícias por mês (a)............................................................................................108 Figura 7.8 - Categorias das notícias por mês (b)............................................................................................109 Figura 7.9 – Síntese metodológica do estudo de caso....................................................................................110 Figura 8.1 - Processo geral de aprendizado. ..................................................................................................118 Figura 8.2 - Modelo genérico de gestão do conhecimento. ...........................................................................119

xi

Lista de Tabelas

Tabela 5.1 - Resumo da importação dos dados................................................................................................72

Tabela 5.2 - Resumo dos dados importados. ...................................................................................................73

Tabela 5.3 - Total e média de palavras por texto. ............................................................................................75

Tabela 5.4 - Palavras com maior incidência por mês em 2001........................................................................75

Tabela 5.5 - Resultado da limpeza de dados....................................................................................................82

Tabela 6.1 - Resultados dos testes de algoritmos x nível de GSM. .................................................................94

Tabela 6.2 - Tempos de execução das tarefas..................................................................................................96

xii

Lista de Abreviaturas

ASC II - American Standard Code for Information Interchange

C&T - Ciência e Tecnologia

CRISP-DM - CRoss-Industry Standard Process for Data Mining

DCBD - Descoberta de Conhecimento em Bases de Dados

DCT - Descoberta de Conhecimento em Texto

DM - Data Mining ou Mineração de Dados

GSM - Grau de Similaridade Mínimo

IE - Information Extraction ou Extração da Informação

IR - Information Retrieval ou Recuperação da Informação

KDD - Knowledge Discovery in Databases

KDT - Knowledge Discovery in Text

xiii

Resumo

Desde o final dos anos 80, um grande esforço de pesquisa vem sendo

desenvolvido com o intuito de se extrair padrões úteis e desconhecidos a partir do grande

volume de dados existente nas organizações. A primeira vertente de pesquisa explorou,

principalmente, dados estruturados. Mais recentemente, passou-se a dar mais atenção a dados

na forma de texto. Entretanto, passados alguns anos de pesquisa em mineração de texto,

observa-se que esse tipo de tecnologia ainda é pouco explorado. Considerando que a maior

parte das informações disponíveis está em forma textual e que nessa forma podem estar

escondidos padrões importantes questiona-se o porquê da pouca utilização de mineração de

texto. Para tentar responder essa questão, foram enumeradas como possíveis causas para a

carência de aplicações de text mining: (a) pouca usabilidade das ferramentas; (b) existência de

poucos relatos de experiências de sucesso; e (c) falta de uma metodologia adequada. Neste

trabalho investigou-se o item (c) por meio de um estudo de caso real em uma empresa pública

de jornalismo (RADIOBRÁS). Desenvolveu-se uma aplicação de text mining sobre cerca de

55.000 notícias por ela produzida em 2001. Partindo da análise dos resultados obtidos

procurou-se demonstrar que é possível com o KDT – Knowledge Discovery in Text obter

vantagens competitivas, apontando a existência de alternativas metodológicas adequadas para

a superação do chamado ‘abismo’ de Moore. Foram agregadas várias metodologias para KDT

juntamente com a CRISP-DM, originalmente desenvolvida para KDD – Knowledge Discovery

in Database, verificando-se que é possível, na prática, reverter conhecimentos adquiridos com

o KDT em benefício do melhoramento da eficiência organizacional.

Palavras-chave: Inteligência organizacional; Text Mining; CRISP-DM; KDT;

Aprendizagem organizacional.

xiv

Abstract Since the late 80s a great effort has been developed aiming to the acquisition of

previously unknown and useful patterns from the huge amount of data existing in the

organizations. The initial focus of this research explored chiefly structured data. Most

recently, attention has been given to data in the form of texts. After some years researching the

text mining it is possible to assert that this kind of technology is still little explored.

Considering the major part of the available information is in textual format and that it hides

important patterns, the question is: why is text mining not properly explored? Trying to

answer this question, some possible reasons were enumerated, such as: (a) weak usability of

the tools; (b) non-existence of reports about successful experiences; and (c) lack of adequate

methodology. This work investigated the item (c) through a case study on a real situation at

RADIOBRAS, a Brazilian public journalism company. The Text Mining application was

developed over 55,000 news in 2001. Considering the results, it is possible to show that,

through the KDT - Knowledge Discovery in Text, it is possible to get competitive advantages,

showing the existence of satisfactory methodological alternatives to overcome the “Chasm of

Moore”. Besides the usual KDT techniques, other methodologies were applied. For example,

CRISP-DM, originally developed to KDD (Knowledge Discovery in Database), guided the

development process. By this approach, we could verify that it is possible to consider critically

the acquired knowledge with KDT in order to benefit the improvement of the organizational

efficiency.

Keywords: Organizational Intelligence; Text Mining; CRISP-DM; KDT;

Organizational Learning;

Capítulo I -

Introdução

Sendo constantemente desafiadas a se adaptarem às mudanças ambientais, as

organizações estão levando em consideração, entre outros, as expectativas dos clientes, as es-

tratégias competitivas, os avanços tecnológicos, as condições instáveis na economia e na

sociedade.

As organizações podem ser vistas como sistemas de processamento de informa-

ções, alinhavadas na maioria de seus procedimentos administrativos. Assim, a Gestão do Co-

nhecimento pode, por sua vez, ser vista como o conjunto de atividades que busca desenvolver

e controlar todo tipo de conhecimento em uma organização a fim de apoiar seu processo deci-

sório em todos os níveis.

Nesse cenário, a geração e a fixação da inteligência organizacional1 têm-se reve-

lado como diferenciais competitivos que podem levar à gestão mais ágil dos negócios em di-

versos sentidos, não só no relacionamento da organização com os seus clientes como também

na adequação da sua estrutura de trabalho, entre outros.

1 “A inteligência organizacional é um ciclo contínuo de atividades que incluem o sensoriamento do ambiente, o desenvolvimento de percepções e a criação de significados por intermédio de interpretação, utilizando a memória sobre as experiências passadas e escolhendo ações baseadas nas interpretações desenvolvidas”. (Choo apud Moresi, 2001a, p.44)

“A Inteligência organizacional refere-se à capacidade de uma corporação como um todo de reunir informação, inovar, criar conhecimento e atuar efetivamente baseada no conhecimento que ela gerou”. (McMaster apud Moresi, 2001a, p.44)

Capítulo I - Introdução 16

A importância da informação para a elaboração do conhecimento e, conseqüen-

temente, para a síntese da inteligência é largamente reconhecida, requerendo tratamento ade-

quado para obtenção de insights que levem à ativação dos processos mentais, atingindo assim

tal síntese.

Desde o final dos anos 80, pesquisadores em “DCBD - Descoberta de Conheci-

mento em Banco de Dados” vêm dedicando intensivos esforços na disponibilização de ferra-

mentas para a extração de padrões desconhecidos a partir de bancos de dados estruturados,

procurando fazer que essa tarefa seja a mais automatizada possível. Nesse sentido, importantes

avanços permitiram que com o uso da tecnologia fosse possível atravessar o usual “abismo”

existente entre a universidade e o mercado, interessado especialmente em ferramentas para

aplicação direta no processo de tomada de decisão e conseqüente aumento de agilidade e com-

petitividade.

Considerando que a tomada de decisão é um processo de investigação, de refle-

xão e de análise, justifica-se a necessidade de se obter informação qualitativa que contenha

alto valor agregado. Dentre as ferramentas disponíveis para isso destacam-se, aqui, as de Mi-

neração de Textos (Text Mining). Nota-se, no entanto, que tais ferramentas não têm apresenta-

do um grau de utilização compatível com seu potencial de aplicação.

Neste trabalho, realizou-se um estudo de caso em uma empresa pública de jorna-

lismo - RADIOBRÁS - para a criação de inteligência organizacional com a aplicação de fer-

ramentas de mineração de texto. Para isso, baseada no questionamento do cumprimento do

papel social da empresa, procurou-se delinear o ambiente informacional sob o foco do modelo

genérico de gestão do conhecimento com análise de padrões extraídos do enorme volume de

textos produzidos por seus jornalistas.


Considerando que a RADIOBRÁS é uma importante empresa do Estado,

detendo papel relevante na divulgação dos atos da administração pública do País, fica evidente

a necessidade de uma avaliação embasada no conhecimento sobre os resultados de suas ativi-

dades, pois, como qualquer outra empresa, está sujeita à crescente exigência de competitivida-

de imposta às organizações modernas.

Na RADIOBRÁS, procurou-se desenvolver inteligência organizacional com a

aplicação de ferramentas de mineração de texto. Para isso, promoveu-se a análise do ambiente

informacional por meio de padrões extraídos do enorme volume de textos produzidos na orga-

nização, na veiculação de notícias sobre o governo federal brasileiro.

Para testar as hipóteses, aplicou-se a CRISP-DM (CRoss-Industry Standard

Process for Data Mining), metodologia originalmente concebida para DCBD. Na aplicação

dessa metodologia, foram utilizadas as matérias jornalísticas produzidas ao longo de 2001.

Diversas visões, interna e externa, sobre os rumos da organização foram obtidas

por meio de ferramentas para a extração de padrões em grandes quantidades de dados,

subsidiando os gestores na tomada de decisões. Essas visões, construídas para responder a

questões específicas, formaram um acervo de conhecimento num processo de aprendizagem

organizacional que gerou desdobramentos nos modos de gestão da organização.

Os resultados foram encaminhados à administração da empresa, permitindo in-

terpretações úteis para o conhecimento da organização.

Como nas organizações, a maior parte das informações encontra-se na forma

textual, desenvolvimentos recentes permitiram a extração de padrões relevantes desse tipo de

dados, como por exemplo, no presente caso: (i) mensuração da produção e distribuição

geográfica de suas notícias; (ii) levantamento das palavras mais usadas; (iii) identificação das

áreas de abrangência das notícias; (iv) avaliação do cumprimento do papel da empresa, de


acordo com os assuntos abordados em suas notícias; e (v) avaliação da cobertura jornalística

da empresa.

A apresentação do problema, abordando as motivações para desenvolvimento do

projeto, foi feita no Capítulo II. No Capítulo III, fez-se uma explanação sobre o estado da arte

da DCT, enfocando as tecnologias mais recentes sobre o assunto. As metodologias utilizadas

na pesquisa foram abordadas no Capítulo IV.

O estudo de caso aplicado na RADIOBRÁS, para melhor distribuição, foi divi-

dido em três capítulos. No Capítulo V, discorreu-se sobre (i) compreensão do negócio,

(ii) entendimento dos dados e (iii) preparação dos dados. No Capítulo VI, abordou-se a mode-

lagem do projeto, incluindo a escolha e a definição das técnicas utilizadas no projeto. No Capí-

tulo VII, discorreu-se sobre as etapas de avaliação e aplicação do conhecimento, geradas no

estudo de caso.

No Capítulo VIII, foram abordados os impactos do conhecimento adquirido na

gestão do conhecimento com base nas informações obtidas do estudo de caso.

Finalmente, no Capítulo IX, apresentaram-se as contribuições deste trabalho, os

problemas encontrados, além de sugerir seus desdobramentos na forma de trabalhos futuros.

Capítulo II -

Apresentação do Problema

Vive-se em um mundo onde a mudança é a regra, o que implica uma constante

necessidade de adaptação e conseqüente busca por recursos de modo a superar as dificuldades

inerentes a tal adaptação.

Essa necessidade de adequação e o curto tempo de resposta requerido pelas

situações de mercado passaram a influenciar diretamente o funcionamento da organização que

deixa de agir somente em relação à sua posição junto aos seus concorrentes para atender tam-

bém ao seu planejamento estratégico.

No mundo moderno, a apropriação do conhecimento tem sido fator

imprescindível para a sobrevivência das empresas. Neste sentido, observa-se que grande parte

das informações encontra-se em forma não-estruturada. No entanto, poucas aplicações são

dirigidas a tal tipo de informação. Assim sendo, desta forma, questiona-se o porquê de as

vantagens das tecnologias de manipulação de informações não-estruturadas ( tais como

textos), não serem revertidas em benefício do melhoramento da eficiência organizacional tanto

quanto esperado.

Neste trabalho, enumeram-se algumas das possíveis razões para a existência de

um “abismo” entre a fase de desenvolvimento e a adoção de tecnologias de Mineração de Tex-

tos.

Capítulo II - Apresentação do Problema e Motivação 20

2.1 - Importância das Informações Textuais nas Organizações A tarefa de suprir os administradores com os conhecimentos estratégicos em

tempo hábil tem-se tornado mais difícil devido, entre outros fatores, ao volume da informação

disponível. Estudiosos dessa área afirmam que nos anos de 2001 e 2002 a “quantidade de in-

formação produzida será maior que toda a informação já criada pela humanidade até hoje” (U-

niversity of California, 2000).

Segundo Ah-Hwee Tan (1999), 80% das informações de uma organização en-

contram-se em forma textual apontando para a necessidade de extratores de conhecimento em

bases textuais.

Um processo capaz de gerar conhecimento a partir de dados estruturados é o

KDD - Knowledge Discovery in Database ou DCBD - Descoberta de Conhecimento em Bases

de Dados. Esse processo combina diversas áreas da descoberta do conhecimento, tais como

Aprendizagem de Máquina, Reconhecimento de Padrões, Estatística e Inteligência Artificial,

com o objetivo de extrair, de forma automática, informação útil em bases de dados.

Diferentemente da DCBD, o KDT - Knowledge Discovery in Text ou DCT -

Descoberta de Conhecimento em Texto lida com dados não-estruturados. Muitas pesquisas

têm sido direcionadas a DCT, por trabalhar com textos, considerada a forma mais natural de

armazenamento de informação (Tan, 1999).

A DCT combina técnicas de extração e de recuperação da informação, proces-

samento da linguagem natural e sumarização de documentos com os métodos de DM - Data

Mining (Dixon, 1997). Não se encontram, todavia, metodologias que definam um plano de uso

dessas técnicas (Wives, 2000), o que, segundo Loh (2000a), deixa uma lacuna sobre

como uma coleção textual deve ser investigada de forma automática ou semi-automática, a fim

de que hipóteses sejam validadas.


2.2 - Uso de mineração de texto no mundo Segundo a pesquisa apresentada em Nuggets (2001) (Figura 2.1), text mining re-

presenta atualmente apenas 2% das técnicas usadas regularmente para mineração de dados.

Mesmo sem apresentar caráter científico, essa pesquisa revelou que o uso da DCT ainda é in-

cipiente no mercado mundial. Se agregado o web mining, esse percentual sobe para 7%, o que

é muito pouco se comparado com o volume de dados existente.

Fonte: Nuggets (Nuggets, 2001)

Figura 2.1 - Comparação de uso entre técnicas de mineração.

2.3 - ‘Abismo’ de Moore Geofrey Moore op. cit. in Agrawal (2001) propõe um modelo (ciclo de vida) que

descreve o comportamento dos consumidores de tecnologias em áreas emergentes (Figura

2.2). Esse modelo define cinco tipos de usuários: os inovadores, os adeptos iniciais, a maioria

inicial, a maioria tardia e os retardatários.


Figura 2.2 - Ciclo de vida de adoção de tecnologia.

Os inovadores são os primeiros clientes em tudo o que é novo. Comprometidos

com a tecnologia, sentem prazer em dominar suas complexidades pelo simples fato de explo-

rá-las. Querem ter acesso à última palavra em inovação, além de serem influenciadores de o-

piniões.

Os adeptos iniciais são revolucionários dispostos a usar a descontinuidade de

qualquer inovação com expectativas de obter vantagem competitiva. Formam um grupo im-

portante para a inovação tecnológica, por ser o primeiro grupo capaz de trazer recursos para a

empresa fornecedora dessa tecnologia.

A maioria inicial não explora a tecnologia em si, como os inovadores e os adep-

tos iniciais, mas procura adotar inovações somente quando comprovada a utilidade dela e

quando referenciada por pessoas em quem confiam. Prefere a evolução ao invés da revolução

em termos de novos produtos.

A maioria tardia só investe em tecnologia quando é obrigada pelas circunstân-

cias. Cético e exigente esse grupo é sensível a preços.

Já os retardatários combatem as inovações tecnológicas e os entusiastas de no-

vos produtos e serviços.


Essa classificação, bastante oportuna e realista, no entanto, não é a mais valiosa

contribuição do estudo de Moore. Sua principal constatação é a existência de um “abismo”

entre as fases (2) e a (3), ou seja, uma descontinuidade entre a introdução do produto no mer-

cado e sua consolidação como um produto de larga escala. É nesse “abismo”, segundo o autor,

que a maioria das empresas falha por não dispor do instrumental de marketing adequado para

lidar com a situação.

Uma das motivações deste trabalho foi a crença de que a mineração de texto en-

contra-se exatamente neste ponto. A partir daí, pôde-se levantar algumas razões do porquê de

a mineração de textos não ser ainda muito difundida, o que indica não ter atravessado ainda o

“abismo de Moore”: (i) falta de uma tecnologia adequada no que se refere à exigência de usa-

bilidade; (ii) poucos relatos de experiência de sucesso; e (iii) inexistência de uma metodologia

adequada para guiar os usuários nas aplicações de Mineração de texto;

2.4 - Colocação do Problema Como visto, existe um enorme acervo de informações textuais nas organizações

que pode ocultar conhecimentos valiosos. Apesar disso, é incipiente o uso de tecnologias de

DCT. Questiona-se, neste trabalho, as razões para essa contradição.

2.5 - Objetivos O objetivo deste trabalho foi estudar e propor alternativas para a travessia do a-

bismo de Moore pelas tecnologias de DCT. Para isso, este trabalho foi direcionado a

finalidade de:

(i) Propor uma forma de trabalho para extração do conhecimento a partir de bases

textuais;


(ii) Explorar a possibilidade de uso de uma metodologia de DCBD para desenvolver

aplicações em DCT;

(iii) Mostrar a possibilidade de uso efetivo da mineração de texto por meio de um es-

tudo de caso real.

2.6 - Caracterização e Articulação da Pesquisa O problema consiste em verificar se o uso incipiente da tecnologia de DCT, em

face da enorme disponibilidade de texto nas organizações, deve-se à ausência de uma metodo-

logia adequada para o desenvolvimento de aplicações práticas.

Esse tipo de problema comporta, naturalmente, uma abordagem de solução ba-

seada em um estudo aplicado. Assim, a pesquisa foi articulada com base em um estudo de

caso no qual foram aplicadas diversas abordagens encontradas na literatura. O objetivo foi

transpor o ‘abismo’ de Moore com o uso desse ferramental e, dessa forma, descaracterizar o

mito da inexistência de metodologias adequadas para aplicações práticas de DCT como expli-

cação para essa área estar ainda naquele abismo.

Capítulo III -

O Estado da Arte da DCT

A descoberta do conhecimento ocorre por meio de complexas interações reali-

zadas entre o homem e uma base de dados, geralmente por meio uma série heterogênea de fer-

ramentas (Fayyad, 1996).

Segundo Stanley Loh op. cit. in Wives (2000), existem três grandes áreas que

lidam com informações em grandes bases de dados: (i) Data Mining (Mineração de Dados)

para dados estruturados - DCBD; (ii) IE - Information Extraction (Extração de Informações)

para dados não-estruturados - DCT; e (iii) IR - Information Retrieval (Recuperação da Infor-

mação) para textos ou palavras - DCT.

Neste capítulo, foram abordados os métodos, etapas, técnicas e modelos de re-

cuperação em DCT. Foi mostrada também a diferença entre DCT e ferramentas de busca, tec-

nologias comumente confundidas.

3.1 - KDT - Knowledge Discovery in Text O KDT - Knowledge Discovery in Text ou DCT - Descoberta de Conhecimento

em Texto, ao contrário da DCBD, lida com dados não-estruturados. Mais recentemente, mui-

tas pesquisas têm sido direcionadas para essa área.

Capítulo III - Estado da arte do DCT 26

A DCT combina técnicas de extração, recuperação de informação,

processamento da linguagem natural e sumarização de documentos com os métodos de

DM - Data Mining (Dixon, 1997). Por lidar com dados não-estruturados, a DCT é considerada

mais complexa que a DCBD.

Seu objetivo é extrair conhecimento de bases em que as ferramentas

usuais não são capazes de agirem, por não estarem equipadas, ou terem sido desenvolvidas

para soluções em dados estruturados (bancos de dados relacionais, por exemplo).

A DCT pode ser considerada um processo de DCBD para dados não-

estruturados como, por exemplo, aqueles encontrados na Internet ou ainda em organizações

que ultimamente, pela facilidade e barateamento de custos, vêm armazenando quantidades

crescentes de texto em meios magnéticos.

A necessidade de se extrair e recuperar informação desses meios é uma constan-

te tanto na vida das pessoas, como no contexto das organizações. No entanto, a dificuldade de

se fazer uso adequado das informações disponibilizadas, é quase sempre fonte de frustrações.

Suas principais áreas são a IE - Information Extraction (Extração de Informa-

ções) e a IR - Information Retrieval (Recuperação da Informação).

3.1.1 – Extração da Informação

A área de IE estuda metodologias, técnicas e ferramentas que possam encontrar

dados específicos dentro de textos, extraindo automaticamente valores de atributos tais como

campos de um banco de dados. Em geral, as aplicações nessas áreas são dependentes do domí-

nio, isto é, só apresentam bom desempenho com certas classes de documentos. Essa área com-

plementa a de Recuperação da Informação (seção 3.1.2). Enquanto esta última trata de


encontrar textos e documentos relevantes, tendo como fundamento determinadas necessidades,

a IE busca encontrar informações dentro desses textos.

Segundo Gerald Kowalski op. cit. in Wives (1999), o objetivo de um processo

de IE é o de transformar dados semi-estruturados ou não-estruturados em dados estruturados,

visando a armazená-los em banco de dados. Essa tarefa é considerada pré-processamento na

descoberta do conhecimento em textos.

Sumarização

Entre as técnicas da IE, a sumarização, tem o objetivo de extrair resumos de tex-

tos (ou de uma coleção de textos), apresentando como resultado seus termos (palavras ou fra-

ses) mais importantes (Palazzo, 2000; Wives, 2000). Esse resumo oferece ao usuário uma

visão geral das informações contidas nos textos, permitindo-lhe identificar, sem ter de ler na

íntegra, os assuntos abordados pela coleção analisada.

Uma forma eficiente de sumarização empregada, geralmente, depois dos proces-

sos de agrupamento, é a análise de centróide2. Essa análise corresponde ao conjunto de pala-

vras mais significativas de determinado grupo (cluster) que são usados para identificá-lo.

Etapas de IE

Segundo Ralph Grishman op. cit. in Dixon (1997) existem três etapas no proces-

so de extrair informação:

(i) Extração de fatos – cujo objetivo é encontrar fatos individuais no

documento. Nessa fase, o conhecimento específico é crucial, devido à possibili-

dade de uso de técnicas de reconhecimento de padrões, a fim de encontrar os fa-

2 Termo proveniente da física indicando o centro da gravidade ou de forças de um objeto.


tos procurados, tais como: Casamento de Padrões, Análise Léxica e Estruturas

Sintática e Semântica;

(ii) Integração de Fatos - vista como o principal meio de analisar um pequeno fato

em relação “à grande pintura” na qual se vê a formação e a interação entre os fa-

tos;

(iii) Representação do Conhecimento - é a forma como as informações extraídas dos

documentos são colocadas à disposição do usuário. Entre os vários estilos de re-

presentação, a forma gráfica continua sendo a mais comum.

Para cada uma dessas etapas, existem diversas técnicas que podem ser usadas a

fim de atingir os objetivos propostos. Ralph Grishman op. cit. in Dixon (1997) afirma que em

todas essas técnicas existe uma convergência para uso do processamento da linguagem natural,

técnicas avançadas de estatística e uso freqüente de redes neurais.

3.1.2 – Recuperação da Informação

A área de IR tem por objetivo localizar os documentos que contêm informações

relevantes para atender às necessidades definidas pelo usuário em uma consulta. Nesse caso, o

usuário precisa examinar os documentos resultantes dessa busca para encontrar a informação,

o que é uma tarefa demorada. Para localizar essas informações, faz-se uso da indexação, efetu-

ando uma busca mais rápida e eficiente. Essa indexação é considerada como um tipo de filtro

(Lancaster op. cit. in Wives, 2000) capaz de selecionar e identificar as características de um

documento, extraindo os termos mais significativos e excluindo aqueles que não são importan-

tes.


A indexação pode ser, segundo Ricardo Baesa Yates op. cit. in Wives (2000), de

três formas:

(i) Tradicional - os termos descritivos dos documentos são selecionados manual-

mente, especificando quais farão parte do índice;

(ii) Full-text - os termos que compõem o documento são usados como parte do

índice;

(iii) Por parte do texto (tags) - a seleção dos termos é feita de forma automática.

A indexação tradicional é comumente usada na área da Ciência da Informação,

em que o controle do índice é feito com intervenção humana. Isso facilita a organização em

topologias, agrupando as palavras mais importantes por determinada área de atuação, por

exemplo, o thesaurus automático3 .

Nesse tipo de indexação, o tempo para execução é mais longo. Levando-se em

consideração que o trabalho é realizado de forma manual, é possível que se cometam erros no

momento de inserir determinado termo ao grupo correspondente. Isso, aliado ao desconheci-

mento de tais grupos pelos usuários, pode gerar um resultado nulo em uma pesquisa, mesmo

que o termo conste na base de dados.

Na indexação total (full-text), a vantagem é ter todos os elementos dispostos em

índices. Porém, para que isto ocorra, a indexação torna-se volumosa, requerendo muito espaço

para o armazenamento (William Frakes op. cit. in Wives, 2000). Uma forma de contornar esse

problema é o uso de técnicas, como a lista invertida, árvores de TRIE 4 ou árvores de PAT5.

3 Nas pesquisas na área Banco de Dados Documentais (BDD), observa-se que o thesaurus é uma ferramenta bastante útil para a indexação e a recuperação de informações textuais e em sua grande maioria construídos manualmente. Nesse sentido, Edberto Ferneda (Ferneda, 1997) apresenta um sistema para construção automática do thesaurus. 4 Estrutura em árvore, criada especialmente para indexar palavras usadas como um “dicionário”, em que cada nodo é um vetor, contendo 27 componentes (letras do alfabeto mais espaço em branco). (Bakel, 1998)


A indexação via tags procura indexar apenas partes relevantes do texto (Anil

Chakravarthy op. cit. in Wives, 2000). De forma automatizada, a ferramenta percorre o

documento e localiza marcas que identificam os trechos mais importantes do texto os quais

são incluídos no índice.

Segundo Bernard Moulin op. cit. in Wives (2000), a procura das marcas (tags)

pode ser feita de forma automática: (i) mediante o uso de documentos que utilizam macroes-

truturas (cabeçalhos, títulos, capítulos); (ii) microestruturas - conteúdo lógico do texto, identi-

ficando seus pontos principais (condições, exceções, referências); e (iii) uma camada de

domínio com as demais informações do documento.

Formas de Indexação

Os índices mencionados no tópico anterior podem ser automáticos ou manuais.

No último caso, a elaboração é conduzida diretamente pela área de biblioteconomia. No pri-

meiro caso, os índices encontrados automaticamente são mais usados e mais relevantes por

serem mais ágeis.

Quando se lida com índices, deve-se levar em conta seu fator de

exaustividade. Esse fator mede a quantidade de assuntos distintos que determinado índice é

capaz de reconhecer. Para maior abrangência, o fator de exaustividade também é maior e, nes-

te caso, a precisão é inversamente proporcional. Isto se deve ao fato de que mais palavras po-

dem levar ao mesmo item (Lancaster op. cit. in Wives, 2000).

Para análise de informações em textos, os índices são peças importantes, pois

eles são uma das formas de validar o desempenho e a precisão da recuperação da informação.

5 Estrutura parecida com a árvore de TRIE, em que o documento é visto como uma cadeia de caracteres e cada uma de suas posições pode ser um ponto de entrada. (Gonnet op. cit. in Wives, 2000).


Na Figura 3.1, são apresentadas as etapas de um processo de indexação automática, segundo

Riloff op. cit. in Wives (2000).

Figura 3.1 - Etapas em uma indexação automática.

Essas etapas, segundo esse autor, não são rígidas, pois, dependendo do contexto,

a ordem de aplicação pode variar ou mesmo não ser utilizada. Resumidamente, essas fases

podem ser assim descritas:

(i) Identificação de termos

Consiste na aplicação de um parser6 que identifica as palavras importantes do

texto, ignorando símbolos e caracteres de controle de arquivo ou de formatação. Envolve tam-

bém o uso de seqüências de caracteres a fim de validá-las (dicionário ou thesaurus).

Segundo Wives (2000), essa etapa deve considerar e tratar termos compostos

(por exemplo: processo judicial, processo computacional) por considerar que podem fazer

parte do mesmo índice para não perderem o significado que as palavras expressam quando es-

tão juntas.

6 Analisador léxico que consiste na conversão de uma cadeia de caracteres de entrada em uma cadeia de palavras ou token (Christopher Fox op. cit. in Wives, 2000).


(ii) Remoção de Stopwords

Para minimizar o esforço da elaboração do índice, faz-se a remoção das

chamadas stopwords. Essas palavras contribuem pouco para o significado de um texto.

Usualmente artigos, preposições e advérbios são consideradas stopwords por serem bastante

freqüentes e sua eliminação leva a uma redução entre 40% e 50% dos textos a serem analisa-

dos.

(iii) Normalização

Para atender a determinados objetivos, é importante a eliminação de variações

morfológicas de uma palavra. A identificação é efetuada através do radical de uma palavra.

Segundo William Frakes op. cit. in Wives (2000), existem diversas formas para se identificar

esses radicais, como a lematização ou stemming.

A vantagem é que, em uma busca, o usuário não precisa se preocupar com a

classe da palavra, podendo ela aparecer no texto como um substantivo, um verbo ou um adje-

tivo. No entanto isto implica diminuição na precisão da pesquisa.

(iv) Seleção de Termos Relevantes

Deve-se considerar que em um texto as palavras têm níveis de destaque

distintos. Aquelas mais freqüentes, excetuando-se as stopwords, são mais importantes que ou-

tras que aparecem com menos freqüência. Palavras encontradas nos tópicos em destaque, co-

mo títulos e ainda os substantivos, devem ser destacadas, pois são consideradas mais

relevantes.

Um dos recursos utilizados para descobrir a importância dessas palavras é calcu-

lar a freqüência com que elas aparecem no texto. Gerard Salton op. cit. in Wives (2000) de-

nomina essa importância de peso que indica o grau de relação entre a palavra e o documento


no qual ela aparece e que pode ser calculada pela freqüência absoluta7 ou pela freqüência rela-

tiva8.

Usando esses pesos ou sua posição sintática é possível então diminuir o índice

deixando-o mais consistente e com palavras relevantes.

3.2 - Tecnologias para descoberta do conhecimento em Texto As tecnologias usadas na DCT não são consideradas inovadoras do ponto de vis-

ta de sua origem, uma vez que muitas advêm da DCBD. O que é novo é seu uso para

descoberta do conhecimento em dados armazenados na forma de texto.

Isto não significa que a DCT utiliza somente técnicas da DCBD. A DCT inclui

quaisquer técnicas que possam ser usadas para buscar informação em dados não-estruturados.

Isto dependerá, entre outros fatores, de como se quer adquirir essa informação e da maneira

como se apresenta o problema.

3.2.1 - Descobertas Reativa e Proativa

Segundo Choudhury op. cit. in Loh (2000) a descoberta de conhecimento ocorre

de dois modos: o reativo e o proativo.

No modo reativo, o objetivo é direcionado para a solução especificada pelo

usuário que, nesse caso, sabe como solucionar o problema. O usuário segue utilizando pistas

que deseja provar, direcionando o processo de descoberta. Ele sabe o que quer e tem idéia de

onde achar a resposta. Nesse modo, o usuário deve definir, da forma a mais precisa possível,

sua necessidade, o que muitas vezes contradiz o processo da descoberta. Na maioria das vezes,

7 Quantidade de vezes que o termo foi encontrado no texto. 8 Apresenta escalas diferentes, de acordo com o tamanho do texto em relação ao número de vezes que o termo foi encontrado.


o que acontece é o usuário não saber especificar as necessidades para resolução dos seus pro-

blemas.

No modo proativo, ao contrário, sem que haja uma intervenção inicial do usuá-

rio, as informações úteis para resolução do problema são encontradas automaticamente. Dessa

maneira, o problema é definido pelo usuário, mas a descoberta ocorre de modo

não-supervisionado. Uma expressão comum para definir o modo proativo é “diga-me o que há

de relevante nesse conjunto de dados”. Mesmo não tendo a intervenção inicial, o usuário parti-

cipa nesse processo exploratório com retroalimentação e interatividade no processo. Esse mo-

do assemelha-se à Mineração de Dados na DCBD e poderia ter como exemplos de objetivos:

(i) criar parâmetros para entender o comportamento do consumidor; (ii) identificar afinidades

entre as escolhas de produtos e serviços; (iii) prever hábitos de compras; (iv) analisar compor-

tamentos habituais para detectar fraudes.

De maneira geral, poder-se-ia dizer que o processo da descoberta do conheci-

mento é realizado, mais freqüentemente, na forma proativa. Esse processo compõe-se das se-

guintes fases (Michael Goebel op. cit. in Wives, 2000):

(i) Entendimento do domínio de aplicação e definição do objetivo do processo de

descoberta;

(ii) Aquisição ou seleção do conjunto de dados;

(iii) Integração e verificação do conjunto;

(iv) Limpeza dos dados (pré-processamento e transformação);

(v) Desenvolvimento de um modelo inicial ou construção de hipóteses;

(vi) Escolha e aplicação de métodos de mineração;

(vii) Visualização e interpretação dos resultados;

(viii) Teste e validação das hipóteses (pode-se refazer parte do processo);


(ix) Uso e manutenção do conhecimento descoberto (tomada de decisão no domínio).

3.2.2 - Inteligência Competitiva

Em geral, quando usamos as técnicas do conhecimento proativo ou reativo, es-

tamos em busca de definição de estratégias e ações que devem ser realizadas em prol da orga-

nização. Esses são exatamente os objetivos da Inteligência Competitiva9 que, entre outros,

busca impulsionar o negócio da organização.

No uso da inteligência competitiva, as etapas são flexíveis, pois se devem ade-

quar aos objetivos da empresa. Isto só ocorrerá se ela tiver definidas suas necessidades reais.

Dependerá também das informações necessárias para estimular seu negócio, bem como da de-

finição das fontes dessas informações.

As atividades da Inteligência Competitiva visam a explorar e manter conhecido

o ambiente externo da organização. Nesse cenário, a Internet é considerada fonte importante

de informação, ajudando na busca de novos nichos de mercado e tecnologias inovadoras.

Loh (2000a) sugere como proposta para executar essas atividades em

dados não-estruturados, as seguintes etapas:

(i) Identificação da necessidade de informação - nessa etapa, devem-se identificar

quais são as necessidades de informação de cada pessoa na empresa (principal-

mente dos tomadores de decisão), quais dessas informações a própria empresa

pode suprir e quais vão demandar dados externos;

9 “Inteligência Competitiva refere-se ao conjunto de atividades de monitoramento e de análise de dados do ambiente com o objetivo de fornecimento de informações úteis ao processo decisório e de planejamento estratégico empresarial.” (GESID apud Canongia 2001)

“A ‘Inteligência Estratégica’ enfatiza a busca de informações para a tomada de decisão e para o planejamento estratégico; ‘Inteligência para Negócios’ é o monitoramento de informação sobre negócios e mercados; ‘Inteligência Competitiva’ foca informações sobre produtos e serviços oferecidos por empresas similares; ‘Inteligência Tecnológica’ enfoca informações de ordem tecnológica e social.” (Tarapanoff, 2000)


(ii) Identificação e análise de fontes de informação - uma vez conhecidas as neces-

sidades de informação, torna-se importante identificar de quais fontes essas in-

formações podem ser recuperadas, podendo ser internas ou externas. No caso de

fontes externas, é importante que sejam identificados o formato, o tempo de aces-

so e o custo delas, assim como a forma de agregá-las às existentes na empresa;

(iii) Coleta - é a busca, em si, da informação ou dos dados nas fontes

identificadas;

(iv) Filtragem - por causa da grande quantidade de dados e informações que podem

ser coletadas, é possível que muitas não estejam relacionadas às necessidades i-

dentificadas

inicialmente. As informações irrelevantes devem ser descartadas e as relevantes

selecionadas;

(v) Distribuição - os dados ou as informações selecionadas devem ser encaminhadas

às pessoas que expressaram sua necessidade;

(vi) Exploração - corresponde à transformação dos dados em informação e conheci-

mento. Podendo-se utilizar ferramentas computacionais e métodos estatísticos de

análise;

(vii) Segurança - adquiridos os conhecimentos e informações, estes devem ser postos

em prática (utilizados na tomada de decisão) e armazenados em algum local se-

guro com vistas a resguardar essas informações.

3.2.3 - Tipos de Descoberta

A área de aquisição do conhecimento engloba diversos tipos de descoberta, com

várias abordagens específicas para DCT. Segundo (Wives, 2000a) esses tipos de descoberta

são: (i) Tradicional; (ii) Extração de passagens; (iii) Análise lingüística; (iv) Análise de

conteúdo; (v) Sumarização; (vi) Associação entre passagens; (vii) Listas de conceitos-chave;


(viii) Estruturas de textos; (ix) Clustering; (x) Classes de textos; (xi) Recuperação de

informação; (xii) Associação entre textos; (xiv) Associação entre as características;

(xv) Hipertextos; (xvi) Manipulação de formalismo; (xvii) combinação de representações e;

(xviii) Comparação de modelos mentais.

É comum quando se abordam as tecnologias de DCT haver confusão inicial, por

acreditar-se que a descoberta de conhecimento no texto e o uso de ferramentas de busca são a

mesma coisa. Na seção 3.3, são estabelecidas as principais diferenças entre essas tecnologias.

3.3 - Diferenças entre Mineração de texto e Ferramentas de Busca A DCT é uma tecnologia recente, do ponto de vista de sua utilização no

mercado de mineração de dados (Tan, 1999) e, talvez seja essa a razão pela qual seus objetivos

serem, muitas vezes, confundidos com as ferramentas de busca na Internet (search engine).

Essas ferramentas foram desenvolvidas e aperfeiçoadas para atender à crescente

necessidade de se encontrar dados na gigantesca massa de informação disponibilizada na

Internet. Seu uso e importância são incontestáveis, visto que sem elas ficaria muito difícil lo-

calizar, em pouco tempo, informações tão dispersas. Elas prestam um serviço fundamental de

procura rápida e indexação de informações, entretanto, seu escopo é diferente da mineração de

texto.

Para se verificar a necessidade de melhorar a análise em texto basta que se faça

uma busca, usando ferramentas como o altavista® ou google®. O resultado freqüente dessa

busca é outro grande volume de dados. Comumente, escolhem-se os primeiros resultados que

são então analisados, visando a selecionar as informações necessárias. Pode-se afirmar que tal

procedimento é cabível para descobrir as informações, mesmo sendo uma tarefa que necessita

de maior intervenção.


Quando se trabalha com uma pequena escala, esse procedimento é viável. Caso

haja necessidade de maior refinamento na busca de informações e essa escala aumenta,

torna-se necessário o uso de outra metodologia. Para quem necessita analisar diariamente

grandes volumes de dados como, por exemplo, pesquisadores, juízes, consultores e editores,

essa tarefa é impraticável (Tan, 1999).

A necessidade de melhoria da análise, nesse ambiente, torna-se ainda mais rele-

vante quando se verifica que há crescente aumento desse tipo de informação.

A principal diferença entre as ferramentas de busca e a mineração de texto é que

a primeira emprega o uso de busca exaustiva. Sua pesquisa é realizada com base em

palavras-chave que basicamente retornam a uma lista de documentos relevantes, ordenados

pela proporção em que esses termos são encontrados em determinado documento (por exem-

plo: página web, texto, arquivos pdf). Esse resultado é então analisado e requer sua leitura para

extração do conhecimento.

A mineração de texto, ao contrário, utiliza métodos de busca baseados em análi-

ses gramaticais e léxicas ou ainda técnicas de clustering (agrupamento). Isso permite descobrir

conteúdos demonstrados por meio de palavras ou frases similares entre os documentos.

Além disso, a mineração de texto agrega técnicas de visualização de dados. Es-

sas técnicas permitem mostrar conceitos-chave e relações entre palavras e idéias. Partindo des-

sa visualização, é possível detalhar dados ou “trilhar” caminhos para outros documentos.

Em resumo, pode-se afirmar os seguintes pontos em relação à mineração de

texto:

(i) Concentra algoritmos inteligentes e, em alguns casos, análise léxica;


(ii) Processa documentos eliminando a análise “manual” direta. Categoriza, classifica

ou constrói árvores de tópicos e índices de documentos;

(iii) Provê identificação automática e indexação de conceitos entre os textos;

(iv) Apresenta, por meio de técnicas de visualização, o escopo global dos dados.

Permite detalhamento quanto ao grau de relevância;

(v) Permite aos usuários fazerem associações, correlacionamentos e âncoras entre os

documentos para posterior análise. As duas tecnologias são essenciais para quem lida com grandes volumes de da-

dos não-estruturados, pois oferecem suporte na busca de informações úteis em textos10 ou em

páginas web.

A mineração de texto permite, todavia, descobrir conceitos-chave e grupos simi-

lares de documentos, sem que haja necessidade prévia de leitura integral dos documentos.

3.4 - Síntese do Capítulo Conforme enfatizado neste capítulo, a DCT é uma área que provê tecnologias

efetivas para descoberta de conhecimento em bases de dados não-estruturadas. Destarte, é ob-

tido conhecimento na forma de conceitos em que as ferramentas usuais de mineração não es-

tão aptas a fazê-lo.

Observa-se um vasto campo para desenvolvimento de aplicações de descoberta

de conhecimento em texto em função da quantidade e da disponibilidade de informações nas

organizações. As redes corporativas (intranets e extranets), bem como os diversos dados pro-

venientes dos mais variados sistemas oferecem uma rica fonte de conhecimento ainda não ex-

plorada totalmente.

10 O termo texto não restringe o foco de ação destas ferramentas, visto que, através de filtros, tais tecnologias são capazes de extrair informação em vários outros formatos. Por exemplo, arquivos do tipo doc, pdf, xls entre outros.


A necessidade de exploração dessa fonte de informação é justificada por inúme-

ros fatores, entre os quais podem-se citar: (i) Concorrência acirrada; (ii) Quantidade crescente

de informação de domínio público; (iii) Aumento na quantidade de informações armazenadas

em meio magnético; (iv) Fontes inexploradas de dados não-estruturados; (v) Necessidade de

conhecimento para tomada de decisão pelos administradores.

Nesse estudo, identificaram-se diversas técnicas de DCT muitas delas advindas

da DCBD que, por ser um segmento mais utilizado, está servindo como fonte de recursos e

referências.

Confrontando os diversos fatores estudados, verificou-se que as tecnologias de

DCT ainda são pouco aplicadas, se consideradas a enorme disponibilidade de dados textuais

existentes, como mostrado na pesquisa realizada pela School of Information Management and

Systems at the University of California (University, 2000), onde foi feita uma projeção que

para 2001 e 2002 seriam criadas e disponibilizadas mais informações do que em toda a história

da humanidade. Outro trabalho (Tan, 1999) indica que essas informações estarão, em sua mai-

oria, na forma não-estruturada.

A DCT encontra-se num momento em que precisa superar a lacuna entre o nível

acadêmico e o prático. É importante a aplicação de novos estudos de casos em situações reais.

Como foi visto, no entanto, as propostas de métodos, técnicas e ferramentas da DCT carecem

ainda de aperfeiçoamentos. É real o uso de técnicas de DCBD na DCT. Com essa visão, uma

proposta futura para estudos seria a agregação de metodologias usadas atualmente em dados

estruturados para uso na DCT.


A DCT resgata tecnologias para serem usadas em ramos adjacentes ao texto. É o

caso do web mining, muito em foco atualmente. Suas derivações, como o XMLminer, tendem a

crescer na mesma proporção que o uso da Internet.

Em síntese, pode-se inferir que a proposta da DCT está solidificada como alter-

nativa para extração do conhecimento no mundo dos negócios. Isto é confirmado se observado

como o ambiente das organizações direciona-se para uma geração cada vez maior de dados

não-estruturados, aliada à necessidade crescente de conhecimentos estratégicos.

Capítulo IV -

Metodologia

Como visto anteriormente, a área de DCBD - Descoberta do Conhecimento em

Bases de Dados e a DCT - Descoberta do Conhecimento em Texto são possíveis alternativas

para descoberta do conhecimento, contemplando respectivamente, dados estruturados e textu-

ais. A DCBD e a DCT objetivam encontrar, por meio de técnicas e algoritmos, padrões, corre-

lações ou similaridades entre dados. Devido à semelhança entre essas tecnologias de

descoberta de conhecimento, foi utilizada neste estudo de caso a metodologia CRISP-DM -

CRoss-Industry Standard Process for Data Mining, originalmente concebida para aplicações

de DCBD.

Este capítulo inicia-se com a descrição da metodologia CRISP-DM e segue com

apresentação das metodologias de Palazzo, Ah-Hwee Tan e Halliman, para DCT. Ao final,

descreve-se a abordagem de uso de cada uma, procurando destacar as contribuições delas no

processo de descoberta do conhecimento no estudo de caso aplicado na RADIOBRÁS.

4.1 - CRISP-DM Com o intuito de promover a padronização de conceitos e técnicas na busca de

informações específicas para tomada de decisões, foi criado em 1996 o grupo de trabalho

Capítulo IV - Metodologia 43

CRISP-DM (CRoss-Industry Standard Process for Data Mining11) (Chapman, 2001). Esse

grupo propôs uma metodologia como o mesmo nome, destinada a auxiliar administradores e

responsáveis no processo geral de planejar e executar a mineração de dados, englobando a es-

pecificação do processo até a apresentação dos resultados. Esse grupo era composto por três

empresas pioneiras no setor: a DaimlerChrysler, a SPSS (Data Mining) e a NCR (Data

Warehouse).

Para a CRISP-DM, o ciclo de vida do processo de DCBD segue uma seqüência

de etapas, conforme mostrada na Figura 4.1. Essas etapas são executadas de forma interativa.

Assim, pelas entradas e respostas providas pelo usuário, a seqüência da execução pode ser al-

terada. O encadeamento das ações, dependendo do objetivo e de como as informações se en-

contram, permite retorno a passos já realizados. Essa metodologia é constituída de seis etapas:

(i) compreensão do negócio; (ii) compreensão dos dados; (iii) preparação dos dados; (iv) mo-

delagem; (v) avaliação; e (vi) aplicação.

A Compreensão do Negócio procura identificar as necessidades e os objetivos

do negócio do cliente, convertendo esse conhecimento numa tarefa de mineração de dados.

Busca detectar eventuais problemas e/ou restrições que, se desconsideradas, poderão implicar

perda de tempo e esforço em obter respostas corretas para questões erradas. Essa tarefa com-

preende ainda descrição do cliente, seus objetivos e descrição dos critérios utilizados para de-

terminar o sucesso do seu negócio.

11 Há uma divergência de nomenclatura entre a área de aplicação e a área de pesquisa: para a primeira todo o processo de KDD é denominado data mining, enquanto, para a segunda, data mining é apenas parte do processo de KDD. No decorrer deste texto estaremos usando a acepção da área de pesquisa.


Figura 4.1 - Ciclo de vida de DCBD segundo a CRISP-DM.

A Compreensão dos Dados visa a identificar informações que possam ser

relevantes para o estudo e uma primeira familiarização com seu conteúdo, descrição,

qualidade e utilidade. A coleção inicial dos dados procura adquirir a informação com a qual se

irá trabalhar, relacionando suas fontes, o procedimento de leitura e os problemas detectados.

Nessa tarefa, descreve-se ainda a forma como os dados foram adquiridos, listando seu forma-

to, volume, significado e toda informação relevante. Durante essa etapa, são realizadas as pri-

meiras descobertas.

A Preparação dos Dados consiste numa série de atividades destinadas a obter o

conjunto final de dados, a partir do qual será criado e validado o modelo. Nessa fase, são utili-

zados programas de extração, limpeza e transformação dos dados. Compreende a junção de

tabelas e a agregação de valores, modificando seu formato, sem mudar seu significado a fim

de que reflitam as necessidades dos algoritmos de aprendizagem.

Na Modelagem, são selecionadas e aplicadas as técnicas de mineração de dados

mais apropriadas, dependendo dos objetivos pretendidos. A criação de um conjunto de dados


para teste permite construir um mecanismo para comprovar a qualidade e validar os modelos

que serão obtidos. A modelagem representa a fase central da mineração, incluindo escolha,

parametrização e execução de técnica(s) sobre o conjunto de dados visando à criação de um ou

vários modelos.

A Avaliação do Modelo consiste na revisão dos passos seguidos, verificando se

os resultados obtidos vão ao encontro dos objetivos, previamente, determinados na Compreen-

são do Negócio, como também as próximas tarefas a serem executadas. De acordo com os re-

sultados alcançados, na revisão do processo, decide-se pela sua continuidade ou se deverão ser

efetuadas correções, voltando às fases anteriores ou ainda, iniciando novo processo.

A Aplicação é o conjunto de ações que conduzem à organização do

conhecimento obtido e à sua disponibilização de forma que possa ser utilizado eficientemente

pelo cliente. Nessa fase, gera-se um relatório final para explicar os resultados e as

experiências, procurando utilizá-los no negócio.

Uma vez que a CRISP-DM foi concebida para aplicações de DCBD, pode-se

confrontar essa metodologia com o trabalho desenvolvido por Prado (1998) que discorre sobre

o processo completo de Descoberta do Conhecimento em Banco de Dados (Figura 4.2). Essa

abordagem será explorada nas seções seguintes.

Figura 4.2 - Processo completo da DCBD.


4.1.1 - Definição e Entendimento do problema

Quando se inicia um processo de DCBD, é fundamental saber aonde se quer

chegar e entender o problema de forma real. Esse entendimento caracteriza-se pela materiali-

zação do problema, com a identificação de objetivos que possam, de alguma forma, serem

mensurados. É imprescindível para o êxito do processo delinear a necessidade do cliente. Essa

fase, quando negligenciada, afeta irreversivelmente o processo de DCBD. Sendo assim, deve-

se aliar a extração do conhecimento à definição do problema ao longo de todo processo.

Segundo a CRISP-DM, essa fase do projeto envolve as tarefas de:

(i) levantamento dos objetivos do negócio; (ii) avaliação da situação; (iii) levantamento das

metas da mineração; e (iv) execução do planejamento do projeto.

4.1.2 - Obtenção e Extração dos Dados

Essa fase visa, por meio do entendimento do problema, a adquirir uma coleção

de dados necessários para sua resolução. Procura-se entender e descobrir problemas na quali-

dade dos dados e/ou na sua padronização.

Geralmente, aplica-se datawarehousing com vistas a tornar disponíveis dados de

fontes heterogêneas de diferentes formas e padrões, o que permite a vantagem de se ter uma

fonte de dados concisa e padronizada.

Segundo Prado (1998), para a execução dessa etapa, duas atividades são empre-

gadas:

(i) Exercício intelectual do analista e do especialista - definição dos atributos a se-

rem considerados. Infelizmente, essa atividade é executada com alto grau de sub-

jetividade, o que pode modificar o resultado final;


(ii) Extração física dos dados das diversas fontes - atividade complexa por envolver

muitos fatores, tais como: apresentação de arquivos em formatos diferentes dos

que constam na documentação, carência de padrão na codificação e versões desa-

tualizadas. Por causa disso, os analistas geralmente procuram incluir toda infor-

mação considerada útil a fim de não ser necessária reexecutar a atividade.

Segundo a CRISP-DM, podem-se definir as seguintes tarefas para essa fase:

(i) levantamento inicial dos dados; (ii) descrição inicial dos dados; e (iii) análise da qualidade

dos dados.

4.1.3 - Limpeza e Exploração dos Dados

Essa fase tem como objetivo executar os passos necessários para a construção

do conjunto de dados a ser usado para extração do conhecimento. Procuram-se descobrir in-

formações novas, agrupar conjuntos importantes de dados, proporcionando a familiarização e

realizando um exercício de aproximação com esses dados.

Análises de veracidade também são executadas nessa fase. Segundo John

(1997), dependendo do aspecto que se quer analisar, podem ser observadas relações entre atri-

butos, verificando os resultados de objetivos predeterminados e como eles deveriam

comportar. Isso pode eliminar códigos ou padrões referidos a determinados campos que, fora

do limite esperado, bem como refletir resultados anômalos na mineração dos dados.

Essa fase do processo, conforme a CRISP-DM, é cumprida com a execução das

tarefas de: (i) seleção dos dados; e (ii) limpeza dos dados.

4.1.4 - Engenharia dos Dados

Servindo-se da base de dados, resultante das fases anteriores, verificar-se-á se é

pertinente a análise de pontos específicos. Em certos casos, será mais produtivo trabalhar com


subconjuntos tanto no que se refere a atributos quanto a termos de tuplas. A obtenção de amos-

tras significativas de dados deve ser feita com a aplicação de técnicas de estatística.

Uma técnica com esse propósito é apresentada por John (1997). Mediante a

construção de diversos modelos, com base em diferentes conjuntos de atributos, verifica-se o

modelo que obtém o melhor desempenho contra dados de teste. Assim, o analista e o especia-

lista podem escolher os atributos que apresentam melhor poder preditivo.

Segundo a CRISP-DM, essa fase corresponde às tarefas de: (i) engenharia dos

dados; (ii) fusão dos dados; e (iii) formatação dos dados.

4.1.5 - Engenharia do algoritmo

Nessa fase, são selecionadas as técnicas e os algoritmos para o tipo de minera-

ção de dados mais adequados ao problema. Aqui também são selecionados os parâmetros mais

apropriados ao processo como, por exemplo, a tarefa de escolher o número de camadas em

uma rede neural por meio de várias tentativas.

De acordo com a CRISP-DM, essa fase consiste nas tarefas de: (i) seleção da

técnica; e (ii) teste da técnica nos dados.

4.1.6 – Mineração

De acordo com Fayyad (1996) existem dois possíveis objetivos em um processo

de mineração: predição e descrição. O primeiro visa a estabelecer o valor de um ou mais atri-

butos em um banco de dados, tendo como base outros atributos presentes. Nesse objetivo, a

análise de qualidade é realizada via número de acertos em um total de casos testados.

O segundo tem como finalidade apontar padrões potencialmente interessantes

nos dados sem uma associação com um conceito inicial. Nesse caso, a análise de qualidade

não é tão trivial, uma vez que se espera oferecer uma visão da distribuição dos dados, e o jul-


gamento é feito pela subjetividade do ‘mais interessante’. Nesta fase da metodologia são cons-

truídos os modelos, preditivos ou descritivos, conforme o interesse do analista.

4.1.7 - Interpretação e Validação dos resultados

Nessa etapa do projeto, ter-se-á elaborado e construído o modelo que aparenta,

na perspectiva dos dados, ter a maior qualidade. É necessário, porém, antes da apresentação

final desse modelo, revê-lo e repassar os passos que lhe deram origem. Isso irá certificar que

ele esteja aliado aos objetivos do negócio. O objetivo chave é determinar se existem questões

importantes sobre o negócio que ainda não foram suficientemente consideradas.

Por sua vez, pode acontecer que alguns padrões encontrados não se aplicam a

novos casos devido ao chamado (overfitting)12. Nesse caso, é necessário rever todo o processo

visando a evitar esse problema.

Ao se realizar a validação dos resultados é possível que, mesmo com níveis de

acurácia aceitáveis, o especialista não se sinta convencido com os padrões encontrados. É ne-

cessário que os resultados motivem o especialista para levá-lo à busca do entendimento do seu

significado. Na sua interpretação, pode acontecer uma das seguintes situações (John, 1997):

(i) o especialista fica satisfeito com os resultados, embora conheça os padrões obtidos; (ii) o

especialista fica satisfeito com os resultados e surpreso com alguns dos padrões obtidos; e (iii)

o especialista fica insatisfeito com os resultados.

Segundo a CRISP-DM, podem-se estabelecer as seguintes tarefas, para essa fase

do projeto: (i) avaliação dos resultados; (ii) revisão dos processos; e (iii) levantamento das

próximas tarefas.

12 Generalização com base nos dados de treinamento. Recomenda-se que se use uma metodologia que divida os dados em três partes: (i) Amostra de treinamento (training set)- usada para construir o modelo inicial; (ii) Amostra de teste (test set) - usada para ajustar o modelo inicial e torná-lo mais genérico; e (iii) Amostra de avaliação (evaluation set) - usada para cali-brar a provável eficiência do modelo quando aplicado a dados desconhecidos.


4.1.8 - Refinamento dos Dados e do Problema

Ao final do processo, em geral, são necessários ajustes nas tarefas desempenha-

das. Segundo Prado (1998) deve-se, primeiramente, realizar uma revisão rápida do processo

completo, se possível, desconsiderando ou resumindo as fases de preparação e exploração,

mostrando os resultados dessa revisão ao especialista. Disto resulta uma reflexão sobre o pro-

cesso da DCBD em âmbito global, podendo ser evidenciada a fragilidade em alguma das fases

executadas.

De acordo com a CRISP-DM, essa fase não encerra o processo. Se o propósito

do modelo é acrescentar conhecimento à organização, este deve ser organizado e apresentado

de forma que o cliente possa utilizá-lo da melhor maneira possível.

Essa apresentação dependerá do contexto do projeto, podendo ser um simples

resumo, por meio de relatórios até o desenvolvimento de complexos processos de extração

desse conhecimento como, por exemplo, a extração de regras de modelos conexionistas.

Na metodologia CRISP-DM, essa fase compõe-se das tarefas: (i) desenho do

projeto de desenvolvimento; (ii) gerenciamento e manutenção; (iii) execução do relatório final;

e (iv) revisão do projeto.

4.2 - Abordagens para DCT A seguir, são descritas algumas das abordagens recomendadas por autores

atuantes nessa área. É importante salientar que tais estratégias são colocadas por seus

idealizadores como propostas e carecem de aperfeiçoamento. Em todas essas proposições, os

autores colocam-nas como tarefas e procedimentos não-rígidos. Essa conduta é levada adiante

na execução de cada uma delas, bem como na sua seqüência, visto que o procedimento de

mineração difere de caso para caso.


4.2.1 - Abordagem de Palazzo

Segundo Loh (2000a), a descoberta de conhecimento em texto divide-se de a-

cordo com o tipo de ação, proativa ou reativa. A abordagem proativa é apresentada na Figura

4.3.

Figura 4.3 - Abordagem de Palazzo.

(i) Seleção dos textos: aplicação de técnicas automáticas como a recuperação de in-

formação (que encontra textos por palavras-chave ou termos presentes nos tex-

tos) e a classificação (que separa textos por assunto) ou selecionando

manualmente;

(ii) Análise da coleção (toda ou partes): aplicação de técnicas de descoberta sobre

todos os textos ou de partes da coleção. A separação em subcoleções pode ser

feita de forma automática com a técnica de agrupamento ou por algum critério

estabelecido pelo usuário;

(iii) Análise de grupos de textos (todo ou partes): extração de uma lista de termos

comuns a todos os textos ou que aparecem em mais de um (técnica de listagem

de conceitos-chave ou centróide);


(iv) Comparar subcoleções entre si ou em relação à coleção toda: comparação entre

os resultados dos subgrupos e os obtidos da coleção toda;

(v) Validar hipóteses: por meio da técnica de resumos, interpretar os resultados;

(vi) Retroalimentação: refazer e realimentar o processo até atingir o objetivo

esperado.

4.2.2 - Abordagem de Ah-Hwee Tan

Conforme Tan (1999), o processo de mineração de texto (Figura 4.4) consiste

em duas etapas: o refinamento do texto e o extrator de conhecimento.

Figura 4.4 - Abordagem de mineração de texto segundo Ah-Hwee Tan.

O refinamento consiste na transformação do texto de forma livre para uma for-

ma intermediária. Essa forma intermediária pode ser semi-estruturada (gráficos) ou estrutura-

da (tal como um banco de dados relacional). Por exemplo, dado um conjunto de artigos novos,

o refinamento do texto (text refining) converte cada documento para forma intermediária. O

objetivo dessa ação é organizar os artigos de acordo com seu conteúdo para visualização e na-

vegação.


O extrator do conhecimento faz o reconhecimento de padrões, baseado nessa

forma intermediária. Essa etapa consiste na própria mineração, podendo utilizar técnicas como

o agrupamento e a classificação ou modelos de predição e de associação.

4.2.3 - Abordagem de Halliman

Na pesquisa de Halliman (2001), apresenta-se um estudo de caso em que são

analisadas informações textuais externas à empresa. Neste estudo, a análise do ambiente é di-

vidida em partes, conceituadas pelo autor como forças do ambiente.

Com base nessas tendências e na distribuição dessas forças, o autor mostra como

detectar ameaças e fortalecer oportunidades para a empresa tendo como base a mineração de

texto. O fluxo dessa metodologia é mostrado na Figura 4.5.

O processo tem a mineração de texto como base e inicia-se com a compreensão

do domínio da empresa, por meio do entendimento dos competidores e das forças que estes

exercem sobre suas atividades que poderão melhorar as táticas e estratégias desenvolvidas.

Para cada força do ambiente, são associadas palavras-chave. Por exemplo:

(i) Força Governamental: federal, senado, congresso; (ii) Força Tecnológica: tecnologia, pes-

quisa, patente; (iii) Força Marketing: mercado, marketing.

Tendo o domínio e as palavras, o processo seguinte é a recuperação dos textos,

nos quais são verificados e analisados seus conteúdos. É realizada uma seleção por meio de

pesquisa no texto com as palavras-chave.

São identificados e excluídos os textos não pertencentes ao domínio. Os arqui-

vos restantes são analisados, tendo suas palavras-chave extraídas para compor uma planilha. O

resultado é então classificado pela quantidade de palavras-chave encontrada em cada texto.


Com os dados na planilha, são elaborados gráficos a fim de facilitar o processo

de análise das informações obtidas. Na pesquisa, o autor mostra a análise por meio de gráficos

de distribuição, palavras mais usadas, gráficos de tendências, entre outros.

Essa metodologia, segundo o autor, é vantajosa pelo fato de fazer uso da mine-

ração de texto para obter informações em grandes bases textuais. O processo usado reduz o

tempo de aquisição de informação relevante, levando-se em conta que, na análise, a obtenção

de vantagens dependerá das habilidades e do conhecimento do analista.

Figura 4.5 - Abordagem de Halliman.


4.3 - Abordagem Utilizada das Estratégias de DCT Com o intuito de obter vantagens inerentes a cada abordagem, foi realizada, no

estudo de caso, uma mesclagem, em sua aplicação, apresentada nos capítulos subseqüentes.

Durante o processo de DCT, foram selecionadas algumas opções de técnicas e

ferramentas. Pelo fato de a aplicação das estratégias estarem diluídas ao longo do estudo de

caso, incluiu-se a explicação sobre a abordagem delas neste item.

Para a condução do eixo principal do trabalho, adotou-se a metodologia

CRISP-DM, sendo as demais usadas como apoio na execução de suas etapas.

No capítulo Compreensão do Negócio e Pré-processamento, foram abordadas as

etapas da CRISP-DM: compreensão do negócio, compreensão dos dados e preparação dos da-

dos.

Na Compreensão dos Dados, foi utilizada a abordagem de Ah-Hwee Tan, onde

foi realizada a importação dos dados textuais para um banco de dados estruturado.

A forma intermediária, neste caso, foi constituída por tuplas do banco de dados,

tendo como principais campos: tipo da matéria e UF de origem. Com essa abordagem, o pro-

cesso de obtenção das primeiras descobertas (entendimento dos dados), bem como os primei-

ros gráficos, foram facilitados.

Essa tarefa supriu e aumentou a velocidade da obtenção das informações. Nesse

caso, o desenvolvimento da aplicação de importação foi menos onerosa do que a análise e con-

tabilização dos dados, tais como: UF de origem e tipo de notícia. A aplicação da abordagem de

Ah-Hwee Tan foi importante por essas informações encontrarem-se em mais de um arquivo-

texto, notícia em si e arquivo de controle DAT.

No que se refere à Modelagem (Capítulo VI), etapa da CRISP-DM, a aborda-

gem de Palazzo foi a escolhida para obtenção dos grupos e respectivos centróides, adotando-se


a análise de partes da coleção. Neste caso, as subcoleções foram separadas de acordo com o

mês de produção na notícia.

Ainda seguindo a CRISP-DM, foram executadas as etapas de Avaliação do Mo-

delo e Aplicação (Capítulo VII), agrupadas na fase de pós-processamento. O método empre-

gado foi o de Halliman (2001), tendo como resultado a categorização das notícias, também

chamada de grandes áreas de abordagem da empresa.

Foi possível, com essa estratégia de Halliman, elaborar diversos gráficos que

permitiram aos administradores da empresa, de maneira mais ágil, analisar as informações ob-

tidas do projeto. Entre eles: os gráficos de ‘palavras mais usadas’, ‘categorias por período’ e

‘categorias por assunto’.

Nos capítulos subseqüentes, discorre-se sobre cada uma dessas fases com deta-

lhes. Neles, as principais etapas da CRISP-DM foram aplicadas tendo como suporte as abor-

dagens de DCT estudadas.

4.4 - Síntese do Capítulo A CRISP-DM é uma metodologia validada, tendo abrangência, detalhamento de

passos, busca de padronização, rotinas e etapas genéricas para desenvolvimento de aplicações

de DBCD.

Para aplicações de DCT, existem algumas abordagens metodológicas cobrindo,

cada uma à sua maneira, as fases do processo de descoberta. Visando a obter as vantagens ine-

rentes a cada metodologia, aplicou-se, no estudo de caso, uma combinação delas, verificando a

aplicabilidade da CRISP-DM em DCT, apesar de ela ter sido criada para apoiar o desenvolvi-

mento de aplicações de DCBD.

Capítulo V -

Compreensão do Negócio e

Pré-Processamento

Neste capítulo, abordou-se o pré-processamento, de acordo com a CRISP-DM, a

saber: a Compreensão do Negócio, o Entendimento dos Dados e Preparação dos Dados. Essa

etapa é importante, uma vez que condiciona fortemente as decisões tomadas nas próximas fa-

ses e um entendimento incompleto do problema pode levar à perda de tempo ou ainda a obten-

ção de respostas corretas para questões errôneas.

O escopo do projeto deve ser objetivo de modo a minimizar interpretações múl-

tiplas, a fim de oferecer condições para se decidir o tipo de tecnologia a ser utilizada.

O capítulo englobou as três primeiras fases descritas na metodologia CRISP-

DM. Foram abordados tópicos como objetivo do negócio, critérios de sucesso, riscos, explora-

ção inicial e engenharia dos dados.

5.1 - Compreensão do Negócio Nesse tópico, identificaram-se as necessidades e os objetivos numa perspectiva

do cliente, convertendo esse conhecimento numa tarefa de mineração de dados, bem como e-

ventuais problemas e/ou restrições que, se desconsiderados, poderiam implicar perda de

Capítulo V – Compreensão do Negócio e Pré-Processamento 58

tempo. Compreendeu ainda a descrição do background do cliente, seus objetivos de negócio e

uma descrição dos critérios utilizados para determinar o sucesso do seu negócio.

5.1.1 - Objetivo do Negócio

Background

A RADIOBRÁS tem como objetivo principal universalizar as informações refe-

rentes a atos e fatos da administração pública federal.

Seus principais produtos e serviços são: (i) Rádio Nacional de Brasília - AM;

(ii) Rádio Nacional do Rio de Janeiro - AM; (iii) Rádio Nacional da Amazônia - OC;

(iv) Rádio Nacional de Brasília - OC; (v) Rádio Nacional do Brasil - OC; (vi) Rede Nacional

de Rádio; (vii) TV Nacional - Canal 2; (viii) NBR - TV Nacional Brasil; (ix) Publicidade

Legal; (x) Agência Brasil; (xi) Mídia Impressa; (xii) Sinopse; e (xiii) Portal da Cidadania.

A empresa opera cinco emissoras de rádio, uma de televisão aberta e outra por

assinatura, um centro de produção de notícias e um serviço radiofônico via satélite. É hoje de-

tentora do maior parque radiofônico da América Latina e quinto maior do mundo, cobrindo

com seu sinal a quase totalidade do planeta.

Objetivos

A RADIOBRÁS - Empresa Brasileira de Comunicação S.A. é uma empresa pú-

blica, dotada de personalidade jurídica de direito privado, organizada sob a forma de sociedade

por ações, criada em 1975 e vinculada à Secretaria de Comunicação de Governo da Presidên-

cia da República do Brasil.

De acordo com o Regimento Interno (RADIOBRÁS, 2001), constitui objeto da

RADIOBRÁS:


(i) Divulgar as realizações do governo federal nas áreas econômica, política e social

e difundir para o exterior conhecimento adequado da realidade brasileira, bem

como implantar e operar emissoras e explorar serviços de radiodifusão;

(ii) Implantar e operar suas redes de repetição e retransmissão de radiodifusão, ex-

plorando seus serviços, prestando serviços especializados, bem como promoven-

do e estimulando a formação e o treinamento de pessoal especializado, necessário

as suas atividades;

(iii) Recolher, elaborar, produzir, transmitir e distribuir, diretamente ou em colabora-

ção com os meios de comunicação social, o noticiário, fotografias, boletins e pro-

gramas, referentes a atos e fatos da Administração Pública Federal e outros de

interesse público de natureza política, econômico-financeira, cívica, social, des-

portiva, cultural e artística, mediante processos gráficos, fotográficos, cinemato-

gráficos, eletrônicos ou quaisquer outros;

(iv) Distribuir a publicidade legal dos órgãos, entidades e sociedades integrantes da

Administração Pública Federal, direta e indireta;

(v) Exercer outras atividades afins que lhe forem atribuídas pelo Ministro de Estado

Chefe da Secretaria de Comunicação de Governo da Presidência da República.

Objetivos estratégicos

De acordo com o planejamento estratégico (RADIOBRÁS, 2001a), são objeti-

vos estratégicos da empresa:

(i) Adequar seus instrumentos regulamentares e organizacionais;

(ii) Adequar-se para a competitividade mercadológica;

(iii) Buscar a auto-suficiência econômico-financeira;


(iv) Promover permanente modernização tecnológica;

(v) Adotar mecanismos de mensuração e monitoramento de resultados das ativida-

des;

(vi) Elevar níveis de qualidade e adequação de conteúdo, de modo a ampliar a abran-

gência dos meios;

(vii) Preparar quadro funcional para atingir excelência em qualidade e produtividade.

Critérios para o Sucesso

A RADIOBRÁS não dispõe hoje, segundo seu diretor administrativo, de indica-

dores nacionais que permitam quantificar com precisão o número de pessoas que usufruem

seus produtos e serviços.

São relacionadas, a seguir, algumas questões importantes, referentes ao negócio

da RADIOBRÁS:

(i) Estimar a distribuição de notícias por assunto (economia, política, social, despor-

tiva, cultural e artística);

(ii) Avaliar difusão das notícias para o exterior da realidade brasileira;

(iii) Estimar a distribuição dos noticiários, boletins e afins referentes à administração

pública federal;

(iv) Estimar e avaliar a distribuição da publicidade legal dos órgãos da administração

pública federal;

(v) Levantar as atividades afins atribuídas pela Secretaria de Comunicação de Go-

verno da Presidência da República e que não fazem parte das funções rotineiras

da RADIOBRÁS.


(vi) Estimar o nível de universalização do acesso da sociedade ao conhecimento das

informações sobre atos e fatos do governo federal.

Parte dessas questões, foram respondidas pelo especialista depois da análise das

seguintes informações obtidas durante o processo de mineração:

(i) Percentagem de notícias por assunto (economia, política, social, desportiva, cul-

tural e artística);

(ii) Quantidade de notícias referentes a atos e fatos da administração pública federal

(iii) Quantidade de notícias sobre determinado assunto em relação à data de sua dis-

tribuição

(iv) Grupos homogêneos de texto e as palavras que o definem.

5.1.2 - Avaliação da Situação

Inventário dos Recursos

Os recursos disponíveis para o projeto abrangeram: pessoal (especialista de ne-

gócios, especialista de dados, suporte técnico, “minerador” do conhecimento), dados (extração

física, acesso aos dados operacionais), recursos computacionais (plataforma de hardware) e

software (ferramentas de mineração de texto, outros softwares relevantes).

Pessoal

• Um gerente do projeto para avaliação e suporte necessários ao projeto - gerente;

• Um analista para interagir com o software de mineração de texto - analista de

dados, co-gerente do projeto;

• Um coordenador de atividades de reportagens - especialista de negócio e avalia-

dor da extração de conhecimento;


• Um operador de grande porte e DBA do banco de dados (COBOL) - administra-

dor de dados;

• Um operador de grande porte e banco de dados COBOL - suporte técnico, ope-

rador de dados brutos.

Dados

• Foram disponibilizados dados de janeiro de 1987 a dezembro de 2001;

• Os textos estavam disponíveis em meio magnético em um banco de dados textual

(COBOL indexado);

• O banco de dados estava armazenado no computador de grande porte (HP 8200);

• Foram distribuídos por unidades textuais na proporção de um arquivo-texto para

cada notícia;

• Indexados por data e por Status (Notícias Bloqueadas, Liberadas, Descartadas);

• Arquivos textuais em formato ASCII puro sem formatação;

• Acesso aos dados restrito ao especialista de dados e ao operador de dados brutos;

Hardware

• HP 8200 (grande porte) - fonte dos dados textuais brutos;

• Um Pentium III 800 MHz 512 Ram (estação de trabalho) - processamento da fer-

ramenta de mineração e repositório dos dados transferidos do grande porte;

• Dois servidores Pentium Xeon III dual 1 GHz 2 GB Ram;

• Um servidor Pentium III dual 550 MHz 512 Ram;

Software

• Open VMS (grande porte);

• COBOL (grande porte);

• Microsoft Windows 2000 Server (estação de trabalho);


• Eurekha 2.0 (Personal Edition);

• Mononc Pro - Versão 2.0 (Build 227) - Demo

Requisitos e Suposições

A execução deste projeto, gerou grande expectativa dos diretores da empresa

quanto ao conhecimento do conteúdo e dos conceitos expostos pela RADIOBRÁS em seus

produtos.

O enfoque colocado por seu diretor administrativo-financeiro demonstrou a ne-

cessidade de conhecer, em números, a universalização das notícias veiculadas pela empresa.

Para ele, um fator de sucesso para o projeto é viabilização de se extrair os conceitos produzi-

dos e veiculados pela empresa e o quanto disto está sendo “conhecido pela sociedade” e, as-

sim, segundo ele, mostrar a realidade brasileira dos atos e fatos da Administração Pública

Federal.

Para o presidente da RADIOBRÁS, um dos pontos de expectativa do projeto es-

tá em estudar o conteúdo produzido e veiculado pela empresa. Com isto, seria possível certifi-

car que se ela está cumprindo o papel estipulado pela Presidência da República.

Para atingir essas expectativas, o presidente nomeou uma especialista em notí-

cias, incumbida de analisar os resultados da mineração de texto, bem como propor novos a-

grupamentos ou dados para validar o conhecimento extraído.

A compreensão e a qualidade dos resultados foram avaliadas ao término da aná-

lise dos dados, pelos gerentes do projeto e pela especialista de negócio, cabendo, ao final, a

adequação por parte dos diretores da empresa.

A RADIOBRÁS liberou para o projeto o acesso ao acervo eletrônico e permitiu

a análise e extração do conhecimento dele. Adicionalmente, o projeto ateve-se às notícias ve-


rídicas e de domínio público disponibilizadas no site da empresa no endereço eletrônico

http://www.radiobras.gov.br.

Nessa fase do projeto, não foram incluídas, para análise e extração do conheci-

mento, as notícias não-escritas, as notícias em meio não-magnético, as notícias escritas em ou-

tros idiomas, fotos e imagens. Dessa forma, foram analisadas tão somente todas as notícias

escritas em português e disponíveis eletronicamente.

Limitações

A área de atuação foi o acervo de notícias em português produzido e veiculado

no ano de 2001. Nesse período, uma limitação em relação à análise efetuada foi a falta de ma-

térias (arquivos-texto) entre os dias 04/01/2001 (inclusive) até o dia 14/02/2001 (inclusive).

Não foi possível importar esses 41 dias de produção devido à não-disponibilidade de notícias

desses dias no servidor de grande porte.

Limitações de Recursos: (i) o projeto contou somente com uma ferramenta de mineração de

texto capaz de realizar o trabalho. A segunda ferramenta (text analyst) talvez não pudesse su-

prir as necessidades, já que era uma cópia de avaliação; (ii) por ser um trabalho de cunho aca-

dêmico, o projeto não foi dotado de recursos financeiros, priorizando-se ações que não

envolviam custos;

Limitações de tecnologia: (i) a tecnologia empregada é nova e sua utilização na prática é tam-

bém recente. Assim era natural que ocorressem situações de entrave ou atraso até que se che-

gasse a uma solução ideal, o que realmente oconteceu; (ii) a ferramenta utilizada para

mineração de texto não é comercial, sendo fruto de pesquisa na área e resultado de uma disser-

tação de mestrado. Limitações em relações a ela poderiam ocorrer, visto que um dos objetivos

do projeto era analisar e propor sugestões para a ferramenta; (iii) o projeto propôs soluções


que abrangeram o domínio da mineração de texto, acarretando, portanto, que as soluções em-

pregadas foram inseridas no domínio de ocorrência dessa tecnologia - aprendizado não-

supervisionado.

Limitações de tamanho: (i) o projeto teve como foco de abrangência o acervo de notícias pro-

duzidas e disponibilizadas, em português, em meio magnético e na forma textual importada do

grande porte; (ii) identificaram-se, de forma semi-automática, agrupamentos de notícias e pa-

lavras-chave que compunham esses grupos; (iii) os conceitos, advindos da análise realizada

pela especialista de negócios, fundamentaram-se no conhecimento extraído dos dados e con-

seqüentes agrupamentos.

Limitações na abrangência dos dados: (i) os dados analisados foram as notícias produzidas e

disponibilizadas entre 01/01/2001 a 31/12/2001, embora houvesse uma lacuna entre os dias

04/01/2001 (inclusive) ao dia 14/02/2001 (inclusive); (ii) não foi objetivo do projeto mensurar

a quantidade de informações disponibilizadas e, conseqüentemente, utilizadas pela população,

mas sim avaliar os principais assuntos das notícias e os resultados de acordo com o objetivo

traçado para empresa; (iii) foram analisadas somente as matérias escritas em português e que

se encontravam em meio magnético no formato textual.

Riscos e Contingências

Riscos: (i) possibilidade de o projeto perder apoio político e/ou administrativo na execução de

suas etapas; (ii) não conseguir mensurar, estatisticamente, os tipos e a quantidade de notícias

veiculadas por períodos de tempo; (iii) a ferramenta de mineração de texto ou hardware não

suportar o volume de dados a serem analisados; (iv) a ferramenta de mineração de texto não

conseguir comportar os dados textuais da empresa devido à forma, tamanho ou formatação

deles; (v) não conseguir confrontar os agrupamentos e palavras-chave com os períodos históri-


cos na busca de extrair os melhores conceitos; (vi) ter resultados finais que não atingissem as

expectativas da cúpula administrativa da empresa (presidente e diretores).

Contingências: (i) Uso da importação de texto para banco relacional para facilitar o levanta-

mento da estatística dos dados (quantidade, tipo, período); (ii) usar outra ferramenta de mine-

ração de texto; (iii) a busca por respaldo das ações ao longo da execução das etapas.

Terminologias

Os termos técnicos referentes ao trabalho são os seguintes:

• Acervo - Matérias liberadas para sociedade brasileira;

• PO - Sigla que identifica notícias relacionadas à Política;

• EC - Sigla que identifica notícias relacionadas à Economia;

• NA - Sigla que identifica notícias relacionadas ao Brasil (Nacional);

• CT - Sigla que identifica notícias relacionadas à Ciência e Tecnologia;

• FL - Flash, matérias curtas sobre determinado assunto;

• MA - Matéria longa sobre determinado assunto;

• ME - Matéria especial sobre determinado assunto;

• CL - Clipping;

• PT - Pauta de Foto;

• PA - Pauta.

Custos e Benefícios

No projeto, não foram agregados recursos financeiros, entre outros motivos, por

haver uma congruência de ações: (i) pesquisa e elaboração de uma dissertação e (ii) necessi-

dade de conhecimento mais abrangente sobre a produção da empresa, visando a atender as ex-

pectativas dos administradores com o estudo e o levantamento dos conteúdos das matérias

produzidas e disponibilizadas pela empresa.


Um dos principais benefícios foi a elevação do conhecimento sistêmico com a-

nálise do conteúdo de um produto da RADIOBRÁS, confrontando os conhecimentos extraídos

das notícias com os objetivos da empresa, traçados pela Presidência da República. Esse bene-

fício poderá refletir-se na consolidação da empresa ou descobrir algum insight sobre o negócio

que possa subsidiar o planejamento estratégico da RADIOBRÁS.

5.1.3 - Objetivos da Mineração de Dados

A extração de conhecimento servirá como base para análise do cumprimento do

papel da empresa junto à sociedade brasileira, espera-se com o estudo:

(i) Selecionar as principais palavras empregadas nas notícias produzidas e disponibi-

lizadas pela empresa;

(ii) Determinar os principais confrontos entre as notícias e conseqüentemente as pa-

lavras-chave que compõem esses agrupamentos;

(iii) Separar as notícias em grupos, indicando os termos (palavras) mais importantes;

(iv) Identificar os principais conteúdos, com base na análise dos grupos de notícias e,

quando possível, confrontá-los com fatos ocorridos no período estudado.

(v) Elaborar estatísticas das notícias por tempo, tipo, assunto e quantidade.

Critérios de Sucesso

(i) Quantificar as notícias por tipo, tempo e principais assuntos.

(ii) Extrair os conceitos produzidos e veiculados pela empresa, tendo como base a

análise dos grupos de notícias;

(iii) Determinar a quantidade de matérias que trata sobre atos e fatos da administração

pública federal.


(iv) Estudar o conteúdo produzido e veiculado pela empresa, certificando que a

RADIOBRÁS está cumprindo o papel estipulado pela presidência da república.

5.1.4 - Plano do Projeto

Na Figura 5.1, observa-se o plano do projeto seguido. Nele apresentaram-se as

principais tarefas executadas, bem como o tempo estimado cada uma. Como forma de mensu-

ração e controle, determinaram-se, no plano, os responsáveis pelas etapas que foram ordenadas

de acordo com suas dependências.

As entradas e as saídas de cada fase, assim como as repetições e/ou os saltos de

etapas especificadas na metodologia CRISP-DM, foram detalhadas conforme o curso do proje-

to.

A análise geral do plano do projeto, bem como suas revisões, foram especifica-

das na etapa de desenvolvimento - etapa VI do CRISP-DM.

Atividades Mês 1 Mês 2 Mês 3 Mês 4 Mês 5 Mês 6 Mês 7 Recursos

I - ENTENDIMENTO DO NEGÓCIO 1.1 - Definição de metas e recursos Rdb/Gp 1.2 - Migração dos Dados Ed/St II – ENTENDIMENTO DOS DADOS Mc/Ed/Gp III - PREPARAÇÃO DOS DADOS Mc/Ed 3.1 – Limpeza Mc/Ed 3.2 – Engenharia Mc/Ed 3.3 – Formatação Mc/Ed IV – MODELAGEM 4.1 - Avaliação da técnica e ferramenta mineração de texto Mc 4.1.1 - Escolha do algoritmo Mc/Gp 4.1.2 - Definição do nível de similaridade Mc/Gp 4.1.3 - Extração dos grupos Mc/Gp 4.1.4 - Análise dos grupos Gp/Em 4.1.5 - Estatística da amostra (quantidade) Mc/Gp 4.2 - Execução da ferramenta de mineração de texto Mc 1.4.1 - Extração dos grupos Mc/Gp 1.4.2 - Análise dos grupos Gp/Em 1.4.3 - Estatística da amostra (quantidade) Mc/Gp V – AVALIAÇÃO Gp/Em VI – APLICAÇÃO Rdb

Legenda: Ed Especialista de dados Mc Minerador do conhecimento En Especialista de negócio Rdb Responsável na empresa RADIOBRÁS Gp Gerentes do projeto St Suporte técnico

Figura 5.1 – Plano do projeto.


O projeto é focalizado em mineração de texto como técnica principal de desco-

berta de conhecimento. Para execução dessa “mineração”, foi necessário o uso de ferramentas

específicas que facilitaram a extração do conhecimento em dados na forma textual.

No mercado, há diversas ferramentas de mineração em texto (Nuggets, 2001).

Uma ferramenta para mineração de texto é apresentada por Wives (1999) como parte de sua

dissertação de mestrado. Sua interface pode ser vista na Figura 5.2.

Avaliação inicial das técnicas e ferramentas

A ferramenta Eurekha®, desenvolvida por Wives (1999), baseada nas análises e

nas comparações de algoritmos de clustering, é apresentada como um protótipo de mineração

de texto. Essa ferramenta agrega várias opções e parâmetros que podem ser definidos pelo u-

suário, proporcionando-lhe, a obtenção de conhecimento (padrões, relacionamentos) com base

em textos de forma interativa.

O uso dessa ferramenta é justificado por diversos fatores, tais como: (i) é um

protótipo baseado na plataforma windows 9*; (ii) seu intuito inicial é acadêmico; (iii) é um

software inicialmente concebido como freeware; (iv) permite usar, sem limitação, conjunto de

texto em ASCII; (v) faz parte de um estudo continuado, visando a sugestões de melhorias nela

ou nos procedimentos que advierem com seu uso.


Figura 5.2 - Interface do Eurekha.

Essa ferramenta é considerada um protótipo para agrupamento de informações

(objetos) textuais. Apresenta várias opções e parâmetros que podem ser definidos pelo usuário,

além de apresentar diversas formas de análise dos resultados. Todavia, por ser um protótipo,

tem algumas limitações que devem ser tratadas em algum trabalho futuro.

Eurekha foi desenvolvido com características de orientação a objetos. Dispõe de

vários recursos, como disponibilização de escolha entre quatro diferentes algoritmos de agru-

pamento: (i) best-star; (ii) cliques; (iii) full-star; (iv) stars. A ferramenta permite ainda: (i) de-

finição e manipulação de stopwords; (ii) definição e manipulação de coleções de documentos,

(iii) definição dos atributos para o processo de agrupamento (cálculo de similaridades e gera-

ção de matriz de similaridades); (iv) visualização em forma gráfica dos clusters encontrados;

(v) interface de exportação de grupos e resultados dos agrupamentos.


5.2 - Entendimento dos Dados Essa etapa visou a identificar informações que pudessem ser relevantes para o

estudo e uma primeira familiarização com seu conteúdo, descrição, qualidade e utilidade. A

coleção inicial dos dados objetivou obter informação com a qual se trabalhou, listando suas

fontes, o procedimento de leitura e os problemas detectados. Descreveu-se ainda a forma como

os dados foram coletados, relacionando seu formato, volume, significado e toda a informação

relevante. Aqui foram feitas as primeiras descobertas.

5.2.1 - Relatório Inicial da Coleção

Os dados, para viabilização do projeto, foram importados de uma base textual

indexada em COBOL, armazenada no sistema de grande porte HP 8200. Os arquivos adquiri-

dos estavam no servidor de “extração do conhecimento”, denominada como estação de traba-

lho em formato ASC II puro e sem formatação.

Cada arquivo-texto correspondeu a uma matéria (notícia) na proporção de um

texto para cada registro. Não foram importados arquivos defeituosos, arquivos de controle do

sistema ou arquivos não constantes do acervo de notícias escritas em português.

Na Tabela 5.1, é apresentado um resumo e problemas ocorridos na importação

dos dados (textos), bem como sua localização. Por ser a única fonte de dados, não foi conside-

rada a necessidade de verificar possíveis ambigüidades de informações ou ainda a falta de re-

gistros devido à mesclagem de dados.


Tabela 5.1 - Resumo da importação dos dados. Fonte Localização atual Problemas identificados

COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/01 Quantidade de arquivos menor que o esperado para o mês de produção. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/02 Quantidade de arquivos menor que o esperado para o mês de produção. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/03 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/04 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/05 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/06 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/07 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/08 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/09 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/10 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/11 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/12 Sem problemas identificados.

Os problemas identificados na importação dos dados foram repassados para o

suporte técnico e para o especialista de dados. Pelas conclusões obtidas, verificou-se que o

problema encontrava-se na fonte de dados que não apresentava mais os arquivos nos formatos

e locais originais. Concluiu-se que a importação não interferiu no processo e que a situação

dos arquivos na estação de trabalho espelhou as informações da fonte de dados.

Uma segunda fonte de dados dessas notícias estava disponível em formato ele-

trônico na Internet (servidor Web da empresa), os dados passaram por uma transformação de

txt para HTML. Como forma de manter segurança e a performance de acesso, os dados ficam

armazenados nessa forma por tempo indefinido.

Observou-se, porém, a necessidade de elaborar processos adicionais para análise

desses dados, tais como: limpeza de formatações, limpeza de conteúdos e tags adicionadas ao

arquivo para fins de disponibilização na web, entre outros fatores. É importante ressaltar que

esses arquivos estão disponíveis em outra máquina em outra fonte de dados. Essa “segunda

fonte de dados” é administrada por outras pessoas que não estão relacionadas na seção 5.1.2.

Como até o término desta etapa de verificação dos dados, bem como da avalia-

ção das técnicas e ferramentas, não havia soluções para o problema, o projeto seguiu com os

dados disponíveis e ao final será feita a avaliação pertinente pela falta desses arquivos.


5.2.2 - Descrição dos Dados

Como visto no tópico anterior, os dados para o projeto constaram de textos em

formato ASC II na proporção de um texto para cada notícia.

Na Tabela 5.2 e na Figura 5.3, observa-se o resumo dos arquivos importados,

separados por períodos mensais de produção, informando a quantidade de registros, os tama-

nhos totais (bytes) e médio do arquivo (bytes).

Tabela 5.2 - Resumo dos dados importados. Mês Produção

(2001) Quantidade

Arquivos (mês) Quantidade Média

Arquivos (dia) Tamanho

Total (bytes) Tamanho Médio Arquivo (bytes)

Janeiro 247 8,23 225.198 911,73 Fevereiro 2.049 68,30 2.068.497 1.009,52 Março 4.599 153,30 4.697.891 1.021,50 Abril 5.397 179,90 5.429.883 1.006,09 Maio 5.838 194,60 5.839.314 1.000,23 Junho 5.429 180,97 5.478.167 1.009,06 Julho 5.104 170,13 5.200.581 1.018,92 Agosto 5.503 183,43 5.623.412 1.021,88 Setembro 5.621 187,37 5.665.198 1.007,86 Outubro 5.480 182,67 5.613.377 1.024,34 Novembro 5.634 187,80 5.720.749 1.015,39 Dezembro 4.734 157,80 4.680.795 988,76 Médias 4.636 154,54 4.686.921,83 1.002,94 Total: 55.635 -- 56.243.062 --

Figura 5.3 - Produção Mensal em 2001.

Na Figura 5.4, pode-se verificar um exemplo de conteúdo do arquivo-texto ana-

lisado neste projeto. Cada arquivo-texto continha uma notícia escrita de forma livre, em portu-

guês sem formatação prévia em caracteres do tipo ASC II.


CCCCCCCC

EEccoonnoommiiaa

OOrrççaammeennttoo ddaa UUnniiããoo ddeessttiinnaa RR$$ 1155 bbiillhhõõeess àà áárreeaa ssoocciiaall eemm 22000022

BBrraassíílliiaa,, 3311 ((AAggêênncciiaa BBrraassiill -- AABBrr)) -- OO OOrrççaammeennttoo GGeerraall ddaa UUnniiããoo ppaarraa 22000022 vvaaii ddiirreecciioonnaarr RR$$ 1155 bbiillhhõõeess

aaooss pprrooggrraammaass ddaa áárreeaa ssoocciiaall iimmpplleemmeennttaaddooss ppeelloo ggoovveerrnnoo ffeeddeerraall nneessttee eexxeerrccíícciioo ffiissccaall,, uummaa eexxppaannssããoo

1144%% ssuuppeerriioorr àà ffiixxaaddaa nnoo OOrrççaammeennttoo eemm eexxeeccuuççããoo nneessttee aannoo.. ((DDeeiiggmmaa TTuurraazzii))

========

NNFF

NNNNNNNN

Figura 5.4 - Formato-padrão do conteúdo textos.

5.2.3 - Exploração dos Dados

Para se obter a estatística dos dados trabalhados, os textos foram dispostos e se-

parados por períodos de tempo de produção. Quanto à produção mensal, foram criadas pastas

individuais, contendo a quantidade de palavras e a média de incidência de notícias, uma pasta

para cada mês de produção. No que se refere à distinção entre as datas de distribuição e produ-

ção, foram aproveitadas a notações realizadas pelo sistema de grande porte. Na Figura 5.5, po-

de-se ver como se encontrava a disposição do arquivo em relação à nomenclatura utilizada e o

período de tempo (data e hora da produção).

Figura 5.5 - Padrão de nomenclatura do arquivo-texto.

Na Tabela 5.3, é apresentado um resumo da produção mensal da empresa em

que se enumeram a quantidade de palavras e a média de incidência por notícia.


Tabela 5.3 - Total e média de palavras por texto. Mês Produção

(2001) Quantidade (arquivos)

Quantidade de Palavras

Média

Janeiro 247 35.431 143,45 Fevereiro 2.049 321.446 156,88 Março 4.599 728.852 158,48 Abril 5.397 838.842 155,43 Maio 5.838 905.646 155,13 Junho 5.429 850.801 156,71 Julho 5.104 808.314 158,37 Agosto 5.503 870.295 158,15 Setembro 5.621 875.809 155,81 Outubro 5.480 865.922 158,01 Novembro 5.634 883.301 156,78 Dezembro 4.734 725.747 153,31 Totais: 55.635 8.710.406 155,54

Tabela 5.4 - Palavras com maior incidência por mês em 2001. Palavra / ocorrência Jan Fev Mar Abril Mai Jun Jul Ago Set Out Nov Dez Média Total

Presidente 73 883 2161 2615 2681 2662 2502 2559 2444 2365 2420 2291 2138 25656 Ministro 63 617 1716 2022 2513 2124 1751 2221 1941 2231 2234 1927 1780 21360 Governo 58 602 1590 1430 2033 1767 1566 1452 1470 1312 1420 1541 1353 16241 Ministério 35 515 1177 1438 1601 1278 1259 1509 1335 1575 1699 1184 1217 14605 Federal 74 483 1037 1381 1332 1287 1223 1496 1280 1414 1534 1233 1148 13774 Programa 45 528 1187 1142 1553 1406 1284 1507 1298 1134 1348 1127 1130 13559 Energia 7 169 547 877 2596 2216 1396 1280 1027 952 875 617 1047 12559 Estado 67 485 1064 1338 1389 1102 1138 1091 1023 1093 1082 898 981 11770 Desenvolvimento 22 348 881 1140 1266 885 887 1052 1042 996 1224 1148 908 10891 Fernando 22 300 765 1038 951 1051 1161 996 908 1027 1010 915 845 10144 Nublado 95 466 797 1060 1018 837 947 965 1042 891 943 805 822 9866 Saúde 33 312 931 1022 1116 765 594 1033 925 982 1121 675 792 9509 Henrique 20 304 692 943 834 966 1084 913 821 905 902 768 763 9152 Educação 22 215 628 891 850 861 699 900 827 911 1000 652 705 8456

*Para os meses de janeiro e fevereiro, deve ser considerado o exposto na Tabela 5.1.

Para melhor visualização da análise dos dados, os resultados foram dispostos em

duas Figuras 5.6 e 5.7, nas quais pode-se observar a incidência de média de sete palavras no

conjunto de dados. Esses resultados foram alcançados pelo cálculo de freqüência absoluta13,

permitindo descobrir a incidência geral das palavras em todos os textos referentes a determi-

nado mês.

13 Somatório simples da quantidade de incidência da palavra nos textos referentes a determinado mês.


Destaque na Evolução

jane

iro

feve

reiro

mar

ço

abril

mai

o

junh

o

julh

o

agos

to

sete

mbr

o

outu

bro

nove

mbr

o

deze

mbr

o

Mês

Inci

dênc

ia

ministro presidente governo ministériofederal programa estado

Figura 5.6 - Incidência de palavras por mês (a).


jane

iro

feve

reiro

mar

ço

abril

mai

o

junh

o

julh

o

agos

to

sete

mbr

o

outu

bro

nove

mbr

o

deze

mbr

o

Mês

Inci

dênc

ia

energia desenvolvimento fernando nubladosaúde henrique educação

Figura 5.7 - Incidência de palavras por mês (b).

Com base nesse resultado, a etapa posterior foi destacar os melhores resultados

de cada mês, excluindo as stopwords. O resultado geral dos 12 (doze) meses foi inserido em

uma planilha na qual foram calculadas e analisadas as médias de incidência no mês e a fre-

qüência com que as palavras apareciam nos outros meses. Ao final, chegou-se a uma planilha

com as palavras mais usadas e mais freqüentes.


Esse conjunto de dados foi então analisado pelo especialista que elegeu as me-

lhores palavras em relação ao contexto empregado. Foram selecionadas aquelas que indicaram

mais consistência nos textos. Eliminaram-se as palavras que, neste contexto, significassem lo-

calidades, tais como: “brasília”, “sul”, “são” e “paulo”.

Uma análise prévia em relação a esses dados indicou grande ascendência da pa-

lavra “energia”, a partir do mês de maio. Isto se justificou pela condução do programa de ra-

cionamento de energia conduzido pelo governo federal, intensificada a partir daquele mês, e

sua conseqüente queda de incidência em virtude dos resultados obtidos pela campanha

“antiapagão”.

Outras palavras tais como “presidente”, “ministro”, “governo”, “ministério”,

“federal” e “programa” foram termos de uso comum em todos os meses analisados. A princí-

pio, presume-se, com base nesses dados, que as notícias têm grande enfoque para o presidente

“Fernando” “Henrique”, uma vez que seu nome também está citado nessa figura juntamente

com palavras que indicaram atos e fatos sobre seus ministros (neste caso no plural por não ha-

ver, em uma primeira análise, uma apresentação explícita de nomes ou cadeiras).

O objetivo principal dessa tarefa foi procurar conhecer os dados “minerados”,

tendo um conhecimento prévio das palavras-chave que pudessem servir de guia na elaboração

do agrupamento.

As demais informações obtidas encontram-se na seção 7.1.1, onde foi realizada

a avaliação do modelo. Foram criadas, especificamente nessa fase, as Figuras 7.3, 7.4, 7.5 e

7.6.


5.2.4 - Qualidade dos Dados

Por se tratar de textos, há de se estabelecer duas vertentes para análise de quali-

dade. A primeira tratou da integridade e da disposição dos textos para acesso e análise. A se-

gunda, do conteúdo, uma vez que esses foram redigidos de forma livre e por isso sujeitos a

erros de ortografia, posição, entre outros. Nesse aspecto, fez-se uso das verificações feitas pe-

los editores de cada matéria, supervisores e ainda usuários que tinham lido e informado erros

encontrados. Os arquivos-texto apresentaram boa qualidade em relação a esses dois aspectos.

Essas duas análises de qualidade, porém, não eliminaram totalmente erros quan-

to à ortografia, à concordância, à formatação, entre outros.

Outro enfoque, em relação à qualidade, foi a abrangência do acervo disponibili-

zado para o projeto. Conforme observado nas Tabelas 5.2 e 5.3, há uma lacuna entre os meses

de janeiro e fevereiro.

Nessa etapa, não foi possível mensurar o prejuízo dessa falta de registros de

forma específica. Esse fato interferiu no resultado do processo como um todo, uma vez que

parte do acervo não constou das estatísticas de produção e, por conseguinte, não foi analisada.

Para tais arquivos-texto, não foi possível também realizar a análise de áreas (categorias), o que

interferiu nas informações obtidas no final do processo.

Conforme exposto na seção 5.2.1, a falta desses arquivos foi compensada pela

importação e a análise dos dados textuais transformados e disponíveis em formato html. Essa

segunda fonte de dados completou a análise e compôs os resultados finais da descoberta do

conhecimento.

Adicionalmente, incluíram-se como proposta de solução do problema, uma aná-

lise, uma investigação de backups e/ou outros meios que pudessem disponibilizar esses dados

inexistentes em seu formato original.


5.3 - Preparação dos Dados Consistiu numa série de atividades destinadas a obter o conjunto final de dados,

do qual foi criado e validado o modelo. Nessa fase, foram utilizados programas de extração,

limpeza e transformação dos dados. Compreendeu a junção de tabelas e a agregação de valo-

res, modificando seu formato, sem mudar seu significado, a fim de refletir as necessidades dos

algoritmos de aprendizagem.

5.3.1 - Seleção dos Dados

A RADIOBRÁS dispõe de enorme quantidade de dados textuais disponíveis em

meio magnético a serem explorados. A empresa também agrega outras fontes de informação

inacessíveis eletronicamente, tais como: sinopse, mídia impressa, Voz do Brasil, laudas e notí-

cias da rádio e TV. Esses produtos são considerados valiosos como fonte de informações as

quais poderão ser utilizados para extração de conhecimentos estratégicos em futuros projetos.

Para o projeto atual, o domínio incorporado aos dados que se seguem são maté-

rias produzidas e disponibilizadas para o Portal da Cidadania da RADIOBRÁS. Esses dados

são notícias escritas em português para mídia impressa. Foram selecionadas para o projeto as

notícias tipificadas como:

(i) Notícias Liberadas - matérias consolidadas sobre os principais fatos do dia em

cinco áreas: política, economia, nacional, ciência e tecnologia e cultura. Essas

matérias são consideradas como produtos finais das edições jornalísticas e com-

põem o acervo público da RADIOBRÁS. Esses textos foram usados para o proje-

to, sendo a fonte principal para extração e análise do conhecimento.

(ii) Íntegras - matérias consolidadas de discursos, briefings, notas oficiais e outros

documentos do governo federal.


A seguir, outros dados são apresentados como parte da produção RADIOBRÁS,

mas que não foram incluídas no escopo deste projeto.

(i) Notícias Originais - matérias brutas enviadas ou transmitidas diretamente para a

sede da agência de notícias. Essas matérias são consideradas como produtos de

produção jornalística e compõem o acervo da RADIOBRÁS.

(ii) Notícias Não-Liberadas - matérias descartadas ou ainda inacabadas, não-prontas

para disponibilização.

(iii) Notícias Bloqueadas - matérias úteis que geralmente não são disponibilizadas na

edição do dia corrente. Freqüentemente são notícias veiculadas em dias de pe-

quena produção - fins de semana, por exemplo.

(iv) Notícias Lixo - notícias não-disponibilizadas para uso. Ficam no banco de dados

e podem ser aproveitadas posteriormente.

(v) Notícias de Edição Comum - são matérias constantes de “acervos” particulares

de cada editor, repórter ou digitador. Podem ser ainda “arquivos particulares”

disponibilizados para as editorias (política, economia, C&T, nacional) onde são

armazenadas as matérias de seu interesse. Geralmente, são usados como repositó-

rio de modelos de matérias.

(vi) Notícias Internacionais - matérias consolidadas sobre os principais fatos do dia

em inglês, alemão e espanhol. Essas matérias são colocadas como produtos finais

das edições jornalísticas e compõem o acervo público da RADIOBRÁS, porém

não foram usadas para o projeto por estarem em outro idioma.

(vii) Agenda e Pautas Presidenciais - agenda do presidente da república, ministros e

outras autoridades do governo federal.


(viii) Palavra do Presidente - íntegra do programa semanal de rádio da presidência da

república, separada em várias matérias. Não foram incluídas nessa fase do proje-

to.

Em resumo, foram selecionados os textos constantes do acervo da

RADIOBRÁS, produzidos e disponibilizados em português compostos de matérias liberadas e

íntegras.

5.3.2 - Limpeza dos Dados

Como parte do processo de preparação dos dados, excluíram-se dados não-

relevantes para a pesquisa. Quando se lida com mineração de texto, dois aspectos devem ser

observados: textos não-relevantes e palavras nos textos que podem ser eliminadas.

Em relação aos textos considerados não importantes, de acordo com a seleção

mencionada na seção 5.3.1, foram eliminados os que se referiam a: (i) pautas e agendas presi-

denciais; (ii) pauta de eventos e fotos, como também os arquivos-texto corrompidos e os nulos

(sem conteúdo).

O processo de seleção das palavras que podem ser eliminadas, sem prejuízo da

compreensão do seu conteúdo, foi realizado ao longo da análise e extração dos grupos. Outras

palavras consideradas como stopwords14 constantes nos textos, tais como: artigos, conjunções,

caracteres de controle de sistema, nome da agência da RADIOBRÁS, entre outras, foram iden-

tificadas e armazenadas em uma lista que foi utilizada no processo de extração do conheci-

mento.

Em seguida foi localizada, a esmo, uma matéria no conjunto de dados, a fim de

que fosse identificada uma matéria do tipo pauta. Realizada a análise dessa matéria, foram se-

14 conforme exposto no capítulo III na seção 3.1.2 desta dissertação


lecionadas as palavras e as frases que as definissem como sendo desse tipo. Foram encontradas

as frases “pauta de foto”, “central de pauta”, “pauta interna” e “pauta de telefoto”. Para con-

cluir, foi executada uma pesquisa textual com o utilitário do Windows 2000 Server (Figura

5.8) na estação de trabalho com as frases supracitadas, localizando-as e separando-as.

Figura 5.8 - Utilitário de pesquisa textual.

A identificação das matérias nulas foi possível por meio da análise no tamanho

(bytes) dos arquivos textos. Selecionados os menores arquivos, um a um foi analisado e sepa-

rado visando a sua exclusão do processo.

Tabela 5.5 - Resultado da limpeza de dados. Mês Produção

(2001) Quantidade (arquivos)

Matérias Tipo Pauta

Matérias Nulas

Quantidade Resultante

% de Arquivos Excluídos

Janeiro 247 7 0 240 2,83 Fevereiro 2049 60 2 1987 3,03 Março 4599 115 1 4483 2,52 Abril 5397 160 2 5235 3,00 Maio 5838 157 0 5681 2,69 Junho 5429 139 2 5288 2,60 Julho 5104 131 2 4971 2,61 Agosto 5503 192 0 5311 3,49 Setembro 5621 145 2 5474 2,62 Outubro 5480 172 0 5308 3,14 Novembro 5634 163 5 5466 2,98 Dezembro 4734 137 2 4595 2,93 Totais: 55635 1578 18 54039 2,87


Na Tabela 5.5, observa-se a tarefa da limpeza nos textos. Para efeito de estatísti-

cas posteriores e/ou pesquisa nos dados de pauta, essas matérias foram separadas em outro di-

retório. Deste modo, não constaram do restante do processo de mineração.

5.3.3 - Engenharia dos Dados

A engenharia de dados consistiu em operações que permitiram preparar os dados

para modelagem. O ciclo geral das tarefas executadas neste projeto pode ser visualizado na

Figura 5.9.

Figura 5.9 - Ciclo das tarefas da engenharia de dados.

A seguir, apresentam-se as tarefas realizadas na engenharia dos dados.

1. Importação

1.1. Transferência dos arquivos do grande porte (cobol) para estação de trabalho

(windows);

1.2. Separação dos dados importados em pasta mensais.


2. Preparação dos arquivos

2.1. Execução da renomeação de versão para txt (de “.1” para “.txt”).

3. Resumo dos dados importados (quantidade e tamanho (bytes) dos arquivos importados).

3.1. realização da estatística do número de palavras (MonoConc Pro Demo 2.227).

4. Limpeza dos dados

4.1. Arquivos corrompidos - Na execução do programa de estatística MonoConc®, foram

verificados, também, arquivos corrompidos. Nesse caso, ao tentar abrir um arquivo

danificado, o software acusou erro que foi então separado para depois ser contabiliza-

do na estatística de limpeza.

4.2. Arquivos tipo pauta - Depois de localizados, os textos foram separados em outra pas-

ta, sendo eliminados do restante do processo.

4.3. Arquivos Nulos ou Inválidos - A concepção de inválido, nesse caso, são matérias cujo

texto é composto de conteúdo sem sentido. Um exemplo desse conteúdo são matérias

que contêm somente caracteres de controle, tais como: ‘CCCCC’ e ‘NNNNN’ ou ain-

da textos inacabados nos quais constam somente o cabeçalho da matéria. A localiza-

ção desses arquivos foi possível pela verificação do tamanho deles em bytes. Feita a

classificação por tamanhos, os arquivos foram abertos e, visualmente, constatou-se

seu conteúdo. Aqueles que não continham caracteres ou eram inválidos foram separa-

dos em pastas diferentes para não serem incluídos no restante do processo.

4.4. Estatística da limpeza - Realização da estatística da quantidade e do tamanho total dos

arquivos nulos e pautas.

5. Engenharia nos dados

5.1. Separação das matérias de C&T depois da análise das estatísticas. Observou-se que a

produção de tais matérias não condizia com o esperado. Na análise, apurou-se que a


produção era em torno de quatro a seis matérias mensais embora o esperado fosse um

número bem maior.

Verificado o conteúdo dessas matérias, concluiu-se que o levantamento estatísti-

co espelhava a realidade dos dados, já que, ao contrário das demais matérias, cada texto conti-

nha mais de uma notícia.

Realizou-se então, de forma manual, uma engenharia nesses textos. Depois de

localizadas e classificadas, as diversas notícias constantes em cada arquivo foram separadas.

Para cada notícia, criou-se novo arquivo. Assim, ao final do processo, um arquivo original de

uma matéria de C&T gerou vários outros. Para manter as características originais e de controle

da matéria, a nomenclatura adotada foi apresentada na Figura 5.10.

Figura 5.10 - Nomenclatura dos arquivos de C&T depois da engenharia dos dados.

Com esse padrão, foi mantido o número seqüencial de controle da matéria

(0003), bem como sua data de criação (“010223”). Para controle do processo, foram inseridas

as letras “CT” e um seqüencial independente para cada matéria (“11”).

6. Estatística

6.1. Palavras mais usadas - o processo de verificação e de análise das palavras mais utili-

zadas durante o período de 2001 foi realizado por meio da exportação dos resultados

das estatísticas. O resultado de cada mês foi exportado para uma planilha eletrônica.

Em cada planilha, foram eliminadas as stopwords. Com isto, o total das palavras mais

usadas em cada mês foi inserido em uma única planilha, na qual, por classificação, fo-


ram separadas as palavras, levando-se em consideração a quantidade de vezes que ela

foi utilizada no mês, bem como sua periodicidade.

5.3.4 - Formatação dos Dados

No aspecto da extração do conhecimento em texto, a formatação condiz com a

preparação da fonte de dados. No caso, os arquivos textuais, foram processados adequadamen-

te pela modelagem.

Conforme mostrado na Figura 5.5, os arquivos disponíveis para o projeto tinham

extensões diferentes de acordo com sua versão que, nesse caso, foi definida como sendo a

quantidade de vezes que a matéria era editada até sua liberação.

Embora com extensões diferentes, os arquivos não deixaram de ser textuais e

por isso necessitaram de ajustes. Esse ajuste, na CRISP-DM, é denominado de rearranjo de

atributos.

Como a ferramenta de mineração de texto e o sistema operacional teriam de ter

uma extensão única e condizente com o tipo textual, foram realizadas mudanças na extensão

dos arquivos, via comandos de sistema operacional. O resultado final da nomenclatura pode

ser visualizado na Figura 5.11.

Figura 5.11 - Nomenclatura depois da formatação dos textos.


5.4 - Síntese do Capítulo A aplicação da CRISP-DM possibilitou a descoberta de problemas de armaze-

namento do acervo de notícias da empresa. A fim de contornar o problema, algumas ações fo-

ram executadas, entre elas: identificação de backups, arquivos ‘HTML’ no servidor web e em

servidores antigos. Em conseqüência, novos processos e rotinas de segurança nos dados foram

planejados.

Com as primeiras interações nos dados, foi possível mensurar, de forma mais

precisa, a produção da empresa. Informações, como média de produção diária, média de pala-

vras por notícia, percentual de incidência de notícias nulas e/ou inválidas foram consideradas

como grande contribuição do projeto.

Capítulo VI -

Modelagem

Neste capítulo, discorreu-se sobre a modelagem - quarta etapa da CRISP-DM,

considerada como mineração de dados em si.

Nessa etapa, foram selecionadas e aplicadas as técnicas de mineração de dados

avaliadas como as mais apropriadas aos objetivos pretendidos. A criação de um modelo de tes-

te permitiu construir um mecanismo para testar a qualidade e validar os modelos obtidos. Re-

presentou a fase central da mineração, ou seja, a escolha, a parametrização e a execução de

técnica(s) sobre o conjunto de dados analisados, criando-se modelos nos quais foram aborda-

dos tópicos de seleção de técnicas e algoritmos, testes do modelo, descrição detalhada do mo-

delo adotado, bem como sua parametrização.

6.1 - Seleção da Técnica Um processo de descoberta do conhecimento, como na DCT, envolve usualmen-

te a combinação de diferentes tipos de problema. Neste o projeto, segundo a CRISP-DM, os

principais problemas resolvidos com a DCT foram: Descrição e Sumarização dos Dados e

Segmentação. Para tanto, em cada etapa foram selecionadas técnicas diferentes, relacionadas a

seguir.

Capítulo VI - Modelagem 89

6.1.1 - Descrição dos Dados e Sumarização

Um dos problemas solucionados pela DCT foi o conhecimento mais abrangente

do conteúdo dos dados da empresa. Para esse tipo de problema, fez-se uma abordagem híbrida,

uma descrição das características dos dados da empresa.

Com a sumarização de determinados qualificadores nos textos, foi possível à

empresa categorizar possíveis problemas. Em períodos de tempo, podem-se também verificar

níveis de produção por categorias, pessoas, tipos, entre outros. Isso poderá servir à administra-

ção para realçar e escalar possíveis problemas na linha de produção ou direcionamento de de-

terminados assuntos tratados nas matérias.

Essa etapa, realizada no começo do projeto, serviu como base para as “primeiras

descobertas” que permitiram explorar e conhecer melhor os dados analisados. Para isso foi uti-

lizada a metodologia de Ah-Hwee Tan (Tan, 1999) apresentada na seção 4.2.2.

Tal como proposto, os dados foram exportados para um banco de dados relacio-

nal. Usando-se essa forma intermediária, esses dados foram analisados e categorizados, sendo

o resultado final obtido da análise de gráficos extraídos desse banco de dados os quais poderão

também ser analisados pelas ferramentas de mineração de conhecimento para dados estrutura-

dos.

6.1.2 - Segmentação

Verificados os objetivos da mineração e os dados disponíveis para o projeto, op-

tou-se por lidar com técnicas usadas comumente para aprendizado não-supervisionado.

Fez-se um clustering nos textos da empresa, ou seja, agruparam-se objetos simi-

lares em categorias distintas em que os objetos desse grupo detinham características comuns.

Neste projeto, separam-se as matérias por grupos e em cada conjunto, determinadas palavras


eram compartilhadas. Desse modo, foi possível particionar uma grande coleção de documen-

tos, isolando aqueles pertencentes a um mesmo assunto. Isso facilitou a identificação de do-

cumentos relevantes para o usuário. Aplicando-se técnicas adicionais, foi possível destacar o

assunto ou conhecimento específico de cada grupo, facilitando o processo de recuperação de

informações ou descoberta de conhecimento.

Com a análise desses agrupamentos, foi possível elaborar e explicar hipóteses.

Baseado no conhecimento já apropriado pelo especialista, adquirido com a experiência nos

dados da empresa ou ainda pelas informações fornecidas pela descrição e sumarização dos da-

dos, pretende-se obter relações relevantes ao negócio da empresa.

Para a realização do clustering, foi escolhida a proposta de Palazzo, apresentada

na pesquisa de Wives (Palazzo, 2000; Wives, 2000) e implementada na ferramenta Eurekha.

Na Figura 6.1, é apresentada a seqüência adotada na condução dessa fase.

Obtidos os grupos e respectivos centróides, foi realizada uma análise deles, bus-

cando extrair conhecimento com base nessas informações. Fez-se então uma categorização de

assuntos abordados pela RADIOBRÁS. Essa categorização foi conduzida pelo especialista

com base na metodologia apresentada por Halliman (2001) que usou, além das informações

dos grupos, seu conhecimento.

Algumas tarefas citadas acima necessitaram da intervenção do usuário, tais co-

mo: ajuste da lista de stopwords, a escolha do algoritmo e a definição do nível de similaridade.

Para descoberta desses parâmetros e conseqüente validação do modelo, selecionou-se como

grupo de testes, um conjunto menor de matérias que foi submetido ao software Eurekha para

obtenção dos parâmetros necessários ao restante do projeto.


Figura 6.1 - Metodologia de agrupamento para DCT.

O Eurekha, usado para obter os clusters, fornece ao final do processo, arquivos

textuais como relatórios de saída: (i) Relatório.txt - contendo os clusters encontrados, com a

percentagem de distribuição dos textos, além dos centróides de cada grupo; e (ii) Clusters.txt -

nomeia os arquivos contidos em cada grupo.

6.2 - Teste do modelo A abordagem de solução, usada neste estudo de caso está relacionada a proble-

mas exploratórios. Assim sendo, foram utilizados métodos de aprendizado não-

supervisionado, visto que o objetivo era descobrir características implícitas nos dados de ma-

neira a organizá-los. No aprendizado não-supervisionado, os padrões do conjunto de treina-

mento não apresentam uma pré-classificação associada, pois esta é desconhecida.


Deste modo, o teste para análise da qualidade e da validade do modelo, diferen-

temente do método supervisionado que utilizou procedimentos de separação de conjunto de

dados (dados de treinamento e de testes), foi elaborado pelo próprio especialista. Por meio

dessa análise subjetiva ele avaliou o modelo mediante a observação dos grupos formados em

relação ao conteúdo e a distribuição deles, conforme descrito a seguir.

6.3 - Modelo Na validação do modelo, foram obtidos parâmetros utilizados pela ferramenta,

de modo a permitir que o processo fosse mais bem direcionado para domínio dos dados exis-

tentes no projeto.

O primeiro passo foi identificar as palavras que deveriam ser excluídas do pro-

cesso de comparação entre os documentos - as stopwords. A ferramenta Eurekha incorpora

grupos de stopwords comumente utilizadas (artigos, advérbios, interjeições, preposições, pro-

nomes etc.). Ela permitiu ainda selecionar individualmente cada grupo, possibilitando que esse

grupo de palavras fosse incluído ou não no processo. Foi possível, igualmente, acrescentar no-

vos grupos ou palavras, de modo a personalizar o processo de análise dos textos de acordo

com o domínio. Esse processo permitiu alcançar resultados mais acurados, reduzindo o núme-

ro de características analisadas no processo.

Para executar esse teste e acrescentar possíveis stopwords, foram selecionadas

as matérias produzidas no mês de fevereiro, contendo 2049 arquivos e cerca de 320.000 pala-

vras. Esse mês foi escolhido por conter baixo número de notícias, levando-se em conta os pro-

blemas detectados na fonte de dados descritos na seção 5.3.1.

Na primeira execução, porém, o tempo de processamento foi maior que o dese-

jado. Para a execução, na estação de trabalho, a geração da matriz de similaridade, que foi a


base para identificação dos clusters, tomou 40h36min39s e o tempo de processamento da iden-

tificação tomou 3h10min.

Nessa fase, foram necessários vários ajustes e, conseqüentemente, para efeito de

testes, esse tempo foi considerado inviável, pois seria preciso executar várias vezes a

reidentificação dos clusters.

O grupo selecionado foi o mês de janeiro, com 240 arquivos e cerca de 35.000

palavras. Com isso, o teste foi realizado de forma mais rápida - 33min42s para geração da ma-

triz de similaridade e cerca de 1min para identificação dos clusters.

Com a análise desse grupo menor de arquivos, foram identificadas as stopwords

específicas para o processo e armazenadas em uma classe intitulada RADIOBRÁS.

Feita a seleção das stopwords, o processo seguinte foi a execução da ferramenta

Eurekha para a construção da matriz de similaridade. Ao término dessa fase, a ferramenta per-

mitiu selecionar quatro diferentes algoritmos para agrupamento de dados, bem como o GSM

(Grau de Similaridade Mínimo) desejado.

Wives realizou estudos e análises comparativas entre esses algoritmos e diferen-

tes valores para o GSM (Wives, 1999). Nesse estudo, o autor apresenta o algoritmo ‘Best-Star’

como sendo o melhor para identificação de relações entre objetos em que não é necessário que

o usuário se preocupe com a escolha do GSM específico para coleção - GSM = 0 (zero).

Com o intuito de eleger a melhor configuração para o ambiente, foram testados

os algoritmos disponíveis na ferramenta - ‘Stars’, ‘Full-Star’, ‘Best-Star’ e ‘Cliques’ com di-

ferentes níveis de GSM. Os resultados desses testes são mostrados na Tabela 6.1. O tempo de

processamento (Matriz), bem como o de processamento (Identificação dos clusters) permane-

ceu constante. Respectivamente, 33min42s e cerca de 1min, na base de testes.


Tabela 6.1 - Resultados dos testes de algoritmos x nível de GSM. Algoritmo GSM Nº de Grupos Nº de Grupos

Unitários Avaliação do Especialista

Best Star 0 77 0 Boa Best Star 0,02 77 0 Boa Best Star 0,05 77 11 Ruim Cliques 0,05 72 15 Ruim Full-Star 0,05 235 5 Péssima Stars 0,05 40 17 Razoável Stars 0,02 15 5 Muito boa

* Todos os testes foram realizados na mesma máquina: Pentium III dual 800 Mhz - 512 MB Ram

Os testes foram realizados com GSM igual ou inferior a 0,05, tendo em vista a

ocorrência elevada de grupos unitários para valores acima desse patamar. Para GSM igual a

zero, o único algoritmo apresentado capaz de identificar grupos por meio de relacionamentos

naturais foi o ‘Best-Star’. Por isso, somente ele é apresentado com esse valor.

Os resultados desse teste foram submetidos ao especialista que os avaliou

de forma subjetiva (‘boa’, ‘razoável’ etc), priorizando o aspecto de formação dos grupos em

relação às matérias inseridas em cada um destes, analisando os assuntos tratados pelas maté-

rias dentro de um mesmo grupo. Verificou-se também se dois ou mais grupos não tratavam de

assuntos similares por meio da análise de seus respectivos centróides.

Como a pesquisa não visou à avaliação detalhada de qual o melhor algoritmo em

relação ao tempo de processamento e sua acurácia, foram utilizadas como parâmetros, as me-

didas apresentadas na pesquisa de Wives (1999).

Acerca dessa análise, foi eleito o algoritmo ‘Stars’ como GSM de ‘0.02’ para a

coleção de dados do projeto. É importante salientar que a escolha desses parâmetros está dire-

tamente ligada à coleção existente. É provável que esse nível de GSM e esse algoritmo não

venham a identificar grupos coesos para outra coleção.

Outro critério de avaliação para escolha do algoritmo e do GSM foi a densidade

dos grupos. A análise da quantidade de grupos unitários ocorreu pelo fato de que esses não


representaram, nesta pesquisa, ganho de conhecimento. Assim, um dos pontos considerados

foi a relação de quanto menor o número de grupos unitários melhor seria a solução.

Com a seleção do algoritmo e do nível de GSM por meio da interação com a ba-

se de testes, o próximo passo foi sua utilização no restante da coleção.

Considerando o enorme tempo de processamento, defrontou-se, nessa etapa do

projeto, com a viabilidade ou não dos processos que estavam sendo executados. Com esse

problema, quanto aos tempos de execução, ficaria inviável dar continuidade à análise dos tex-

tos selecionados para o projeto. Por exemplo, nos servidores15, o tempo estimado para proces-

samento foi de cerca de 562 horas para 5800 textos.

Com o intuito de sanar o problema, foram feitas diversas tentativas:

(i) Definição e configuração do limite de palavras comparadas por truncagem. Segundo

Wives (1999), um estudo indicou 50 palavras como boa escolha. Isto, porém não foi

fornecido na versão do Eurekha, disponibilizada para o projeto.

(ii) Alocação do processo em memória e aumento de prioridade da tarefa. Não resultou

em melhorias visíveis.

(iii) Opção de utilizar outro software para selecionar melhor as palavras, truncar ou fazer

uma identificação de radicais. Não foi encontrado software para tal processo. Para

tanto, o processo de extração de stopwords foi revisto e a tabela devidamente atuali-

zada.

(iv) Disponibilização de nova versão do software Eurekha. Cedida para o projeto a ver-

são 3.0.1 beta;

15 Pentium Xeon III dual 1 GHz 2 GB Ram


Com essa nova versão, os tempos de processamento da matriz foram bastante o-

timizados. Na Tabela 6.2, podem-se observar os tempos de execução das tarefas que têm o in-

tuito de servir de base na criação de planos de projeto para DCT.

Tabela 6.2 - Tempos de execução das tarefas. Mês

(2001) Tempo de

Processamento (Matriz) Tempo de processo

(Identificação dos Clusters) Máquina

Janeiro 1m33s < 1 min I Fevereiro 1h10m7s ~9 hs I Março 8h47m50s ~180 hs I Abril 14h43m59s ~190 hs II Maio 16h44m42s ~210 hs II Junho 15h14m39s ~210 hs II Julho 9h1m3s ~120 hs II Agosto 13h20m57s ~130 hs II Setembro 39h26m17s ~290 hs III Outubro 9h45m1s ~200 hs II Novembro 17h20m8s ~180 hs II Dezembro 30h26m44s ~380 hs III

• Máquina I - Pentium III dual 800 Mhz - 512 MB Ram. • Máquina II - Pentium Xeon III dual 1 GHz 2 GB Ram. • Máquina III - Pentium III dual 550 MHz 512 Ram.

Como se vê, o tempo de execução dos processos tornou-se viável para a conti-

nuação do projeto.

6.4 - Avaliação Técnica Depois de realizado o clustering nas notícias veiculadas pela empresa, foi possí-

vel verificar os resultados mediante observações do especialista. Essa análise foi efetuada de

forma subjetiva, focalizada de acordo com o critério geral de interesse, guiada pelos conheci-

mentos do especialista e pelos centróides obtidos dos grupos (Figura 6.2).


Figura 6.2 - Resultado do agrupamento de dezembro/01.

Grupo Documentos Centróides Cluster [1] 10% NUBLADO TEMPO REGIÃO CHUVA Cluster [2] 36% MINISTRO PRESIDENTE DESENVOLVIMENTO GOVERNO Cluster [3] 06% PRESIDENTE GOVERNO MINISTRO MILHÕES Cluster [4] 16% PRESIDENTE GOVERNO MINISTRO FEDERAL Cluster [5] 10% DÓLAR VENDA MINISTRO COMERCIAL Cluster [6] 09% CENTO ALTA DÓLAR VENDA Cluster [7] 04% PRESIDENTE FERNANDO HENRIQUE CARDOSO Cluster [8] 02% BANCO ESTADO CENTRAL NESTA Cluster [9] 02% COMISSÃO CÂMARA SENADO PLENÁRIO Cluster [10] 01% FEDERAL UNIVERSIDADE REINICIA MACEIÓ Cluster [11] 01% DÓLAR VENDA COMPRA COMERCIAL Cluster [12] 00% INFORMOU PAULISTA AEROPORTO POLÍCIA Cluster [13] 01% DÓLAR COMPRA VENDA COMERCIAL Cluster [14] 00% REUNIÃO MINISTÉRIO RELATÓRIO CONSELHO Cluster [15] 00% ENERGIA ANEEL MERCADO ELÉTRICA Cluster [16] 00% SENADO PROJETO FOGOS CHAGAS Cluster [17] 00% MAIORES BAIXA MILHÕES OPERA Cluster [18] 00% CULTURA PRÊMIOS MINISTÉRIO ENTREGA Cluster [19] 00% BRADESCO ESTADO CHUVAS VÍTIMAS Cluster [20] 00% CORPO BLAKE ESTADO ÍNDIA Cluster [21] 00% PUBLICA UNIÃO ÁLCOOL PORTARIA Cluster [22] 00% RECIFE MACIEL PASSA REVEILLON Cluster [23] 00% CENTRAL SETOR NOTA FISCAL Cluster [24] 00% PETRÓPOLIS DEFESA CIVIL DUQUE

A avaliação foi feita com o levantamento de pressupostos dirigidos para confir-

mação ou oposição de fatos que se referiram a acontecimentos de grande repercussão nacional

ou internacional no período (2001). Conhecendo-se esses grandes assuntos, o ambiente foi ex-

plorado, aplicando-se diferentes estratégias de observação e experimentação. Para tanto, foram

usados exemplos para testar esses pressupostos, permitindo formular conceitos parciais. Pode-

riam ser citados eventos como: campanhas de vacinação, campanhas educativas sobre AIDS e

outras, atentado terrorista ao World Trade Center, campanha de combate às drogas no polígo-

no da maconha, campanhas antiapagão, guerras, entre outros.

Com esse conhecimento, o especialista, pela observação, formulou pressupostos,

criou critérios de classificação, estabelecendo hierarquias. Dessa forma, puderam-se detectar

conceitos e categorizar os grupos de acordo com a medida de interação com o ambiente exter-

no.


Para construção do modelo na ferramenta de mineração de texto, foram adota-

dos os seguintes parâmetros:

(i) Técnica - Clustering

(ii) Nível de GSM - 0.02;

(iii) Algoritmo selecionado- Stars.

6.5 - Síntese do Capítulo Este capítulo discorreu sobre a quarta etapa da CRISP-DM. Foram obtidos, nes-

sa fase do estudo de caso, os parâmetros e conseqüentes grupos, executando-se a técnica sele-

cionada - clustering.

Pode-se considerar essa etapa como sendo a mineração dos dados em si, visto

que ela é tida como núcleo do processo de descoberta de conhecimento.

Com as informações obtidas, pode-se passar para próxima etapa da CRISP-DM

- avaliação, em que foram abordadas as tarefas ligadas ao pós-processamento.

Capítulo VII -

Pós-Processamento

Este capítulo foi baseado no artigo “Text mining: crossing the chasm between

the academy and the industry” (Silva, 2002) publicado nos anais do DM- 2002 Third

International Conference on Data Mining Methods and Databases for Engineering, Finance

and Other Fields - Data Mining 2002 (ANEXO B).

Apesar de a metodologia conter seis fases, a distribuição delas, nesta pesquisa,

foi feita em três partes: pré-processamento, modelagem e pós-processamento. Por conseguinte,

este capítulo tratou da interpretação e validação dos resultados, da sua utilização na empresa,

bem como dos conhecimentos adquiridos no transcorrer do estudo de caso seus resultados e

gráficos da pesquisa.

Iniciou-se com a avaliação do modelo em que foram revistos os passos adotados

durante a execução do projeto, mostrando os resultados, confrontando-os com os objetivos tra-

çados, tendo como feedback, por parte da empresa, sua continuidade ou não. Finalizou-se com

a apresentação do relatório final do projeto que englobou ainda o planejamento da aplicação

na empresa.

7.1 - Avaliação Essa fase consistiu na avaliação do modelo, revisão dos passos seguidos, verifi-

cando os resultados obtidos e o alcance dos objetivos do negócio. Determinaram-se também,

Capítulo VII - Pós-Processamento 100

as tarefas executadas. De acordo com os resultados obtidos e a revisão do processo, decidiu-se

pela continuidade do processo – Aplicação.

7.1.1 - Avaliação do Modelo

A metodologia CRISP-DM foi aplicada em um estudo de caso na RADIOBRÁS

com o uso de ferramentas de mineração de texto tendo como objetivo de estudo o acervo

público de notícias. Realizou-se a análise de 55.635 textos, totalizando cerca de 8.700.000

palavras. Para tanto, como pré-processamento, foram executadas as seguintes tarefas:

(i) aquisição e transferência dos arquivos-texto - notícias - do acervo da empresa;

(ii) preparação dos arquivos-texto; (iii) estatística dos textos, das palavras e do tamanho dos

arquivos; (iv) limpeza dos dados: arquivos corrompidos, nulos, inválidos ou fora do escopo do

projeto (notícias em português); (v) engenharia nos dados: separação de notícias em arquivos

independentes, e (vi) estatística final: palavras mais usadas e levantamento dos dados depois

da limpeza.

A seguir, foi feita a modelagem, selecionando-se as tecnologias utilizadas. Veri-

ficados os objetivos da mineração e os dados disponíveis, fez-se o clustering dos textos da

empresa, o que consiste em agrupar objetos similares em grupos distintos, onde todos os obje-

tos detêm características comuns. No caso deste projeto, foram separadas as matérias em gru-

pos, nos quais há o compartilhamento de determinadas palavras. Sendo assim, foi possível

particionar grande coleção de documentos, isolando aqueles pertencentes a um mesmo assun-

to. Isto facilitou a identificação de documentos relevantes para o usuário. Aplicando-se técni-

cas adicionais, foi possível identificar o assunto ou conhecimento específico de cada grupo,

facilitando o processo de recuperação de informações ou descoberta de conhecimento.


Com a análise desses agrupamentos, pôde-se adquirir conhecimento e assim

confrontá-lo com fatos ocorridos no período estudado. Baseado no conhecimento do especia-

lista, adquirido com a experiência em lidar com os dados da empresa ou ainda pelas informa-

ções fornecidas pela descrição e sumarização dos dados, obtiveram-se relações relevantes para

o negócio da empresa.

Para formar os grupos, foi utilizada a ferramenta Eurekha, fruto da pesquisa a-

presentada por Wives (1999), juntamente com a proposta de Palazzo.

Depois de formados os grupos e respectivos centróides, fez-se uma análise com

vistas a extrair os conhecimentos a partir das informações encontradas. Foi então estabelecida

uma categorização de assuntos abordados pela RADIOBRÁS, elaborada pelo especialista,

com base na metodologia apresentada por Halliman (2001) que usou, além das informações

dos grupos, seu conhecimento do negócio. Um exemplo de categorização pode ser visto na

Figura 7.1.

Utilizando-se o percentual de distribuição de matérias nos grupos, o especialista

categorizou por assunto os grupos encontrados mês a mês. A quantificação das categorias foi

realizada com base nos dados de distribuição (%) dos centróides em relação à sua incidência

no período, o que possibilitou relacionar os principais assuntos tratados pela empresa.

Foram identificadas cinco grandes áreas (Figura 7.2) com as respectivas pala-

vras-chave: (i) Presidência da República - presidente, Fernando, Henrique, Cardoso;

(ii) Economia - banco central, valores monetários, inflação, cotação das bolsas de valores, co-

tação do dólar, taxa de juros, tesouro nacional; (iii) Meteorologia - previsão do tempo, nubla-

do, parcialmente, chuvas; (iv) Desenvolvimento - energia, valores monetários, nomes de

estatais, investimento e desenvolvimento; e (v) Política - siglas de partidos, câmara, senado,

nome de ministros, nomes de senadores.


Categoria Grupo Documentos Centróides

Meteorologia Cluster [1] 10% NUBLADO TEMPO REGIÃO CHUVA

Presidência Cluster [2] 36% MINISTRO PRESIDENTE DESENVOLVIMENTO GOVERNO Cluster [3] 06% PRESIDENTE GOVERNO MINISTRO MILHÕES Cluster [4] 16% PRESIDENTE GOVERNO MINISTRO FEDERAL Cluster [7] 04% PRESIDENTE FERNANDO HENRIQUE CARDOSO Cluster [22] 00% RECIFE MACIEL PASSA REVEILLON

Economia Cluster [5] 10% DÓLAR VENDA MINISTRO COMERCIAL Cluster [6] 09% CENTO ALTA DÓLAR VENDA Cluster [8] 02% BANCO ESTADO CENTRAL NESTA Cluster [11] 01% DÓLAR VENDA COMPRA COMERCIAL Cluster [13] 01% DÓLAR COMPRA VENDA COMERCIAL Cluster [17] 00% MAIORES BAIXA MILHÕES OPERA Cluster [23] 00% CENTRAL SETOR NOTA FISCAL

Educação Cluster [10] 01% FEDERAL UNIVERSIDADE REINICIA MACEIÓ

Política Cluster [9] 02% COMISSÃO CÂMARA SENADO PLENÁRIO Cluster [21] 00% PUBLICA UNIÃO ÁLCOOL PORTARIA Cluster [18] 00% CULTURA PRÊMIOS MINISTÉRIO ENTREGA

Segurança Cluster [12] 00% INFORMOU PAULISTA AEROPORTO POLÍCIA Cluster [14] 00% REUNIÃO MINISTÉRIO RELATÓRIO CONSELHO Cluster [16] 00% SENADO PROJETO FOGOS CHAGAS

Desenvolvimento Cluster [15] 00% ENERGIA ANEEL MERCADO ELÉTRICA Cluster [19] 00% BRADESCO ESTADO CHUVAS VÍTIMAS Cluster [24] 00% PETRÓPOLIS DEFESA CIVIL DUQUE

Internacional Cluster [20] 00% CORPO BLAKE ESTADO ÍNDIA

Figura 7.1 - Resultado da categorização de dezembro/01.

Figura 7.2 - Grandes assuntos abordados pelas notícias.

Outras áreas com menor incidência de apresentação também foram enumeradas.

Elas representam 13% do total de notícias veiculadas. Essas áreas e suas principais

palavras-chave são as seguintes: Educação (censo escolar, universidade, ENEM), Saúde


(AIDS, HIV, clone, genéricos, hospital, colesterol, remédio), Internacional (ONU, WWF, El

Salvador, Mercosul, Palestina, Israel, Nova York, atentado, torres, Estados Unidos),

Segurança (polícia federal, antidrogas), Previdência (INSS, previdência social, prazo), C&T

(Genoma, tecnologia), Justiça (tribunal, federal, justiça, julgamento, índio, Galdino), Meio

Ambiente (meio ambiente, pássaros, ISO, Amazônia), Agricultura (INCRA, reforma, agrária.

IBAMA, solo), Cultura (carnaval, arte, museu, exposição, orquestra, sinfônica, bonito,

festival, inverno), Transporte (aeroportos, polícia, rodoviária, metrô, conferência, trânsito),

Esporte (INTECOM, ECT, futebol, Nike, CBF, sets, maratona, Vasco, Gama, Cruzeiro,

Goiás, olimpíada), Nacional (qualidade, preço, carne, acidente, P-36) e Trabalho (mulher,

acordo, rurais, trabalho, infantil, fórum, SENAC, SEBRAE).

Para uma análise mais acurada das categorias, foram elaborados diversos gráfi-

cos. A seguir, são apresentados alguns, juntamente com interpretação realizada pelo

especialista.

Na Figura 7.3, são apresentadas as palavras com mais destaque de evolução de

uso no decorrer do período. Seguindo a abordagem sugerida por Halliman (2001), foram rela-

cionadas também as mais utilizadas nas notícias da empresa, excetuando-se as stopwords (Fi-

gura 7.4).


jane

iro

feve

reiro

mar

ço

abril

mai

o

junh

o

julh

o

agos

to

sete

mbr

o

outu

bro

nove

mbr

o

deze

mbr

o

Mês

Inic

idên

cia

presidente ministro governo energia saúde

Figura 7.3 - Evolução na incidência das principais palavras em 2001.


Na avaliação desses gráficos, observou-se que o uso constante das palavras

“presidente”, “governo”, “ministro” sugere uma abordagem das ações da Presidência da Re-

pública e do governo federal. A palavra “saúde” aumenta na proporção em que o governo fe-

deral e o Ministério da Saúde divulgam campanhas de vacinação e de prevenção de doenças

(AIDS, por exemplo). E a característica mais realçada: o uso da palavra “energia”, compro-

vando o aspecto de cobertura da administração pública na campanha “antiapagão” conduzida

pelo governo federal.

Figura 7.4 - Palavras mais usadas.

Já pela análise das Figuras 7.5 e 7.6, pode-se concluir que a maioria das notícias

veiculadas é do tipo flash (IT-Internet) que não trazem consigo uma identificação de qual edi-

toria é o foco da notícia (política, economia, nacional, entre outras), ao contrário das matérias

consolidadas (MA). Isto não permite, a priori, uma avaliação mais precisa, por meios conven-

cionais de distribuição de editorias (pesquisa por editoria, por exemplo).


Figura 7.5 - Distribuição de tipos de notícias.

É possível ainda comprovar que o maior número de notícias provém de

Brasília-DF, Rio de Janeiro-RJ e São Paulo-SP. Isto se deve ao fato de o Distrito Federal-DF e

o Rio de Janeiro-RJ serem os estados da federação como maior concentração de órgãos

federais. Na Figura 7.6, é realçada ainda a presença de Pernambuco-PE. Em uma análise mais

apurada, verificou-se que isto se deve à cobertura da empresa na ação do governo federal no

“Polígono da Maconha”.

Figura 7.6 - Distribuição geográfica no Brasil.

Seguindo a metodologia apresentada por Halliman (2001), foi realizada uma ca-

tegorização de assuntos abordados pela RADIOBRÁS pelo especialista no negócio que usou,

além das informações dos grupos, seu conhecimento.


As categorias apresentadas na Figura 7.7 representam a classificação subjetiva

do especialista realizada nos grupos encontrados pela ferramenta de DCT por meio de seus

centróides.

Nessa figura, é possível observar a evolução das categorias mês a mês no perío-

do. Analisando-as, pode-se concluir que os assuntos abordados pela empresa condizem com os

objetivos traçados - cobertura da Presidência da República e dos atos e fatos da administração

pública federal brasileira. Com base na análise de suas principais palavras e assuntos aborda-

dos, foi comprovado estarem de acordo com a classificação adotada pela empresa em suas edi-

torias (política, economia, nacional e internacional).

De forma a ser analisada por outro ângulo, foram criados gráficos com essas ca-

tegorias mês a mês, mostrados nas Figuras 7.8 (a) e 7.8 (b). Pode-se, com isto, observar que

em certos meses, devido a fatos diversos, há congruência de notícias para determinados assun-

tos. Por exemplo: (i) crise financeira e risco de inflação (aumento em economia), (ii) campa-

nha antiapagão (aumento em desenvolvimento), (iii) guerras entre países e atentados aos EUA

(aumento em internacional e em segurança), (iv) greve nos metrôs, ônibus e trens (aumento em

transportes), (v) campanhas educacionais (aumento em educação) e (vi) meteorologia, conside-

rada de grande valor, visto que, em virtude de inúmeros fatores, esses dados podem ser essen-

ciais em regiões longínquas onde só há recepção de tais informações via rádio.


Figura 7.7 – Categorias das notícias no período


Figura 7.8 - Categorias das notícias por mês (a).


Figura 7.8 - Categorias das notícias por mês (b).


Avaliação final

Revendo os passos seguidos, bem como os critérios de sucesso descritos, a em-

presa considerou que o projeto atendeu às expectativas. A RADIOBRÁS considerou que os

resultados obtidos foram ao encontro dos objetivos do negócio, previamente determinados,

optando pela continuidade do processo.

7.1.2 - Revisão dos Processos

A síntese das abordagens metodológicas aplicadas no estudo de caso aqui consi-

derado é mostrada na Figura 7.9.

Figura 7.9 – Síntese metodológica do estudo de caso.

Realizou-se a análise de 55.635 textos, totalizando cerca de 8.700.000 palavras.

Como pré-processamento, foram executadas as seguintes tarefas: (i) aquisição e transferência

dos arquivos-texto – notícias – do acervo da empresa; (ii) preparação dos arquivos-texto; (ii-

i) estatística de quantidade de textos, palavras e tamanho de arquivos; (iv) limpeza dos dados:


arquivos corrompidos, nulos, inválidos ou fora do escopo do projeto (notícias em português);

(v) engenharia nos dados: separação de notícias em arquivos independentes; e (vi) estatística

final: palavras mais usadas e resultado depois da limpeza dos dados.

A seguir, realizou-se a modelagem, selecionando-se as tecnologias a serem utili-

zadas. Verificados os objetivos da mineração e os dados disponíveis, fez-se o clustering nos

textos da empresa que consiste em agrupar objetos similares em grupos distintos em que todos

os objetos desse grupo que detenham características comuns. Neste projeto, separam-se as ma-

térias em grupos cujo requisito para o agrupamento foi o compartilhamento de determinadas

palavras. Assim sendo, foi possível particionar grande coleção de documentos, isolando aque-

les pertencentes a um mesmo assunto. Isso facilitou a identificação de documentos relevantes

para o usuário. Aplicando-se técnicas adicionais, foi possível identificar o assunto ou conhe-

cimento específico de cada grupo, facilitando o processo de recuperação de informações ou

descoberta de conhecimento.

Na análise desses agrupamentos, foram descobertas e identificadas informações

úteis para a RADIOBRÁS. Baseado no conhecimento do especialista, adquirido da experiên-

cia em lidar com os dados da empresa ou ainda pelas informações fornecidas pela descrição e

sumarização dos dados, obtiveram-se relações relevantes ao negócio da empresa.

Para a realização do clustering, selecionou-se a proposta de Palazzo, apresenta-

da na pesquisa de Wives (1999) e implementada na ferramenta Eurekha.

Depois de formados os grupos e respectivos centróides, fez-se uma análise de-

les, buscando extrair conhecimento gerado das informações encontradas. Foi então estabeleci-

da uma categorização por um especialista dos assuntos abordados pela RADIOBRÁS, com

base na metodologia apresentada por Halliman (2001) que usou, além das informações dos

grupos, seu conhecimento do negócio.


Utilizando-se do percentual de distribuição de matérias nos grupos, o especialis-

ta categorizou-os por assunto encontrados mês a mês. A quantificação das categorias foi reali-

zada com base nos dados de distribuição (%) dos centróides em relação à sua incidência no

período, o que possibilitou relacionar os principais assuntos tratados pela empresa. A compro-

vação dessas grandes áreas permitiu aos administradores certificarem o fiel cumprimento da

missão da empresa.

7.1.3 - Próximos passos

Nessa fase do método, é realizada uma validação dos resultados alcançados com

a revisão do projeto. Por ser um projeto de cunho acadêmico, não houve necessidade de retor-

nar aos passos anteriores.

O projeto cumpriu os objetivos traçados. A certificação do cumprimento do pa-

pel da empresa, aliada à análise dos textos produzidos, tornou-se importante produto

para a RADIOBRÁS.

Portanto, a decisão da continuidade do projeto, sob o foco da aplicação no dia-a-

dia do negócio da empresa, dar-se-á com a avaliação pela alta administração.

7.2 - Aplicação O conhecimento adquirido como resultado desse projeto foi um conjunto de a-

ções que conduziram à organização do conhecimento obtido e sua disponibilização para o

cliente. Nessa fase, gerou-se um relatório final para explicar os resultados e as experiências.

7.2.1 - Planejamento da Aplicação

A pesquisa foi baseada em um estudo de caso com intuito acadêmico.

Procurou-se mostrar que é possível a transposição da DCT o ‘abismo’ de Moore.


As informações obtidas tornaram-se úteis à empresa, elevando o nível de conhe-

cimento sistêmico dos administradores da empresa. Os resultados ganharam adesão do presi-

dente e da diretoria administrativa da empresa. Foram realizadas apresentações para vários

setores, tornando-os público à organização.

Na avaliação dos administradores a pesquisa aprimorou o índice de produção e-

xistente (número de matérias produzidas), detalhando a produção da empresa por assunto, ti-

pos, categorias, evolução do uso das palavras, entre outros.

A diretoria da RADIOBRÁS decidiu aplicar os resultados da pesquisa para o

ano de 2002 e incorporar os resultados no relatório de Indicadores de Desempenho da empre-

sa, a ser encaminhada à Secretária de Estado de Comunicação de Governo, vinculada à Presi-

dência da República, além de estudos de aplicação em outros produtos/áreas da empresa.

7.2.2 - Produção do relatório final

Na apresentação final do projeto, foram mostradas as principais atividades reali-

zadas, enfatizando os objetivos, principais resultados alcançados e produção literária.

Visto que um dos objetivos deste estudo foi sensibilizar a alta administração da

empresa, foi feita uma exposição oral, tendo como principais pontos:

11.. Visão Geral 1.1. Descoberta de conhecimento; 1.2. Definição de KDT; 1.3. Vantagens com aplicação da DCT na empresa;

22.. Cenário 2.1. Favorável; 2.2. 80% de informações em formato textual e apenas 7% de técnicas aplicadas nesse tipo

de dado; 2.3. Crescente aumento na disponibilização de informações;

33.. Principais Ganhos 3.1. Alinhamento de objetivos (dissertação e necessidade de análise da base textual da em-

presa); 3.2. Elevação do conhecimento sistêmico da empresa para a alta administração; 3.3. Aquisição de Know-How nas tecnologias e metodologias usadas no projeto;


3.4. Análise do acervo e certificação do cumprimento do papel da empresa junto a socie-dade brasileira;

3.5. Aumento de visibilidade da empresa com a produção de artigos para congressos na-cionais e internacionais;

44.. Análise do Acervo 4.1. Mensuração da produção da empresa

4.1.1. Total de notícias por mês; 4.1.2. Percentual de notícias inválidas; 4.1.3. Avaliação da distribuição dos tipos de notícias; 4.1.4. Distribuição geográfica das notícias; 4.1.5. Padrão das notícias (tamanho e número médio de palavras por texto); 4.1.6. Análise de palavras mais usadas e freqüência de uso;

4.2. Análise dos Assuntos Abordados 4.2.1. Descoberta das grandes áreas abrangidas pelas notícias da empresa; 4.2.2. Percentual de distribuição dos principais assuntos tratados pela RADIOBRÁS; 4.2.3. Análise dos assuntos mês a mês; 4.2.4. Análise dos assuntos por categoria no período.

4.3. Gestão do Conhecimento 4.3.1. Definição e visão geral (modelo usado para análise); 4.3.2. Impactos com os resultados do projeto.

7.2.3 - Revisão de projeto

Nessa fase da CRISP-DM visou-se a resumir as principais experiências aprendi-

das com a execução do projeto. Procura-se mostrar, também, como os resultados da aplicação

do modelo interferiram nos processos da empresa.

Considerando que os detalhes das tarefas foram mostrados ao longo da aplica-

ção, estar-se-á abordando neste, exclusivamente, as principais dificuldades encontradas no

projeto. Adicionalmente no capítulo a seguir explana-se sobre os impactos do conhecimento

adquirido na gestão do conhecimento da RADIOBRÁS.

Os principais problemas encontrados foram:

Ferramentas - devido ao limite de recursos do projeto, as soluções foram dire-

cionadas para aplicativos de demonstração e/ou freewares. A falta de opções e posteriormente

a limitação de alguns desses softwares causaram atrasos no cronograma do projeto.


Desenvolvimento próprio - a fim de agilizar o processo e superar algumas limi-

tações das ferramentas usadas, foi necessário desenvolver aplicativos próprios, tais como:

(i) exportador de dados (txt - banco relacional); (ii) analisador e programa de estatística (tenta-

tiva de uso de ferramentas de DCBD); (iii) rotinas diversas no banco de dados relacional para

estatísticas, e; (iv) rotinas diversas na planilha eletrônica para contabilização das palavras mais

usadas e respectivas freqüências de uso;

Alocação de máquinas - devido ao longo do tempo de processamento, foi ne-

cessário alocar novas máquinas para o projeto. A questão do tempo de processamento foi o

principal problema encontrado.

Análise dos resultados - a disponibilização do especialista para posterior análise

dos resultados foi onerosa, bem como o engajamento de determinadas e importantes áreas da

empresa ao projeto.

7.3 - Síntese do Capítulo Neste capítulo discorreu-se sobre as etapas e os resultados obtidos do

pós-processamento que englobou as duas últimas fases da CRISP-DM (avaliação e aplicação).

Foram mostradas as principais contribuições do projeto para a RADIOBRÁS, o

resumo das ações desenvolvidas, os detalhamentos das fases e a seqüência adotada, principais

gráficos e respectivas interpretações, além de comprovações por meio do confronto de resulta-

dos obtidos de fatos ocorridos no período analisado.

No capítulo a seguir abordou-se, com maior ênfase, a gestão do conhecimento

que apesar de estar ligada à fase de pós-processamento, estudada neste, foi desenvolvida em

um capítulo a parte, devido ao seu tamanho e destaque. O fato de terem sido baseados em arti-

gos publicados, também contribuiu para a separação dele.

Capítulo VIII -

Impactos do Conhecimento Adquirido

na Gestão do Conhecimento Este Capítulo foi baseado nos artigos “Suporte à Criação de Inteligência Organi-

zacional em uma Empresa Pública de Jornalismo com o uso de Mineração de Textos”

(Silva, 2002a), publicado no KM Brasil 2002 - 3º Workshop Brasileiro de Inteligência Compe-

titiva e Gestão do Conhecimento e o Congresso Anual da Sociedade Brasileira de Gestão do

Conhecimento (ANEXO C) e “Text Mining for Organizational Intelligence: A case study on a

public news agency” (Silva, 2002b), na 5th International Conference on Enterprise

Information Systems - ICEIS 2003 (ANEXO D).

Considerando que a RADIOBRÁS é uma importante empresa do Estado,

detendo papel relevante na divulgação dos atos da administração pública do País, fica evidente

a necessidade de uma auto-avaliação, calcada no conhecimento sobre os resultados das suas

atividades.

Como qualquer outra empresa, a RADIOBRÁS está sujeita à crescente exigên-

cia de competitividade imposta às organizações modernas. Nesse cenário, a geração e a fixa-

ção da inteligência organizacional têm-se revelado como diferenciais competitivos que podem

levar à gestão mais adequada dos negócios em diversos sentidos, como no relacionamento da

organização com seus clientes e na adequação da sua estrutura de trabalho, entre outros.

A importância da informação para a elaboração do conhecimento e síntese da in-

teligência são largamente reconhecidas, requer para tanto, tratamento adequado para obtenção

Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 117

de insights que levem à ativação dos processos mentais atingindo tal síntese. Diversas concep-

ções, internas e externas sobre os rumos da organização podem ser alcançados com uso de fer-

ramentas para a extração de padrões em grandes quantidades de dados, subsidiando

decisivamente os gestores na tomada de decisões mais fundamentadas.

Essas concepções, elaboradas para responder a questões específicas, formam um

acervo de conhecimento num processo de aprendizagem organizacional que deverá gerar des-

dobramentos nos modos de gestão da organização.

As contribuições da Tecnologia da Informação nesse campo desenvolveram-se

inicialmente visando à extração de padrões dos bancos de dados transacionais que se

configuram num conjunto de tabelas padronizadas. Entretanto, considerando que a maior parte

das informações nas organizações encontra-se na forma textual, desenvolvimentos recentes

permitem a extração de padrões interessantes, baseados nesses dados, como por exemplo, no

presente caso: (i) mensuração da produção e distribuição geográfica de suas notícias;

(ii) levantamento das palavras mais usadas; (iii) descoberta das áreas de abrangência das

notícias; (iv) avaliação do cumprimento papel da empresa, de acordo com os assuntos

abordados em suas notícias; e (v) avaliação da cobertura jornalística da empresa.

Os impactos da gestão do conhecimento na RADIOBRÁS foram abordados com

base nas informações obtidas do estudo de caso, detalhado nos capítulos anteriores, conforme

modelo apresentado por Stollenwerk (2001).

8.1 - Gestão do Conhecimento e Impactos da Mineração de Textos Existem muitas abordagens sobre os processos de interpretação dos eventos que

ocorrem em uma organização. Daft & Weick op. cit. in Moresi (2001) apresentam o relacio-

namento entre os conceitos de varredura, monitoramento, compreensão, interpretação, enten-


dimento e aprendizado em três etapas que constituem o processo geral de aprendizado

(Figura 8.1).

Figura 8.1 - Processo geral de aprendizado.

No início do processo, é importante que se observe o ambiente com vistas a for-

necer, para os gerentes, dados coletados de sistemas ou de pessoas. De posse desses dados de-

senvolve-se o entendimento compartilhado, atribuindo-lhes significado. O aprendizado

envolve nova ação baseada na interpretação. Esse processo no qual o conhecimento sobre as

relações dos resultados das ações é elaborado denomina-se Aprendizado Organizacional. O

processo reinicia-se com o fornecimento de novos dados para interpretação, oriundos do ato de

aprender.

Como base para organizações que visam a adquirir conhecimento organizacional

por meio da gestão do conhecimento, Stollenwerk (2001) apresenta um modelo genérico de

gestão do conhecimento mediante o estudo dos principais modelos existentes em gestão e pla-

nejamento estratégico, procurando extrair o essencial de cada um deles.

8.2 - Modelo Genérico de Gestão do Conhecimento A Gestão do Conhecimento e o Planejamento Estratégico são alvo de diversas

abordagens, definições e percepções. Neste trabalho, selecionou-se o modelo genérico de

Stollenwerk (2001) que buscou agrupar os processos comuns por afinidade de conceitos. O

modelo resultante (Figura 8.2), segundo a autora, compõe os elementos e as dimensões para


aplicabilidade, caracterizando a importância e a conceituação da Gestão de Conhecimento nas

organizações.

Figura 8.2 - Modelo genérico de gestão do conhecimento.

O modelo apresentado é composto de sete processos: (i) identificação,

(ii) captura; (iii) seleção/validação; (iv) organização/modelagem; (v) compartilhamento;

(vi) aplicação; e (vii) criação. Além disso, o modelo ainda inclui quatro fatores facilitadores:

(i) liderança; (ii) cultura organizacional; (iii) medição e recompensa; e (iv) tecnologia de

informação e comunicação. A seguir, apresenta-se uma descrição sucinta desses processos e

fatores que compõem o modelo genérico.

8.2.1 - Processos da Gestão do Conhecimento

Identificação

Esse processo é considerado como estratégico para organização. Nele estão inse-

ridos a identificação e o desenvolvimento das competências críticas (competências essenciais)


para o sucesso da organização. Essas competências devem refletir, sustentar e estar alinhadas à

missão, aos valores e às visões do negócio. No enfoque gerencial, são abordados conhecimen-

tos, tecnologias e habilidades que dão suporte às competências atuais; no estratégico, a relação

de transferência e aquisição dos conhecimentos e habilidades necessários para apoiar o desen-

volvimento de novas competências. As principais etapas deste processo são: (i) lista de com-

petências; (ii) análise das competências necessárias e existentes; (iii) mapeamento do

conhecimento; (iv) identificação das fontes (páginas amarelas, diretório de especialistas etc); e

(v) soluções para suprir as necessidades de competências necessárias versus as existentes.

Captura

A captura refere-se à aquisição de conhecimento, habilidades e experiências ne-

cessárias para desenvolver e manter as competências, similar à fase de elaboração de conhe-

cimento. Essa captura pode ser obtida de fontes internas tais como especialistas e profissionais

seniores, sistemas de gestão da organização, clientes e fornecedores internos, simulação e mo-

delagem de processos, políticas, práticas e procedimentos e treinamento interno. Como fontes

externas para obtenção desse conhecimento, podem-se citar: publicações, serviços de consul-

toria, sistemas especialistas e bancos de dados comerciais, conferências e congressos, treina-

mentos e seminários, relacionamentos com clientes e fornecedores, joint ventures,

benchmarking, entre outras. Dentre suas principais etapas, destacam-se: (i) identificação das

fontes internas e externas; (ii) seleção das estratégias de aquisição; e (iii) aquisição, formaliza-

ção e recuperação do conhecimento.

Seleção e validação

O processo de seleção e validação visa a filtrar o conhecimento gerado,

recuperado ou desenvolvido, avaliando sua qualidade, sintetizando-o para uso futuro. Nesse


processo, são consolidados pontos como: (i) relevância e confiabilidade do conhecimento;

(ii) proposição de soluções de problemas relacionados a conhecimentos conflitantes;

(iii) desenvolvimento e criação de conhecimento não-disponível; (iv) redução do grau de

incerteza do conhecimento não comprovado; e (v) estabelecimento de visões múltiplas quando

houver solução para conhecimentos conflitantes.

Organização e armazenagem

O processo de organização e armazenagem visa, por meio da utilização de sis-

temas, a garantir a recuperação, de forma rápida, fácil e correta do conhecimento. Busca-se

formalizar o conhecimento ao máximo, objetivando otimizar sua eficácia. Suas etapas são:

(i) classificação do conhecimento; (ii) definição da arquitetura de tecnologia da informação

(TI); e (iii) criação de repositórios de conhecimentos, informações e dados.

Compartilhamento: acesso e distribuição

Nesse processo, busca-se facilitar o acesso às informações e aos conhecimentos

que, geralmente, restringem-se a um pequeno grupo de pessoas. A facilidade de acesso é o

ponto crítico do processo. Assim, a TI envolvida torna-se crucial. Para tanto, são necessárias

as seguintes ações: (i) identificação da necessidade de informação e de conhecimento; (ii) cri-

ação de mecanismos de recuperação e disseminação do conhecimento; (iii) capacitação dos

usuários potenciais nas ferramentas de recuperação; e (iv) disseminação automática do conhe-

cimento em tempo hábil.

Aplicação

É vital que o conhecimento adquirido seja aplicado em situações reais da orga-

nização. Isso pode auxiliar na busca de benefícios tais como a melhoria do desempenho e con-

quista de novos mercados. Nesse processo, são registradas as experiências com a utilização do


conhecimento e ainda a necessidade de novos conhecimentos. Suas etapas são: (i) aplicação do

conhecimento relevante, confiável e de alto valor agregado e (ii) registro das lições aprendidas

e dos ganhos obtidos com a utilização.

Criação do conhecimento

Esse processo envolve aprendizagem, externação do conhecimento, lições

aprendidas, pensamento criativo, pesquisa, experimentação, descoberta e inovação. A criação

de novos conhecimentos pode ser potencializada com a formulação e a operacionalização da

estratégia, inteligência competitiva, pesquisa e desenvolvimento, reengenharia, benchmarking,

entre outros. São etapas desse processo: (i) compartilhamento do conhecimento tácito;

(ii) criação de conceitos; (iii) justificação de conceitos; (iv) construção de um arquétipo; e

(v) difusão interativa do conhecimento (cross-leveling knowledge).

8.2.2 - Fatores Facilitadores da Gestão do Conhecimento

Liderança

É papel da liderança no processo de gestão obter compromisso e direcionamento

por parte dos administradores da organização. Esse processo está diretamente ligado à eficácia

da gestão do conhecimento na empresa. Nenhuma mudança significativa ocorre a menos que

parta da cúpula.

Cultura organizacional

É necessário que haja na organização uma cultura ao estímulo para cooperação.

Organizações de conhecimento são caracterizadas por terem: (i) alto desempenho; (ii) foco no

cliente; (iii) foco em melhoria e em excelência; (iv) nível elevado de competência e de conhe-

cimento; (v) altas taxas de aprendizagem e inovação; (vi) autogerenciamento; (vii) pró-

atividade e visão de futuro; e (viii) compartilhamento de conhecimento.


Medição e avaliação

Para que o processo geral de gestão do conhecimento tenha êxito, é preciso me-

dir e avaliar os desempenhos, os comportamentos e as atitudes. Desse modo, é possível efetuar

o devido reconhecimento e recompensa dos colaboradores. Métodos de medição e acompa-

nhamento permitem e facilitam o alcance de metas com melhor definição de padrões e foco

nas ações.

Tecnologia da Informação (TI)

A existência de uma TI adequada é vital para dar suporte à gestão de conheci-

mento. Geralmente, os projetos de gestão utilizam ferramentas de TI tais como banco de dados

relacionais, Mineração de dados, DataWarehousing e ferramentas de busca. Videoconferên-

cias, workgroups, newgroups, e-mails, Intranet e Internet podem ser vistas como ferramentas

de compartilhamento de conhecimento.

8.3 - Contribuições da Mineração de Texto no Modelo de Gestão

do Conhecimento É importante salientar que a análise realizada neste trabalho foi delimitada no

nível hierárquico definido pela Assessoria Administrativa da RADIOBRÁS, vinculada à dire-

toria administrativa da empresa. Um dos objetivos desta pesquisa foi divulgar e ampliar a prá-

tica de gestão do conhecimento.

Mesmo de maneira informal e pontual, a RADIOBRÁS já aplica gestão do co-

nhecimento. Em relação à aplicação formal dessa gestão, tem-se a realização de planejamento

estratégico na empresa. Como referencial teórico para essa análise, utilizou-se o modelo gené-

rico de Gestão do Conhecimento de Stollenwerk.


8.3.1 - Na Gestão da Empresa

Observou-se que a aplicação da metodologia CRISP-DM gerou dois tipos de

conhecimento: um relacionado a problemas de armazenamento das matérias (ver

seção 5.2.1) e outro relacionado ao cumprimento do papel da empresa.

Em relação ao primeiro, a empresa pôde direcionar esforços com objetivo de re-

cuperar essas informações em outras fontes, tais como: (i) backups; (ii) repositórios/servidores

antigos; (iii) arquivos em formato ‘html’ no servidor web da empresa. Em conseqüência, no-

vas rotinas de segurança e de armazenamento foram planejadas, a fim de resguardar, da me-

lhor maneira, o acervo da empresa.

Quanto ao segundo tipo de conhecimento, a constatação formal do cumprimento

do papel social da RADIOBRÁS junto à sociedade. Anteriormente, essa hipótese era tida

como verdade sustentada, apenas na experiência de seus dirigentes. Esse foi o principal resul-

tado alcançado.

Além disso, foi possível mensurar, de forma mais precisa, a produção da

empresa. Na primeira estatística de produção, foram avaliadas as matérias separadas por perí-

odos mensais de produção, informando quantidade de registros, tamanho total por mês (bytes),

quantidade média por dia de produção e tamanho médio de cada matéria (bytes). Isso

possibilitou à empresa conhecer melhor sua produção no decorrer de um ano inteiro, podendo

assim melhor avaliá-la.

Foi obtida também a quantidade de palavras por matéria. Isso permitiu que se

determinasse a média de palavras por texto em cada mês, viabilizando o acompanhamento do

fluxo e do padrão de tamanho das notícias veiculadas, fator importante para o jornalismo.


Outro resultado significativo foi a obtenção das palavras usadas com mais fre-

qüência. De posse dessas palavras foi possível apurar, com acurácia, os principais assuntos

abordados pela empresa.

A limpeza e a engenharia de dados forneceu a quantidade de matérias inválidas

ou fora do contexto. Assim, foi possível determinar o nível de incidência desses tipos indese-

jáveis de matérias.

Outro produto da análise foi a distribuição geográfica das origens das matérias.

Isso permitiu à empresa comprovar a eficácia de sua cobertura jornalística no País, confron-

tando assuntos, localidades e fatos de grande repercussão nacional no período analisado.

Como base no agrupamento das notícias, foi possível certificar e enumerar as

grandes áreas de abrangência da empresa. A comprovação dessas áreas permitiu aos adminis-

tradores assegurarem o cumprimento das metas traçadas para a empresa.

Com os resultados obtidos neste trabalho, os dirigentes da RADIOBRÁS pude-

ram conhecer melhor o potencial das tecnologias envolvidas no processo razão pela qual estu-

dam a ampliação do campo de abrangência do projeto, incluindo as seguintes ações:

(i) aplicação da tecnologia nos demais produtos da empresa; (ii) estudo de uma forma de uni-

versalizar o conhecimento adquirido na organização; (iii) revisão de alguns processos e estu-

dos, com maior profundidade, dos conceitos e assuntos descobertos (por exemplo,

direcionamento à produção); e (iv) exploração mais efetiva de alguns grupos, analisando a ca-

tegorização de assuntos, com enfoques diferentes.

8.3.2 - No Modelo Genérico de Gestão do Conhecimento

Essa avaliação foi obtida de uma entrevista informal e qualitativa depois da a-

presentação do projeto e modelo de gestão de Stollenwerk ao chefe da Assessoria Administra-


tiva e de Sistemas - ASADM, área vinculada diretamente à diretoria administrativa da empre-

sa. (ANEXO A).

Sob o ponto de vista do gerente da ASADM o projeto colaborou, especificamen-

te e de maneira importante para as tarefas de Captura, para a aquisição de conhecimento sis-

têmico da empresa e na Seleção e Validação, com a síntese das informações em diversos

gráficos. Em relação aos fatores facilitadores o projeto contribuiu para a aquisição de Know

How das técnicas e metodologias para aquisição de conhecimento em texto.

8.4 - Síntese do Capítulo

A RADIOBRÁS desponta como uma empresa que busca excelência em sua ad-

ministração. A disputa para obtenção de direitos para agenciar a publicidade legal, aliada à

concorrência na cobertura jornalística do governo, é exemplo de fator condicionante para tal

filosofia de administração. Na cobertura jornalística, destacam-se os serviços de televisão, mí-

dia impressa, notícias em tempo real, portal Internet e rádio que, por ser veículo oficial do go-

verno, torna suas notícias também oficiais.

Esse cenário contribui para que a empresa tenha necessidade de manter-se no

mercado jornalístico como referência. Outros fatores expressos em sua missão fazem com que

a RADIOBRÁS tenha de estar em constante melhoria na prestação de seus serviços.

Conhecer os assuntos tratados pela empresa, confrontando-os com fatos e acon-

tecimentos mundiais permitiu aos administradores também confrontar as ações do governo -

mediante a veiculação jornalística - com as rotinas atuais da organização. Nesse sentido, nesta

pesquisa evidenciou-se uma aderência da produção da RADIOBRÁS com seus objetivos. Co-

mo trabalho futuro, os resultados obtidos deverão ser alvo de crítica mais apurada para um

possível refinamento em algumas das etapas consideradas. Pretende-se, assim, que o conheci-

mento proporcionado pelos resultados aqui apresentados seja plenamente aproveitado em be-

nefício da instituição.

Capítulo IX - Conclusões e Trabalhos Futuros

Considerando que a tomada de decisão é um processo de investigação, reflexão

e análise, justifica-se a necessidade de a alta administração obter informação qualitativa que

contenha elevado valor agregado.

As organizações podem ser vistas como sistemas de processamento de informa-

ção e, portanto, têm informações alinhavadas na maioria de seus procedimentos administrati-

vos. Assim, a Gestão do Conhecimento pode, por sua vez, ser vista como o conjunto de

atividades que busca desenvolver e controlar todo tipo de conhecimento em uma organização,

a fim de apoiar o processo decisório em todos os níveis.

Nesta pesquisa, discorreu-se sobre um estudo de caso realizado em uma empresa

pública de jornalismo - RADIOBRÁS - para a criação de Inteligência Organizacional com a

aplicação de ferramentas de mineração de texto. Para isso, com base no questionamento do

cumprimento do papel da empresa, procurou-se delinear o ambiente informacional sob o foco

do modelo genérico de gestão do conhecimento com análise de padrões extraídos do enorme

volume de textos produzidos por seus jornalistas.

As contribuições deste trabalho incluem: (a) estudo do pressuposto em relação à

carência metodológica e o baixo nível de aplicação de mineração de texto, (b) relato de expe-

riência na qual descrevemos todos os passos na aplicação de CRISP-DM na mineração de tex-

to, e (c) dificuldades encontradas e soluções adotadas na condução da pesquisa.

Capítulo IX - Conclusões e Trabalhos Futuros 128

Em relação à questão metodológica, visto que o projeto de mineração de texto

conduzido com a metodologia CRISP-DM teve êxito, obtendo que é possível, na prática, re-

verter conhecimentos adquiridos com o KDT em benefício do melhoramento da eficiência or-

ganizacional, verifica-se que não há restrição metodológica para condução de projetos de

DCT.

Este trabalho apresentou uma experiência de condução e aplicação da tecnologia

de DCT, realizando-se testes que mostraram as vantagens para uma organização, a

RADIOBRÁS, da aplicação dessa tecnologia, uma vez que gerou informações úteis à empresa,

elevando o nível de conhecimento sistêmico dos administradores da empresa. A essa experiên-

cia de sucesso, adicionam-se outros relatos de igual natureza, tais como os apresentados por

Haliman (2001), Wives (1999) e Loh (2000), em especial para abordagem de Palazzo (Loh,

2000a).

Ao analisar de forma inédita sua produção jornalística, a RADIOBRÁS obteve

importante instrumento capaz de expor, em um dos seus produtos, os conceitos abordados por

ela. Isso é de suma importância visto que com essa extração de conhecimento, a empresa pôde

ter informações apuradas para a comprovar de forma incontestável seu papel junto à sociedade

e à Presidência da República do Brasil.

Neste estudo, obtiveram-se os seguintes resultados: (i) foco das notícias no glo-

bal (todo o período pesquisado); (ii) total de produção real por mês; (iii) distribuição geográfi-

ca da origem das notícias produzidas; (iv) agrupamentos, indicando os termos (palavras) mais

importantes nestes; (v) categorias de assuntos, dispostos por períodos e por incidência; e

(vi) confronto de dados reais (por exemplo: campanha antiapagão, efeitos de fatos internacio-

nais).


Para a RADIOBRÁS, como para as demais empresas que conseguem aumentar

sua inteligência organizacional, este projeto ajudou a acrescer seu conhecimento sistêmico e

com isso adquirir mais flexibilidade e agilidade, características importantes na gestão de uma

empresa. Com os conhecimentos gerados do projeto, espera-se obter uma gerência ainda mais

efetiva dos recursos informacionais e do conhecimento, bem como das tecnologias da infor-

mação associadas, revendo processos executados em determinados setores da empresa.

Para seus administradores, nomeadamente os líderes, acredita-se ter elevado o

conhecimento sistêmico da empresa (negócio e operações, sistema organizacional, produtos)

no seu contexto, ou seja, interação com o seu meio envolvente, permitindo-lhes definir objeti-

vos e traçar metas.

A RADIOBRÁS é uma importante empresa do Estado e detém importante papel

na divulgação dos atos da administração pública do País. Acrescentar-lhe mais conhecimento

assume especial relevância e significado. Esse fato torna-se ainda mais significativo quando a

empresa é uma das principais agências de notícias do Brasil. Pois, é notório que a economia e

outros setores da administração pública são constituídos de muitas variáveis, sendo uma delas

as notícias oficiais a respeito de determinado assunto. Conhecer os assuntos tratados pela em-

presa, confrontando-os com fatos e acontecimentos mundiais permite aos administradores te-

rem um efetivo descritor das ações do governo em relação à sociedade brasileira.

Os administradores da RADIOBRÁS, com os resultados obtidos, puderam

conhecer melhor o potencial das tecnologias envolvidas no processo e com isto pretendem

alçar o domínio do projeto, estendendo essa tecnologia para futuros projetos. Dentre os futuros

passos destacam-se: (i) aplicação da tecnologia nos demais produtos da empresa; (ii) estudo de

uma forma de avaliar a universalização do conhecimento adquirido na organização; (iii)

revisão de alguns processos e estudos mais aprofundados dos conceitos e assuntos descobertos


(por exemplo, direcionamento a produção); (iv) melhor exploração de alguns grupos,

analisando de outra forma a categorização de assuntos; e (v) outros passos, que, por ser tratar

de pontos estratégicos, não foram publicados neste trabalho.

Considerando o resultados alcançados neste trabalho (a proposta de uma forma

de descoberta em texto de informações úteis a uma empresa e o relato da experiência vivida na

RADIOBRÁS), acredita-se que se tenha mostrado a possibilidade de transpor o ‘abismo’ de

Moore, no caso do KDT.

Como seqüência desse trabalho, pode-se vislumbrar trabalhos futuros nas se-

guintes linhas:

(i) Estudo de novos algoritmos e rotinas mais ágeis, haja vista os problemas

apresentados na Tabela 6.2;

(ii) Elaboração de técnicas e/ou rotinas a fim de automatizar a categorização dos

grupos obtidos da aplicação da metodologia de Halliman (seção 4.2.3).

Capítulo X - Referências Bibliográficas 131

Capítulo X -

Referências Bibliográficas

AGRAWAL, R. Data Mining: Crossing the Chasm. Invited talk at the 5th ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining (KDD-99). San Diego, California, Aug 1999. Disponível em: <http://www.almaden.ibm.com/ cs/quest/pubs.html>. Acesso em 15 mai. 2001.

BAKEL, Bas. Modern Classical document indexing a linguistic contribution to knowledge-based: Annual international ACM sigir conference on research and development in information retrieval. New York, 1998.

CANONGIA, Claudia et. al. Convergência da Inteligência Competitiva com Construção de Visão de Futuro: proposta metodológica de Sistema de Informação Estratégica (SIE) Revista Ciência da Informação, Brasília, v.2 n.3, jun. 2001. Disponível em: <http://www.dgzero.org/jun01/art_02.htm>. Acesso em 30 dez. 2002.

CHAPMAN, P.; et. al. The CRISP-DM Process Model: Discussion Paper. 2000. Disponível em: <http://www.crisp-dm.org>. Acesso em: 08 jul. 2001.

DIXON, Mark. An Overview of Document Mining Technology, [S.l.: s.n], out. 1997.

FAYYAD, U.; et.al. Advances in Knowledge Discovery and Data Mining. Cambridge: MIT Press, 1996.

FERNEDA, Edberto. Construção Automática de um Thesaurus Retangular. ago. 1997. Dissertação (Mestrado em Informática), Universidade Federal da Paraíba, Campina Grande – PB.

HALLIMAN, C. Business intelligence using smart techniques: environmental scanning using text mining and competitor analysis using scenarios and manual simulation. Houston: Information Uncover, 2001.

JOHN, G.H. Enhancements to the Data Mining Process. mar, 1997. Tese (Doutorado), Universidade de Stanford, Stanford.

LOH, S.; WIVES, L.K.; PALAZZO, J.M.O. Descoberta proativa de conhecimento em coleções textuais: iniciando sem hipóteses. In: Oficina de Inteligência Artificial (OIA), IV, out. 2000. Proceedings... Pelotas: EDUCAT, 2000.


LOH, S.; WIVES, L.K.; PALAZZO, J.M.O. Descoberta proativa de conhecimento em textos: aplicações em inteligência competitiva. In: International Symposium on Knowledge Management/Document Management (ISKM/DM 2000), III, nov. 2000a. Proceedings... Curitiba/PR: PUC-PR, 2000a. p.125-147.

MORESI, E. A. D. Monitoramento Ambiental. In: TARAPANOFF, Kira (Org.) Inteligência Organizacional e Competitiva. Brasília: UnB, 2001, p. 93-109.

MORESI E. A. D. Inteligência organizacional: um referencial integrado. Revista Ciência da Informação, Brasília, v. 30, n. 2, p. 35-46, maio/ago. 2001a.

NUGGETS® KDnuggets.com (KD stands for Knowledge Discovery) is the leading source of information on Data Mining, Web Mining, Knowledge Discovery, and Decision Support Topics, 2001. Disponível em: <http://www.kdnuggets.com/polls/data_mining_techniques.htm>. Acesso em: 21 ago. 2001.

PALAZZO, J.M.O.; SCARINCI, Rui G. Extração de informação como base para descoberta de conhecimento em dados não estruturados. In: Workshop Interno sobre Descoberta de Conhecimento em Bases de Dados, I, Jul. 2000. Proceedings... Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 2000.

PRADO, Hércules A. Abordagens híbridas para mineração de dados. Exame de qualificação, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 1998.

RADIOBRÁS. Manual de Organização: Regimento Interno da RADIOBRÁS. cód. 100, PORT-PRESI nº 0240/2001, Brasília-DF, jun. 2001.

RADIOBRÁS. Planejamento Estratégico da RADIOBRÁS. Relatório interno, Brasília-DF, 2001a.

SILVA, Edilberto M.; PRADO, H.P.; FERNEDA, Edilson - Text mining: crossing the chasm between the academy and the industry. In: DM2002-Third International Conference on Data Mining Methods and Databases for Engineering, Finance and Other Fields - Data Mining 2002. Bologna, set. 2002. Proceedings... Italy: WIT Press, 2002, p.351-361.

SILVA, Edilberto M.; PRADO, H.P.; FERNEDA, Edilson. Suporte à Criação de Inteligência Organizacional em uma Empresa Pública de Jornalismo com o uso de Mineração de Textos. In: KM Brasil 2002 - 3º Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento e o Congresso Anual da Sociedade Brasileira de Gestão do Conhecimento, São Paulo, set. 2002a.

SILVA, Edilberto M.; PRADO, H.P.; FERNEDA, Edilson. Text Mining for Organizational Intelligence: A Case Study On A Public News Agency. In: 5th International Conference on Enterprise Information Systems - ICEIS 2003, Angers, França, 2002b.

STOLLENWERK, M. F. L. Gestão do Conhecimento: conceitos e modelos. In: TARAPANOFF, Kira (Org.) Inteligência Organizacional e Competitiva. Brasília: UnB, 2001, p. 143-163.


TAN, A.H. Text Mining: The state of the art and the challenges, Kent Ridge Digital Labs, 1999. Disponível em: <http://textmining.krdl.org.sg>. Acesso em: 23 ago. 2001.

TARAPANOFF, Kira; et. al. Sociedade da informação e inteligência em unidades de informação, Revista Ciência da Informação, Brasília, v. 29, n. 3, p. 91-100, set./dez. 2000.

UNIVERSITY of California at Berkeley. How Much Information? Study about atempt to measure how much information is produced in the world each year. Regents of the University of California, 2000. Disponível em: <http://www.sims.berkeley.edu/how-much-info>. Acesso em: 21 ago. 2001.

WIVES, Leandro K. Tecnologias de descoberta de conhecimento em textos aplicadas à Inteligência competitiva. Exame de qualificação, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 2000.

WIVES, Leandro K.; LOH, S. Tecnologias de descoberta de conhecimento em informações textuais: ênfase em agrupamento de informações, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 2000a.

WIVES, Leandro K.; LOH, S. Um Estudo Sobre Técnicas de Recuperação de Informações com Ênfase em Informações Textuais. Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, dez. 1997.

WIVES, Leandro K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas usando Técnicas de Clustering. abr. 1999. Dissertação (Mestrado em Ciência da Computação), Universidade Federal do Rio Grande do Sul, Porto Alegre.

Anexo A -

Autorização e Avaliação da RADIOBRÁS

Autorização: Autorização para uso do nome da RADIOBRÁS

Responsável: Luiz Antônio Duarte, Diretor da DACAF - Diretoria Administrativa e de

Finanças.

Em: 30 de abril de 2002.

Avaliação: Entrevista informal e qualitativa

Responsável: José Roberto Barrozo Costa, gerente da ASADM - Assessoria de Sistemas

Administrativos, ligada a DACAF - Diretoria Administrativa e de Finanças.

Em: 02 de setembro de 2002.

Anexo A – Autorização do uso do nome da RADIOBRÁS 135

DDEECCLLAARRAAÇÇÃÃOO

Brasília-DF, 30 de Abril de 2002.

Declaro para os devidos fins que o Sr. Edilberto Magalhães Silva, Analista de Suporte

em Comunicação - ANC, funcionário do quadro permanente da RADIOBRÁS, matrícula

012231-9, está autorizado a usar o nome da RADIOBRÁS em sua dissertação de mestrado,

bem como nos artigos, publicações, pôsteres, apresentação em congressos ou outros meios que

dela se originarem.

Inclui-se nesta: permissão para importação e manipulação das notícias produzidas

pela empresa, descrição da empresa e seus deveres e conseqüente divulgação do teor das

notícias por ela disponibilizadas, através de informações agrupadas (consolidadas).

Os dados disponíveis para a pesquisa deverão ser domínio público e o empregado

deverá apresentar o estágio e os resultados obtidos freqüentemente.

LUIZ ANTÔNIO DUARTE M. FERREIRA Diretor Comercial Administrativo e Finanças

Anexo A – Avaliação – entrevista com gerente da ASADM 136

Brasília-DF, 02 de Setembro de 2002.

REF.: Avaliação do Projeto de KDT

Venho por meio desta, apresentar minha análise dos resultados obtidos pelo projeto de

aquisição de conhecimento em textos conduzido na empresa pelo Sr. Edilberto Magalhães Silva,

matrícula 012231-9.

Ao meu ver os principais benefícios do projeto para gestão da empresa foram:

• Descoberta e avaliação da distribuição das grandes áreas de foco das notícias;

• Certificação do cumprimento do papel da RADIOBRÁS;

• Levantamento das palavras mais usadas e avaliação da padronização dos textos com

média de palavras e tamanhos das notícias;

• Análise do acervo e diversas estatísticas de produção, tais como: Mensuração, de

forma mais precisa, a produção no decorrer do período, distribuição geográfica, dis-

tribuição dos tipos de notícias, entre outros;

Avaliando os resultados alcançados, sob o foco do modelo genérico de gestão do co-

nhecimento de Stollenwerk, verifico que o mesmo contribuiu em duas tarefas especificamente: Cap-

tura e Seleção Validação.

Anexo A – Avaliação – entrevista com gerente da ASADM 137

Com o projeto acredito que houve uma elevação do conhecimento sistêmico da em-

presa por parte da administração da empresa. A certificação do cumprimento do papel da empresa

comprovou que a condução da empresa não necessita ser alterada.

Em relação aos fatores facilitadores observo uma contribuição no aspecto tecnológico,

pois permitiu a empresa obter know how em técnicas e metodologias de text mining, bem como con-

dução de projetos de aquisição do conhecimento, que poderão ser usadas em projetos futuros na em-

presa.

Devo ressaltar que a presente análise foi realizada em um nível hierárquico não ideal

(assessoria de diretoria). Apesar disto, acredito que o projeto galgou um importante passo na sensibi-

lização da alta administração da empresa para aplicações que visam descobrir informações úteis, de

maneira automatizada, auxiliando os gestores da empresa na tomadas de decisões estratégicas.

Sem mais para o momento,

José Roberto Barrozo Gerente da ASADM – Assessoria de Sistemas Administrativos

Anexo B -

Artigo no DM 2002

Artigo: Text mining: crossing the chasm between the academy and the industry

Conferência: DM 2002 - Third International Conference on Data Mining Methods and

Databases for Engineering, Finance and Other Fields - Data Mining 2002

http://www.wessex.ac.uk/conferences/2002/datamining02

Data: 25-27/Setembro/2002

Local: Bolonha, Itália

Patrocinador: Wessex Institute of Technology - Advancing International Technology

Transfer http://www.wessex.ac.uk

Categoria: Text Mining, Structure Mining & Context Mining

Áreas de Abrangência:

(i) Data Warehousing and Databases;

(ii) Web Mining;

(iii) Data Analysis and Data Mining on Large Databases;

(iv) Data Mining Methodologies;

(v) Knowledge Discovery and Data Mining;

(vi) Text Mining, Structure Mining and Context Mining, entre outras.

Anexo B – Artigo no DM 2002 139

Text mining: crossing the chasm between the academy and the industry

E. M. Silva1,2, H. A. do Prado1,3, E. Ferneda1 1 Graduate Program on Knowledge and TI Management Universidade Católica de Brasília, Brazil 2 RADIOBRÁS - Brazilian Government Agency - “Brazil Agency”, Brazil 3 Center for Agricultural Research on Savannah - Embrapa, Brazil

Abstract The existence of a chasm between the development phase and the adoption of new technologies has been widely recognized. Some reasons that make hard the transition academy-industry for new technology are: (a) the weak usability commonly presented by emergent technology in regard to the required ease of ordinary users; (b) few successful experiences reported; and (c) the lack of an adequate methodology to new tools. In this paper we argue that text mining technology is exactly in the chasm point and study the hypothesis (c) mentioned above. The start point of our argumentation is the contradiction posed by the extraordinary amount of information in text form - about 80% of all existing information in a company - while the amount of text mining/web mining applications does not go beyond 7%. At the same time, we observe that the available technological alternatives present an excellent level of maturity, with many functions and adequate interfaces for the common user. The research was carried out by means of a case study in which we used texts issued by a journalistic agency. In order to explore our hypothesis, we applied the CRISP-DM method that was originally conceived for data mining. The contribution of this work includes the examination of the methodological hypothesis for the lack of text mining applications, an experience report in which we describe the steps carried out to apply CRISP-DM to text mining, and the findings in the target domain.

1 Introduction Since the early nineties, researchers in Knowledge Discovery from Databases (KDD) have dedicated intensive efforts to extract human understandable patterns from structured databases, as well as to make the whole work as automatic as possible. In this way important advances have been achieved, allowing technology to cross the usual gap that occurs when results move from academy to industry. However, just recently the counterpart of structured data, pure or marked text, has received attention as a crucial source of knowledge to improve business management. In this sense, studies on clustering applied to extract meaning from huge amounts of text have been carried out. This paper departs from the reasonable question about why Knowledge Discovery from Text (KDT) has not crossed the same gap. It is really hard to understand this fact if one considers the current state-of-art in KDT, which allows the organizations to take advantage from knowledge hidden in many textual sources. In this work we apply the well-known CRISP-DM methodology in the texts issued by a Brazilian


journalistic organization aiming to figure out the degree in which the company has accomplished its objectives. During the case study, we observed how a data mining method (CRISP-DM) could be fitted to the case of textual data.

2 Motivation According to Tan [5], 80% of a company's information is contained in text documents. In contrast, a poll from Kdnuggets [4] found that only 2% percent of all knowledge discovery applications are carried out on text databases. If we add the web mining applications, that use marked text, that percent goes to 7%. It is the case to ask why, in an economy of increasing competition, the advantage brought by knowledge discovery from text is not as common as one could expect.

In his popular model (Figure 1) to explain the phases of technology adoption, Moore (op. cit. in [1]) discusses the existence of a chasm between the “early adopters” and the “early majority pragmatists” that technology has to cross in order to become widely applied. The motivation for this study is our belief that text mining is exactly stalled in this chasm.

Figure 1 - Classification scheme for adopters of innovative technology

From this belief, we could enumerate some hypothesis to investigate why text mining has not crossed the chasm yet: (a) lack of adequate technology, failing, say, in usability requirements for example, (b) few successful experiences reported, and (c) lack of adequate methodology to drive users in developing text mining applications. To develop our study we focused in the third hypothesis, looking for methodological reasons for the low use of text mining technology.

3 Applying CRISP-DM CRISP-DM (CRoss-Industry Standard Process for Data Mining) [2], is a methodology developed to promote the standardization of the data mining process. It encompasses a set of phases and processes that describe the tasks that


one has to carry out to develop a data mining application. The method is vendor neutral and domain independent, being well suited to manage the whole process of development. Six phases integrate the method as shown in Figure 2 and described next.

Figure 2 - Phases of CRISP-DM

Business understanding - this phase looks for the identification of requirements and objectives of the application under the client’s point of view. Problems and restrictions that can cause loss of time and effort must be considered. This phase also includes a description of the client background, its business objectives, and a description of the criteria used to measure the success of the achievement. Data understanding - identify all information relevant to carry out the study and a first approximation of its content, quality, and utility. The initial collection of data helps the analyst in learning about its details. Conflicts related to the expected and the real format and values are identified in this phase. Information of the manner in which data was collected, including its sources, meaning, volumes, reading procedure, etc - can also be of interest since it is a good indicator of the data quality. In this phase the first discoveries are carried out. Data preparation - this phase consists of the tasks concerned on the acquisition of a final data set, from which the model will be created and validated. Tools for data extraction, cleaning, and transformation are applied to data preparation. Joins of tables, aggregation of values, format changing are performed to satisfy the input requirements of the learning algorithms. Modeling - in this phase the more appropriate data mining techniques are selected and applied, according to the objectives so far defined. Modeling represents the core phase of data mining, that is, the choice of the technique, its


parameterization, and its execution over a training data set. Many different and complimentary models can be created in this phase. Evaluation - the evaluation phase consists in reviewing the past steps in order to check the results against the objectives defined in the business understanding phase. It is also defined in this phase the next tasks to be performed. According to the results, it is defined route corrections, which correspond to the return to one of the already performed phases using other parameters or looking for more data. Deployment - set of actions necessary to make available to the organization the acquired knowledge. In this phase it is generated a final report to explain the results and the experiences useful in the client business.

3.1 Business Understanding RADIOBRÁS (http://www.radiobras.gov.br) is a Brazilian public company that aims to establish a communication channel between the departments of Federal Government and the Brazilian society. By this way, RADIOBRÁS pursues to universalize the information regarding the acts and facts of the Federal Republic of Brazil. Its objectives are: (a) To publish the accomplishments of the Federal Government in the economy,

social politics and to spread out abroad adequate knowledge of the Brazilian reality, as well as implanting and operating senders and exploring services of broadcasting of the Federal Government;

(b) To implant and to operate it’s repeating networks and retransmission of broadcasting, exploring its services, as well as promoting and stimulating the formation and the training of specialized staff necessary to its activities;

(c) To gather, elaborate, transmit, and distribute, directly or in cooperation with other social communication entities, news, photographs, bulletins and programs concerned to acts and facts from the Government and other issues of political, financial, civic, social, sportive, cultural and artistic nature, by means of graphical, photographic, cinematographic, electronic or any other vehicle;

(d) To distribute the legal publicity from the entities related directly or indirectly to the Government;

(e) To perform other activities assigned to it by the Chief Ministry of State of the Government Communication Secretariat of the President of the Republic. By means of this project, RADIOBRÁS aims to obtain indicators related to

the distribution of news by subject, the diffusion of news abroad, to estimate the distribution of news along the government departments, to check the news contents regarding to the Communication Secretariat. For this purpose, efforts will be focused in measuring the amount of news by kind, period and main topics, in extracting the concepts produced and propagated by the agency based on clustering analysis, determining the amount of news about acts and facts of the Government, and studying the degree in which RADIOBRÁS is achieving its objectives. This work meets these objectives by (a) determining the most important words in the issued news, (b) determining the main correlation among the news and the keywords that compose each cluster, (c) separating news by groups, (d) pointing out the most representative words, (e) discovering the main


concepts from the clustering analysis, and (f) elaborating statistics about the news by time, subject and quantity.

3.2 Data Understanding The data were obtained from the public repository of the agency. Each text file corresponds to specific news. Corrupted, control files and news files in foreign language were discarded.

We considered just the news produced in 2001. Figure 3 shows the monthly production of news in this year.

Janu

ary

Febr

uary

Mar

ch

Apr

il

May

June July

Augu

st

Sep

tem

ber

Oct

ober

Nov

embe

r

Dec

embe

r

4734

5634548056215503

51045429

5838

5397

4599

2049

247

0

1000

2000

3000

4000

5000

6000

Evolution of the most used words

Figure 3 - Monthly production in 2001

3.3 Data Preparation The selected news, that includes releases, complete notices, guidelines, presidential agenda, events in course and photos are prepared according to the cycle depicted in Figure 4.

In this phase we found that the production from January and February should consider as outliers and consequently, discarded. This happened due to problems of importing texts from the repository that caused loss of records.

3.4 Data Modeling We carried out the work in this phase by describing and summarizing the data, and, then, segmenting the set of texts. It was applied Tan [5] approach, in which two steps are performed: (a) text refinement, which corresponds to transforming the text from free form to an intermediary form, and (b) knowledge extraction, corresponding to the data mining itself. An example of data description and summarization is shown in Figure 5. Results from segmentation can be seen in Figures 6 and 7. To induce the clusters we applied the Eurekha [6] tool, choosing the Star option. The overall process of clustering, required for segmentation, is depicted in Figure 8.


Figure 4 - Data Preparation

Evolution of the most used words

Janu

ary

Febr

uary

Mar

ch

April

May

June July

Augu

st

Sept

embe

r

Oct

ober

Nov

embe

r

Dec

embe

r

Month

Inci

denc

e

President Minister Government Energy Health

Figure 5 - Incidence of most used words (2001)


Presidency

6,00

32,0036,00

29,00 32,25

19,00

31,00 31,00

46,00

31,5025,00

62,00

Janu

ary

Febr

uary

Mar

ch

April

May

June July

Aug

ust

Sep

tem

ber

Oct

ober

Nov

embe

r

Dec

embe

r

Economy

24,00

36,00

12,0017,00 19,50

45,00

23,00

8,00 10,7516,50

25,25 23,00

Janu

ary

Febr

uary

Mar

ch

Apr

il

May

June

July

Aug

ust

Sep

tem

ber

Oct

ober

Nov

embe

r

Dec

embe

r

Figure 6 - Examples of categories: Presidency and Economy

Types of News - 2001

Flash78,49%

New s19,40%

Guidelines2,11%

Distribution of news by state (Brazil)

DF68,23%

PE1,62%

Outros3,36%

MS1,90%

RS1,39%

SP7,88%

RJ15,63%

Figure 7 - Kind of news and geographic distribution


Figure 8 - Methodology for clustering in KDT

3.5 Model Evaluation The clusters found in the previous phase were analyzed by an expert in order to discover some meaning in them. After that, a categorization by subject was carried out. This categorization was performed by applying the methodology introduced by Halliman [3] that combines cluster analysis with background knowledge.

3.5.1 Results After analyzing the categories found, five major areas were identified: (a) Presidency of Republic - 30% (president, Fernando, Henrique, Cardoso), (b) Economy - 21% (central bank, monetary values, inflation, stock exchange, dollar rates, interests, national treasure), (c) Meteorology - 21% (time forecast, cloudy, partially, rain), (d) Development - 8% (energy, monetary values, state companies, investment and development) and (e) Politics - 7% (parties acronyms, house of representatives, senators, ministry names, senators names). It is important to emphasize that this classification was just a feeling before the present analysis and now have a sound rationale. Almost all news does not have any label that could be used as category.

Other less frequent categories, that total 13% of the whole text set, were also listed. Next this categories as well as their corresponding key words, are described: Education (school census, university, national school evaluation), Health (AIDS, HIV, clone, generic medicines, hospital, cholesterol, medicine), International (UN, WWF, El Salvador, Mercosul, Palestine, Israel, New York, attempted against, towers, United States), Security (federal police, antidrugs), Providence (INSS, social security, deadline), R&D (Genoma, technology), Justice (court, federal, justice, trial, Indian, Galdino), Environment (environment,


birds, ISO, Amazon), Agriculture (INCRA, agrarian reform, IBAMA, soil), Culture (carnival, art, museum, exhibition, orchestra, symphonic, beautiful, winter festival), Transportation (airports, police, bus station, subway, conference, traffic), Sports (INTECOM, ECT, soccer, Nike, CBF, sets, marathon, Vasco, Gama, Cruzeiro, Goiás, Olympic games), National (quality, price, meat, accident, P-36), Work (woman, agreement, rural, work, infant, forum, SENAC, SEBRAE).

For a better understanding of the categories, it was created many graphs like in Figure 5 that shows the most used words during 2001. They were interpreted by an expert that issued the interpretations below. Evaluation of Figure 5. The constant use of the words “president”, “government”, and “minister” suggest the approach of actions taken by central administration. The frequency of the word “healthy” increases as the government and the Healthy Department make public vaccination and drug prevent campaigns (e.g., against AIDS). The most scored word was “energy” pointing out the effort employed by the central administration to deal with the lack of energy in the country in a certain period. Evaluation of Figure 6. The categories “presidency”, “politics”, “development”, and “economy” meets the agency objectives regarding to the coverage of acts and facts generated by the central administration. They also reflect that, in each month, there are coincidence between the news and important facts. We can mention, for example, financial crisis and “economy”, development and “blackout campaign”, war and terrorism in USA and “International” and “Security”, strike in the metro, bus and trains and “transportation”, educational campaigns and “education”. Evaluation of Figure 7. Almost all news are flashes (IT-Internet) that do not bring any other information but the pure text (e.g., it is not informed the news focus). It does not allow a more precise evaluation regarding to the distribution inside the slices. It is also possible to verify that the biggest amount of news come from Distrito Federal (DF), Rio de Janeiro (RJ) and São Paulo (SP). It agrees with the fact that Brasília and Rio de Janeiro are the headquarters of many public departments. In this graphic we can see the presence of Pernambuco, mainly due to the news related to the so-called “polygon of marijuana”.

3.5.2 Evaluation of results Considering the success criteria defined by the administration, the results were considered to fulfill the organization’s expectations. Actually, since the application raised new questions, the user decided to keep the studies in order to these new questions.

3.6 Development The application has shown to be an important alternative to develop an institutional self knowledge useful for a better management both internally and externally.

The results available for this purpose include: (a) main subjects approached in the news, (b) monthly production, (c) geographical distribution of news’ sources, (d) clusters and their most important words, (e) different kinds of subject categorization, and (f) comparison between issued news and current national and international facts.


By knowing the subjects approached in the issued news, the heads of RADIOBRÁS has developed an effective view of the role it is playing in the society, being able to correct any deviation in accomplishing its mission.

4 Conclusion We departed from the fact that, although 80% of a company's information is contained in text documents, only 7% of KDD applications are developed to process pure or marked text. A fair belief is that this huge amount of information hides useful knowledge that could lever the organization to a better position in the market. With these facts in mind we decided to investigate the low interest in text mining enumerating, initially, some hypotheses related to usability, few reported experiences, and the lack of methodology. In this work we focused our attention to the methodological hypothesis, carrying out our research by means of a case study in a Brazilian news agency. We applied the CRISP-DM methodology, which was originally elaborated to drive data mining applications (that process structured data). The methodology was completely adequate to develop text mining application, as the obtained results can show.

It became evident that the methodological hypothesis should be disregarded, opening a research opportunity to study other hypotheses.

References AGRAWAL, R. “Data Mining: Crossing the Chasm”, Invited talk at the 5th

ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining (KDD-99), San Diego, California, August 1999. http://www.almaden.ibm.com/cs/quest/PUBS.html (15/05/2001)

CHAPMAN, P., KERBER R., CLINTON J., KHABAZA T., REINARTZ T., WIRTH R. - “The CRISP-DM Process Model”, Discussion Paper, 2000. http://www.crisp-dm.org (08/07/2001)

HALLIMAN, C. “Business intelligence using smart techniques: environmental scanning using text mining and competitor analysis using scenarios and manual simulation”, Information Uncover, Houston, 2001.

NUGGETS® “KDnuggets.com (KD stands for Knowledge Discovery) is the leading source of information on Data mining, Web Mining, Knowledge Discovery, and Decision Support Topics”. http://www.kdnuggets.com/polls/ data_mining_techniques.htm (21/08/2001)

TAN, A.-H. “Text mining: The state of the art and the challenges”, Kent Ridge Digital Labs, 1999. http://textmining.krdl.org.sg (23/08/2001)

WIVES, L. K. “Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de Clustering” MSc Dissertation, Porto Alegre (Brazil), PPGC/UFRGS, 1999.

Anexo C -

Artigo no KM Brasil 2002

Artigo: Suporte à Criação de Inteligência Organizacional em uma Empresa Pública

de Jornalismo com o uso de Mineração de Textos.

Conferência: KM Brasil 2002 - 3º Workshop Brasileiro de Inteligência Competitiva e

Gestão do Conhecimento e o Congresso Anual da Sociedade Brasileira de

Gestão do Conhecimento

http://www.kmbrasil.com

Data: 16-18/Setembro/2002

Local: São Paulo, Brasil

Realização: UFSCar - Universidade Federal de São Carlos e SBGC - Sociedade

Brasileira de Gestão do Conhecimento


(i) Aplicações empresariais, governamentais, na ciência e tecnologia e outras;

(ii) Aprendizagem organizacional;

(iii) Ensino e pesquisa em IC e GC;

(iv) Metodologias;

(v) Tecnologias de informação, envolvendo: comércio eletrônico, portais

corporativos, segurança e sistemas de informação;

(vi) Entre outras.

Anexo C - Artigo no KM Brasil 2002 150

SUPORTE À CRIAÇÃO DE INTELIGÊNCIA ORGANIZACIONAL EM UMA EMPRESA PÚBLICA DE JORNALISMO COM O USO DE

MINERAÇÃO DE TEXTOS

EDILBERTO M. SILVA 1,2, HÉRCULES. A. DO PRADO 1,3, EDILSON FERNEDA 1

1 Programa de Pós-graduação em Gestão do Conhecimento e da Tecnologia da Informação, Universidade Católica de Brasília (UCB/DF)

Campus Universitário II - Pró-Reitoria de Pós-Graduação e Pesquisa - SGAN 916 - Módulo B, 70.790-160 Brasília/DF 2 Agência Brasil RADIOBRÁS - Empresa Brasileira de Comunicação S.A. SCRN 702/3 Bloco B Ed. RADIOBRÁS - Brasília/DF - CEP: 70.710-750

3 Embrapa - Cerrados Km 18 da BR020 - Planaltina - DF, CEP 73.301-970 - Caixa Postal 08.223

e-mails: [email protected], [email protected], [email protected]

Apresenta-se, nesse artigo, um estudo de caso sobre a criação de inteligência organizacional com a aplicação de ferramentas

de mineração de texto. Partindo do questionamento do cumprimento do papel social da RADIOBRÁS, empresa pública de

jornalismo, construiu-se um modelo para análise de padrões extraídos do enorme volume de textos produzidos por seus

jornalistas. O método CRISP-DM foi aplicado compreendendo a aquisição das matérias produzidas ao longo de 2001,

preparação desse material, com a limpeza e formatação dos arquivos, criação de um modelo de agrupamentos e a geração de

diversas visões na forma de estatísticas e de gráficos. As visões foram fornecidas à administração da empresa permitindo

interpretações úteis para o autoconhecimento da organização. O processo completo é descrito em detalhes no corpo do artigo.

Considerando que a RADIOBRÁS é uma importante empresa do Estado, detendo um papel relevante na divulgação dos atos

da administração pública do País, fica evidente a necessidade de uma auto-avaliação calcada no conhecimento sobre os

resultados das suas atividades. Como qualquer outra empresa, a RADIOBRÁS está sujeita à crescente exigência de

competitividade imposta às organizações modernas. Nesse cenário, a geração e a fixação da inteligência organizacional têm

se revelado como diferenciais competitivos que podem levar a uma gestão mais adequada dos negócios em diversos sentidos,

como no relacionamento da organização com os seus clientes e na adequação da sua estrutura de trabalho, entre outros. A

importância da informação para a elaboração do conhecimento e, conseqüentemente, a síntese da inteligência é largamente

reconhecida, requerendo tratamento adequado para obtenção de insights que levem à ativação dos processos mentais que

levarão àquela síntese. Diversas visões, internas e externas, sobre os rumos da organização podem ser obtidas com o uso de

ferramentas para a extração de padrões em grandes quantidades de dados, subsidiando decisivamente os gestores na tomada

de decisões fundamentadas. Essas visões, construídas para responder a questões específicas, formam um acervo de

conhecimento num processo de aprendizagem organizacional que deverá gerar desdobramentos nos modos de gestão da

organização. As contribuições da Tecnologia da Informação nesse campo desenvolveram-se inicialmente visando à extração

de padrões dos bancos de dados transacionais que se configuram num conjunto de Tabelas bem comportadas. Entretanto,

considerando que a maior parte das informações nas organizações encontra-se na forma textual, desenvolvimentos recentes

permitem a extração de padrões interessantes a partir desse tipo de dados, como por exemplo, no presente caso: (i)

mensuração da produção e distribuição geográfica de suas notícias, (ii) levantamento das palavras mais usadas, (iii)

descoberta das áreas de abrangência das notícias, (iv) avaliação do cumprimento papel da empresa, de acordo com os

assuntos abordados em suas notícias, e (v) avaliação da cobertura jornalística da empresa.

Palavras-chave: Inteligência Organizacional; aprendizagem organizacional; CRISP-DM; KDT; RADIOBRÁS.


SUPPORT TO THE CREATION OF ORGANIZACIONAL INTELLIGENCE IN A PUBLIC COMPANY OF

JOURNALISM WITH THE USE OF TEXT MINING. In this article it is presented a case study on the creation of

organizational intelligence in RADIOBRÁS with the application of text mining tools. Departing from the question about if

RADIOBRÁS is fulfilling its social role, we construct an analysis model based on the enormous volume of texts produced by

its journalists. CRISP-DM method was applied including the acquisition of the news produced during 2001, preparation of

this material, with the cleansing and formatting of the archives, creation of a model of clustering and the generation of many

views in the form of statistics and graphs. The views had been supplied to the administration of the company allowing useful

interpretations of the self-knowledge of the organization. The complete process is described in details in the body of the

article. Considering that the RADIOBRÁS is an important company of the State, pursuing an important objective by

spreading out the acts of the public administration of the country, it is evident the necessity of a self evaluation based in the

knowledge of its results. We must recognize that, as any another company, RADIOBRÁS is subject to the increasing

requirement of competitiveness imposed to the modern organizations. In this scene, the generation and retention of

organizational intelligence have been recognized as a competitive differential that can lead to a more adequate management

of the businesses in many directions, as in its relationship with customers and in the adequacy of its structure of work, among

others. The importance of the information for the elaboration of the knowledge and, consequently, the synthesis of

intelligence is wide recognized, requiring treatment adjusted for attainment of insights that can lead to the activation of the

mental processes that will lead to that synthesis. Many internal and external views on the routes of the organization can be

built with the use of tools for the extraction of patterns in great amounts of data, subsidizing decisively the managers in the

decision making process. These views, constructed to answer the specific questions, constitute knowledge in a process of

Organizational Learning that influences radically the way in which the organization is managed. The contributions of IT in

this field were developed, initially, aiming at the extraction of patterns from transactional databases that contains well

structured data. However, considering that most of the information in the organizations are found find in textual form, recent

developments allows the extraction of interesting standards from this type of data, as for example, in the present case with: (i)

the measure of production and geographic distribution of RADIOBRÁS news, (ii) a survey of the most used words, (iii) the

discovery of the covering areas of the news, (iv) the evaluation of how the company is fulfilling its role, in accordance with

the subjects approached in its news, and (v) the evaluation of the journalistic covering of the company.

Keywords: Organizational intelligence; learning organization; CRISP-DM; KDT; RADIOBRÁS.


I - INTRODUÇÃO

As organizações estão sendo constantemente desafiadas a se adaptarem às mudanças

ambientais, levando em consideração, entre outros, as expectativas dos clientes, estratégias

competitivas, avanços tecnológicos, condições instáveis na economia e na sociedade.

Considerando que a tomada de decisão é um processo de investigação, reflexão e

análise, justifica-se o aumento da necessidade da alta administração de obter informação

qualitativa que contenha um alto valor agregado.

As organizações podem ser vistas como sistemas de processamento de informação e,

portanto, têm informações alinhavadas na maioria de seus procedimentos administrativos.

Assim, a Gestão do Conhecimento pode, por sua vez, ser vista como o conjunto de atividades

que busca desenvolver e controlar todo tipo de conhecimento em uma organização, a fim de

apoiar o processo decisório em todos os níveis.

Neste trabalho, discorre-se sobre um estudo de caso realizado em uma empresa

pública de jornalismo para a criação de inteligência organizacional com a aplicação de

ferramentas de mineração de texto. Para isso, a partir do questionamento do cumprimento do

papel social da empresa, procurou-se delinear o ambiente informacional sob o foco do modelo

genérico de gestão do conhecimento.

II - MOTIVAÇÃO

De acordo com Tan1, 80% da informação contida nas organizações se encontram na

forma textual. Em contraste com este fato, uma pesquisa publicada em Kdnuggets®2 afirma

que somente 2% de toda aplicação de descoberta de conhecimento são aplicadas em bancos

de dados textuais. Se forem adicionadas aplicações em web mining, que usa textos com tags,

este percentual chega-se a 7%. Neste sentido, questiona-se por que, numa economia com

acirrada competitividade, as aplicações de descoberta de conhecimento em texto não são tão

comuns quanto seria de se esperar.

Em seu modelo (Figura 1) que explica a adoção de novas tecnologias, Moore3 discute

a existência de um “abismo” entre as fases “adeptos iniciais” e “maioria inicial” que uma

tecnologia deve atravessar para torna-se extensamente aplicada. A motivação deste estudo

está baseada no reconhecimento de que o text mining encontra-se exatamente neste ponto.


FIGURA 1 - Classificação de consumidores de novas tecnologias

A partir desse ponto, podem-se enumerar algumas hipóteses para investigar o por que

do text mining não ter atravessado ainda este “abismo”: (i) falta de uma tecnologia adequada,

no que se refere à exigência em sua usabilidade, por exemplo, (ii) poucos relatos de

experiência de sucesso e (iii) inexistência de uma metodologia adequada para guiar os

usuários nas aplicações de text mining;

Considerando a disponibilidade de tecnologias com excelente nível de maturidade,

com diversas funcionalidades e interfaces adequadas aos usuários comuns, decidiu-se

focalizar os estudos na terceira hipótese, que trata da questão metodológica. A pesquisa foi

conduzida com um estudo de caso no qual se utilizam notícias publicadas por uma agência de

notícias brasileira, a RADIOBRÁS.

Para explorar nossas hipóteses, aplicou-se a metodologia CRISP-DM (CRoss-Industry

Standard Process for Data Mining)4, concebida originalmente para data mining. Essa

metodologia foi desenvolvida com o intuito de promover a padronização de conceitos e

técnicas na busca de informações específicas para tomada de decisões. Ela consiste de um

conjunto de fases e processos padrões para gerência de projetos de data mining,

independentes da área de negócio e das ferramentas usadas, de forma estruturada e metódica.

É constituída de seis fases: (i) Compreensão do Negócio, (ii) Compreensão dos Dados, (iii)

Preparação dos Dados, (iv) Modelagem, (v) Avaliação do Modelo e (vi) Aplicação.

III - ANÁLISE DOS TEXTOS PRODUZIDOS

A metodologia CRISP-DM foi aplicada em um estudo de caso na RADIOBRÁS com

o uso de ferramentas de mineração de texto sobre seu acervo público de notícias. A

RADIOBRÁS é uma empresa pública brasileira que visa servir de canal de interlocução dos

órgãos do Governo Federal com a sociedade brasileira, buscando universalizar as informações


referentes a atos e fatos da administração pública federal do Brasil.

Realizou-se a análise de 55.635 textos, totalizando cerca de 8.700.000 palavras. Para

tanto, como pré-processamento, foram executadas as seguintes tarefas: (i) aquisição e

transferência dos arquivos textos - notícias - do acervo da empresa, (ii) preparação dos

arquivos textos, (iii) estatística de quantidade de textos, palavras e tamanho de arquivos, (iv)

limpeza dos dados: arquivos corrompidos, nulos, inválidos ou fora do escopo do projeto

(notícias em português), (v) engenharia nos dados: separação de notícias em arquivos

independentes, e (vi) estatística final: palavras mais usadas, resultado após limpeza dos dados.

A seguir, foi feita a modelagem, onde foram selecionadas as tecnologias a serem

utilizadas. Verificados os objetivos da mineração e os dados disponíveis, foi realizada uma

clustering dos textos da empresa, que consiste em agrupar objetos similares em grupos

distintos, onde todos os objetos deste grupo detenham características em comum. No caso

deste projeto, separam-se as matérias em grupos, onde todos os membros compartilham

determinadas palavras. Deste modo, foi possível particionar uma grande coleção de

documentos, isolando aqueles pertencentes a um mesmo assunto. Isto facilitou a identificação

de documentos relevantes para o usuário. Aplicando-se técnicas adicionais, foi possível

identificar o assunto ou conhecimento específico de cada grupo, facilitando o processo de

recuperação de informações ou descoberta de conhecimento.

Com a análise destes agrupamentos, pode-se criar e explicar hipóteses. Baseado no

conhecimento a priori detido pelo especialista, adquirido com a experiência nos dados da

empresa ou ainda pelas informações fornecidas pela descrição e sumarização dos dados,

pretende-se obter relações relevantes ao negócio da empresa.

Para a realização do clustering foi escolhida a proposta de Palazzo, apresentada na

pesquisa de Wives5 e implementada na ferramenta Eurekha.

Após a obtenção dos grupos e respectivos centróides, foi realizada uma análise dos

mesmos, buscando extrair conhecimento a partir das informações encontradas. Foi então

realizada uma categorização de assuntos abordados pela RADIOBRÁS. Esta categorização foi

realizada pelo especialista com base na metodologia apresentada por Halliman6, que usou,

além das informações dos grupos, seu conhecimento prévio do negócio.

A partir do percentual de distribuição de matérias nos grupos, o especialista

categorizou os grupos encontrados mês a mês e por assunto. A quantificação das categorias

foi realizada através dos dados de distribuição (%) dos centróides em relação à sua incidência

no período. Com a categorização foi possível relacionar os principais assuntos tratados pela

empresa. Foram identificadas cinco grandes áreas: (i) Presidência da República - 30%


(presidente, Fernando, Henrique, Cardoso), (ii) Economia - 21% (banco central, valores

monetários, inflação, cotação das bolsas de valores, cotação do dólar, taxa de juros, tesouro

nacional), (iii) Meteorologia - 21% (previsão do tempo, nublado, parcialmente, chuvas), (iv)

Desenvolvimento - 8% (energia, valores monetários, nomes de estatais, investimento e

desenvolvimento) e (v) Política - 7% (siglas de partidos, câmara, senado, nome de ministros,

nomes de senadores).

Outras áreas com menor incidência de apresentação também foram elencadas. Elas

representam 13% do total de notícias veiculadas. Estas áreas e suas principais palavras-chave

são as seguintes: Educação (censo escolar, universidade, ENEM), Saúde (AIDS, HIV, clone,

genéricos, hospital, colesterol, remédio), Internacional (ONU, WWF, El Salvador, Mercosul,

Palestina, Israel, Nova York, atentado, torres, Estados Unidos), Segurança (polícia federal,

antidrogas), Previdência (INSS, previdência social, prazo), C&T (Genoma, tecnologia),

Justiça (tribunal, federal, justiça, julgamento, índio, Galdino), Meio Ambiente (meio

ambiente, pássaros, ISO, Amazônia), Agricultura (INCRA, reforma, agrária. IBAMA, solo),

Cultura (carnaval, arte, museu, exposição, orquestra, sinfônica, bonito, festival, inverno),

Transporte (aeroportos, polícia, rodoviária, metrô, conferência, trânsito), Esporte

(INTECOM, ECT, futebol, Nike, CBF, sets, maratona, Vasco, Gama, Cruzeiro, Goiás,

olimpíada), Nacional (qualidade, preço, carne, acidente, P-36) e Trabalho (mulher, acordo,

rurais, trabalho, infantil, fórum, SENAC, SEBRAE).

Para melhor análise das categorias foram criados diversos gráficos. A seguir, são

apresentados alguns, juntamente com interpretação realizada pelo especialista.

No Gráfico de “incidência de palavras” são apresentas as palavras mais usadas no

decorrer do período e sua evolução no decorrer do mesmo (Figura 2). Sua avaliação mostra

que o uso constante das palavras “presidente”, “governo”, “ministro” sugerem uma

abordagem das ações da Presidência da República e do Governo Federal. A palavra “saúde”

aumenta na proporção em que o Governo Federal e o Ministério da Saúde divulgam

campanhas de vacinação e prevenção de doenças (AIDS, por exemplo). E a característica

mais realçada: o uso da palavra “energia” comprovando o aspecto de cobertura da

administração pública na campanha “antiapagão” conduzida pelo Governo Federal.

Já pela análise do Gráfico de “tipo e distribuição geográfica no Brasil” (Figura 3),

pode-se concluir que a maioria das notícias veiculadas é do tipo flash (IT-Internet), que não

trazem consigo uma identificação de qual editoria é o foco da notícia (política, economia,

nacional, entre outras), ao contrário das matérias consolidadas (MA). Isto não permite, a

priori, uma avaliação mais precisa, através de meios convencionais de distribuição de


editorias (pesquisa por editoria, por exemplo). É possível ainda comprovar que o maior

número de notícias provêm de: Brasília - DF, Rio de Janeiro - RJ e São Paulo - SP. Isto se

deve ao fato de o DF e o RJ serem os estados da federação como maior concentração de

órgãos federais no Brasil. Neste gráfico é realçada ainda a presença de Pernambuco - PE. Em

uma análise mais apurada, verificou-se que isto se deve à cobertura da empresa na ação do

Governo Federal no “Polígono da Maconha”.


jane

iro

feve

reiro

mar

ço

abril

mai

o

junh

o

julh

o

agos

to

sete

mbr

o

outu

bro

nove

mbr

o

deze

mbr

o

Mês

Inic

idên

cia

presidente ministro governo energia saúde

FIGURA 2 - Destaque na evolução das palavras mais usadas

FIGURA 3 - Tipos de notícias e distribuição geográfica

Presidência

6,00

32,0036,00

29,0032,25

19,00

31,00 31,00

46,00

31,5025,00

62,00

jane

iro

feve

reiro

mar

ço

abril

mai

o

junh

o

julh

o

agos

to

sete

mbr

o

outu

bro

nove

mbr

o

deze

mbr

o

Economia

24,00

36,00

12,0017,00 19,50

45,00

23,00

8,00 10,7516,50

25,25 23,00

jane

iro

feve

reiro

mar

ço

abril

mai

o

junh

o

julh

o

agos

to

sete

mbr

o

outu

bro

nove

mbr

o

deze

mbr

o

FIGURA 4 - Exemplo de categorias encontradas (presidência e economia)


O Gráfico “categorias” (Figura 4) representa uma classificação subjetiva do

especialista realizada nos grupos encontrados pela ferramenta de KDT (Knowledge Discovery

in Text), através de seus centróides. A presença da categoria “presidência”, “política”,

“desenvolvimento” e “economia”, condiz com os objetivos da empresa: cobertura da

Presidência da República e dos atos e fatos da administração pública federal brasileira.

Comprovam ainda, visto terem sido obtidas com análise de suas principais palavras (assuntos

abordados), estarem de acordo com a classificação adotada pela empresa em suas editorias.

Reflete também que em certos meses, devido a fatos diversos, há congruência de notícias para

determinados assuntos. Por exemplo: (i) crise financeira e risco de inflação (aumento em

economia), (ii) campanha “antiapagão” (aumento em desenvolvimento), (iii) guerras entre

Países e atentados aos EUA (aumento em Internacional e em Segurança), (iv) greve nos

metrôs, ônibus e trens (aumento em transportes), (v) campanhas educacionais (aumento em

educação) e (vi) meteorologia, considerada de grande valor, visto que, devido a inúmeros

fatores, estes dados podem ser essenciais em regiões longínquas, onde só há recepção de tais

informações através de rádios.

IV - GESTÃO DO CONHECIMENTO E IMPACTOS DA MINERAÇÃO DE TEXTOS

Existem muitas abordagens sobre os processos de interpretação dos eventos que

ocorrem em uma organização. Daft & Weick7 apresentam o relacionamento entre os conceitos

de varredura, monitoramento, compreensão, interpretação, entendimento e aprendizado em

três estágios (Figura 5). Estes estágios constituem o processo geral de aprendizado.

FIGURA 5 - Processo geral de aprendizado

O processo inicia-se com a tarefa de observar o ambiente e fornecer dados, coletados

de sistemas ou de pessoas, para os gerentes. De posse destes dados é desenvolvido o

entendimento compartilhado, atribuindo-lhes significado. O aprendizado envolve uma nova

ação baseada na interpretação. Este processo, no qual o conhecimento é desenvolvido sobre as

relações dos resultados das ações, é definido como Aprendizado Organizacional. O processo

reinicia-se com o fornecimento de novos dados para interpretação, oriundos do ato de

aprender.


Este processo pode ser tomado como base para organizações que visam adquirir

conhecimento organizacional por meio da gestão do conhecimento. Para tanto, Stollenwerk8

apresenta um modelo genérico de gestão do conhecimento por meio do estudo dos principais

modelos existentes em gestão e planejamento estratégico, procurando extrair o essencial de

cada um deles.

4.1 MODELO GENÉRICO DE GESTÃO DO CONHECIMENTO

A Gestão do Conhecimento e o Planejamento Estratégico são alvos de diversas

abordagens, definições e percepções. Neste trabalho, selecionou-se o modelo genérico de

Stollenwerk que buscou agrupar os processos comuns por afinidade de conceitos. O modelo

resultante (Figura 6), segundo a autora, compõe os elementos e dimensões para aplicabilidade,

caracterizando a importância e conceituação da Gestão de Conhecimento nas organizações.

FIGURA 6 - Modelo genérico de gestão do conhecimento

O modelo apresentado é composto de sete processos: (i) identificação, (ii) captura,

(iii) seleção/validação, (iv) organização/modelagem, (v) compartilhamento, (vi) aplicação e

(vii) criação. Além disso, o modelo ainda inclui quatro fatores facilitadores: (i) liderança, (ii)

cultura organizacional, (iii) medição e recompensa e (iv) tecnologia de informação e

comunicação. A seguir, apresenta-se uma descrição sucinta destes processos e fatores que

compõem o modelo genérico.


4.1.1 - PROCESSOS DA GESTÃO DO CONHECIMENTO

Identificação

Este processo é considerado como estratégico para organização. Nele estão inseridos a

identificação e desenvolvimento das competências críticas (competências essenciais) para o

sucesso da organização. Estas competências devem refletir, apoiar e estarem alinhadas com a

missão, valores e visões do negócio. No enfoque gerencial são abordados conhecimentos,

tecnologias e habilidades que apóiam as competências atuais. No enfoque estratégico é visto a

relação de transferência e aquisição dos conhecimentos e habilidades necessários para apoiar

o desenvolvimento de novas competências. Suas principais etapas são: (i) lista de

competências, (ii) análise das competências necessárias e existentes, (iii) mapeamento do

conhecimento, (iv) identificação das fontes (páginas amarelas, diretório de especialistas, etc) e

(v) soluções para suprir as necessidades de competências necessárias versus as existentes.

Captura

A captura trata da aquisição de conhecimento, habilidades e experiências necessárias

para criar e manter as competências, similar a fase de criação de conhecimento. Esta captura

pode ser obtida de fontes internas tais como especialistas e profissionais seniores, sistemas de

gestão da organização, clientes e fornecedores internos, simulação e modelagem de processos,

políticas, práticas e procedimentos e treinamento interno. Como fontes externas para obtenção

deste conhecimento pode-se relacionar: publicações, serviços de consultoria, sistemas

especialistas e bancos de dados comerciais, conferências e congressos, treinamentos e

seminários, relacionamentos com clientes e fornecedores, joint ventures, benchmarking, entre

outras. Entre suas principais etapas, destacam-se: (i) identificações das fontes internas e

externas, (ii) seleção das estratégias de aquisição e (iii) aquisição, formalização e recuperação

do conhecimento.

Seleção e validação

O processo de seleção e validação visa filtrar o conhecimento gerado, recuperado ou

desenvolvido avaliando sua qualidade e o sintetizando para uso futuro. Neste processo são

consolidados pontos como: (i) relevância e confiabilidade do conhecimento, (ii) proposição de

soluções de problemas relacionados a conhecimentos conflitantes, (iii) desenvolvimento e

criação de conhecimento não disponível, (iv) redução do grau de incerteza do conhecimento

não comprovado e (v) estabelecimento de visões múltiplas quando houver solução para

conhecimentos conflitantes.


Organização e armazenagem

O processo de organização e armazenagem visa, por meio da utilização de sistemas,

garantir a recuperação, de forma rápida, fácil e correta, do conhecimento armazenado. Busca-

se formalizar o conhecimento ao máximo, objetivando otimizar sua eficácia. Suas etapas são:

(i) classificação do conhecimento, (ii) definição da arquitetura de tecnologia da informação

(TI) e (iii) criação de repositórios de conhecimentos, informações e dados.

Compartilhamento: acesso e distribuição

Neste processo, busca-se facilitar o acesso das informações e conhecimentos que

geralmente se restringem a um pequeno grupo de pessoas. A facilidade de acesso é o ponto

crítico do processo. Assim, a TI envolvida torna-se crucial. Para tanto, é necessário: (i)

identificação da necessidade de informação e de conhecimento, (ii) criação de mecanismos de

recuperação e disseminação do conhecimento, (iii) capacitação dos usuários potenciais nas

ferramentas de recuperação e (iv) disseminação automática do conhecimento em tempo hábil.

Aplicação

É vital que o conhecimento adquirido seja aplicado em situações reais da organização.

Isto pode auxiliar na busca de benefícios tais como melhoria de desempenho e conquista de

novos mercados. Neste processo, são registradas as experiências com a utilização do

conhecimento e ainda a necessidade de novos conhecimentos. Suas etapas são: (i) aplicação

do conhecimento relevante, confiável e de alto valor agregado e (ii) registro das lições

aprendidas e dos ganhos obtidos com a utilização.

Criação do conhecimento

Este processo envolve aprendizagem, externalização do conhecimento, lições

aprendidas, pensamento criativo, pesquisa, experimentação, descoberta e inovação. A criação

de um novo conhecimento pode ser potencializada com a formulação e operacionalização da

estratégia, inteligência competitiva, pesquisa e desenvolvimento, reengenharia,

benchmarking, entre outros. São etapas deste processo: (i) compartilhamento do

conhecimento tácito; (ii) criação de conceitos; (iii) justificação de conceitos; (iv) construção

de um arquétipo; e (v) difusão interativa do conhecimento (cross-leveling knowledge).

4.1.2 FATORES FACILITADORES DA GESTÃO DO CONHECIMENTO

Liderança

É papel da liderança no processo de gestão obter compromisso e direcionamento por

parte dos administradores da organização. Este processo está diretamente ligado à eficácia da


gestão do conhecimento na empresa. Nenhuma mudança significativa ocorre a menos que

parta da cúpula.

Cultura organizacional

É necessário que haja na organização uma cultura ao estímulo para cooperação.

Organizações de conhecimento são caracterizadas por terem: (i) alto desempenho, (ii) foco no

cliente, (iii) foco em melhoria e em excelência, (iv) nível elevado de competência e de

conhecimento, (v) altas taxas de aprendizagem e inovação, (vi) autogerenciamento, (vii) pró-

atividade e visão de futuro e (viii) compartilhamento de conhecimento.

Medição e avaliação

Para que o processo geral de gestão do conhecimento tenha êxito, é necessário medir e

avaliar os desempenhos, comportamentos e atitudes. Desse modo, é possível efetuar o devido

reconhecimento e recompensa dos colaboradores. Métodos de medição e acompanhamento

permitem e facilitam atingir metas com melhor definição de padrões e foco nas ações.

Tecnologia da Informação

A existência de uma TI adequada é vital para suporte à gestão de conhecimento.

Geralmente, os projetos de gestão utilizam ferramentas de TI tais como banco de dados

relacionais, Data Mining, Datawarehousing e ferramentas de busca. Consideram-se

ferramentas de compartilhamento de conhecimento tais como videoconferências, workgroups,

newgroups, e-mails, Intranet e Internet.

4.2 CONTRIBUIÇÕES DA MINERAÇÃO DE TEXTO NO MODELO DE GESTÃO DO

CONHECIMENTO DA RADIOBRÁS

Mesmo que de maneira informal e pontual, a RADIOBRÁS já aplica gestão do

conhecimento. Em relação à aplicação formal da gestão de conhecimento, tem-se a realização

de planejamento estratégico na empresa. Como referencial teórico para a presente análise,

utilizou-se o modelo genérico de Gestão do Conhecimento de Stollenwerk.

É importante salientar que a análise feita neste trabalho foi delimitada no nível

hierárquico definido pela Assessoria Administrativa da RADIOBRÁS, vinculada à diretoria

administrativa da empresa. Um dos objetivos desta pesquisa é a motivação da administração

superior da empresa em divulgar e ampliar a prática de gestão do conhecimento.

Observou-se que, através da aplicação da metodologia CRISP-DM, se chegou a dois

tipos de conhecimento: um primeiro, decorrente da aplicação da metodologia em si, e um

segundo, como conseqüência da análise dos resultados obtidos pela mineração de dados.


Em relação ao primeiro tipo de conhecimento, foram descobertos problemas de

armazenamento das matérias. Com isso, a empresa pôde direcionar esforços com objetivo de

recuperar tais informações em outras fontes, tais como: (i) backups; (ii)

repositórios/servidores antigos; (iii) arquivos em formato ‘html’ no servidor web da empresa.

Em conseqüência, novas rotinas de segurança e armazenamento foram planejadas, a fim de

resguardar, da melhor maneira, o acervo da empresa.

Quanto ao segundo tipo de conhecimento, a análise obtida com o uso do text mining,

constatou formalmente o cumprimento do papel social da RADIOBRÁS junto à sociedade.

Anteriormente, esta hipótese era tida como verdade sustentada com base na experiência de

seus dirigentes. Esse foi o principal resultado alcançado.

Além disso, foi possível mensurar, de forma mais precisa, a produção da empresa. Na

primeira estatística de produção foram avaliadas as matérias separadas por períodos mensais

de produção, informando quantidade de registros, tamanho total por mês (bytes), quantidade

média por dia de produção e tamanho médio de cada matéria (bytes). Isso possibilitou à

empresa avaliar sua produção no decorrer de um ano inteiro, podendo assim gerenciar melhor

sua logística de cobertura.

Foi obtida também a quantidade de palavras por matéria. Isso permitiu que se

determinasse a média de palavras por texto em cada mês, viabilizando o acompanhamento do

fluxo e do padrão de tamanho das notícias veiculadas, fator importante para o jornalismo.

Outro resultado significativo foi a obtenção das palavras usadas com maior freqüência.

De posse destas palavras foi possível apurar com acurácia os principais assuntos abordados

pela empresa.

A limpeza e a engenharia de dados forneceu a quantidade de matérias inválidas ou fora

do contexto. Assim, foi possível determinar o nível de incidência desses tipos indesejáveis de

matérias.

Outro produto da análise foi a distribuição geográfica das origens das matérias. Isso

permitiu à empresa comprovar a eficácia de sua cobertura jornalística no País, confrontando

assuntos, localidades e fatos de grande repercussão nacional no período analisado.

A partir do agrupamento das notícias foi possível certificar e enumerar as grandes

áreas de abrangência da empresa. A comprovação destas áreas permitiu aos administradores

certificarem o cumprimento das metas traçadas à empresa.

Os administradores da RADIOBRÁS, com os resultados obtidos neste trabalho

puderam conhecer melhor o potencial das tecnologias envolvidas no processo, e com isto

pretendem estender a abrangência do projeto. Entre os futuros passos pode-se considerar: (i)


aplicação da tecnologia nos demais produtos da empresa, (ii) estudo de uma forma de

universalizar o conhecimento adquirido na organização, (iii) revisão de alguns processos e

estudo, com maior profundidade, dos conceitos e assuntos descobertos (por exemplo,

direcionamento a produção) e (iv) melhor exploração de alguns grupos, analisando de outra

forma a categorização de assuntos.

V - CONCLUSÕES E TRABALHOS FUTUROS

A RADIOBRÁS desponta como uma empresa que busca excelência em sua

administração. A disputa para obtenção de direitos para agenciar a publicidade legal, aliada à

concorrência na cobertura jornalística do governo é exemplo de fator condicionante para tal

filosofia de administração. Na cobertura jornalística, destacam-se os serviços de televisão,

mídia impressa, notícias em tempo real, portal Internet e rádio que, por ser veículo oficial do

governo, torna suas notícias também oficiais.

Este cenário contribui para que a empresa tenha necessidade de manter-se no mercado

jornalístico como referência. Outros fatores expressos em sua missão fazem com que a

RADIOBRÁS tenha que estar em constante melhoria na prestação de seus serviços.

Conhecer os assuntos tratados pela empresa, confrontando-os com fatos e

acontecimentos mundiais permitiu aos administradores também confrontar as ações do

governo -através da veiculação jornalística - com as rotinas atuais da organização. Nesse

sentido, a nossa pesquisa evidenciou uma aderência da produção da RADIOBRÁS com os

seus objetivos. Como trabalho futuro, os resultados obtidos deverão ser alvo de crítica mais

refinada para um possível refinamento em algumas das etapas consideradas. Pretende-se,

assim, que o autoconhecimento proporcionado pelos resultados aqui apresentados seja

plenamente aproveitado em benefício da instituição.

NOTAS E REFERÊNCIAS 1 TAN, A.-H. Text mining: The state of the art and the challenges, Kent Ridge Digital Labs,

1999. Disponível em <http://textmining.krdl.org.sg>. Acesso em: 23 ago. 2001. 2 NUGGETS® KDnuggets.com (KD stands for Knowledge Discovery) is the leading source

of information on Data Mining, Web Mining, Knowledge Discovery, and Decision Support

Topics. Disponível em <http://www.kdnuggets.com/polls/data_mining_techniques.htm>.

Acesso em: 21 ago. 2001. 3 citado em AGRAWAL, R. Data Mining: Crossing the Chasm. Invited talk at the 5th ACM

SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-99),


San Diego, California, August 1999. Disponível em

<http://www.almaden.ibm.com/cs/quest/PUBS.html>. Acesso em: 15 mai. 2001. 4 CHAPMAN, P., KERBER R., CLINTON J., KHABAZA T., REINARTZ T., WIRTH R. -

The CRISP-DM Process Model. Discussion Paper, 2000. Disponível em <http://www.crisp-

dm.org>. Acesso em: 08 jul. 2001. 5 WIVES, L. K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento

de Informações não Estruturadas Usando Técnicas de Clustering. Dissertação de Mestrado,

PPGC/UFRGS, Porto Alegre (RS), 1999. 6 HALLIMAN, C. Business intelligence using smart techniques: environmental scanning

using text mining and competitor analysis using scenarios and manual simulation.

Information Uncover, Houston, 2001. 7 citado em MORESI, E. A. D. Monitoramento Ambiental. In: TARAPANOFF, Kira. (Org.)

Inteligência Organizacional e Competitiva, Brasília, Ed. UnB, p. 93-109, 2001. 8 STOLLENWERK, M. de F. L. Gestão do Conhecimento: conceitos e modelos. In:

TARAPANOFF, Kira. (Org.) Inteligência Organizacional e Competitiva, Brasília, Ed. UnB,

p. 143-163, 2001.


Anexo D -

Artigo no ICEIS 2003

Artigo: Text Mining for Organizational Intelligence:A Case Study On A Public

News Agency.

Conferência: 5th International Conference on Enterprise Information Systems ICEIS 2003

http://www.iceis.org/Cfp2003.htm

Data: 23-26/Abril/2003

Local: Angers, França

Realização: ESEO - L' École Superieur d' Électronique de l' Ouest - Angers (França),

em colaboração com a EST - Escola Superior de Tecnologia de Setúbal

(Portugal)


(i) Databases and Information Systems Integration;

(ii) Artificial Intelligence and Decision Support Systems;

(iii) Information Systems Analysis and Specification;

(iv) Software Agents and Internet Computing.

Anexo D - Artigo no ICEIS 2003 167

TEXT MINING FOR ORGANIZATIONAL INTELLIGENCE

A Case Study On A Public News Agency

Edilberto M. Silva Agência Brasil RADIOBRÁS – Empresa Brasileira de Comunicação S.A, Brasília, Brazil

Email: [email protected]

Edilson Ferneda Universidade Católica de Brasília, Brasília, Brazil


Hércules A. do Prado Empresa Brasileira de Agropecuária (Embrapa) – Cerrados / Universidade Católica de Brasília, Brasília, Brazil


Keywords: Organizacional intelligence; learning organization; CRISP-DM; KDT.

Abstract: In this article it is presented a case study on the creation of organisational intelligence in a Brazilian news agency (RADIOBRÁS) with the application of text mining tools. Departing from the question about if RADIOBRÁS is fulfilling its social role, we construct an analysis model based on the enormous volume of texts produced by its journalists. CRISP-DM method was applied including the acquisition of the news pro-duced during 2001, preparation of this material, with the cleansing and formatting of the archives, creation of a model of clustering and the generation of many views. The views had been supplied to the administra-tion of the company allowing them to develop more accurate self-knowledge. RADIOBRÁS is an important company of Brazilian State, that spreads out the acts of the public administration and needs a self evaluation based in the knowledge of its results. As any other company, RADIOBRÁS is subject to the increasing re-quirement of competitiveness imposed to the modern organisations. In this scene, the generation and retention of organisational intelligence have been recognised as a competitive differential that can lead to a more adequate management of the businesses, including its relationship with customers and in the adequacy of its structure of work. The importance of the information for the elaboration of the knowledge and, conse-quently, the synthesis of intelligence is widely recognised, and requires a proper treatment adjusted to reach insights that can lead to the activation of the mental processes that will lead to that synthesis. Many internal and external views on the organisation can be built with the use of tools for the extraction of patterns from a large amount of data, subsidising decisively the managers in the decision making process. These views, constructed to answer the specific questions, constitute knowledge in a process of Organisational Learning that influences radically the way in which the organisation is managed. The contributions of IT in this field were developed, initially, aiming at the extraction of patterns from transactional databases that contains well structured data. However, considering that most of the information in the organisations are found in textual form, recent developments allows the extraction of interesting patterns from this type of data. Some patterns extracted in our case study are: (i) the measure of production and geographic distribution of RADIOBRÁS news, (ii) a survey of the most used words, (iii) the discovery of the covering areas of the news, (iv) the evaluation of how the company is fulfilling its role, in accordance with the subjects approached in its news, and (v) the evaluation of the journalistic covering of the company.


1 INTRODUCTION

Organisations have been constantly challenged to adapt themselves to the everyday changes, consider-ing, among others, the clients expectations, competi-tive strategies, technologic advances, unstable conditions in the economy and in the society.

The decision making is an investigative and ana-lytic process that justifies the requirements of quali-tative information by the administration.

Organisations can be seen as information proc-essing systems and, therefore, have delineated in-formation in the great majority of their managerial proceedings. By consequence, the knowledge man-agement can be seen as the group of activities which aims the development of the knowledge in an or-ganisation to support conclusive processes in all levels.

In this work, we present a case study in a public news agency to create the organisational intelligence applying text mining tools. We question the fulfil-ment of the social role of the company, delineate the information environment under the focus of knowl-edge management, and generate outcomes that can lead to the synthesis of organisational knowledge.

2 MOTIVATION

According to Tan (2001), 80% of the information held in the companies are found in the form of texts. In contrast to this fact, a poll published by Kdnug-gets® (2001) shows that just 2% of all KDD (Knowledge Discovery from Databases) applications is developed using textual databases. By adding ap-plications in Web Mining, which uses marked texts,

this percentage goes up to 7%. This way, the ques-tion is: why, in such a competitive economy, the application of the Knowledge Discovery from Texts is not so usual as we could expect?

Moore (1999), in his model (Figure l), explains the adoption cycle of new technologies and dis-cusses the existence of a “chasm” between the “early adopters, visionaries” and the “early majority prag-matists” phases that a technology has to go through to become extensively applied. The motivation for this study is the recognition that text mining is ex-actly in this point.

Based on these facts, we can enumerate some hypotheses to investigate why the text mining has not crossed this chasm yet: (i) the weak usability of the available technology, (ii) few reports of success-ful experiences and (iii) inexistence of an adequate methodology to guide the users in development of text mining applications.

With respect to the first hypothesis, there are many available tools with excellent level of matur-ity, and lots of adequate functions and interfaces to the ordinary user. On the other hand, the few reports of successful applications does not justify the chasm, although is not so stimulating for the development of new applications. Thus, we decided to analyse the third hypothesis, which is concerned with the meth-odological subject.

In order to explore our hypothesis, we applied the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology (Chapman, 2001), origi-nally conceived to promote the standardization of the principles and techniques for Data Mining. It is composed by a group of phases and standard proc-esses for the management of Data Mining projects, independently of the business field and the tools in

Figure 1: Classification of clients of new technologies.


use. The six phases of CRISP-DM are: (i) business understanding, (ii) data understanding, (iii) data preparation, (iv) modelling, (v) model evaluation and (vi) application.

3 ANALYSIS OF THE PRODUCED TEXTS

We had analysed 55.635 texts, which contains about 8.700.000 words, carrying out the following pre-processing tasks: (i) acquisition and transference of the text archives corresponding to the news from the company’s archives, (ii) preparation of the text archives, (iii) statistics of the number of texts, words and archives size, (iv) data cleansing (null, invalid or incorrect format), (v) data engineering (separation of the news in independent archives), and (vi) final statistics referring to the most used words after the data cleansing.

The modelling was the next step, with the selec-tion of the technologies to be used. The clustering took place after verifying the targets of the mining process and the available texts. It consisted of gath-ering similar subjects in distinct groups, where all the subjects of same group have common character-istics. In this project, the subjects are separated into groups with all group members sharing certain words. This way, it was possible to divide a great collection of documents, isolating those belonging to the same topic in order to make it easier for the user to identify important documents.

After analysing these groups, it was possible to create and analyse hypotheses. Based on the knowl-edge of the specialist, acquired with experience with the company archives, or yet by the information through description and data summary, it was possi-ble to get important relations related to the company business. The clustering was based on the Palazzo’s proposal (Wives, 1999) and implemented in the Eurekha tool.

In order to extract knowledge, the groups were analysed and a categorisation of subjects approached by RADIOBRÁS was created. This work was made by specialists based on the methodology presented by Halliman (2001), who used not only the informa-tion related to the groups, but also the previous knowledge about the business.

After establishing the percentage of distribution of subjects in the groups, the specialists categorized the groups by month and by subject. The number of categories was made through the distribution of data based on its incidence in the period. The categorisa-tion permitted to relate the main topic covered by the company. Five big areas were created: (i) Republic Presidency – 30% (President, Fernando, Henrique,

Cardoso), (ii) Economy – 21% (Central Bank, mone-tary values, inflation, stock exchange, dollar quota-tion, interest rate, The national Treasury), (iii) Meteorology – 21% (weather forecast, cloudy, par-tially, showers), (iv) Development – 8% (electricity, monetary values, government companies names, investment and development) and (v) Politics – 7% (parties names, chamber, senate, names of ministers and senators).

There are other areas in which the incidence is not so significant but were catalogued as well. They represent 13% of the total of news. These areas and their keywords are: Education (school census, uni-versity, ENEM), Health (AIDS, HIV, clone, generic medicine, hospital, cholesterol, medicine), Interna-tional (UN, WWF, El Salvador, Mercosul, Palestine, Israel, New York , towers, The US), Security (public safety, federal police, anti-drugs), Social Welfare (INSS, retirement), Science and Technology (ge-nome, technology), Justice (court, federal, justice, judgement, Aborigene, Galdino) Environment (birds, ISO, Amazon), Agriculture (INCRA, agrarian reform, IBAMA, soil), Culture (carnival, art, mu-seum, exhibition, orchestra, beauty, festival, winter), Transportation (airports, police, bus station, subway, conference, traffic), Sport (INTECOM, ECT, soccer, Nike, CBF, sets, marathon, Vasco, Gama, Cruzeiro, Goias, Olympics) National (quality, price, meat, accident, P-36) and Labour (woman, agreement, rural, labour, infants, forum, SENAC, SEBRAE).

Many graphics were developed to analyse the categories. Some of these graphics are shown with the respective interpretation of the specialist.

Figure 2 shows the most used words during the period and its evolution during the process. This evolution shows that the constant use of words such as “president”, “government”, “minister” suggest that the subjects is related to the Presidency of the Republic and the Federal Government. The word “health” grows as the Federal Government and the Ministry of Health make public campaigns of vacci-nation and prevention of diseases such as AIDS. The reinforcement of the word “energy” referring to the aspect of the coverage made by the government in the campaign “anti-blackout”.

The graphic in Figure 3 shows that great part of the news is “flash” type (IT-Internet), which does not bring any identification about editorship (poli-tics, national economy, etc) opposing to the type of consolidated subjects (MA). It does not allow, at first, a very precise evaluation, through conventional means of distribution of editorials (research using editorship). It not difficult to notice that the enor-mous number of news comes from: Brasilia – DF, Rio de Janeiro – RJ and Sao Paulo – SP. It happens because the federal departments are concentrated in DF and Rio. This graphic also shows the state of


Pernambuco – PE as a consequence of the special attention to the “Marijuana Polygon” in that part of the country.

Figure 4 represents a subjective classification of the specialists developed in the groups found by the KDT tool. The presence of the categories “presi-dency”, “politics”, “development” and “economy” are in tune with the company aims: the coverage of the Presidency of the Republic and the acts and facts of the Federal Brazilian Public Administration. Yet, they show an agreement with the adopted clas-sification by the company in its editorials. It also reflects that in certain months there is congruence of news with certain subjects. For example: (i) finan-cial crisis and inflation risk (increase in economy), (ii) anti-blackout campaign (increase in develop-ment), (iii) wars among countries and terrorism (in-crease in International and Security), (iv) strike on the subways, buses and trains (increase in transportation), (v) educational campaigns (increase in education) and (vi) meteorology, considered of high value,, these data can be essential in far away regions, where the information just arrives through radio transmission.

4 KNOWLEDGE MANAGEMENT AND IMPACTS OF THE TEXT MINING

There are many approaches related to the interpreta-tion processes of the events that occur in an organi-sation. Draft & Weick (cited in Moresi, 2000) shows the relationship between concepts of monitoring, understanding, interpretation, understanding and learning in three stages (Figure 5). These stages con-stitute the general learning process.

The process starts by observing the environment and by supplying data, collected in systems or with people, to the managers. After that, the shared un-derstanding is developed, leading to a the meaning gain. Learning involves new action based on inter-pretation. This process, in which the knowledge is developed about the relations of the actions results, is defined as Organisational Learning. It begins again with the supply of new data for interpretation, derived from the learning act.

This process can be taken as a basis for organi-sations that aim to acquire organisational knowledge through the knowledge management. This way, Stol-lenwerk (2001) developed a generic model of knowledge management by studying the most im-portant models related to management and strategic planning, extracting the essential from each one.

Janu

ary

Febr

uary

Mar

ch

Apr

il

May

June

July

Augu

st

Sept

embe

r

Oct

ober

Nov

embe

r

Dec

embe

r

Month

Inci

denc

e

minister president government federal energy

Figure 2. Most used words


4.1 Generic Model Of Knowledge Management

The knowledge management and the strategic plan-ning are targeted by many approaches definitions and perceptions. In this work, the Stollenwerk ge-neric model was selected to provide the gathering of common processes considering the similarities among the concepts.

This model is made up of seven processes: (i) identification, (ii) capture, (iii) selection/validity, (iv) organisation/modelling, (v) sharing, (vi) applica-tion and (vii) creation. Besides that, the model in-cludes four other facilitators: (i) leadership, (ii) organisational culture, (iii) measuring and compen-sation and (iv) technology of information and communication. In this work we show a real description of these processes and factors that make up the generic model.

4.1.1 Knowledge Management Processes

Identification This process is considered as strategic for the or-ganisation. It contains the identification and devel-opment of the critic competencies (essential competencies) aiming to the success of the organisa-

tion. These competencies must reflect, give support and be paired with the mission, values and business views. In the managerial focus are included knowl-edge, technologies and skills that give support for new competencies. The strategic focus shows the relation of transference and acquisition of the knowledge and skills required to support the devel-opment of new competencies. Its main steps are: (i) list of competencies, (ii) analysis of the necessary and existent competencies, (iii) knowledge mapping, (iv) identification of sources (yellow pages, special-ists directory, etc) and (v) solutions to supply the necessity of competencies versus the existent ones.

Capture

The capture aims to the knowledge acquisition, skills and necessary experiences to create and main-tain the competencies, similar to the phase of the knowledge creation. The capture can be performed over internal sources such as senior specialists and professionals, management systems, clients and sup-pliers, simulation and process modelling, policies, proceedings practices and internal training. The ex-ternal sources can be: publishing, consultant ser-vices, specialist systems and commercial databases, conferences and congresses, training and seminaries, relationship with clients and suppliers, joint ven-tures, benchmarking, among others. The main steps are: (i) identification of internal and external sources, (ii) selection of the strategies for acquisition

Figure 3. News types and geographic distribution

Figure 4. Examples of categories


and (iii) acquisition, formalisation and knowledge recovery.

Selection And Validity

The process of selection and validity aims to filter the generated knowledge, recovered or developed, by evaluating its quality and summarising it for fu-ture use. This process consolidates issues such as: (i) relevancy and dependability of the knowledge, (ii) proposal of solutions to problems related to conflict-ing knowledge, (iii) development and creation of unavailable knowledge, (iv) decrease of the degree of uncertainty of the unproven knowledge and (v) establishment of multiple views when there are no solutions to conflicting knowledge. Organisation and Storage The process of organisation and storage aims to guarantee the quick and correct recovery of the stored knowledge. It aims to formalise the knowl-edge, in order to optimise its efficiency. It’s made up of the following steps: (i) knowledge classification, (ii) definition of the architecture of technology of the information (TI) and (iii) creation of replacement of knowledge information and data.

Sharing: Access And Distribution

The aiming of this process is to make easy the ac-cess to information e knowledge that are usually restricted to a small number of people. The easy way of access is the critic point of the process. This way, the TI involved becomes crucial, being necessary: (i) identification of the information and knowledge re-quirements, (ii) creation of mechanisms of knowl-edge recovering and dissemination, (iii) qualifying main users with the recovery tools and (iv) auto-matic dissemination of the knowledge just in time.

Application

The acquired knowledge should be applied in real situations in the organisation. It can help in the search for benefits such as performance improve-ment and the conquest of new markets. This process records the experiences with the use of knowledge and the need for new knowledge. The steps are: (i) application of relevant, reliable and high aggregated value knowledge and (ii) record of learned lessons and the advantages with its use.

Figure 5. General learning process

Figure 6. Generic model of knowledge management


Creation of The Knowledge

This process involves learning, knowledge externali-sation, learned lessons, creative thought, research, experiments, discovery and innovation. The creation of new knowledge can be improved with the formu-lation and operation of the strategy, competitive in-telligence, research and development, re-engineering, benchmarking, among others. The steps of this process are: (i) sharing of the tacit knowl-edge, (ii) concepts creation, (iii concepts explana-tion, (iv) building of an archetype, and (v) cross-levelling knowledge.

4.1.2 Factors And Facilitators of The Knowledge Management

Leadership

The role of the leadership in the management proc-ess is to get commitment and direction from the or-ganisation managers. This process is tightly linked to the efficiency of the knowledge management in the company. No significant change will happen, unless it comes from the staff.

Organisational Culture

It is essential to have in the organisation culture to stimulate the co-operation. Knowledge-based or-ganisations are characterised as having: (i) high per-formance, (ii) focus on the client, (iii) focus on improvement and on excellency, (iv) high level of competence and knowledge, (v) high rate of learning and innovation, (vi) self management, (vii) pro-activity and view of the future and (viii) knowledge sharing.

Mediation And Evaluation

As a requirement to the success of the knowledge management process it is necessary to measure and evaluate performance, behaviours and attitudes. This way it is possible to recognise and reward the co-workers. Methods of measurement and tracking al-low and make it easy to reach goals with better defi-nition of standards e focus on the actions.

Information Technology

The existence of an adequate IT is vital to support the knowledge management. The projects of man-agement usually adopt tools of IT such as relational databases, data mining, data warehousing and search tools. Video conferences, workgroups, newsgroups, e-mails, intranet and Internet are considered tools of sharing.

4.2 Contributions of Text Mining on the Knowledge Management Model of RADIOBRÁS

Even in an informal and narrow way, RADIOBRÁS already applies the knowledge management. When applying it formally, there is the strategic planning accomplishment in the company. As a theoretical referential to this analysis, the Stollenwerk generic knowledge management model was used.

It is important to state that the analysis made in this work was delimited into the hierarchy defined by the RADIOBRÁS advisory committee, linked to the managerial board of the company. One of the aims of this research is the motivation of the high administration of the company to publish and spread out the practice of the knowledge management.

We have reached two types of knowledge by us-ing the CRISP-DM methodology. The first came from the methodology application itself, and the second as a consequence of the analysis of the re-sults reached by mining process.

Problems with the storage of subjects were de-tected in the first type of knowledge and so the com-pany directed efforts to recover information in other sources such as: (i) backups, (ii) repository/old sup-pliers, (iii) files in the format `html` in the company web server. Then new routines of safety and storage were planned in order to save the archives in the best way possible.

The second type of knowledge showed that RADIOBRÁS has fulfilled its social role in the presence of the society. Previously, this hypothesis were accepted based only in the experience of the company leaders. This was an important result from this research.

Besides that, it was possible to measure, con-cisely, the company outcomes. In the first outcomes statistic the subjects were evaluated by month exhib-iting the number of records, the size (bytes), daily average output and size of each subject (bytes). This way, it was possible to evaluate the outcomes in the whole year and improve the management in its cov-erage logistic.

The number of words were counted in order to determine the word average by text in each month. It also allowed to keep track of the flow and pattern of the published news, a very important factor to the journalism.

The most used words were also detected as a very important result of this work. These words and their co-relations show exactly the main topics cov-ered by the company.

The data cleansing and engineering produced the amount of invalid or out of context subjects, and


allowed to determine the level of incidence of this undesirable kind of subjects.

The geographic distribution of subjects sources was also analysed, allowing the company to check the efficacy of its journalistic coverage. The subjects were co-related and the places and facts of great national repercussion analysed.

By clustering the news we could verify and enu-merate the great areas covered by the company. The verification of these areas allowed the administrators to check the accomplishment of the goals company.

Based on the results reached on this work, RADIOBRÁS managers could become aware about the power of the technologies involved in the proc-ess and now they intend to extend the project scope.

The next steps are: (i) application of the technol-ogy on the others products of the company, (ii) study of a way to universalise the knowledge acquired by the organisation, (iii) review of some projects and study, in a deeper way, of the concepts and subjects discovered (for example the direction given to the output) and (iv) improve the exploration of some groups, analysing in a different way the categories of subjects.

5 CONCLUSIONS AND FUTURE DEVELOPMENT

RADIOBRÁS arise as a company which search for excellence in its administration. The competition to get the rights to manage the official publishing linked to the competition in the journalistic coverage of the government are the main factors that guide its administration. The journalistic coverage includes television, printed media, news in real time, Internet and radio. Broadcasting stations are official, so are the news transmitted by them.

This scenery is positive since the company has the need to keep in the market as reference. Know-ing the subjects covered by the company and com-paring them to the world happenings has allowed to the managers to check the government actions – through the journalistic coverage - with the current routines of the organisation. In this sense, our work has shown an adherence between the RADIOBRÁS outcomes and its targets. As future work, the posi-tive results will be refined, being targeted by more accurate analysis, in order to improvement some important steps in the overall process. The self-knowledge provided by the results should be highly considered and used to bring benefit to the institu-tion.

REFERENCES

Agrawal, R., 1999. Data Mining: Crossing the Chasm. Invited talk at the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Min-ing (KDD–99), San Diego, California. http://www. almaden.ibm.com/cs/quest/PUBS.html. (05/15/01).

Chapman, P., Kerber R., Clinton J., Khabaza T., Reinartz t., Wirth R., 2000. The CRISP-DM Process Model. http://www.crisp–dm.org. (07/08/01).

Halliman, C., 2001. Business intelligence using smart techniques: environmental scanning using text mining and competitor analysis using scenarios and manual simulation. Information Uncover, Houston.

Moore, G.A., McKenna, R., 1999. Crossing the Chasm: Marketing and Selling High-Tech Products to Main-stream Customers, HarperBusiness,

Moresi, E.A.D., 2001 Monitoramento Ambiental. In: Tarapanoff, Kira. (Org.) Inteligência Organizacional e Competitiva, Brasília, Ed. UnB, p. 93-109.

Nuggets®, 2001 KDnuggets.com (KD stands for Knowl-edge Discovery) is the leading source of information on Data Mining, Web mining, Knowledge Discovery, and Decision Support Topics. http://www.kdnuggets. com/polls/data_mining_techniques.htm. (08/21/01).

Stollenwerk, M.F.L., (2001). Gestão do Conhecimento: conceitos e modelos. In: Tarapanoff, Kira (Org.) Inte-ligência Organizacional e Competitiva, Brasília, Ed. UnB, p. 143-163.

Tan, A.-H., 2001. Text mining: The state of the art and the challenges, Kent Ridge Digital Labs, 1999. http://textmining.krdl.org.sg. (08/23/01).

Wives, L. K., 1999. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informa-ções não Estruturadas Usando Técnicas de Clustering. MSc Thesis, PPGC/UFRGS, Porto Alegre (Brazil). (in portuguese)

Documents

Descoberta de Conhecimento com o uso de Text Mining: Cruzando