Upload
trinhmien
View
219
Download
4
Embed Size (px)
Citation preview
UUNNIIVVEERRSSIIDDAADDEE CCAATTÓÓLLIICCAA DDEE BBRRAASSÍÍLLIIAA Pró-Reitoria de Pós-Graduação e Pesquisa
Programa de Pós-Graduação Stricto Sensu em Informática Mestrado em Gestão do Conhecimento e da Tecnologia da Informação
Descoberta de Conhecimento com o uso de Text Mining: Cruzando o Abismo de
Moore
Edilberto Magalhães Silva
Brasília-DF 2002
Edilberto Magalhães Silva
Descoberta de Conhecimento com o uso de Text Mining: Cruzando o Abismo de
Moore
Prof. Dr. Hércules Antônio do Prado e
Prof. Dr. Edilson Ferneda Orientadores
Brasília-DF 2002
Dissertação apresentada ao Programa dePós-Graduação – Mestrado Stricto Sensu emGestão do Conhecimento e da Tecnologia daInformação da Universidade Católica de Brasília,como requisito parcial para obtenção do Título deMestre.
ii
Ficha Catalográfica
S586d Silva, Edilberto Magalhães
Descoberta de conhecimento com o uso de text mining: cruzando o abismode Moore / Edilberto Magalhães Silva. – Brasília, 2002.
174 p. Orientadores: Prof. Dr. Hércules Antônio do Prado e Prof. Dr. Edilson Ferneda. Dissertação (mestrado) – Universidade Católica de Brasília, 2002.
1. Inteligência organizacional. 2. Text mining. 3. CRISP-DM.4. KDT. 5. Aprendizagem organizacional. I. Título.
CDU 004.8
iii
Termo de Aprovação
Dissertação defendida e aprovada em 19 de dezembro de 2002, pela banca examinadora
constituída pelos professores:
______________________________________________ Prof. Dr. Hércules Antônio do Prado - Orientador
______________________________________________ Prof. Dr. Edilson Ferneda - Orientador
______________________________________________ Profa. Dra. Kira Maria Antonia Tarapanoff
______________________________________________ Prof. Dr. Eduardo Amadeu Dutra Moresi
iv
Dedicatória
A meus pais, Paulo Roberto e Maria de Fátima pelo apoio incondicional, pelo
amor, doação e educação dados ao filho que os ama muito.
A meus familiares, em especial, minhas irmãs, Cristiane e Ana Paula, pela
cooperação e privação das horas de convívio tão importantes para mim em decorrência da
dedicação a meus estudos.
A Júnior, Arthur, Eduardo, Marcos Vinnícius, Ana Clara e Lívia Maria os quais
me sinto honrado em tê-los como afilhados.
A meus avós in memorian.
v
Agradecimentos
A Deus que por tantos motivos reclamaria outra dissertação.
Aos administradores da RADIOBRÁS, Srs. Carlos Zarur e Luiz Antônio Duarte,
pelo apoio, em especial, ao Sr. José Roberto Barrozo pela amizade, conselhos e
gerenciamento no estudo de caso.
Aos professores Hércules Prado e Edílson Ferneda pela amizade, orientação e
sugestões, indispensáveis para a elaboração desta pesquisa
A ajuda valiosa de Leandro Wives pela disponibilização dos estudos realizados
na área de DCT e pelo fornecimento da ferramenta de mineração de texto Eurekha.
Ao Departamento de Ciência da Computação na pessoa do prof. Marcelo
Ladeira, que franqueou minha participação no curso Mineração de Dados oferecido, no
âmbito do projeto SARA - Saúde Apoiada em Raciocínio Automatizado (cooperação
UFRGS/UnB/UCB). A participação no referido curso foi de vital importância para o
desenvolvimento da aplicação de mineração de texto contida nesta dissertação.
A realização deste trabalho só foi possível graças à colaboração direta ou
indireta de várias pessoas, nossa gratidão a todas elas.
vi
Epígrafe
O Senhor é meu pastor, nada me faltará. Deitar-me faz em verdes pastos, guia-me mansamente a águas tranqüilas. Refrigera minha alma;
guia-me pelas veredas da justiça, por amor do seu nome. (Salmos 23; 1-3).
vii
Sumário
Lista de Figuras ...............................................................................................................................................x
Lista de Tabelas ..............................................................................................................................................xi
Lista de Abreviaturas ....................................................................................................................................xii
Resumo ..........................................................................................................................................................xiii
Abstract .........................................................................................................................................................xiv
Capítulo I - Introdução ................................................................................................................................15
Capítulo II - Apresentação do Problema.....................................................................................................19
2.1 - Importância das Informações Textuais nas Organizações ..................................................................20 2.2 - Uso de mineração de texto no mundo.................................................................................................21 2.3 - ‘Abismo’ de Moore ............................................................................................................................21 2.4 - Colocação do Problema ......................................................................................................................23 2.5 - Objetivos.............................................................................................................................................23 2.6 - Caracterização e Articulação da Pesquisa...........................................................................................24
Capítulo III - O Estado da Arte da DCT .....................................................................................................25
3.1 - KDT - Knowledge Discovery in Text.................................................................................................25 3.1.1 – Extração da Informação.............................................................................................................26 3.1.2 – Recuperação da Informação ......................................................................................................28
3.2 - Tecnologias para descoberta do conhecimento em Texto ..................................................................33 3.2.1 - Descobertas Reativa e Proativa..................................................................................................33 3.2.2 - Inteligência Competitiva.............................................................................................................35 3.2.3 - Tipos de Descoberta ...................................................................................................................36
3.3 - Diferenças entre Mineração de texto e Ferramentas de Busca ...........................................................37 3.4 - Síntese do Capítulo.............................................................................................................................39
Capítulo IV - Metodologia ............................................................................................................................42
4.1 - CRISP-DM .........................................................................................................................................42 4.1.1 - Definição e Entendimento do problema......................................................................................46 4.1.2 - Obtenção e Extração dos Dados.................................................................................................46 4.1.3 - Limpeza e Exploração dos Dados...............................................................................................47
viii
4.1.4 - Engenharia dos Dados................................................................................................................47 4.1.5 - Engenharia do algoritmo............................................................................................................48 4.1.6 – Mineração ..................................................................................................................................48 4.1.7 - Interpretação e Validação dos resultados ..................................................................................49 4.1.8 - Refinamento dos Dados e do Problema......................................................................................50
4.2 - Abordagens para DCT ........................................................................................................................50 4.2.1 - Abordagem de Palazzo ...............................................................................................................51 4.2.2 - Abordagem de Ah-Hwee Tan ......................................................................................................52 4.2.3 - Abordagem de Halliman .............................................................................................................53
4.3 - Abordagem Utilizada das Estratégias de DCT ...................................................................................55 4.4 - Síntese do Capítulo.............................................................................................................................56
Capítulo V - Compreensão do Negócio e Pré-Processamento....................................................................57
5.1 - Compreensão do Negócio...................................................................................................................57 5.1.1 - Objetivo do Negócio ...................................................................................................................58 5.1.2 - Avaliação da Situação ................................................................................................................61 5.1.3 - Objetivos da Mineração de Dados..............................................................................................67 5.1.4 - Plano do Projeto.........................................................................................................................68
5.2 - Entendimento dos Dados ....................................................................................................................71 5.2.1 - Relatório Inicial da Coleção.......................................................................................................71 5.2.2 - Descrição dos Dados ..................................................................................................................73 5.2.3 - Exploração dos Dados................................................................................................................74 5.2.4 - Qualidade dos Dados..................................................................................................................78
5.3 - Preparação dos Dados.........................................................................................................................79 5.3.1 - Seleção dos Dados ......................................................................................................................79 5.3.2 - Limpeza dos Dados.....................................................................................................................81 5.3.3 - Engenharia dos Dados................................................................................................................83 5.3.4 - Formatação dos Dados...............................................................................................................86
5.4 - Síntese do Capítulo.............................................................................................................................87
Capítulo VI - Modelagem..............................................................................................................................88
6.1 - Seleção da Técnica .............................................................................................................................88 6.1.1 - Descrição dos Dados e Sumarização..........................................................................................89 6.1.2 - Segmentação ...............................................................................................................................89
6.2 - Teste do modelo..................................................................................................................................91 6.3 - Modelo................................................................................................................................................92 6.4 - Avaliação Técnica ..............................................................................................................................96 6.5 - Síntese do Capítulo.............................................................................................................................98
ix
Capítulo VII - Pós-Processamento ...............................................................................................................99
7.1 - Avaliação............................................................................................................................................99 7.1.1 - Avaliação do Modelo ................................................................................................................100 7.1.2 - Revisão dos Processos ..............................................................................................................110 7.1.3 - Próximos passos .......................................................................................................................112
7.2 - Aplicação..........................................................................................................................................112 7.2.1 - Planejamento da Aplicação ......................................................................................................112 7.2.2 - Produção do relatório final ......................................................................................................113 7.2.3 - Revisão de projeto ....................................................................................................................114
7.3 - Síntese do Capítulo...........................................................................................................................115
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento ..........................116
8.1 - Gestão do Conhecimento e Impactos da Mineração de Textos ........................................................117 8.2 - Modelo Genérico de Gestão do Conhecimento ................................................................................118
8.2.1 - Processos da Gestão do Conhecimento ....................................................................................119 8.2.2 - Fatores Facilitadores da Gestão do Conhecimento .................................................................122
8.3 - Contribuições da Mineração de Texto no Modelo de Gestão do Conhecimento..............................123 8.3.1 - Na Gestão da Empresa .............................................................................................................124 8.3.2 - No Modelo Genérico de Gestão do Conhecimento...................................................................125
8.4 - Síntese do Capítulo...........................................................................................................................126
Capítulo IX - Conclusões e Trabalhos Futuros.........................................................................................127
Capítulo X - Referências Bibliográficas.....................................................................................................131
Anexo A - Autorização e Avaliação da RADIOBRÁS.............................................................................134
Anexo B - Artigo no DM 2002.....................................................................................................................138
Anexo C - Artigo no KM Brasil 2002.........................................................................................................149
Anexo D - Artigo no ICEIS 2003 ................................................................................................................166
x
Lista de Figuras
Figura 2.1 - Comparação de uso entre técnicas de mineração. ........................................................................21 Figura 2.2 - Ciclo de vida de adoção de tecnologia. ........................................................................................22 Figura 3.1 - Etapas em uma indexação automática..........................................................................................31 Figura 4.1 - Ciclo de vida de DCBD segundo a CRISP-DM...........................................................................44 Figura 4.2 - Processo completo da DCBD.......................................................................................................45 Figura 4.3 - Abordagem de Palazzo.................................................................................................................51 Figura 4.4 - Abordagem de mineração de texto segundo Ah-Hwee Tan. ........................................................52 Figura 4.5 - Abordagem de Halliman. .............................................................................................................54 Figura 5.1 – Plano do projeto. .........................................................................................................................68 Figura 5.2 - Interface do Eurekha. ...................................................................................................................70 Figura 5.3 - Produção Mensal em 2001. ..........................................................................................................73 Figura 5.4 - Formato-padrão do conteúdo textos.............................................................................................74 Figura 5.5 - Padrão de nomenclatura do arquivo-texto....................................................................................74 Figura 5.6 - Incidência de palavras por mês (a)...............................................................................................76 Figura 5.7 - Incidência de palavras por mês (b)...............................................................................................76 Figura 5.8 - Utilitário de pesquisa textual........................................................................................................82 Figura 5.9 - Ciclo das tarefas da engenharia de dados.....................................................................................83 Figura 5.10 - Nomenclatura dos arquivos de C&T depois da engenharia dos dados.......................................85 Figura 5.11 - Nomenclatura depois da formatação dos textos. ........................................................................86 Figura 6.1 - Metodologia de agrupamento para DCT......................................................................................91 Figura 6.2 - Resultado do agrupamento de dezembro/01. ...............................................................................97 Figura 7.1 - Resultado da categorização de dezembro/01..............................................................................102 Figura 7.2 - Grandes assuntos abordados pelas notícias. ...............................................................................102 Figura 7.3 - Evolução na incidência das principais palavras em 2001. .........................................................103 Figura 7.4 - Palavras mais usadas..................................................................................................................104 Figura 7.5 - Distribuição de tipos de notícias. ...............................................................................................105 Figura 7.6 - Distribuição geográfica no Brasil...............................................................................................105 Figura 7.7 – Categorias das notícias no período ............................................................................................107 Figura 7.8 - Categorias das notícias por mês (a)............................................................................................108 Figura 7.8 - Categorias das notícias por mês (b)............................................................................................109 Figura 7.9 – Síntese metodológica do estudo de caso....................................................................................110 Figura 8.1 - Processo geral de aprendizado. ..................................................................................................118 Figura 8.2 - Modelo genérico de gestão do conhecimento. ...........................................................................119
xi
Lista de Tabelas
Tabela 5.1 - Resumo da importação dos dados................................................................................................72
Tabela 5.2 - Resumo dos dados importados. ...................................................................................................73
Tabela 5.3 - Total e média de palavras por texto. ............................................................................................75
Tabela 5.4 - Palavras com maior incidência por mês em 2001........................................................................75
Tabela 5.5 - Resultado da limpeza de dados....................................................................................................82
Tabela 6.1 - Resultados dos testes de algoritmos x nível de GSM. .................................................................94
Tabela 6.2 - Tempos de execução das tarefas..................................................................................................96
xii
Lista de Abreviaturas
ASC II - American Standard Code for Information Interchange
C&T - Ciência e Tecnologia
CRISP-DM - CRoss-Industry Standard Process for Data Mining
DCBD - Descoberta de Conhecimento em Bases de Dados
DCT - Descoberta de Conhecimento em Texto
DM - Data Mining ou Mineração de Dados
GSM - Grau de Similaridade Mínimo
IE - Information Extraction ou Extração da Informação
IR - Information Retrieval ou Recuperação da Informação
KDD - Knowledge Discovery in Databases
KDT - Knowledge Discovery in Text
xiii
Resumo
Desde o final dos anos 80, um grande esforço de pesquisa vem sendo
desenvolvido com o intuito de se extrair padrões úteis e desconhecidos a partir do grande
volume de dados existente nas organizações. A primeira vertente de pesquisa explorou,
principalmente, dados estruturados. Mais recentemente, passou-se a dar mais atenção a dados
na forma de texto. Entretanto, passados alguns anos de pesquisa em mineração de texto,
observa-se que esse tipo de tecnologia ainda é pouco explorado. Considerando que a maior
parte das informações disponíveis está em forma textual e que nessa forma podem estar
escondidos padrões importantes questiona-se o porquê da pouca utilização de mineração de
texto. Para tentar responder essa questão, foram enumeradas como possíveis causas para a
carência de aplicações de text mining: (a) pouca usabilidade das ferramentas; (b) existência de
poucos relatos de experiências de sucesso; e (c) falta de uma metodologia adequada. Neste
trabalho investigou-se o item (c) por meio de um estudo de caso real em uma empresa pública
de jornalismo (RADIOBRÁS). Desenvolveu-se uma aplicação de text mining sobre cerca de
55.000 notícias por ela produzida em 2001. Partindo da análise dos resultados obtidos
procurou-se demonstrar que é possível com o KDT – Knowledge Discovery in Text obter
vantagens competitivas, apontando a existência de alternativas metodológicas adequadas para
a superação do chamado ‘abismo’ de Moore. Foram agregadas várias metodologias para KDT
juntamente com a CRISP-DM, originalmente desenvolvida para KDD – Knowledge Discovery
in Database, verificando-se que é possível, na prática, reverter conhecimentos adquiridos com
o KDT em benefício do melhoramento da eficiência organizacional.
Palavras-chave: Inteligência organizacional; Text Mining; CRISP-DM; KDT;
Aprendizagem organizacional.
xiv
Abstract Since the late 80s a great effort has been developed aiming to the acquisition of
previously unknown and useful patterns from the huge amount of data existing in the
organizations. The initial focus of this research explored chiefly structured data. Most
recently, attention has been given to data in the form of texts. After some years researching the
text mining it is possible to assert that this kind of technology is still little explored.
Considering the major part of the available information is in textual format and that it hides
important patterns, the question is: why is text mining not properly explored? Trying to
answer this question, some possible reasons were enumerated, such as: (a) weak usability of
the tools; (b) non-existence of reports about successful experiences; and (c) lack of adequate
methodology. This work investigated the item (c) through a case study on a real situation at
RADIOBRAS, a Brazilian public journalism company. The Text Mining application was
developed over 55,000 news in 2001. Considering the results, it is possible to show that,
through the KDT - Knowledge Discovery in Text, it is possible to get competitive advantages,
showing the existence of satisfactory methodological alternatives to overcome the “Chasm of
Moore”. Besides the usual KDT techniques, other methodologies were applied. For example,
CRISP-DM, originally developed to KDD (Knowledge Discovery in Database), guided the
development process. By this approach, we could verify that it is possible to consider critically
the acquired knowledge with KDT in order to benefit the improvement of the organizational
efficiency.
Keywords: Organizational Intelligence; Text Mining; CRISP-DM; KDT;
Organizational Learning;
Capítulo I -
Introdução
Sendo constantemente desafiadas a se adaptarem às mudanças ambientais, as
organizações estão levando em consideração, entre outros, as expectativas dos clientes, as es-
tratégias competitivas, os avanços tecnológicos, as condições instáveis na economia e na
sociedade.
As organizações podem ser vistas como sistemas de processamento de informa-
ções, alinhavadas na maioria de seus procedimentos administrativos. Assim, a Gestão do Co-
nhecimento pode, por sua vez, ser vista como o conjunto de atividades que busca desenvolver
e controlar todo tipo de conhecimento em uma organização a fim de apoiar seu processo deci-
sório em todos os níveis.
Nesse cenário, a geração e a fixação da inteligência organizacional1 têm-se reve-
lado como diferenciais competitivos que podem levar à gestão mais ágil dos negócios em di-
versos sentidos, não só no relacionamento da organização com os seus clientes como também
na adequação da sua estrutura de trabalho, entre outros.
1 “A inteligência organizacional é um ciclo contínuo de atividades que incluem o sensoriamento do ambiente, o desenvolvimento de percepções e a criação de significados por intermédio de interpretação, utilizando a memória sobre as experiências passadas e escolhendo ações baseadas nas interpretações desenvolvidas”. (Choo apud Moresi, 2001a, p.44)
“A Inteligência organizacional refere-se à capacidade de uma corporação como um todo de reunir informação, inovar, criar conhecimento e atuar efetivamente baseada no conhecimento que ela gerou”. (McMaster apud Moresi, 2001a, p.44)
Capítulo I - Introdução 16
A importância da informação para a elaboração do conhecimento e, conseqüen-
temente, para a síntese da inteligência é largamente reconhecida, requerendo tratamento ade-
quado para obtenção de insights que levem à ativação dos processos mentais, atingindo assim
tal síntese.
Desde o final dos anos 80, pesquisadores em “DCBD - Descoberta de Conheci-
mento em Banco de Dados” vêm dedicando intensivos esforços na disponibilização de ferra-
mentas para a extração de padrões desconhecidos a partir de bancos de dados estruturados,
procurando fazer que essa tarefa seja a mais automatizada possível. Nesse sentido, importantes
avanços permitiram que com o uso da tecnologia fosse possível atravessar o usual “abismo”
existente entre a universidade e o mercado, interessado especialmente em ferramentas para
aplicação direta no processo de tomada de decisão e conseqüente aumento de agilidade e com-
petitividade.
Considerando que a tomada de decisão é um processo de investigação, de refle-
xão e de análise, justifica-se a necessidade de se obter informação qualitativa que contenha
alto valor agregado. Dentre as ferramentas disponíveis para isso destacam-se, aqui, as de Mi-
neração de Textos (Text Mining). Nota-se, no entanto, que tais ferramentas não têm apresenta-
do um grau de utilização compatível com seu potencial de aplicação.
Neste trabalho, realizou-se um estudo de caso em uma empresa pública de jorna-
lismo - RADIOBRÁS - para a criação de inteligência organizacional com a aplicação de fer-
ramentas de mineração de texto. Para isso, baseada no questionamento do cumprimento do
papel social da empresa, procurou-se delinear o ambiente informacional sob o foco do modelo
genérico de gestão do conhecimento com análise de padrões extraídos do enorme volume de
textos produzidos por seus jornalistas.
Capítulo I - Introdução 17
Considerando que a RADIOBRÁS é uma importante empresa do Estado,
detendo papel relevante na divulgação dos atos da administração pública do País, fica evidente
a necessidade de uma avaliação embasada no conhecimento sobre os resultados de suas ativi-
dades, pois, como qualquer outra empresa, está sujeita à crescente exigência de competitivida-
de imposta às organizações modernas.
Na RADIOBRÁS, procurou-se desenvolver inteligência organizacional com a
aplicação de ferramentas de mineração de texto. Para isso, promoveu-se a análise do ambiente
informacional por meio de padrões extraídos do enorme volume de textos produzidos na orga-
nização, na veiculação de notícias sobre o governo federal brasileiro.
Para testar as hipóteses, aplicou-se a CRISP-DM (CRoss-Industry Standard
Process for Data Mining), metodologia originalmente concebida para DCBD. Na aplicação
dessa metodologia, foram utilizadas as matérias jornalísticas produzidas ao longo de 2001.
Diversas visões, interna e externa, sobre os rumos da organização foram obtidas
por meio de ferramentas para a extração de padrões em grandes quantidades de dados,
subsidiando os gestores na tomada de decisões. Essas visões, construídas para responder a
questões específicas, formaram um acervo de conhecimento num processo de aprendizagem
organizacional que gerou desdobramentos nos modos de gestão da organização.
Os resultados foram encaminhados à administração da empresa, permitindo in-
terpretações úteis para o conhecimento da organização.
Como nas organizações, a maior parte das informações encontra-se na forma
textual, desenvolvimentos recentes permitiram a extração de padrões relevantes desse tipo de
dados, como por exemplo, no presente caso: (i) mensuração da produção e distribuição
geográfica de suas notícias; (ii) levantamento das palavras mais usadas; (iii) identificação das
áreas de abrangência das notícias; (iv) avaliação do cumprimento do papel da empresa, de
Capítulo I - Introdução 18
acordo com os assuntos abordados em suas notícias; e (v) avaliação da cobertura jornalística
da empresa.
A apresentação do problema, abordando as motivações para desenvolvimento do
projeto, foi feita no Capítulo II. No Capítulo III, fez-se uma explanação sobre o estado da arte
da DCT, enfocando as tecnologias mais recentes sobre o assunto. As metodologias utilizadas
na pesquisa foram abordadas no Capítulo IV.
O estudo de caso aplicado na RADIOBRÁS, para melhor distribuição, foi divi-
dido em três capítulos. No Capítulo V, discorreu-se sobre (i) compreensão do negócio,
(ii) entendimento dos dados e (iii) preparação dos dados. No Capítulo VI, abordou-se a mode-
lagem do projeto, incluindo a escolha e a definição das técnicas utilizadas no projeto. No Capí-
tulo VII, discorreu-se sobre as etapas de avaliação e aplicação do conhecimento, geradas no
estudo de caso.
No Capítulo VIII, foram abordados os impactos do conhecimento adquirido na
gestão do conhecimento com base nas informações obtidas do estudo de caso.
Finalmente, no Capítulo IX, apresentaram-se as contribuições deste trabalho, os
problemas encontrados, além de sugerir seus desdobramentos na forma de trabalhos futuros.
Capítulo II -
Apresentação do Problema
Vive-se em um mundo onde a mudança é a regra, o que implica uma constante
necessidade de adaptação e conseqüente busca por recursos de modo a superar as dificuldades
inerentes a tal adaptação.
Essa necessidade de adequação e o curto tempo de resposta requerido pelas
situações de mercado passaram a influenciar diretamente o funcionamento da organização que
deixa de agir somente em relação à sua posição junto aos seus concorrentes para atender tam-
bém ao seu planejamento estratégico.
No mundo moderno, a apropriação do conhecimento tem sido fator
imprescindível para a sobrevivência das empresas. Neste sentido, observa-se que grande parte
das informações encontra-se em forma não-estruturada. No entanto, poucas aplicações são
dirigidas a tal tipo de informação. Assim sendo, desta forma, questiona-se o porquê de as
vantagens das tecnologias de manipulação de informações não-estruturadas ( tais como
textos), não serem revertidas em benefício do melhoramento da eficiência organizacional tanto
quanto esperado.
Neste trabalho, enumeram-se algumas das possíveis razões para a existência de
um “abismo” entre a fase de desenvolvimento e a adoção de tecnologias de Mineração de Tex-
tos.
Capítulo II - Apresentação do Problema e Motivação 20
2.1 - Importância das Informações Textuais nas Organizações A tarefa de suprir os administradores com os conhecimentos estratégicos em
tempo hábil tem-se tornado mais difícil devido, entre outros fatores, ao volume da informação
disponível. Estudiosos dessa área afirmam que nos anos de 2001 e 2002 a “quantidade de in-
formação produzida será maior que toda a informação já criada pela humanidade até hoje” (U-
niversity of California, 2000).
Segundo Ah-Hwee Tan (1999), 80% das informações de uma organização en-
contram-se em forma textual apontando para a necessidade de extratores de conhecimento em
bases textuais.
Um processo capaz de gerar conhecimento a partir de dados estruturados é o
KDD - Knowledge Discovery in Database ou DCBD - Descoberta de Conhecimento em Bases
de Dados. Esse processo combina diversas áreas da descoberta do conhecimento, tais como
Aprendizagem de Máquina, Reconhecimento de Padrões, Estatística e Inteligência Artificial,
com o objetivo de extrair, de forma automática, informação útil em bases de dados.
Diferentemente da DCBD, o KDT - Knowledge Discovery in Text ou DCT -
Descoberta de Conhecimento em Texto lida com dados não-estruturados. Muitas pesquisas
têm sido direcionadas a DCT, por trabalhar com textos, considerada a forma mais natural de
armazenamento de informação (Tan, 1999).
A DCT combina técnicas de extração e de recuperação da informação, proces-
samento da linguagem natural e sumarização de documentos com os métodos de DM - Data
Mining (Dixon, 1997). Não se encontram, todavia, metodologias que definam um plano de uso
dessas técnicas (Wives, 2000), o que, segundo Loh (2000a), deixa uma lacuna sobre
como uma coleção textual deve ser investigada de forma automática ou semi-automática, a fim
de que hipóteses sejam validadas.
Capítulo II - Apresentação do Problema e Motivação 21
2.2 - Uso de mineração de texto no mundo Segundo a pesquisa apresentada em Nuggets (2001) (Figura 2.1), text mining re-
presenta atualmente apenas 2% das técnicas usadas regularmente para mineração de dados.
Mesmo sem apresentar caráter científico, essa pesquisa revelou que o uso da DCT ainda é in-
cipiente no mercado mundial. Se agregado o web mining, esse percentual sobe para 7%, o que
é muito pouco se comparado com o volume de dados existente.
Fonte: Nuggets (Nuggets, 2001)
Figura 2.1 - Comparação de uso entre técnicas de mineração.
2.3 - ‘Abismo’ de Moore Geofrey Moore op. cit. in Agrawal (2001) propõe um modelo (ciclo de vida) que
descreve o comportamento dos consumidores de tecnologias em áreas emergentes (Figura
2.2). Esse modelo define cinco tipos de usuários: os inovadores, os adeptos iniciais, a maioria
inicial, a maioria tardia e os retardatários.
Capítulo II - Apresentação do Problema e Motivação 22
Figura 2.2 - Ciclo de vida de adoção de tecnologia.
Os inovadores são os primeiros clientes em tudo o que é novo. Comprometidos
com a tecnologia, sentem prazer em dominar suas complexidades pelo simples fato de explo-
rá-las. Querem ter acesso à última palavra em inovação, além de serem influenciadores de o-
piniões.
Os adeptos iniciais são revolucionários dispostos a usar a descontinuidade de
qualquer inovação com expectativas de obter vantagem competitiva. Formam um grupo im-
portante para a inovação tecnológica, por ser o primeiro grupo capaz de trazer recursos para a
empresa fornecedora dessa tecnologia.
A maioria inicial não explora a tecnologia em si, como os inovadores e os adep-
tos iniciais, mas procura adotar inovações somente quando comprovada a utilidade dela e
quando referenciada por pessoas em quem confiam. Prefere a evolução ao invés da revolução
em termos de novos produtos.
A maioria tardia só investe em tecnologia quando é obrigada pelas circunstân-
cias. Cético e exigente esse grupo é sensível a preços.
Já os retardatários combatem as inovações tecnológicas e os entusiastas de no-
vos produtos e serviços.
Capítulo II - Apresentação do Problema e Motivação 23
Essa classificação, bastante oportuna e realista, no entanto, não é a mais valiosa
contribuição do estudo de Moore. Sua principal constatação é a existência de um “abismo”
entre as fases (2) e a (3), ou seja, uma descontinuidade entre a introdução do produto no mer-
cado e sua consolidação como um produto de larga escala. É nesse “abismo”, segundo o autor,
que a maioria das empresas falha por não dispor do instrumental de marketing adequado para
lidar com a situação.
Uma das motivações deste trabalho foi a crença de que a mineração de texto en-
contra-se exatamente neste ponto. A partir daí, pôde-se levantar algumas razões do porquê de
a mineração de textos não ser ainda muito difundida, o que indica não ter atravessado ainda o
“abismo de Moore”: (i) falta de uma tecnologia adequada no que se refere à exigência de usa-
bilidade; (ii) poucos relatos de experiência de sucesso; e (iii) inexistência de uma metodologia
adequada para guiar os usuários nas aplicações de Mineração de texto;
2.4 - Colocação do Problema Como visto, existe um enorme acervo de informações textuais nas organizações
que pode ocultar conhecimentos valiosos. Apesar disso, é incipiente o uso de tecnologias de
DCT. Questiona-se, neste trabalho, as razões para essa contradição.
2.5 - Objetivos O objetivo deste trabalho foi estudar e propor alternativas para a travessia do a-
bismo de Moore pelas tecnologias de DCT. Para isso, este trabalho foi direcionado a
finalidade de:
(i) Propor uma forma de trabalho para extração do conhecimento a partir de bases
textuais;
Capítulo II - Apresentação do Problema e Motivação 24
(ii) Explorar a possibilidade de uso de uma metodologia de DCBD para desenvolver
aplicações em DCT;
(iii) Mostrar a possibilidade de uso efetivo da mineração de texto por meio de um es-
tudo de caso real.
2.6 - Caracterização e Articulação da Pesquisa O problema consiste em verificar se o uso incipiente da tecnologia de DCT, em
face da enorme disponibilidade de texto nas organizações, deve-se à ausência de uma metodo-
logia adequada para o desenvolvimento de aplicações práticas.
Esse tipo de problema comporta, naturalmente, uma abordagem de solução ba-
seada em um estudo aplicado. Assim, a pesquisa foi articulada com base em um estudo de
caso no qual foram aplicadas diversas abordagens encontradas na literatura. O objetivo foi
transpor o ‘abismo’ de Moore com o uso desse ferramental e, dessa forma, descaracterizar o
mito da inexistência de metodologias adequadas para aplicações práticas de DCT como expli-
cação para essa área estar ainda naquele abismo.
Capítulo III -
O Estado da Arte da DCT
A descoberta do conhecimento ocorre por meio de complexas interações reali-
zadas entre o homem e uma base de dados, geralmente por meio uma série heterogênea de fer-
ramentas (Fayyad, 1996).
Segundo Stanley Loh op. cit. in Wives (2000), existem três grandes áreas que
lidam com informações em grandes bases de dados: (i) Data Mining (Mineração de Dados)
para dados estruturados - DCBD; (ii) IE - Information Extraction (Extração de Informações)
para dados não-estruturados - DCT; e (iii) IR - Information Retrieval (Recuperação da Infor-
mação) para textos ou palavras - DCT.
Neste capítulo, foram abordados os métodos, etapas, técnicas e modelos de re-
cuperação em DCT. Foi mostrada também a diferença entre DCT e ferramentas de busca, tec-
nologias comumente confundidas.
3.1 - KDT - Knowledge Discovery in Text O KDT - Knowledge Discovery in Text ou DCT - Descoberta de Conhecimento
em Texto, ao contrário da DCBD, lida com dados não-estruturados. Mais recentemente, mui-
tas pesquisas têm sido direcionadas para essa área.
Capítulo III - Estado da arte do DCT 26
A DCT combina técnicas de extração, recuperação de informação,
processamento da linguagem natural e sumarização de documentos com os métodos de
DM - Data Mining (Dixon, 1997). Por lidar com dados não-estruturados, a DCT é considerada
mais complexa que a DCBD.
Seu objetivo é extrair conhecimento de bases em que as ferramentas
usuais não são capazes de agirem, por não estarem equipadas, ou terem sido desenvolvidas
para soluções em dados estruturados (bancos de dados relacionais, por exemplo).
A DCT pode ser considerada um processo de DCBD para dados não-
estruturados como, por exemplo, aqueles encontrados na Internet ou ainda em organizações
que ultimamente, pela facilidade e barateamento de custos, vêm armazenando quantidades
crescentes de texto em meios magnéticos.
A necessidade de se extrair e recuperar informação desses meios é uma constan-
te tanto na vida das pessoas, como no contexto das organizações. No entanto, a dificuldade de
se fazer uso adequado das informações disponibilizadas, é quase sempre fonte de frustrações.
Suas principais áreas são a IE - Information Extraction (Extração de Informa-
ções) e a IR - Information Retrieval (Recuperação da Informação).
3.1.1 – Extração da Informação
A área de IE estuda metodologias, técnicas e ferramentas que possam encontrar
dados específicos dentro de textos, extraindo automaticamente valores de atributos tais como
campos de um banco de dados. Em geral, as aplicações nessas áreas são dependentes do domí-
nio, isto é, só apresentam bom desempenho com certas classes de documentos. Essa área com-
plementa a de Recuperação da Informação (seção 3.1.2). Enquanto esta última trata de
Capítulo III - Estado da arte do DCT 27
encontrar textos e documentos relevantes, tendo como fundamento determinadas necessidades,
a IE busca encontrar informações dentro desses textos.
Segundo Gerald Kowalski op. cit. in Wives (1999), o objetivo de um processo
de IE é o de transformar dados semi-estruturados ou não-estruturados em dados estruturados,
visando a armazená-los em banco de dados. Essa tarefa é considerada pré-processamento na
descoberta do conhecimento em textos.
Sumarização
Entre as técnicas da IE, a sumarização, tem o objetivo de extrair resumos de tex-
tos (ou de uma coleção de textos), apresentando como resultado seus termos (palavras ou fra-
ses) mais importantes (Palazzo, 2000; Wives, 2000). Esse resumo oferece ao usuário uma
visão geral das informações contidas nos textos, permitindo-lhe identificar, sem ter de ler na
íntegra, os assuntos abordados pela coleção analisada.
Uma forma eficiente de sumarização empregada, geralmente, depois dos proces-
sos de agrupamento, é a análise de centróide2. Essa análise corresponde ao conjunto de pala-
vras mais significativas de determinado grupo (cluster) que são usados para identificá-lo.
Etapas de IE
Segundo Ralph Grishman op. cit. in Dixon (1997) existem três etapas no proces-
so de extrair informação:
(i) Extração de fatos – cujo objetivo é encontrar fatos individuais no
documento. Nessa fase, o conhecimento específico é crucial, devido à possibili-
dade de uso de técnicas de reconhecimento de padrões, a fim de encontrar os fa-
2 Termo proveniente da física indicando o centro da gravidade ou de forças de um objeto.
Capítulo III - Estado da arte do DCT 28
tos procurados, tais como: Casamento de Padrões, Análise Léxica e Estruturas
Sintática e Semântica;
(ii) Integração de Fatos - vista como o principal meio de analisar um pequeno fato
em relação “à grande pintura” na qual se vê a formação e a interação entre os fa-
tos;
(iii) Representação do Conhecimento - é a forma como as informações extraídas dos
documentos são colocadas à disposição do usuário. Entre os vários estilos de re-
presentação, a forma gráfica continua sendo a mais comum.
Para cada uma dessas etapas, existem diversas técnicas que podem ser usadas a
fim de atingir os objetivos propostos. Ralph Grishman op. cit. in Dixon (1997) afirma que em
todas essas técnicas existe uma convergência para uso do processamento da linguagem natural,
técnicas avançadas de estatística e uso freqüente de redes neurais.
3.1.2 – Recuperação da Informação
A área de IR tem por objetivo localizar os documentos que contêm informações
relevantes para atender às necessidades definidas pelo usuário em uma consulta. Nesse caso, o
usuário precisa examinar os documentos resultantes dessa busca para encontrar a informação,
o que é uma tarefa demorada. Para localizar essas informações, faz-se uso da indexação, efetu-
ando uma busca mais rápida e eficiente. Essa indexação é considerada como um tipo de filtro
(Lancaster op. cit. in Wives, 2000) capaz de selecionar e identificar as características de um
documento, extraindo os termos mais significativos e excluindo aqueles que não são importan-
tes.
Capítulo III - Estado da arte do DCT 29
A indexação pode ser, segundo Ricardo Baesa Yates op. cit. in Wives (2000), de
três formas:
(i) Tradicional - os termos descritivos dos documentos são selecionados manual-
mente, especificando quais farão parte do índice;
(ii) Full-text - os termos que compõem o documento são usados como parte do
índice;
(iii) Por parte do texto (tags) - a seleção dos termos é feita de forma automática.
A indexação tradicional é comumente usada na área da Ciência da Informação,
em que o controle do índice é feito com intervenção humana. Isso facilita a organização em
topologias, agrupando as palavras mais importantes por determinada área de atuação, por
exemplo, o thesaurus automático3 .
Nesse tipo de indexação, o tempo para execução é mais longo. Levando-se em
consideração que o trabalho é realizado de forma manual, é possível que se cometam erros no
momento de inserir determinado termo ao grupo correspondente. Isso, aliado ao desconheci-
mento de tais grupos pelos usuários, pode gerar um resultado nulo em uma pesquisa, mesmo
que o termo conste na base de dados.
Na indexação total (full-text), a vantagem é ter todos os elementos dispostos em
índices. Porém, para que isto ocorra, a indexação torna-se volumosa, requerendo muito espaço
para o armazenamento (William Frakes op. cit. in Wives, 2000). Uma forma de contornar esse
problema é o uso de técnicas, como a lista invertida, árvores de TRIE 4 ou árvores de PAT5.
3 Nas pesquisas na área Banco de Dados Documentais (BDD), observa-se que o thesaurus é uma ferramenta bastante útil para a indexação e a recuperação de informações textuais e em sua grande maioria construídos manualmente. Nesse sentido, Edberto Ferneda (Ferneda, 1997) apresenta um sistema para construção automática do thesaurus. 4 Estrutura em árvore, criada especialmente para indexar palavras usadas como um “dicionário”, em que cada nodo é um vetor, contendo 27 componentes (letras do alfabeto mais espaço em branco). (Bakel, 1998)
Capítulo III - Estado da arte do DCT 30
A indexação via tags procura indexar apenas partes relevantes do texto (Anil
Chakravarthy op. cit. in Wives, 2000). De forma automatizada, a ferramenta percorre o
documento e localiza marcas que identificam os trechos mais importantes do texto os quais
são incluídos no índice.
Segundo Bernard Moulin op. cit. in Wives (2000), a procura das marcas (tags)
pode ser feita de forma automática: (i) mediante o uso de documentos que utilizam macroes-
truturas (cabeçalhos, títulos, capítulos); (ii) microestruturas - conteúdo lógico do texto, identi-
ficando seus pontos principais (condições, exceções, referências); e (iii) uma camada de
domínio com as demais informações do documento.
Formas de Indexação
Os índices mencionados no tópico anterior podem ser automáticos ou manuais.
No último caso, a elaboração é conduzida diretamente pela área de biblioteconomia. No pri-
meiro caso, os índices encontrados automaticamente são mais usados e mais relevantes por
serem mais ágeis.
Quando se lida com índices, deve-se levar em conta seu fator de
exaustividade. Esse fator mede a quantidade de assuntos distintos que determinado índice é
capaz de reconhecer. Para maior abrangência, o fator de exaustividade também é maior e, nes-
te caso, a precisão é inversamente proporcional. Isto se deve ao fato de que mais palavras po-
dem levar ao mesmo item (Lancaster op. cit. in Wives, 2000).
Para análise de informações em textos, os índices são peças importantes, pois
eles são uma das formas de validar o desempenho e a precisão da recuperação da informação.
5 Estrutura parecida com a árvore de TRIE, em que o documento é visto como uma cadeia de caracteres e cada uma de suas posições pode ser um ponto de entrada. (Gonnet op. cit. in Wives, 2000).
Capítulo III - Estado da arte do DCT 31
Na Figura 3.1, são apresentadas as etapas de um processo de indexação automática, segundo
Riloff op. cit. in Wives (2000).
Figura 3.1 - Etapas em uma indexação automática.
Essas etapas, segundo esse autor, não são rígidas, pois, dependendo do contexto,
a ordem de aplicação pode variar ou mesmo não ser utilizada. Resumidamente, essas fases
podem ser assim descritas:
(i) Identificação de termos
Consiste na aplicação de um parser6 que identifica as palavras importantes do
texto, ignorando símbolos e caracteres de controle de arquivo ou de formatação. Envolve tam-
bém o uso de seqüências de caracteres a fim de validá-las (dicionário ou thesaurus).
Segundo Wives (2000), essa etapa deve considerar e tratar termos compostos
(por exemplo: processo judicial, processo computacional) por considerar que podem fazer
parte do mesmo índice para não perderem o significado que as palavras expressam quando es-
tão juntas.
6 Analisador léxico que consiste na conversão de uma cadeia de caracteres de entrada em uma cadeia de palavras ou token (Christopher Fox op. cit. in Wives, 2000).
Capítulo III - Estado da arte do DCT 32
(ii) Remoção de Stopwords
Para minimizar o esforço da elaboração do índice, faz-se a remoção das
chamadas stopwords. Essas palavras contribuem pouco para o significado de um texto.
Usualmente artigos, preposições e advérbios são consideradas stopwords por serem bastante
freqüentes e sua eliminação leva a uma redução entre 40% e 50% dos textos a serem analisa-
dos.
(iii) Normalização
Para atender a determinados objetivos, é importante a eliminação de variações
morfológicas de uma palavra. A identificação é efetuada através do radical de uma palavra.
Segundo William Frakes op. cit. in Wives (2000), existem diversas formas para se identificar
esses radicais, como a lematização ou stemming.
A vantagem é que, em uma busca, o usuário não precisa se preocupar com a
classe da palavra, podendo ela aparecer no texto como um substantivo, um verbo ou um adje-
tivo. No entanto isto implica diminuição na precisão da pesquisa.
(iv) Seleção de Termos Relevantes
Deve-se considerar que em um texto as palavras têm níveis de destaque
distintos. Aquelas mais freqüentes, excetuando-se as stopwords, são mais importantes que ou-
tras que aparecem com menos freqüência. Palavras encontradas nos tópicos em destaque, co-
mo títulos e ainda os substantivos, devem ser destacadas, pois são consideradas mais
relevantes.
Um dos recursos utilizados para descobrir a importância dessas palavras é calcu-
lar a freqüência com que elas aparecem no texto. Gerard Salton op. cit. in Wives (2000) de-
nomina essa importância de peso que indica o grau de relação entre a palavra e o documento
Capítulo III - Estado da arte do DCT 33
no qual ela aparece e que pode ser calculada pela freqüência absoluta7 ou pela freqüência rela-
tiva8.
Usando esses pesos ou sua posição sintática é possível então diminuir o índice
deixando-o mais consistente e com palavras relevantes.
3.2 - Tecnologias para descoberta do conhecimento em Texto As tecnologias usadas na DCT não são consideradas inovadoras do ponto de vis-
ta de sua origem, uma vez que muitas advêm da DCBD. O que é novo é seu uso para
descoberta do conhecimento em dados armazenados na forma de texto.
Isto não significa que a DCT utiliza somente técnicas da DCBD. A DCT inclui
quaisquer técnicas que possam ser usadas para buscar informação em dados não-estruturados.
Isto dependerá, entre outros fatores, de como se quer adquirir essa informação e da maneira
como se apresenta o problema.
3.2.1 - Descobertas Reativa e Proativa
Segundo Choudhury op. cit. in Loh (2000) a descoberta de conhecimento ocorre
de dois modos: o reativo e o proativo.
No modo reativo, o objetivo é direcionado para a solução especificada pelo
usuário que, nesse caso, sabe como solucionar o problema. O usuário segue utilizando pistas
que deseja provar, direcionando o processo de descoberta. Ele sabe o que quer e tem idéia de
onde achar a resposta. Nesse modo, o usuário deve definir, da forma a mais precisa possível,
sua necessidade, o que muitas vezes contradiz o processo da descoberta. Na maioria das vezes,
7 Quantidade de vezes que o termo foi encontrado no texto. 8 Apresenta escalas diferentes, de acordo com o tamanho do texto em relação ao número de vezes que o termo foi encontrado.
Capítulo III - Estado da arte do DCT 34
o que acontece é o usuário não saber especificar as necessidades para resolução dos seus pro-
blemas.
No modo proativo, ao contrário, sem que haja uma intervenção inicial do usuá-
rio, as informações úteis para resolução do problema são encontradas automaticamente. Dessa
maneira, o problema é definido pelo usuário, mas a descoberta ocorre de modo
não-supervisionado. Uma expressão comum para definir o modo proativo é “diga-me o que há
de relevante nesse conjunto de dados”. Mesmo não tendo a intervenção inicial, o usuário parti-
cipa nesse processo exploratório com retroalimentação e interatividade no processo. Esse mo-
do assemelha-se à Mineração de Dados na DCBD e poderia ter como exemplos de objetivos:
(i) criar parâmetros para entender o comportamento do consumidor; (ii) identificar afinidades
entre as escolhas de produtos e serviços; (iii) prever hábitos de compras; (iv) analisar compor-
tamentos habituais para detectar fraudes.
De maneira geral, poder-se-ia dizer que o processo da descoberta do conheci-
mento é realizado, mais freqüentemente, na forma proativa. Esse processo compõe-se das se-
guintes fases (Michael Goebel op. cit. in Wives, 2000):
(i) Entendimento do domínio de aplicação e definição do objetivo do processo de
descoberta;
(ii) Aquisição ou seleção do conjunto de dados;
(iii) Integração e verificação do conjunto;
(iv) Limpeza dos dados (pré-processamento e transformação);
(v) Desenvolvimento de um modelo inicial ou construção de hipóteses;
(vi) Escolha e aplicação de métodos de mineração;
(vii) Visualização e interpretação dos resultados;
(viii) Teste e validação das hipóteses (pode-se refazer parte do processo);
Capítulo III - Estado da arte do DCT 35
(ix) Uso e manutenção do conhecimento descoberto (tomada de decisão no domínio).
3.2.2 - Inteligência Competitiva
Em geral, quando usamos as técnicas do conhecimento proativo ou reativo, es-
tamos em busca de definição de estratégias e ações que devem ser realizadas em prol da orga-
nização. Esses são exatamente os objetivos da Inteligência Competitiva9 que, entre outros,
busca impulsionar o negócio da organização.
No uso da inteligência competitiva, as etapas são flexíveis, pois se devem ade-
quar aos objetivos da empresa. Isto só ocorrerá se ela tiver definidas suas necessidades reais.
Dependerá também das informações necessárias para estimular seu negócio, bem como da de-
finição das fontes dessas informações.
As atividades da Inteligência Competitiva visam a explorar e manter conhecido
o ambiente externo da organização. Nesse cenário, a Internet é considerada fonte importante
de informação, ajudando na busca de novos nichos de mercado e tecnologias inovadoras.
Loh (2000a) sugere como proposta para executar essas atividades em
dados não-estruturados, as seguintes etapas:
(i) Identificação da necessidade de informação - nessa etapa, devem-se identificar
quais são as necessidades de informação de cada pessoa na empresa (principal-
mente dos tomadores de decisão), quais dessas informações a própria empresa
pode suprir e quais vão demandar dados externos;
9 “Inteligência Competitiva refere-se ao conjunto de atividades de monitoramento e de análise de dados do ambiente com o objetivo de fornecimento de informações úteis ao processo decisório e de planejamento estratégico empresarial.” (GESID apud Canongia 2001)
“A ‘Inteligência Estratégica’ enfatiza a busca de informações para a tomada de decisão e para o planejamento estratégico; ‘Inteligência para Negócios’ é o monitoramento de informação sobre negócios e mercados; ‘Inteligência Competitiva’ foca informações sobre produtos e serviços oferecidos por empresas similares; ‘Inteligência Tecnológica’ enfoca informações de ordem tecnológica e social.” (Tarapanoff, 2000)
Capítulo III - Estado da arte do DCT 36
(ii) Identificação e análise de fontes de informação - uma vez conhecidas as neces-
sidades de informação, torna-se importante identificar de quais fontes essas in-
formações podem ser recuperadas, podendo ser internas ou externas. No caso de
fontes externas, é importante que sejam identificados o formato, o tempo de aces-
so e o custo delas, assim como a forma de agregá-las às existentes na empresa;
(iii) Coleta - é a busca, em si, da informação ou dos dados nas fontes
identificadas;
(iv) Filtragem - por causa da grande quantidade de dados e informações que podem
ser coletadas, é possível que muitas não estejam relacionadas às necessidades i-
dentificadas
inicialmente. As informações irrelevantes devem ser descartadas e as relevantes
selecionadas;
(v) Distribuição - os dados ou as informações selecionadas devem ser encaminhadas
às pessoas que expressaram sua necessidade;
(vi) Exploração - corresponde à transformação dos dados em informação e conheci-
mento. Podendo-se utilizar ferramentas computacionais e métodos estatísticos de
análise;
(vii) Segurança - adquiridos os conhecimentos e informações, estes devem ser postos
em prática (utilizados na tomada de decisão) e armazenados em algum local se-
guro com vistas a resguardar essas informações.
3.2.3 - Tipos de Descoberta
A área de aquisição do conhecimento engloba diversos tipos de descoberta, com
várias abordagens específicas para DCT. Segundo (Wives, 2000a) esses tipos de descoberta
são: (i) Tradicional; (ii) Extração de passagens; (iii) Análise lingüística; (iv) Análise de
conteúdo; (v) Sumarização; (vi) Associação entre passagens; (vii) Listas de conceitos-chave;
Capítulo III - Estado da arte do DCT 37
(viii) Estruturas de textos; (ix) Clustering; (x) Classes de textos; (xi) Recuperação de
informação; (xii) Associação entre textos; (xiv) Associação entre as características;
(xv) Hipertextos; (xvi) Manipulação de formalismo; (xvii) combinação de representações e;
(xviii) Comparação de modelos mentais.
É comum quando se abordam as tecnologias de DCT haver confusão inicial, por
acreditar-se que a descoberta de conhecimento no texto e o uso de ferramentas de busca são a
mesma coisa. Na seção 3.3, são estabelecidas as principais diferenças entre essas tecnologias.
3.3 - Diferenças entre Mineração de texto e Ferramentas de Busca A DCT é uma tecnologia recente, do ponto de vista de sua utilização no
mercado de mineração de dados (Tan, 1999) e, talvez seja essa a razão pela qual seus objetivos
serem, muitas vezes, confundidos com as ferramentas de busca na Internet (search engine).
Essas ferramentas foram desenvolvidas e aperfeiçoadas para atender à crescente
necessidade de se encontrar dados na gigantesca massa de informação disponibilizada na
Internet. Seu uso e importância são incontestáveis, visto que sem elas ficaria muito difícil lo-
calizar, em pouco tempo, informações tão dispersas. Elas prestam um serviço fundamental de
procura rápida e indexação de informações, entretanto, seu escopo é diferente da mineração de
texto.
Para se verificar a necessidade de melhorar a análise em texto basta que se faça
uma busca, usando ferramentas como o altavista® ou google®. O resultado freqüente dessa
busca é outro grande volume de dados. Comumente, escolhem-se os primeiros resultados que
são então analisados, visando a selecionar as informações necessárias. Pode-se afirmar que tal
procedimento é cabível para descobrir as informações, mesmo sendo uma tarefa que necessita
de maior intervenção.
Capítulo III - Estado da arte do DCT 38
Quando se trabalha com uma pequena escala, esse procedimento é viável. Caso
haja necessidade de maior refinamento na busca de informações e essa escala aumenta,
torna-se necessário o uso de outra metodologia. Para quem necessita analisar diariamente
grandes volumes de dados como, por exemplo, pesquisadores, juízes, consultores e editores,
essa tarefa é impraticável (Tan, 1999).
A necessidade de melhoria da análise, nesse ambiente, torna-se ainda mais rele-
vante quando se verifica que há crescente aumento desse tipo de informação.
A principal diferença entre as ferramentas de busca e a mineração de texto é que
a primeira emprega o uso de busca exaustiva. Sua pesquisa é realizada com base em
palavras-chave que basicamente retornam a uma lista de documentos relevantes, ordenados
pela proporção em que esses termos são encontrados em determinado documento (por exem-
plo: página web, texto, arquivos pdf). Esse resultado é então analisado e requer sua leitura para
extração do conhecimento.
A mineração de texto, ao contrário, utiliza métodos de busca baseados em análi-
ses gramaticais e léxicas ou ainda técnicas de clustering (agrupamento). Isso permite descobrir
conteúdos demonstrados por meio de palavras ou frases similares entre os documentos.
Além disso, a mineração de texto agrega técnicas de visualização de dados. Es-
sas técnicas permitem mostrar conceitos-chave e relações entre palavras e idéias. Partindo des-
sa visualização, é possível detalhar dados ou “trilhar” caminhos para outros documentos.
Em resumo, pode-se afirmar os seguintes pontos em relação à mineração de
texto:
(i) Concentra algoritmos inteligentes e, em alguns casos, análise léxica;
Capítulo III - Estado da arte do DCT 39
(ii) Processa documentos eliminando a análise “manual” direta. Categoriza, classifica
ou constrói árvores de tópicos e índices de documentos;
(iii) Provê identificação automática e indexação de conceitos entre os textos;
(iv) Apresenta, por meio de técnicas de visualização, o escopo global dos dados.
Permite detalhamento quanto ao grau de relevância;
(v) Permite aos usuários fazerem associações, correlacionamentos e âncoras entre os
documentos para posterior análise. As duas tecnologias são essenciais para quem lida com grandes volumes de da-
dos não-estruturados, pois oferecem suporte na busca de informações úteis em textos10 ou em
páginas web.
A mineração de texto permite, todavia, descobrir conceitos-chave e grupos simi-
lares de documentos, sem que haja necessidade prévia de leitura integral dos documentos.
3.4 - Síntese do Capítulo Conforme enfatizado neste capítulo, a DCT é uma área que provê tecnologias
efetivas para descoberta de conhecimento em bases de dados não-estruturadas. Destarte, é ob-
tido conhecimento na forma de conceitos em que as ferramentas usuais de mineração não es-
tão aptas a fazê-lo.
Observa-se um vasto campo para desenvolvimento de aplicações de descoberta
de conhecimento em texto em função da quantidade e da disponibilidade de informações nas
organizações. As redes corporativas (intranets e extranets), bem como os diversos dados pro-
venientes dos mais variados sistemas oferecem uma rica fonte de conhecimento ainda não ex-
plorada totalmente.
10 O termo texto não restringe o foco de ação destas ferramentas, visto que, através de filtros, tais tecnologias são capazes de extrair informação em vários outros formatos. Por exemplo, arquivos do tipo doc, pdf, xls entre outros.
Capítulo III - Estado da arte do DCT 40
A necessidade de exploração dessa fonte de informação é justificada por inúme-
ros fatores, entre os quais podem-se citar: (i) Concorrência acirrada; (ii) Quantidade crescente
de informação de domínio público; (iii) Aumento na quantidade de informações armazenadas
em meio magnético; (iv) Fontes inexploradas de dados não-estruturados; (v) Necessidade de
conhecimento para tomada de decisão pelos administradores.
Nesse estudo, identificaram-se diversas técnicas de DCT muitas delas advindas
da DCBD que, por ser um segmento mais utilizado, está servindo como fonte de recursos e
referências.
Confrontando os diversos fatores estudados, verificou-se que as tecnologias de
DCT ainda são pouco aplicadas, se consideradas a enorme disponibilidade de dados textuais
existentes, como mostrado na pesquisa realizada pela School of Information Management and
Systems at the University of California (University, 2000), onde foi feita uma projeção que
para 2001 e 2002 seriam criadas e disponibilizadas mais informações do que em toda a história
da humanidade. Outro trabalho (Tan, 1999) indica que essas informações estarão, em sua mai-
oria, na forma não-estruturada.
A DCT encontra-se num momento em que precisa superar a lacuna entre o nível
acadêmico e o prático. É importante a aplicação de novos estudos de casos em situações reais.
Como foi visto, no entanto, as propostas de métodos, técnicas e ferramentas da DCT carecem
ainda de aperfeiçoamentos. É real o uso de técnicas de DCBD na DCT. Com essa visão, uma
proposta futura para estudos seria a agregação de metodologias usadas atualmente em dados
estruturados para uso na DCT.
Capítulo III - Estado da arte do DCT 41
A DCT resgata tecnologias para serem usadas em ramos adjacentes ao texto. É o
caso do web mining, muito em foco atualmente. Suas derivações, como o XMLminer, tendem a
crescer na mesma proporção que o uso da Internet.
Em síntese, pode-se inferir que a proposta da DCT está solidificada como alter-
nativa para extração do conhecimento no mundo dos negócios. Isto é confirmado se observado
como o ambiente das organizações direciona-se para uma geração cada vez maior de dados
não-estruturados, aliada à necessidade crescente de conhecimentos estratégicos.
Capítulo IV -
Metodologia
Como visto anteriormente, a área de DCBD - Descoberta do Conhecimento em
Bases de Dados e a DCT - Descoberta do Conhecimento em Texto são possíveis alternativas
para descoberta do conhecimento, contemplando respectivamente, dados estruturados e textu-
ais. A DCBD e a DCT objetivam encontrar, por meio de técnicas e algoritmos, padrões, corre-
lações ou similaridades entre dados. Devido à semelhança entre essas tecnologias de
descoberta de conhecimento, foi utilizada neste estudo de caso a metodologia CRISP-DM -
CRoss-Industry Standard Process for Data Mining, originalmente concebida para aplicações
de DCBD.
Este capítulo inicia-se com a descrição da metodologia CRISP-DM e segue com
apresentação das metodologias de Palazzo, Ah-Hwee Tan e Halliman, para DCT. Ao final,
descreve-se a abordagem de uso de cada uma, procurando destacar as contribuições delas no
processo de descoberta do conhecimento no estudo de caso aplicado na RADIOBRÁS.
4.1 - CRISP-DM Com o intuito de promover a padronização de conceitos e técnicas na busca de
informações específicas para tomada de decisões, foi criado em 1996 o grupo de trabalho
Capítulo IV - Metodologia 43
CRISP-DM (CRoss-Industry Standard Process for Data Mining11) (Chapman, 2001). Esse
grupo propôs uma metodologia como o mesmo nome, destinada a auxiliar administradores e
responsáveis no processo geral de planejar e executar a mineração de dados, englobando a es-
pecificação do processo até a apresentação dos resultados. Esse grupo era composto por três
empresas pioneiras no setor: a DaimlerChrysler, a SPSS (Data Mining) e a NCR (Data
Warehouse).
Para a CRISP-DM, o ciclo de vida do processo de DCBD segue uma seqüência
de etapas, conforme mostrada na Figura 4.1. Essas etapas são executadas de forma interativa.
Assim, pelas entradas e respostas providas pelo usuário, a seqüência da execução pode ser al-
terada. O encadeamento das ações, dependendo do objetivo e de como as informações se en-
contram, permite retorno a passos já realizados. Essa metodologia é constituída de seis etapas:
(i) compreensão do negócio; (ii) compreensão dos dados; (iii) preparação dos dados; (iv) mo-
delagem; (v) avaliação; e (vi) aplicação.
A Compreensão do Negócio procura identificar as necessidades e os objetivos
do negócio do cliente, convertendo esse conhecimento numa tarefa de mineração de dados.
Busca detectar eventuais problemas e/ou restrições que, se desconsideradas, poderão implicar
perda de tempo e esforço em obter respostas corretas para questões erradas. Essa tarefa com-
preende ainda descrição do cliente, seus objetivos e descrição dos critérios utilizados para de-
terminar o sucesso do seu negócio.
11 Há uma divergência de nomenclatura entre a área de aplicação e a área de pesquisa: para a primeira todo o processo de KDD é denominado data mining, enquanto, para a segunda, data mining é apenas parte do processo de KDD. No decorrer deste texto estaremos usando a acepção da área de pesquisa.
Capítulo IV - Metodologia 44
Figura 4.1 - Ciclo de vida de DCBD segundo a CRISP-DM.
A Compreensão dos Dados visa a identificar informações que possam ser
relevantes para o estudo e uma primeira familiarização com seu conteúdo, descrição,
qualidade e utilidade. A coleção inicial dos dados procura adquirir a informação com a qual se
irá trabalhar, relacionando suas fontes, o procedimento de leitura e os problemas detectados.
Nessa tarefa, descreve-se ainda a forma como os dados foram adquiridos, listando seu forma-
to, volume, significado e toda informação relevante. Durante essa etapa, são realizadas as pri-
meiras descobertas.
A Preparação dos Dados consiste numa série de atividades destinadas a obter o
conjunto final de dados, a partir do qual será criado e validado o modelo. Nessa fase, são utili-
zados programas de extração, limpeza e transformação dos dados. Compreende a junção de
tabelas e a agregação de valores, modificando seu formato, sem mudar seu significado a fim
de que reflitam as necessidades dos algoritmos de aprendizagem.
Na Modelagem, são selecionadas e aplicadas as técnicas de mineração de dados
mais apropriadas, dependendo dos objetivos pretendidos. A criação de um conjunto de dados
Capítulo IV - Metodologia 45
para teste permite construir um mecanismo para comprovar a qualidade e validar os modelos
que serão obtidos. A modelagem representa a fase central da mineração, incluindo escolha,
parametrização e execução de técnica(s) sobre o conjunto de dados visando à criação de um ou
vários modelos.
A Avaliação do Modelo consiste na revisão dos passos seguidos, verificando se
os resultados obtidos vão ao encontro dos objetivos, previamente, determinados na Compreen-
são do Negócio, como também as próximas tarefas a serem executadas. De acordo com os re-
sultados alcançados, na revisão do processo, decide-se pela sua continuidade ou se deverão ser
efetuadas correções, voltando às fases anteriores ou ainda, iniciando novo processo.
A Aplicação é o conjunto de ações que conduzem à organização do
conhecimento obtido e à sua disponibilização de forma que possa ser utilizado eficientemente
pelo cliente. Nessa fase, gera-se um relatório final para explicar os resultados e as
experiências, procurando utilizá-los no negócio.
Uma vez que a CRISP-DM foi concebida para aplicações de DCBD, pode-se
confrontar essa metodologia com o trabalho desenvolvido por Prado (1998) que discorre sobre
o processo completo de Descoberta do Conhecimento em Banco de Dados (Figura 4.2). Essa
abordagem será explorada nas seções seguintes.
Figura 4.2 - Processo completo da DCBD.
Capítulo IV - Metodologia 46
4.1.1 - Definição e Entendimento do problema
Quando se inicia um processo de DCBD, é fundamental saber aonde se quer
chegar e entender o problema de forma real. Esse entendimento caracteriza-se pela materiali-
zação do problema, com a identificação de objetivos que possam, de alguma forma, serem
mensurados. É imprescindível para o êxito do processo delinear a necessidade do cliente. Essa
fase, quando negligenciada, afeta irreversivelmente o processo de DCBD. Sendo assim, deve-
se aliar a extração do conhecimento à definição do problema ao longo de todo processo.
Segundo a CRISP-DM, essa fase do projeto envolve as tarefas de:
(i) levantamento dos objetivos do negócio; (ii) avaliação da situação; (iii) levantamento das
metas da mineração; e (iv) execução do planejamento do projeto.
4.1.2 - Obtenção e Extração dos Dados
Essa fase visa, por meio do entendimento do problema, a adquirir uma coleção
de dados necessários para sua resolução. Procura-se entender e descobrir problemas na quali-
dade dos dados e/ou na sua padronização.
Geralmente, aplica-se datawarehousing com vistas a tornar disponíveis dados de
fontes heterogêneas de diferentes formas e padrões, o que permite a vantagem de se ter uma
fonte de dados concisa e padronizada.
Segundo Prado (1998), para a execução dessa etapa, duas atividades são empre-
gadas:
(i) Exercício intelectual do analista e do especialista - definição dos atributos a se-
rem considerados. Infelizmente, essa atividade é executada com alto grau de sub-
jetividade, o que pode modificar o resultado final;
Capítulo IV - Metodologia 47
(ii) Extração física dos dados das diversas fontes - atividade complexa por envolver
muitos fatores, tais como: apresentação de arquivos em formatos diferentes dos
que constam na documentação, carência de padrão na codificação e versões desa-
tualizadas. Por causa disso, os analistas geralmente procuram incluir toda infor-
mação considerada útil a fim de não ser necessária reexecutar a atividade.
Segundo a CRISP-DM, podem-se definir as seguintes tarefas para essa fase:
(i) levantamento inicial dos dados; (ii) descrição inicial dos dados; e (iii) análise da qualidade
dos dados.
4.1.3 - Limpeza e Exploração dos Dados
Essa fase tem como objetivo executar os passos necessários para a construção
do conjunto de dados a ser usado para extração do conhecimento. Procuram-se descobrir in-
formações novas, agrupar conjuntos importantes de dados, proporcionando a familiarização e
realizando um exercício de aproximação com esses dados.
Análises de veracidade também são executadas nessa fase. Segundo John
(1997), dependendo do aspecto que se quer analisar, podem ser observadas relações entre atri-
butos, verificando os resultados de objetivos predeterminados e como eles deveriam
comportar. Isso pode eliminar códigos ou padrões referidos a determinados campos que, fora
do limite esperado, bem como refletir resultados anômalos na mineração dos dados.
Essa fase do processo, conforme a CRISP-DM, é cumprida com a execução das
tarefas de: (i) seleção dos dados; e (ii) limpeza dos dados.
4.1.4 - Engenharia dos Dados
Servindo-se da base de dados, resultante das fases anteriores, verificar-se-á se é
pertinente a análise de pontos específicos. Em certos casos, será mais produtivo trabalhar com
Capítulo IV - Metodologia 48
subconjuntos tanto no que se refere a atributos quanto a termos de tuplas. A obtenção de amos-
tras significativas de dados deve ser feita com a aplicação de técnicas de estatística.
Uma técnica com esse propósito é apresentada por John (1997). Mediante a
construção de diversos modelos, com base em diferentes conjuntos de atributos, verifica-se o
modelo que obtém o melhor desempenho contra dados de teste. Assim, o analista e o especia-
lista podem escolher os atributos que apresentam melhor poder preditivo.
Segundo a CRISP-DM, essa fase corresponde às tarefas de: (i) engenharia dos
dados; (ii) fusão dos dados; e (iii) formatação dos dados.
4.1.5 - Engenharia do algoritmo
Nessa fase, são selecionadas as técnicas e os algoritmos para o tipo de minera-
ção de dados mais adequados ao problema. Aqui também são selecionados os parâmetros mais
apropriados ao processo como, por exemplo, a tarefa de escolher o número de camadas em
uma rede neural por meio de várias tentativas.
De acordo com a CRISP-DM, essa fase consiste nas tarefas de: (i) seleção da
técnica; e (ii) teste da técnica nos dados.
4.1.6 – Mineração
De acordo com Fayyad (1996) existem dois possíveis objetivos em um processo
de mineração: predição e descrição. O primeiro visa a estabelecer o valor de um ou mais atri-
butos em um banco de dados, tendo como base outros atributos presentes. Nesse objetivo, a
análise de qualidade é realizada via número de acertos em um total de casos testados.
O segundo tem como finalidade apontar padrões potencialmente interessantes
nos dados sem uma associação com um conceito inicial. Nesse caso, a análise de qualidade
não é tão trivial, uma vez que se espera oferecer uma visão da distribuição dos dados, e o jul-
Capítulo IV - Metodologia 49
gamento é feito pela subjetividade do ‘mais interessante’. Nesta fase da metodologia são cons-
truídos os modelos, preditivos ou descritivos, conforme o interesse do analista.
4.1.7 - Interpretação e Validação dos resultados
Nessa etapa do projeto, ter-se-á elaborado e construído o modelo que aparenta,
na perspectiva dos dados, ter a maior qualidade. É necessário, porém, antes da apresentação
final desse modelo, revê-lo e repassar os passos que lhe deram origem. Isso irá certificar que
ele esteja aliado aos objetivos do negócio. O objetivo chave é determinar se existem questões
importantes sobre o negócio que ainda não foram suficientemente consideradas.
Por sua vez, pode acontecer que alguns padrões encontrados não se aplicam a
novos casos devido ao chamado (overfitting)12. Nesse caso, é necessário rever todo o processo
visando a evitar esse problema.
Ao se realizar a validação dos resultados é possível que, mesmo com níveis de
acurácia aceitáveis, o especialista não se sinta convencido com os padrões encontrados. É ne-
cessário que os resultados motivem o especialista para levá-lo à busca do entendimento do seu
significado. Na sua interpretação, pode acontecer uma das seguintes situações (John, 1997):
(i) o especialista fica satisfeito com os resultados, embora conheça os padrões obtidos; (ii) o
especialista fica satisfeito com os resultados e surpreso com alguns dos padrões obtidos; e (iii)
o especialista fica insatisfeito com os resultados.
Segundo a CRISP-DM, podem-se estabelecer as seguintes tarefas, para essa fase
do projeto: (i) avaliação dos resultados; (ii) revisão dos processos; e (iii) levantamento das
próximas tarefas.
12 Generalização com base nos dados de treinamento. Recomenda-se que se use uma metodologia que divida os dados em três partes: (i) Amostra de treinamento (training set)- usada para construir o modelo inicial; (ii) Amostra de teste (test set) - usada para ajustar o modelo inicial e torná-lo mais genérico; e (iii) Amostra de avaliação (evaluation set) - usada para cali-brar a provável eficiência do modelo quando aplicado a dados desconhecidos.
Capítulo IV - Metodologia 50
4.1.8 - Refinamento dos Dados e do Problema
Ao final do processo, em geral, são necessários ajustes nas tarefas desempenha-
das. Segundo Prado (1998) deve-se, primeiramente, realizar uma revisão rápida do processo
completo, se possível, desconsiderando ou resumindo as fases de preparação e exploração,
mostrando os resultados dessa revisão ao especialista. Disto resulta uma reflexão sobre o pro-
cesso da DCBD em âmbito global, podendo ser evidenciada a fragilidade em alguma das fases
executadas.
De acordo com a CRISP-DM, essa fase não encerra o processo. Se o propósito
do modelo é acrescentar conhecimento à organização, este deve ser organizado e apresentado
de forma que o cliente possa utilizá-lo da melhor maneira possível.
Essa apresentação dependerá do contexto do projeto, podendo ser um simples
resumo, por meio de relatórios até o desenvolvimento de complexos processos de extração
desse conhecimento como, por exemplo, a extração de regras de modelos conexionistas.
Na metodologia CRISP-DM, essa fase compõe-se das tarefas: (i) desenho do
projeto de desenvolvimento; (ii) gerenciamento e manutenção; (iii) execução do relatório final;
e (iv) revisão do projeto.
4.2 - Abordagens para DCT A seguir, são descritas algumas das abordagens recomendadas por autores
atuantes nessa área. É importante salientar que tais estratégias são colocadas por seus
idealizadores como propostas e carecem de aperfeiçoamento. Em todas essas proposições, os
autores colocam-nas como tarefas e procedimentos não-rígidos. Essa conduta é levada adiante
na execução de cada uma delas, bem como na sua seqüência, visto que o procedimento de
mineração difere de caso para caso.
Capítulo IV - Metodologia 51
4.2.1 - Abordagem de Palazzo
Segundo Loh (2000a), a descoberta de conhecimento em texto divide-se de a-
cordo com o tipo de ação, proativa ou reativa. A abordagem proativa é apresentada na Figura
4.3.
Figura 4.3 - Abordagem de Palazzo.
(i) Seleção dos textos: aplicação de técnicas automáticas como a recuperação de in-
formação (que encontra textos por palavras-chave ou termos presentes nos tex-
tos) e a classificação (que separa textos por assunto) ou selecionando
manualmente;
(ii) Análise da coleção (toda ou partes): aplicação de técnicas de descoberta sobre
todos os textos ou de partes da coleção. A separação em subcoleções pode ser
feita de forma automática com a técnica de agrupamento ou por algum critério
estabelecido pelo usuário;
(iii) Análise de grupos de textos (todo ou partes): extração de uma lista de termos
comuns a todos os textos ou que aparecem em mais de um (técnica de listagem
de conceitos-chave ou centróide);
Capítulo IV - Metodologia 52
(iv) Comparar subcoleções entre si ou em relação à coleção toda: comparação entre
os resultados dos subgrupos e os obtidos da coleção toda;
(v) Validar hipóteses: por meio da técnica de resumos, interpretar os resultados;
(vi) Retroalimentação: refazer e realimentar o processo até atingir o objetivo
esperado.
4.2.2 - Abordagem de Ah-Hwee Tan
Conforme Tan (1999), o processo de mineração de texto (Figura 4.4) consiste
em duas etapas: o refinamento do texto e o extrator de conhecimento.
Figura 4.4 - Abordagem de mineração de texto segundo Ah-Hwee Tan.
O refinamento consiste na transformação do texto de forma livre para uma for-
ma intermediária. Essa forma intermediária pode ser semi-estruturada (gráficos) ou estrutura-
da (tal como um banco de dados relacional). Por exemplo, dado um conjunto de artigos novos,
o refinamento do texto (text refining) converte cada documento para forma intermediária. O
objetivo dessa ação é organizar os artigos de acordo com seu conteúdo para visualização e na-
vegação.
Capítulo IV - Metodologia 53
O extrator do conhecimento faz o reconhecimento de padrões, baseado nessa
forma intermediária. Essa etapa consiste na própria mineração, podendo utilizar técnicas como
o agrupamento e a classificação ou modelos de predição e de associação.
4.2.3 - Abordagem de Halliman
Na pesquisa de Halliman (2001), apresenta-se um estudo de caso em que são
analisadas informações textuais externas à empresa. Neste estudo, a análise do ambiente é di-
vidida em partes, conceituadas pelo autor como forças do ambiente.
Com base nessas tendências e na distribuição dessas forças, o autor mostra como
detectar ameaças e fortalecer oportunidades para a empresa tendo como base a mineração de
texto. O fluxo dessa metodologia é mostrado na Figura 4.5.
O processo tem a mineração de texto como base e inicia-se com a compreensão
do domínio da empresa, por meio do entendimento dos competidores e das forças que estes
exercem sobre suas atividades que poderão melhorar as táticas e estratégias desenvolvidas.
Para cada força do ambiente, são associadas palavras-chave. Por exemplo:
(i) Força Governamental: federal, senado, congresso; (ii) Força Tecnológica: tecnologia, pes-
quisa, patente; (iii) Força Marketing: mercado, marketing.
Tendo o domínio e as palavras, o processo seguinte é a recuperação dos textos,
nos quais são verificados e analisados seus conteúdos. É realizada uma seleção por meio de
pesquisa no texto com as palavras-chave.
São identificados e excluídos os textos não pertencentes ao domínio. Os arqui-
vos restantes são analisados, tendo suas palavras-chave extraídas para compor uma planilha. O
resultado é então classificado pela quantidade de palavras-chave encontrada em cada texto.
Capítulo IV - Metodologia 54
Com os dados na planilha, são elaborados gráficos a fim de facilitar o processo
de análise das informações obtidas. Na pesquisa, o autor mostra a análise por meio de gráficos
de distribuição, palavras mais usadas, gráficos de tendências, entre outros.
Essa metodologia, segundo o autor, é vantajosa pelo fato de fazer uso da mine-
ração de texto para obter informações em grandes bases textuais. O processo usado reduz o
tempo de aquisição de informação relevante, levando-se em conta que, na análise, a obtenção
de vantagens dependerá das habilidades e do conhecimento do analista.
Figura 4.5 - Abordagem de Halliman.
Capítulo IV - Metodologia 55
4.3 - Abordagem Utilizada das Estratégias de DCT Com o intuito de obter vantagens inerentes a cada abordagem, foi realizada, no
estudo de caso, uma mesclagem, em sua aplicação, apresentada nos capítulos subseqüentes.
Durante o processo de DCT, foram selecionadas algumas opções de técnicas e
ferramentas. Pelo fato de a aplicação das estratégias estarem diluídas ao longo do estudo de
caso, incluiu-se a explicação sobre a abordagem delas neste item.
Para a condução do eixo principal do trabalho, adotou-se a metodologia
CRISP-DM, sendo as demais usadas como apoio na execução de suas etapas.
No capítulo Compreensão do Negócio e Pré-processamento, foram abordadas as
etapas da CRISP-DM: compreensão do negócio, compreensão dos dados e preparação dos da-
dos.
Na Compreensão dos Dados, foi utilizada a abordagem de Ah-Hwee Tan, onde
foi realizada a importação dos dados textuais para um banco de dados estruturado.
A forma intermediária, neste caso, foi constituída por tuplas do banco de dados,
tendo como principais campos: tipo da matéria e UF de origem. Com essa abordagem, o pro-
cesso de obtenção das primeiras descobertas (entendimento dos dados), bem como os primei-
ros gráficos, foram facilitados.
Essa tarefa supriu e aumentou a velocidade da obtenção das informações. Nesse
caso, o desenvolvimento da aplicação de importação foi menos onerosa do que a análise e con-
tabilização dos dados, tais como: UF de origem e tipo de notícia. A aplicação da abordagem de
Ah-Hwee Tan foi importante por essas informações encontrarem-se em mais de um arquivo-
texto, notícia em si e arquivo de controle DAT.
No que se refere à Modelagem (Capítulo VI), etapa da CRISP-DM, a aborda-
gem de Palazzo foi a escolhida para obtenção dos grupos e respectivos centróides, adotando-se
Capítulo IV - Metodologia 56
a análise de partes da coleção. Neste caso, as subcoleções foram separadas de acordo com o
mês de produção na notícia.
Ainda seguindo a CRISP-DM, foram executadas as etapas de Avaliação do Mo-
delo e Aplicação (Capítulo VII), agrupadas na fase de pós-processamento. O método empre-
gado foi o de Halliman (2001), tendo como resultado a categorização das notícias, também
chamada de grandes áreas de abordagem da empresa.
Foi possível, com essa estratégia de Halliman, elaborar diversos gráficos que
permitiram aos administradores da empresa, de maneira mais ágil, analisar as informações ob-
tidas do projeto. Entre eles: os gráficos de ‘palavras mais usadas’, ‘categorias por período’ e
‘categorias por assunto’.
Nos capítulos subseqüentes, discorre-se sobre cada uma dessas fases com deta-
lhes. Neles, as principais etapas da CRISP-DM foram aplicadas tendo como suporte as abor-
dagens de DCT estudadas.
4.4 - Síntese do Capítulo A CRISP-DM é uma metodologia validada, tendo abrangência, detalhamento de
passos, busca de padronização, rotinas e etapas genéricas para desenvolvimento de aplicações
de DBCD.
Para aplicações de DCT, existem algumas abordagens metodológicas cobrindo,
cada uma à sua maneira, as fases do processo de descoberta. Visando a obter as vantagens ine-
rentes a cada metodologia, aplicou-se, no estudo de caso, uma combinação delas, verificando a
aplicabilidade da CRISP-DM em DCT, apesar de ela ter sido criada para apoiar o desenvolvi-
mento de aplicações de DCBD.
Capítulo V -
Compreensão do Negócio e
Pré-Processamento
Neste capítulo, abordou-se o pré-processamento, de acordo com a CRISP-DM, a
saber: a Compreensão do Negócio, o Entendimento dos Dados e Preparação dos Dados. Essa
etapa é importante, uma vez que condiciona fortemente as decisões tomadas nas próximas fa-
ses e um entendimento incompleto do problema pode levar à perda de tempo ou ainda a obten-
ção de respostas corretas para questões errôneas.
O escopo do projeto deve ser objetivo de modo a minimizar interpretações múl-
tiplas, a fim de oferecer condições para se decidir o tipo de tecnologia a ser utilizada.
O capítulo englobou as três primeiras fases descritas na metodologia CRISP-
DM. Foram abordados tópicos como objetivo do negócio, critérios de sucesso, riscos, explora-
ção inicial e engenharia dos dados.
5.1 - Compreensão do Negócio Nesse tópico, identificaram-se as necessidades e os objetivos numa perspectiva
do cliente, convertendo esse conhecimento numa tarefa de mineração de dados, bem como e-
ventuais problemas e/ou restrições que, se desconsiderados, poderiam implicar perda de
Capítulo V – Compreensão do Negócio e Pré-Processamento 58
tempo. Compreendeu ainda a descrição do background do cliente, seus objetivos de negócio e
uma descrição dos critérios utilizados para determinar o sucesso do seu negócio.
5.1.1 - Objetivo do Negócio
Background
A RADIOBRÁS tem como objetivo principal universalizar as informações refe-
rentes a atos e fatos da administração pública federal.
Seus principais produtos e serviços são: (i) Rádio Nacional de Brasília - AM;
(ii) Rádio Nacional do Rio de Janeiro - AM; (iii) Rádio Nacional da Amazônia - OC;
(iv) Rádio Nacional de Brasília - OC; (v) Rádio Nacional do Brasil - OC; (vi) Rede Nacional
de Rádio; (vii) TV Nacional - Canal 2; (viii) NBR - TV Nacional Brasil; (ix) Publicidade
Legal; (x) Agência Brasil; (xi) Mídia Impressa; (xii) Sinopse; e (xiii) Portal da Cidadania.
A empresa opera cinco emissoras de rádio, uma de televisão aberta e outra por
assinatura, um centro de produção de notícias e um serviço radiofônico via satélite. É hoje de-
tentora do maior parque radiofônico da América Latina e quinto maior do mundo, cobrindo
com seu sinal a quase totalidade do planeta.
Objetivos
A RADIOBRÁS - Empresa Brasileira de Comunicação S.A. é uma empresa pú-
blica, dotada de personalidade jurídica de direito privado, organizada sob a forma de sociedade
por ações, criada em 1975 e vinculada à Secretaria de Comunicação de Governo da Presidên-
cia da República do Brasil.
De acordo com o Regimento Interno (RADIOBRÁS, 2001), constitui objeto da
RADIOBRÁS:
Capítulo V – Compreensão do Negócio e Pré-Processamento 59
(i) Divulgar as realizações do governo federal nas áreas econômica, política e social
e difundir para o exterior conhecimento adequado da realidade brasileira, bem
como implantar e operar emissoras e explorar serviços de radiodifusão;
(ii) Implantar e operar suas redes de repetição e retransmissão de radiodifusão, ex-
plorando seus serviços, prestando serviços especializados, bem como promoven-
do e estimulando a formação e o treinamento de pessoal especializado, necessário
as suas atividades;
(iii) Recolher, elaborar, produzir, transmitir e distribuir, diretamente ou em colabora-
ção com os meios de comunicação social, o noticiário, fotografias, boletins e pro-
gramas, referentes a atos e fatos da Administração Pública Federal e outros de
interesse público de natureza política, econômico-financeira, cívica, social, des-
portiva, cultural e artística, mediante processos gráficos, fotográficos, cinemato-
gráficos, eletrônicos ou quaisquer outros;
(iv) Distribuir a publicidade legal dos órgãos, entidades e sociedades integrantes da
Administração Pública Federal, direta e indireta;
(v) Exercer outras atividades afins que lhe forem atribuídas pelo Ministro de Estado
Chefe da Secretaria de Comunicação de Governo da Presidência da República.
Objetivos estratégicos
De acordo com o planejamento estratégico (RADIOBRÁS, 2001a), são objeti-
vos estratégicos da empresa:
(i) Adequar seus instrumentos regulamentares e organizacionais;
(ii) Adequar-se para a competitividade mercadológica;
(iii) Buscar a auto-suficiência econômico-financeira;
Capítulo V – Compreensão do Negócio e Pré-Processamento 60
(iv) Promover permanente modernização tecnológica;
(v) Adotar mecanismos de mensuração e monitoramento de resultados das ativida-
des;
(vi) Elevar níveis de qualidade e adequação de conteúdo, de modo a ampliar a abran-
gência dos meios;
(vii) Preparar quadro funcional para atingir excelência em qualidade e produtividade.
Critérios para o Sucesso
A RADIOBRÁS não dispõe hoje, segundo seu diretor administrativo, de indica-
dores nacionais que permitam quantificar com precisão o número de pessoas que usufruem
seus produtos e serviços.
São relacionadas, a seguir, algumas questões importantes, referentes ao negócio
da RADIOBRÁS:
(i) Estimar a distribuição de notícias por assunto (economia, política, social, despor-
tiva, cultural e artística);
(ii) Avaliar difusão das notícias para o exterior da realidade brasileira;
(iii) Estimar a distribuição dos noticiários, boletins e afins referentes à administração
pública federal;
(iv) Estimar e avaliar a distribuição da publicidade legal dos órgãos da administração
pública federal;
(v) Levantar as atividades afins atribuídas pela Secretaria de Comunicação de Go-
verno da Presidência da República e que não fazem parte das funções rotineiras
da RADIOBRÁS.
Capítulo V – Compreensão do Negócio e Pré-Processamento 61
(vi) Estimar o nível de universalização do acesso da sociedade ao conhecimento das
informações sobre atos e fatos do governo federal.
Parte dessas questões, foram respondidas pelo especialista depois da análise das
seguintes informações obtidas durante o processo de mineração:
(i) Percentagem de notícias por assunto (economia, política, social, desportiva, cul-
tural e artística);
(ii) Quantidade de notícias referentes a atos e fatos da administração pública federal
(iii) Quantidade de notícias sobre determinado assunto em relação à data de sua dis-
tribuição
(iv) Grupos homogêneos de texto e as palavras que o definem.
5.1.2 - Avaliação da Situação
Inventário dos Recursos
Os recursos disponíveis para o projeto abrangeram: pessoal (especialista de ne-
gócios, especialista de dados, suporte técnico, “minerador” do conhecimento), dados (extração
física, acesso aos dados operacionais), recursos computacionais (plataforma de hardware) e
software (ferramentas de mineração de texto, outros softwares relevantes).
Pessoal
• Um gerente do projeto para avaliação e suporte necessários ao projeto - gerente;
• Um analista para interagir com o software de mineração de texto - analista de
dados, co-gerente do projeto;
• Um coordenador de atividades de reportagens - especialista de negócio e avalia-
dor da extração de conhecimento;
Capítulo V – Compreensão do Negócio e Pré-Processamento 62
• Um operador de grande porte e DBA do banco de dados (COBOL) - administra-
dor de dados;
• Um operador de grande porte e banco de dados COBOL - suporte técnico, ope-
rador de dados brutos.
Dados
• Foram disponibilizados dados de janeiro de 1987 a dezembro de 2001;
• Os textos estavam disponíveis em meio magnético em um banco de dados textual
(COBOL indexado);
• O banco de dados estava armazenado no computador de grande porte (HP 8200);
• Foram distribuídos por unidades textuais na proporção de um arquivo-texto para
cada notícia;
• Indexados por data e por Status (Notícias Bloqueadas, Liberadas, Descartadas);
• Arquivos textuais em formato ASCII puro sem formatação;
• Acesso aos dados restrito ao especialista de dados e ao operador de dados brutos;
Hardware
• HP 8200 (grande porte) - fonte dos dados textuais brutos;
• Um Pentium III 800 MHz 512 Ram (estação de trabalho) - processamento da fer-
ramenta de mineração e repositório dos dados transferidos do grande porte;
• Dois servidores Pentium Xeon III dual 1 GHz 2 GB Ram;
• Um servidor Pentium III dual 550 MHz 512 Ram;
Software
• Open VMS (grande porte);
• COBOL (grande porte);
• Microsoft Windows 2000 Server (estação de trabalho);
Capítulo V – Compreensão do Negócio e Pré-Processamento 63
• Eurekha 2.0 (Personal Edition);
• Mononc Pro - Versão 2.0 (Build 227) - Demo
Requisitos e Suposições
A execução deste projeto, gerou grande expectativa dos diretores da empresa
quanto ao conhecimento do conteúdo e dos conceitos expostos pela RADIOBRÁS em seus
produtos.
O enfoque colocado por seu diretor administrativo-financeiro demonstrou a ne-
cessidade de conhecer, em números, a universalização das notícias veiculadas pela empresa.
Para ele, um fator de sucesso para o projeto é viabilização de se extrair os conceitos produzi-
dos e veiculados pela empresa e o quanto disto está sendo “conhecido pela sociedade” e, as-
sim, segundo ele, mostrar a realidade brasileira dos atos e fatos da Administração Pública
Federal.
Para o presidente da RADIOBRÁS, um dos pontos de expectativa do projeto es-
tá em estudar o conteúdo produzido e veiculado pela empresa. Com isto, seria possível certifi-
car que se ela está cumprindo o papel estipulado pela Presidência da República.
Para atingir essas expectativas, o presidente nomeou uma especialista em notí-
cias, incumbida de analisar os resultados da mineração de texto, bem como propor novos a-
grupamentos ou dados para validar o conhecimento extraído.
A compreensão e a qualidade dos resultados foram avaliadas ao término da aná-
lise dos dados, pelos gerentes do projeto e pela especialista de negócio, cabendo, ao final, a
adequação por parte dos diretores da empresa.
A RADIOBRÁS liberou para o projeto o acesso ao acervo eletrônico e permitiu
a análise e extração do conhecimento dele. Adicionalmente, o projeto ateve-se às notícias ve-
Capítulo V – Compreensão do Negócio e Pré-Processamento 64
rídicas e de domínio público disponibilizadas no site da empresa no endereço eletrônico
http://www.radiobras.gov.br.
Nessa fase do projeto, não foram incluídas, para análise e extração do conheci-
mento, as notícias não-escritas, as notícias em meio não-magnético, as notícias escritas em ou-
tros idiomas, fotos e imagens. Dessa forma, foram analisadas tão somente todas as notícias
escritas em português e disponíveis eletronicamente.
Limitações
A área de atuação foi o acervo de notícias em português produzido e veiculado
no ano de 2001. Nesse período, uma limitação em relação à análise efetuada foi a falta de ma-
térias (arquivos-texto) entre os dias 04/01/2001 (inclusive) até o dia 14/02/2001 (inclusive).
Não foi possível importar esses 41 dias de produção devido à não-disponibilidade de notícias
desses dias no servidor de grande porte.
Limitações de Recursos: (i) o projeto contou somente com uma ferramenta de mineração de
texto capaz de realizar o trabalho. A segunda ferramenta (text analyst) talvez não pudesse su-
prir as necessidades, já que era uma cópia de avaliação; (ii) por ser um trabalho de cunho aca-
dêmico, o projeto não foi dotado de recursos financeiros, priorizando-se ações que não
envolviam custos;
Limitações de tecnologia: (i) a tecnologia empregada é nova e sua utilização na prática é tam-
bém recente. Assim era natural que ocorressem situações de entrave ou atraso até que se che-
gasse a uma solução ideal, o que realmente oconteceu; (ii) a ferramenta utilizada para
mineração de texto não é comercial, sendo fruto de pesquisa na área e resultado de uma disser-
tação de mestrado. Limitações em relações a ela poderiam ocorrer, visto que um dos objetivos
do projeto era analisar e propor sugestões para a ferramenta; (iii) o projeto propôs soluções
Capítulo V – Compreensão do Negócio e Pré-Processamento 65
que abrangeram o domínio da mineração de texto, acarretando, portanto, que as soluções em-
pregadas foram inseridas no domínio de ocorrência dessa tecnologia - aprendizado não-
supervisionado.
Limitações de tamanho: (i) o projeto teve como foco de abrangência o acervo de notícias pro-
duzidas e disponibilizadas, em português, em meio magnético e na forma textual importada do
grande porte; (ii) identificaram-se, de forma semi-automática, agrupamentos de notícias e pa-
lavras-chave que compunham esses grupos; (iii) os conceitos, advindos da análise realizada
pela especialista de negócios, fundamentaram-se no conhecimento extraído dos dados e con-
seqüentes agrupamentos.
Limitações na abrangência dos dados: (i) os dados analisados foram as notícias produzidas e
disponibilizadas entre 01/01/2001 a 31/12/2001, embora houvesse uma lacuna entre os dias
04/01/2001 (inclusive) ao dia 14/02/2001 (inclusive); (ii) não foi objetivo do projeto mensurar
a quantidade de informações disponibilizadas e, conseqüentemente, utilizadas pela população,
mas sim avaliar os principais assuntos das notícias e os resultados de acordo com o objetivo
traçado para empresa; (iii) foram analisadas somente as matérias escritas em português e que
se encontravam em meio magnético no formato textual.
Riscos e Contingências
Riscos: (i) possibilidade de o projeto perder apoio político e/ou administrativo na execução de
suas etapas; (ii) não conseguir mensurar, estatisticamente, os tipos e a quantidade de notícias
veiculadas por períodos de tempo; (iii) a ferramenta de mineração de texto ou hardware não
suportar o volume de dados a serem analisados; (iv) a ferramenta de mineração de texto não
conseguir comportar os dados textuais da empresa devido à forma, tamanho ou formatação
deles; (v) não conseguir confrontar os agrupamentos e palavras-chave com os períodos históri-
Capítulo V – Compreensão do Negócio e Pré-Processamento 66
cos na busca de extrair os melhores conceitos; (vi) ter resultados finais que não atingissem as
expectativas da cúpula administrativa da empresa (presidente e diretores).
Contingências: (i) Uso da importação de texto para banco relacional para facilitar o levanta-
mento da estatística dos dados (quantidade, tipo, período); (ii) usar outra ferramenta de mine-
ração de texto; (iii) a busca por respaldo das ações ao longo da execução das etapas.
Terminologias
Os termos técnicos referentes ao trabalho são os seguintes:
• Acervo - Matérias liberadas para sociedade brasileira;
• PO - Sigla que identifica notícias relacionadas à Política;
• EC - Sigla que identifica notícias relacionadas à Economia;
• NA - Sigla que identifica notícias relacionadas ao Brasil (Nacional);
• CT - Sigla que identifica notícias relacionadas à Ciência e Tecnologia;
• FL - Flash, matérias curtas sobre determinado assunto;
• MA - Matéria longa sobre determinado assunto;
• ME - Matéria especial sobre determinado assunto;
• CL - Clipping;
• PT - Pauta de Foto;
• PA - Pauta.
Custos e Benefícios
No projeto, não foram agregados recursos financeiros, entre outros motivos, por
haver uma congruência de ações: (i) pesquisa e elaboração de uma dissertação e (ii) necessi-
dade de conhecimento mais abrangente sobre a produção da empresa, visando a atender as ex-
pectativas dos administradores com o estudo e o levantamento dos conteúdos das matérias
produzidas e disponibilizadas pela empresa.
Capítulo V – Compreensão do Negócio e Pré-Processamento 67
Um dos principais benefícios foi a elevação do conhecimento sistêmico com a-
nálise do conteúdo de um produto da RADIOBRÁS, confrontando os conhecimentos extraídos
das notícias com os objetivos da empresa, traçados pela Presidência da República. Esse bene-
fício poderá refletir-se na consolidação da empresa ou descobrir algum insight sobre o negócio
que possa subsidiar o planejamento estratégico da RADIOBRÁS.
5.1.3 - Objetivos da Mineração de Dados
A extração de conhecimento servirá como base para análise do cumprimento do
papel da empresa junto à sociedade brasileira, espera-se com o estudo:
(i) Selecionar as principais palavras empregadas nas notícias produzidas e disponibi-
lizadas pela empresa;
(ii) Determinar os principais confrontos entre as notícias e conseqüentemente as pa-
lavras-chave que compõem esses agrupamentos;
(iii) Separar as notícias em grupos, indicando os termos (palavras) mais importantes;
(iv) Identificar os principais conteúdos, com base na análise dos grupos de notícias e,
quando possível, confrontá-los com fatos ocorridos no período estudado.
(v) Elaborar estatísticas das notícias por tempo, tipo, assunto e quantidade.
Critérios de Sucesso
(i) Quantificar as notícias por tipo, tempo e principais assuntos.
(ii) Extrair os conceitos produzidos e veiculados pela empresa, tendo como base a
análise dos grupos de notícias;
(iii) Determinar a quantidade de matérias que trata sobre atos e fatos da administração
pública federal.
Capítulo V – Compreensão do Negócio e Pré-Processamento 68
(iv) Estudar o conteúdo produzido e veiculado pela empresa, certificando que a
RADIOBRÁS está cumprindo o papel estipulado pela presidência da república.
5.1.4 - Plano do Projeto
Na Figura 5.1, observa-se o plano do projeto seguido. Nele apresentaram-se as
principais tarefas executadas, bem como o tempo estimado cada uma. Como forma de mensu-
ração e controle, determinaram-se, no plano, os responsáveis pelas etapas que foram ordenadas
de acordo com suas dependências.
As entradas e as saídas de cada fase, assim como as repetições e/ou os saltos de
etapas especificadas na metodologia CRISP-DM, foram detalhadas conforme o curso do proje-
to.
A análise geral do plano do projeto, bem como suas revisões, foram especifica-
das na etapa de desenvolvimento - etapa VI do CRISP-DM.
Atividades Mês 1 Mês 2 Mês 3 Mês 4 Mês 5 Mês 6 Mês 7 Recursos
I - ENTENDIMENTO DO NEGÓCIO 1.1 - Definição de metas e recursos Rdb/Gp 1.2 - Migração dos Dados Ed/St II – ENTENDIMENTO DOS DADOS Mc/Ed/Gp III - PREPARAÇÃO DOS DADOS Mc/Ed 3.1 – Limpeza Mc/Ed 3.2 – Engenharia Mc/Ed 3.3 – Formatação Mc/Ed IV – MODELAGEM 4.1 - Avaliação da técnica e ferramenta mineração de texto Mc 4.1.1 - Escolha do algoritmo Mc/Gp 4.1.2 - Definição do nível de similaridade Mc/Gp 4.1.3 - Extração dos grupos Mc/Gp 4.1.4 - Análise dos grupos Gp/Em 4.1.5 - Estatística da amostra (quantidade) Mc/Gp 4.2 - Execução da ferramenta de mineração de texto Mc 1.4.1 - Extração dos grupos Mc/Gp 1.4.2 - Análise dos grupos Gp/Em 1.4.3 - Estatística da amostra (quantidade) Mc/Gp V – AVALIAÇÃO Gp/Em VI – APLICAÇÃO Rdb
Legenda: Ed Especialista de dados Mc Minerador do conhecimento En Especialista de negócio Rdb Responsável na empresa RADIOBRÁS Gp Gerentes do projeto St Suporte técnico
Figura 5.1 – Plano do projeto.
Capítulo V – Compreensão do Negócio e Pré-Processamento 69
O projeto é focalizado em mineração de texto como técnica principal de desco-
berta de conhecimento. Para execução dessa “mineração”, foi necessário o uso de ferramentas
específicas que facilitaram a extração do conhecimento em dados na forma textual.
No mercado, há diversas ferramentas de mineração em texto (Nuggets, 2001).
Uma ferramenta para mineração de texto é apresentada por Wives (1999) como parte de sua
dissertação de mestrado. Sua interface pode ser vista na Figura 5.2.
Avaliação inicial das técnicas e ferramentas
A ferramenta Eurekha®, desenvolvida por Wives (1999), baseada nas análises e
nas comparações de algoritmos de clustering, é apresentada como um protótipo de mineração
de texto. Essa ferramenta agrega várias opções e parâmetros que podem ser definidos pelo u-
suário, proporcionando-lhe, a obtenção de conhecimento (padrões, relacionamentos) com base
em textos de forma interativa.
O uso dessa ferramenta é justificado por diversos fatores, tais como: (i) é um
protótipo baseado na plataforma windows 9*; (ii) seu intuito inicial é acadêmico; (iii) é um
software inicialmente concebido como freeware; (iv) permite usar, sem limitação, conjunto de
texto em ASCII; (v) faz parte de um estudo continuado, visando a sugestões de melhorias nela
ou nos procedimentos que advierem com seu uso.
Capítulo V – Compreensão do Negócio e Pré-Processamento 70
Figura 5.2 - Interface do Eurekha.
Essa ferramenta é considerada um protótipo para agrupamento de informações
(objetos) textuais. Apresenta várias opções e parâmetros que podem ser definidos pelo usuário,
além de apresentar diversas formas de análise dos resultados. Todavia, por ser um protótipo,
tem algumas limitações que devem ser tratadas em algum trabalho futuro.
Eurekha foi desenvolvido com características de orientação a objetos. Dispõe de
vários recursos, como disponibilização de escolha entre quatro diferentes algoritmos de agru-
pamento: (i) best-star; (ii) cliques; (iii) full-star; (iv) stars. A ferramenta permite ainda: (i) de-
finição e manipulação de stopwords; (ii) definição e manipulação de coleções de documentos,
(iii) definição dos atributos para o processo de agrupamento (cálculo de similaridades e gera-
ção de matriz de similaridades); (iv) visualização em forma gráfica dos clusters encontrados;
(v) interface de exportação de grupos e resultados dos agrupamentos.
Capítulo V – Compreensão do Negócio e Pré-Processamento 71
5.2 - Entendimento dos Dados Essa etapa visou a identificar informações que pudessem ser relevantes para o
estudo e uma primeira familiarização com seu conteúdo, descrição, qualidade e utilidade. A
coleção inicial dos dados objetivou obter informação com a qual se trabalhou, listando suas
fontes, o procedimento de leitura e os problemas detectados. Descreveu-se ainda a forma como
os dados foram coletados, relacionando seu formato, volume, significado e toda a informação
relevante. Aqui foram feitas as primeiras descobertas.
5.2.1 - Relatório Inicial da Coleção
Os dados, para viabilização do projeto, foram importados de uma base textual
indexada em COBOL, armazenada no sistema de grande porte HP 8200. Os arquivos adquiri-
dos estavam no servidor de “extração do conhecimento”, denominada como estação de traba-
lho em formato ASC II puro e sem formatação.
Cada arquivo-texto correspondeu a uma matéria (notícia) na proporção de um
texto para cada registro. Não foram importados arquivos defeituosos, arquivos de controle do
sistema ou arquivos não constantes do acervo de notícias escritas em português.
Na Tabela 5.1, é apresentado um resumo e problemas ocorridos na importação
dos dados (textos), bem como sua localização. Por ser a única fonte de dados, não foi conside-
rada a necessidade de verificar possíveis ambigüidades de informações ou ainda a falta de re-
gistros devido à mesclagem de dados.
Capítulo V – Compreensão do Negócio e Pré-Processamento 72
Tabela 5.1 - Resumo da importação dos dados. Fonte Localização atual Problemas identificados
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/01 Quantidade de arquivos menor que o esperado para o mês de produção. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/02 Quantidade de arquivos menor que o esperado para o mês de produção. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/03 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/04 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/05 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/06 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/07 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/08 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/09 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/10 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/11 Sem problemas identificados. COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/12 Sem problemas identificados.
Os problemas identificados na importação dos dados foram repassados para o
suporte técnico e para o especialista de dados. Pelas conclusões obtidas, verificou-se que o
problema encontrava-se na fonte de dados que não apresentava mais os arquivos nos formatos
e locais originais. Concluiu-se que a importação não interferiu no processo e que a situação
dos arquivos na estação de trabalho espelhou as informações da fonte de dados.
Uma segunda fonte de dados dessas notícias estava disponível em formato ele-
trônico na Internet (servidor Web da empresa), os dados passaram por uma transformação de
txt para HTML. Como forma de manter segurança e a performance de acesso, os dados ficam
armazenados nessa forma por tempo indefinido.
Observou-se, porém, a necessidade de elaborar processos adicionais para análise
desses dados, tais como: limpeza de formatações, limpeza de conteúdos e tags adicionadas ao
arquivo para fins de disponibilização na web, entre outros fatores. É importante ressaltar que
esses arquivos estão disponíveis em outra máquina em outra fonte de dados. Essa “segunda
fonte de dados” é administrada por outras pessoas que não estão relacionadas na seção 5.1.2.
Como até o término desta etapa de verificação dos dados, bem como da avalia-
ção das técnicas e ferramentas, não havia soluções para o problema, o projeto seguiu com os
dados disponíveis e ao final será feita a avaliação pertinente pela falta desses arquivos.
Capítulo V – Compreensão do Negócio e Pré-Processamento 73
5.2.2 - Descrição dos Dados
Como visto no tópico anterior, os dados para o projeto constaram de textos em
formato ASC II na proporção de um texto para cada notícia.
Na Tabela 5.2 e na Figura 5.3, observa-se o resumo dos arquivos importados,
separados por períodos mensais de produção, informando a quantidade de registros, os tama-
nhos totais (bytes) e médio do arquivo (bytes).
Tabela 5.2 - Resumo dos dados importados. Mês Produção
(2001) Quantidade
Arquivos (mês) Quantidade Média
Arquivos (dia) Tamanho
Total (bytes) Tamanho Médio Arquivo (bytes)
Janeiro 247 8,23 225.198 911,73 Fevereiro 2.049 68,30 2.068.497 1.009,52 Março 4.599 153,30 4.697.891 1.021,50 Abril 5.397 179,90 5.429.883 1.006,09 Maio 5.838 194,60 5.839.314 1.000,23 Junho 5.429 180,97 5.478.167 1.009,06 Julho 5.104 170,13 5.200.581 1.018,92 Agosto 5.503 183,43 5.623.412 1.021,88 Setembro 5.621 187,37 5.665.198 1.007,86 Outubro 5.480 182,67 5.613.377 1.024,34 Novembro 5.634 187,80 5.720.749 1.015,39 Dezembro 4.734 157,80 4.680.795 988,76 Médias 4.636 154,54 4.686.921,83 1.002,94 Total: 55.635 -- 56.243.062 --
Figura 5.3 - Produção Mensal em 2001.
Na Figura 5.4, pode-se verificar um exemplo de conteúdo do arquivo-texto ana-
lisado neste projeto. Cada arquivo-texto continha uma notícia escrita de forma livre, em portu-
guês sem formatação prévia em caracteres do tipo ASC II.
Capítulo V – Compreensão do Negócio e Pré-Processamento 74
CCCCCCCC
EEccoonnoommiiaa
OOrrççaammeennttoo ddaa UUnniiããoo ddeessttiinnaa RR$$ 1155 bbiillhhõõeess àà áárreeaa ssoocciiaall eemm 22000022
BBrraassíílliiaa,, 3311 ((AAggêênncciiaa BBrraassiill -- AABBrr)) -- OO OOrrççaammeennttoo GGeerraall ddaa UUnniiããoo ppaarraa 22000022 vvaaii ddiirreecciioonnaarr RR$$ 1155 bbiillhhõõeess
aaooss pprrooggrraammaass ddaa áárreeaa ssoocciiaall iimmpplleemmeennttaaddooss ppeelloo ggoovveerrnnoo ffeeddeerraall nneessttee eexxeerrccíícciioo ffiissccaall,, uummaa eexxppaannssããoo
1144%% ssuuppeerriioorr àà ffiixxaaddaa nnoo OOrrççaammeennttoo eemm eexxeeccuuççããoo nneessttee aannoo.. ((DDeeiiggmmaa TTuurraazzii))
========
NNFF
NNNNNNNN
Figura 5.4 - Formato-padrão do conteúdo textos.
5.2.3 - Exploração dos Dados
Para se obter a estatística dos dados trabalhados, os textos foram dispostos e se-
parados por períodos de tempo de produção. Quanto à produção mensal, foram criadas pastas
individuais, contendo a quantidade de palavras e a média de incidência de notícias, uma pasta
para cada mês de produção. No que se refere à distinção entre as datas de distribuição e produ-
ção, foram aproveitadas a notações realizadas pelo sistema de grande porte. Na Figura 5.5, po-
de-se ver como se encontrava a disposição do arquivo em relação à nomenclatura utilizada e o
período de tempo (data e hora da produção).
Figura 5.5 - Padrão de nomenclatura do arquivo-texto.
Na Tabela 5.3, é apresentado um resumo da produção mensal da empresa em
que se enumeram a quantidade de palavras e a média de incidência por notícia.
Capítulo V – Compreensão do Negócio e Pré-Processamento 75
Tabela 5.3 - Total e média de palavras por texto. Mês Produção
(2001) Quantidade (arquivos)
Quantidade de Palavras
Média
Janeiro 247 35.431 143,45 Fevereiro 2.049 321.446 156,88 Março 4.599 728.852 158,48 Abril 5.397 838.842 155,43 Maio 5.838 905.646 155,13 Junho 5.429 850.801 156,71 Julho 5.104 808.314 158,37 Agosto 5.503 870.295 158,15 Setembro 5.621 875.809 155,81 Outubro 5.480 865.922 158,01 Novembro 5.634 883.301 156,78 Dezembro 4.734 725.747 153,31 Totais: 55.635 8.710.406 155,54
Tabela 5.4 - Palavras com maior incidência por mês em 2001. Palavra / ocorrência Jan Fev Mar Abril Mai Jun Jul Ago Set Out Nov Dez Média Total
Presidente 73 883 2161 2615 2681 2662 2502 2559 2444 2365 2420 2291 2138 25656 Ministro 63 617 1716 2022 2513 2124 1751 2221 1941 2231 2234 1927 1780 21360 Governo 58 602 1590 1430 2033 1767 1566 1452 1470 1312 1420 1541 1353 16241 Ministério 35 515 1177 1438 1601 1278 1259 1509 1335 1575 1699 1184 1217 14605 Federal 74 483 1037 1381 1332 1287 1223 1496 1280 1414 1534 1233 1148 13774 Programa 45 528 1187 1142 1553 1406 1284 1507 1298 1134 1348 1127 1130 13559 Energia 7 169 547 877 2596 2216 1396 1280 1027 952 875 617 1047 12559 Estado 67 485 1064 1338 1389 1102 1138 1091 1023 1093 1082 898 981 11770 Desenvolvimento 22 348 881 1140 1266 885 887 1052 1042 996 1224 1148 908 10891 Fernando 22 300 765 1038 951 1051 1161 996 908 1027 1010 915 845 10144 Nublado 95 466 797 1060 1018 837 947 965 1042 891 943 805 822 9866 Saúde 33 312 931 1022 1116 765 594 1033 925 982 1121 675 792 9509 Henrique 20 304 692 943 834 966 1084 913 821 905 902 768 763 9152 Educação 22 215 628 891 850 861 699 900 827 911 1000 652 705 8456
*Para os meses de janeiro e fevereiro, deve ser considerado o exposto na Tabela 5.1.
Para melhor visualização da análise dos dados, os resultados foram dispostos em
duas Figuras 5.6 e 5.7, nas quais pode-se observar a incidência de média de sete palavras no
conjunto de dados. Esses resultados foram alcançados pelo cálculo de freqüência absoluta13,
permitindo descobrir a incidência geral das palavras em todos os textos referentes a determi-
nado mês.
13 Somatório simples da quantidade de incidência da palavra nos textos referentes a determinado mês.
Capítulo V – Compreensão do Negócio e Pré-Processamento 76
Destaque na Evolução
jane
iro
feve
reiro
mar
ço
abril
mai
o
junh
o
julh
o
agos
to
sete
mbr
o
outu
bro
nove
mbr
o
deze
mbr
o
Mês
Inci
dênc
ia
ministro presidente governo ministériofederal programa estado
Figura 5.6 - Incidência de palavras por mês (a).
Destaque na Evolução
jane
iro
feve
reiro
mar
ço
abril
mai
o
junh
o
julh
o
agos
to
sete
mbr
o
outu
bro
nove
mbr
o
deze
mbr
o
Mês
Inci
dênc
ia
energia desenvolvimento fernando nubladosaúde henrique educação
Figura 5.7 - Incidência de palavras por mês (b).
Com base nesse resultado, a etapa posterior foi destacar os melhores resultados
de cada mês, excluindo as stopwords. O resultado geral dos 12 (doze) meses foi inserido em
uma planilha na qual foram calculadas e analisadas as médias de incidência no mês e a fre-
qüência com que as palavras apareciam nos outros meses. Ao final, chegou-se a uma planilha
com as palavras mais usadas e mais freqüentes.
Capítulo V – Compreensão do Negócio e Pré-Processamento 77
Esse conjunto de dados foi então analisado pelo especialista que elegeu as me-
lhores palavras em relação ao contexto empregado. Foram selecionadas aquelas que indicaram
mais consistência nos textos. Eliminaram-se as palavras que, neste contexto, significassem lo-
calidades, tais como: “brasília”, “sul”, “são” e “paulo”.
Uma análise prévia em relação a esses dados indicou grande ascendência da pa-
lavra “energia”, a partir do mês de maio. Isto se justificou pela condução do programa de ra-
cionamento de energia conduzido pelo governo federal, intensificada a partir daquele mês, e
sua conseqüente queda de incidência em virtude dos resultados obtidos pela campanha
“antiapagão”.
Outras palavras tais como “presidente”, “ministro”, “governo”, “ministério”,
“federal” e “programa” foram termos de uso comum em todos os meses analisados. A princí-
pio, presume-se, com base nesses dados, que as notícias têm grande enfoque para o presidente
“Fernando” “Henrique”, uma vez que seu nome também está citado nessa figura juntamente
com palavras que indicaram atos e fatos sobre seus ministros (neste caso no plural por não ha-
ver, em uma primeira análise, uma apresentação explícita de nomes ou cadeiras).
O objetivo principal dessa tarefa foi procurar conhecer os dados “minerados”,
tendo um conhecimento prévio das palavras-chave que pudessem servir de guia na elaboração
do agrupamento.
As demais informações obtidas encontram-se na seção 7.1.1, onde foi realizada
a avaliação do modelo. Foram criadas, especificamente nessa fase, as Figuras 7.3, 7.4, 7.5 e
7.6.
Capítulo V – Compreensão do Negócio e Pré-Processamento 78
5.2.4 - Qualidade dos Dados
Por se tratar de textos, há de se estabelecer duas vertentes para análise de quali-
dade. A primeira tratou da integridade e da disposição dos textos para acesso e análise. A se-
gunda, do conteúdo, uma vez que esses foram redigidos de forma livre e por isso sujeitos a
erros de ortografia, posição, entre outros. Nesse aspecto, fez-se uso das verificações feitas pe-
los editores de cada matéria, supervisores e ainda usuários que tinham lido e informado erros
encontrados. Os arquivos-texto apresentaram boa qualidade em relação a esses dois aspectos.
Essas duas análises de qualidade, porém, não eliminaram totalmente erros quan-
to à ortografia, à concordância, à formatação, entre outros.
Outro enfoque, em relação à qualidade, foi a abrangência do acervo disponibili-
zado para o projeto. Conforme observado nas Tabelas 5.2 e 5.3, há uma lacuna entre os meses
de janeiro e fevereiro.
Nessa etapa, não foi possível mensurar o prejuízo dessa falta de registros de
forma específica. Esse fato interferiu no resultado do processo como um todo, uma vez que
parte do acervo não constou das estatísticas de produção e, por conseguinte, não foi analisada.
Para tais arquivos-texto, não foi possível também realizar a análise de áreas (categorias), o que
interferiu nas informações obtidas no final do processo.
Conforme exposto na seção 5.2.1, a falta desses arquivos foi compensada pela
importação e a análise dos dados textuais transformados e disponíveis em formato html. Essa
segunda fonte de dados completou a análise e compôs os resultados finais da descoberta do
conhecimento.
Adicionalmente, incluíram-se como proposta de solução do problema, uma aná-
lise, uma investigação de backups e/ou outros meios que pudessem disponibilizar esses dados
inexistentes em seu formato original.
Capítulo V – Compreensão do Negócio e Pré-Processamento 79
5.3 - Preparação dos Dados Consistiu numa série de atividades destinadas a obter o conjunto final de dados,
do qual foi criado e validado o modelo. Nessa fase, foram utilizados programas de extração,
limpeza e transformação dos dados. Compreendeu a junção de tabelas e a agregação de valo-
res, modificando seu formato, sem mudar seu significado, a fim de refletir as necessidades dos
algoritmos de aprendizagem.
5.3.1 - Seleção dos Dados
A RADIOBRÁS dispõe de enorme quantidade de dados textuais disponíveis em
meio magnético a serem explorados. A empresa também agrega outras fontes de informação
inacessíveis eletronicamente, tais como: sinopse, mídia impressa, Voz do Brasil, laudas e notí-
cias da rádio e TV. Esses produtos são considerados valiosos como fonte de informações as
quais poderão ser utilizados para extração de conhecimentos estratégicos em futuros projetos.
Para o projeto atual, o domínio incorporado aos dados que se seguem são maté-
rias produzidas e disponibilizadas para o Portal da Cidadania da RADIOBRÁS. Esses dados
são notícias escritas em português para mídia impressa. Foram selecionadas para o projeto as
notícias tipificadas como:
(i) Notícias Liberadas - matérias consolidadas sobre os principais fatos do dia em
cinco áreas: política, economia, nacional, ciência e tecnologia e cultura. Essas
matérias são consideradas como produtos finais das edições jornalísticas e com-
põem o acervo público da RADIOBRÁS. Esses textos foram usados para o proje-
to, sendo a fonte principal para extração e análise do conhecimento.
(ii) Íntegras - matérias consolidadas de discursos, briefings, notas oficiais e outros
documentos do governo federal.
Capítulo V – Compreensão do Negócio e Pré-Processamento 80
A seguir, outros dados são apresentados como parte da produção RADIOBRÁS,
mas que não foram incluídas no escopo deste projeto.
(i) Notícias Originais - matérias brutas enviadas ou transmitidas diretamente para a
sede da agência de notícias. Essas matérias são consideradas como produtos de
produção jornalística e compõem o acervo da RADIOBRÁS.
(ii) Notícias Não-Liberadas - matérias descartadas ou ainda inacabadas, não-prontas
para disponibilização.
(iii) Notícias Bloqueadas - matérias úteis que geralmente não são disponibilizadas na
edição do dia corrente. Freqüentemente são notícias veiculadas em dias de pe-
quena produção - fins de semana, por exemplo.
(iv) Notícias Lixo - notícias não-disponibilizadas para uso. Ficam no banco de dados
e podem ser aproveitadas posteriormente.
(v) Notícias de Edição Comum - são matérias constantes de “acervos” particulares
de cada editor, repórter ou digitador. Podem ser ainda “arquivos particulares”
disponibilizados para as editorias (política, economia, C&T, nacional) onde são
armazenadas as matérias de seu interesse. Geralmente, são usados como repositó-
rio de modelos de matérias.
(vi) Notícias Internacionais - matérias consolidadas sobre os principais fatos do dia
em inglês, alemão e espanhol. Essas matérias são colocadas como produtos finais
das edições jornalísticas e compõem o acervo público da RADIOBRÁS, porém
não foram usadas para o projeto por estarem em outro idioma.
(vii) Agenda e Pautas Presidenciais - agenda do presidente da república, ministros e
outras autoridades do governo federal.
Capítulo V – Compreensão do Negócio e Pré-Processamento 81
(viii) Palavra do Presidente - íntegra do programa semanal de rádio da presidência da
república, separada em várias matérias. Não foram incluídas nessa fase do proje-
to.
Em resumo, foram selecionados os textos constantes do acervo da
RADIOBRÁS, produzidos e disponibilizados em português compostos de matérias liberadas e
íntegras.
5.3.2 - Limpeza dos Dados
Como parte do processo de preparação dos dados, excluíram-se dados não-
relevantes para a pesquisa. Quando se lida com mineração de texto, dois aspectos devem ser
observados: textos não-relevantes e palavras nos textos que podem ser eliminadas.
Em relação aos textos considerados não importantes, de acordo com a seleção
mencionada na seção 5.3.1, foram eliminados os que se referiam a: (i) pautas e agendas presi-
denciais; (ii) pauta de eventos e fotos, como também os arquivos-texto corrompidos e os nulos
(sem conteúdo).
O processo de seleção das palavras que podem ser eliminadas, sem prejuízo da
compreensão do seu conteúdo, foi realizado ao longo da análise e extração dos grupos. Outras
palavras consideradas como stopwords14 constantes nos textos, tais como: artigos, conjunções,
caracteres de controle de sistema, nome da agência da RADIOBRÁS, entre outras, foram iden-
tificadas e armazenadas em uma lista que foi utilizada no processo de extração do conheci-
mento.
Em seguida foi localizada, a esmo, uma matéria no conjunto de dados, a fim de
que fosse identificada uma matéria do tipo pauta. Realizada a análise dessa matéria, foram se-
14 conforme exposto no capítulo III na seção 3.1.2 desta dissertação
Capítulo V – Compreensão do Negócio e Pré-Processamento 82
lecionadas as palavras e as frases que as definissem como sendo desse tipo. Foram encontradas
as frases “pauta de foto”, “central de pauta”, “pauta interna” e “pauta de telefoto”. Para con-
cluir, foi executada uma pesquisa textual com o utilitário do Windows 2000 Server (Figura
5.8) na estação de trabalho com as frases supracitadas, localizando-as e separando-as.
Figura 5.8 - Utilitário de pesquisa textual.
A identificação das matérias nulas foi possível por meio da análise no tamanho
(bytes) dos arquivos textos. Selecionados os menores arquivos, um a um foi analisado e sepa-
rado visando a sua exclusão do processo.
Tabela 5.5 - Resultado da limpeza de dados. Mês Produção
(2001) Quantidade (arquivos)
Matérias Tipo Pauta
Matérias Nulas
Quantidade Resultante
% de Arquivos Excluídos
Janeiro 247 7 0 240 2,83 Fevereiro 2049 60 2 1987 3,03 Março 4599 115 1 4483 2,52 Abril 5397 160 2 5235 3,00 Maio 5838 157 0 5681 2,69 Junho 5429 139 2 5288 2,60 Julho 5104 131 2 4971 2,61 Agosto 5503 192 0 5311 3,49 Setembro 5621 145 2 5474 2,62 Outubro 5480 172 0 5308 3,14 Novembro 5634 163 5 5466 2,98 Dezembro 4734 137 2 4595 2,93 Totais: 55635 1578 18 54039 2,87
Capítulo V – Compreensão do Negócio e Pré-Processamento 83
Na Tabela 5.5, observa-se a tarefa da limpeza nos textos. Para efeito de estatísti-
cas posteriores e/ou pesquisa nos dados de pauta, essas matérias foram separadas em outro di-
retório. Deste modo, não constaram do restante do processo de mineração.
5.3.3 - Engenharia dos Dados
A engenharia de dados consistiu em operações que permitiram preparar os dados
para modelagem. O ciclo geral das tarefas executadas neste projeto pode ser visualizado na
Figura 5.9.
Figura 5.9 - Ciclo das tarefas da engenharia de dados.
A seguir, apresentam-se as tarefas realizadas na engenharia dos dados.
1. Importação
1.1. Transferência dos arquivos do grande porte (cobol) para estação de trabalho
(windows);
1.2. Separação dos dados importados em pasta mensais.
Capítulo V – Compreensão do Negócio e Pré-Processamento 84
2. Preparação dos arquivos
2.1. Execução da renomeação de versão para txt (de “.1” para “.txt”).
3. Resumo dos dados importados (quantidade e tamanho (bytes) dos arquivos importados).
3.1. realização da estatística do número de palavras (MonoConc Pro Demo 2.227).
4. Limpeza dos dados
4.1. Arquivos corrompidos - Na execução do programa de estatística MonoConc®, foram
verificados, também, arquivos corrompidos. Nesse caso, ao tentar abrir um arquivo
danificado, o software acusou erro que foi então separado para depois ser contabiliza-
do na estatística de limpeza.
4.2. Arquivos tipo pauta - Depois de localizados, os textos foram separados em outra pas-
ta, sendo eliminados do restante do processo.
4.3. Arquivos Nulos ou Inválidos - A concepção de inválido, nesse caso, são matérias cujo
texto é composto de conteúdo sem sentido. Um exemplo desse conteúdo são matérias
que contêm somente caracteres de controle, tais como: ‘CCCCC’ e ‘NNNNN’ ou ain-
da textos inacabados nos quais constam somente o cabeçalho da matéria. A localiza-
ção desses arquivos foi possível pela verificação do tamanho deles em bytes. Feita a
classificação por tamanhos, os arquivos foram abertos e, visualmente, constatou-se
seu conteúdo. Aqueles que não continham caracteres ou eram inválidos foram separa-
dos em pastas diferentes para não serem incluídos no restante do processo.
4.4. Estatística da limpeza - Realização da estatística da quantidade e do tamanho total dos
arquivos nulos e pautas.
5. Engenharia nos dados
5.1. Separação das matérias de C&T depois da análise das estatísticas. Observou-se que a
produção de tais matérias não condizia com o esperado. Na análise, apurou-se que a
Capítulo V – Compreensão do Negócio e Pré-Processamento 85
produção era em torno de quatro a seis matérias mensais embora o esperado fosse um
número bem maior.
Verificado o conteúdo dessas matérias, concluiu-se que o levantamento estatísti-
co espelhava a realidade dos dados, já que, ao contrário das demais matérias, cada texto conti-
nha mais de uma notícia.
Realizou-se então, de forma manual, uma engenharia nesses textos. Depois de
localizadas e classificadas, as diversas notícias constantes em cada arquivo foram separadas.
Para cada notícia, criou-se novo arquivo. Assim, ao final do processo, um arquivo original de
uma matéria de C&T gerou vários outros. Para manter as características originais e de controle
da matéria, a nomenclatura adotada foi apresentada na Figura 5.10.
Figura 5.10 - Nomenclatura dos arquivos de C&T depois da engenharia dos dados.
Com esse padrão, foi mantido o número seqüencial de controle da matéria
(0003), bem como sua data de criação (“010223”). Para controle do processo, foram inseridas
as letras “CT” e um seqüencial independente para cada matéria (“11”).
6. Estatística
6.1. Palavras mais usadas - o processo de verificação e de análise das palavras mais utili-
zadas durante o período de 2001 foi realizado por meio da exportação dos resultados
das estatísticas. O resultado de cada mês foi exportado para uma planilha eletrônica.
Em cada planilha, foram eliminadas as stopwords. Com isto, o total das palavras mais
usadas em cada mês foi inserido em uma única planilha, na qual, por classificação, fo-
Capítulo V – Compreensão do Negócio e Pré-Processamento 86
ram separadas as palavras, levando-se em consideração a quantidade de vezes que ela
foi utilizada no mês, bem como sua periodicidade.
5.3.4 - Formatação dos Dados
No aspecto da extração do conhecimento em texto, a formatação condiz com a
preparação da fonte de dados. No caso, os arquivos textuais, foram processados adequadamen-
te pela modelagem.
Conforme mostrado na Figura 5.5, os arquivos disponíveis para o projeto tinham
extensões diferentes de acordo com sua versão que, nesse caso, foi definida como sendo a
quantidade de vezes que a matéria era editada até sua liberação.
Embora com extensões diferentes, os arquivos não deixaram de ser textuais e
por isso necessitaram de ajustes. Esse ajuste, na CRISP-DM, é denominado de rearranjo de
atributos.
Como a ferramenta de mineração de texto e o sistema operacional teriam de ter
uma extensão única e condizente com o tipo textual, foram realizadas mudanças na extensão
dos arquivos, via comandos de sistema operacional. O resultado final da nomenclatura pode
ser visualizado na Figura 5.11.
Figura 5.11 - Nomenclatura depois da formatação dos textos.
Capítulo V – Compreensão do Negócio e Pré-Processamento 87
5.4 - Síntese do Capítulo A aplicação da CRISP-DM possibilitou a descoberta de problemas de armaze-
namento do acervo de notícias da empresa. A fim de contornar o problema, algumas ações fo-
ram executadas, entre elas: identificação de backups, arquivos ‘HTML’ no servidor web e em
servidores antigos. Em conseqüência, novos processos e rotinas de segurança nos dados foram
planejados.
Com as primeiras interações nos dados, foi possível mensurar, de forma mais
precisa, a produção da empresa. Informações, como média de produção diária, média de pala-
vras por notícia, percentual de incidência de notícias nulas e/ou inválidas foram consideradas
como grande contribuição do projeto.
Capítulo VI -
Modelagem
Neste capítulo, discorreu-se sobre a modelagem - quarta etapa da CRISP-DM,
considerada como mineração de dados em si.
Nessa etapa, foram selecionadas e aplicadas as técnicas de mineração de dados
avaliadas como as mais apropriadas aos objetivos pretendidos. A criação de um modelo de tes-
te permitiu construir um mecanismo para testar a qualidade e validar os modelos obtidos. Re-
presentou a fase central da mineração, ou seja, a escolha, a parametrização e a execução de
técnica(s) sobre o conjunto de dados analisados, criando-se modelos nos quais foram aborda-
dos tópicos de seleção de técnicas e algoritmos, testes do modelo, descrição detalhada do mo-
delo adotado, bem como sua parametrização.
6.1 - Seleção da Técnica Um processo de descoberta do conhecimento, como na DCT, envolve usualmen-
te a combinação de diferentes tipos de problema. Neste o projeto, segundo a CRISP-DM, os
principais problemas resolvidos com a DCT foram: Descrição e Sumarização dos Dados e
Segmentação. Para tanto, em cada etapa foram selecionadas técnicas diferentes, relacionadas a
seguir.
Capítulo VI - Modelagem 89
6.1.1 - Descrição dos Dados e Sumarização
Um dos problemas solucionados pela DCT foi o conhecimento mais abrangente
do conteúdo dos dados da empresa. Para esse tipo de problema, fez-se uma abordagem híbrida,
uma descrição das características dos dados da empresa.
Com a sumarização de determinados qualificadores nos textos, foi possível à
empresa categorizar possíveis problemas. Em períodos de tempo, podem-se também verificar
níveis de produção por categorias, pessoas, tipos, entre outros. Isso poderá servir à administra-
ção para realçar e escalar possíveis problemas na linha de produção ou direcionamento de de-
terminados assuntos tratados nas matérias.
Essa etapa, realizada no começo do projeto, serviu como base para as “primeiras
descobertas” que permitiram explorar e conhecer melhor os dados analisados. Para isso foi uti-
lizada a metodologia de Ah-Hwee Tan (Tan, 1999) apresentada na seção 4.2.2.
Tal como proposto, os dados foram exportados para um banco de dados relacio-
nal. Usando-se essa forma intermediária, esses dados foram analisados e categorizados, sendo
o resultado final obtido da análise de gráficos extraídos desse banco de dados os quais poderão
também ser analisados pelas ferramentas de mineração de conhecimento para dados estrutura-
dos.
6.1.2 - Segmentação
Verificados os objetivos da mineração e os dados disponíveis para o projeto, op-
tou-se por lidar com técnicas usadas comumente para aprendizado não-supervisionado.
Fez-se um clustering nos textos da empresa, ou seja, agruparam-se objetos simi-
lares em categorias distintas em que os objetos desse grupo detinham características comuns.
Neste projeto, separam-se as matérias por grupos e em cada conjunto, determinadas palavras
Capítulo VI - Modelagem 90
eram compartilhadas. Desse modo, foi possível particionar uma grande coleção de documen-
tos, isolando aqueles pertencentes a um mesmo assunto. Isso facilitou a identificação de do-
cumentos relevantes para o usuário. Aplicando-se técnicas adicionais, foi possível destacar o
assunto ou conhecimento específico de cada grupo, facilitando o processo de recuperação de
informações ou descoberta de conhecimento.
Com a análise desses agrupamentos, foi possível elaborar e explicar hipóteses.
Baseado no conhecimento já apropriado pelo especialista, adquirido com a experiência nos
dados da empresa ou ainda pelas informações fornecidas pela descrição e sumarização dos da-
dos, pretende-se obter relações relevantes ao negócio da empresa.
Para a realização do clustering, foi escolhida a proposta de Palazzo, apresentada
na pesquisa de Wives (Palazzo, 2000; Wives, 2000) e implementada na ferramenta Eurekha.
Na Figura 6.1, é apresentada a seqüência adotada na condução dessa fase.
Obtidos os grupos e respectivos centróides, foi realizada uma análise deles, bus-
cando extrair conhecimento com base nessas informações. Fez-se então uma categorização de
assuntos abordados pela RADIOBRÁS. Essa categorização foi conduzida pelo especialista
com base na metodologia apresentada por Halliman (2001) que usou, além das informações
dos grupos, seu conhecimento.
Algumas tarefas citadas acima necessitaram da intervenção do usuário, tais co-
mo: ajuste da lista de stopwords, a escolha do algoritmo e a definição do nível de similaridade.
Para descoberta desses parâmetros e conseqüente validação do modelo, selecionou-se como
grupo de testes, um conjunto menor de matérias que foi submetido ao software Eurekha para
obtenção dos parâmetros necessários ao restante do projeto.
Capítulo VI - Modelagem 91
Figura 6.1 - Metodologia de agrupamento para DCT.
O Eurekha, usado para obter os clusters, fornece ao final do processo, arquivos
textuais como relatórios de saída: (i) Relatório.txt - contendo os clusters encontrados, com a
percentagem de distribuição dos textos, além dos centróides de cada grupo; e (ii) Clusters.txt -
nomeia os arquivos contidos em cada grupo.
6.2 - Teste do modelo A abordagem de solução, usada neste estudo de caso está relacionada a proble-
mas exploratórios. Assim sendo, foram utilizados métodos de aprendizado não-
supervisionado, visto que o objetivo era descobrir características implícitas nos dados de ma-
neira a organizá-los. No aprendizado não-supervisionado, os padrões do conjunto de treina-
mento não apresentam uma pré-classificação associada, pois esta é desconhecida.
Capítulo VI - Modelagem 92
Deste modo, o teste para análise da qualidade e da validade do modelo, diferen-
temente do método supervisionado que utilizou procedimentos de separação de conjunto de
dados (dados de treinamento e de testes), foi elaborado pelo próprio especialista. Por meio
dessa análise subjetiva ele avaliou o modelo mediante a observação dos grupos formados em
relação ao conteúdo e a distribuição deles, conforme descrito a seguir.
6.3 - Modelo Na validação do modelo, foram obtidos parâmetros utilizados pela ferramenta,
de modo a permitir que o processo fosse mais bem direcionado para domínio dos dados exis-
tentes no projeto.
O primeiro passo foi identificar as palavras que deveriam ser excluídas do pro-
cesso de comparação entre os documentos - as stopwords. A ferramenta Eurekha incorpora
grupos de stopwords comumente utilizadas (artigos, advérbios, interjeições, preposições, pro-
nomes etc.). Ela permitiu ainda selecionar individualmente cada grupo, possibilitando que esse
grupo de palavras fosse incluído ou não no processo. Foi possível, igualmente, acrescentar no-
vos grupos ou palavras, de modo a personalizar o processo de análise dos textos de acordo
com o domínio. Esse processo permitiu alcançar resultados mais acurados, reduzindo o núme-
ro de características analisadas no processo.
Para executar esse teste e acrescentar possíveis stopwords, foram selecionadas
as matérias produzidas no mês de fevereiro, contendo 2049 arquivos e cerca de 320.000 pala-
vras. Esse mês foi escolhido por conter baixo número de notícias, levando-se em conta os pro-
blemas detectados na fonte de dados descritos na seção 5.3.1.
Na primeira execução, porém, o tempo de processamento foi maior que o dese-
jado. Para a execução, na estação de trabalho, a geração da matriz de similaridade, que foi a
Capítulo VI - Modelagem 93
base para identificação dos clusters, tomou 40h36min39s e o tempo de processamento da iden-
tificação tomou 3h10min.
Nessa fase, foram necessários vários ajustes e, conseqüentemente, para efeito de
testes, esse tempo foi considerado inviável, pois seria preciso executar várias vezes a
reidentificação dos clusters.
O grupo selecionado foi o mês de janeiro, com 240 arquivos e cerca de 35.000
palavras. Com isso, o teste foi realizado de forma mais rápida - 33min42s para geração da ma-
triz de similaridade e cerca de 1min para identificação dos clusters.
Com a análise desse grupo menor de arquivos, foram identificadas as stopwords
específicas para o processo e armazenadas em uma classe intitulada RADIOBRÁS.
Feita a seleção das stopwords, o processo seguinte foi a execução da ferramenta
Eurekha para a construção da matriz de similaridade. Ao término dessa fase, a ferramenta per-
mitiu selecionar quatro diferentes algoritmos para agrupamento de dados, bem como o GSM
(Grau de Similaridade Mínimo) desejado.
Wives realizou estudos e análises comparativas entre esses algoritmos e diferen-
tes valores para o GSM (Wives, 1999). Nesse estudo, o autor apresenta o algoritmo ‘Best-Star’
como sendo o melhor para identificação de relações entre objetos em que não é necessário que
o usuário se preocupe com a escolha do GSM específico para coleção - GSM = 0 (zero).
Com o intuito de eleger a melhor configuração para o ambiente, foram testados
os algoritmos disponíveis na ferramenta - ‘Stars’, ‘Full-Star’, ‘Best-Star’ e ‘Cliques’ com di-
ferentes níveis de GSM. Os resultados desses testes são mostrados na Tabela 6.1. O tempo de
processamento (Matriz), bem como o de processamento (Identificação dos clusters) permane-
ceu constante. Respectivamente, 33min42s e cerca de 1min, na base de testes.
Capítulo VI - Modelagem 94
Tabela 6.1 - Resultados dos testes de algoritmos x nível de GSM. Algoritmo GSM Nº de Grupos Nº de Grupos
Unitários Avaliação do Especialista
Best Star 0 77 0 Boa Best Star 0,02 77 0 Boa Best Star 0,05 77 11 Ruim Cliques 0,05 72 15 Ruim Full-Star 0,05 235 5 Péssima Stars 0,05 40 17 Razoável Stars 0,02 15 5 Muito boa
* Todos os testes foram realizados na mesma máquina: Pentium III dual 800 Mhz - 512 MB Ram
Os testes foram realizados com GSM igual ou inferior a 0,05, tendo em vista a
ocorrência elevada de grupos unitários para valores acima desse patamar. Para GSM igual a
zero, o único algoritmo apresentado capaz de identificar grupos por meio de relacionamentos
naturais foi o ‘Best-Star’. Por isso, somente ele é apresentado com esse valor.
Os resultados desse teste foram submetidos ao especialista que os avaliou
de forma subjetiva (‘boa’, ‘razoável’ etc), priorizando o aspecto de formação dos grupos em
relação às matérias inseridas em cada um destes, analisando os assuntos tratados pelas maté-
rias dentro de um mesmo grupo. Verificou-se também se dois ou mais grupos não tratavam de
assuntos similares por meio da análise de seus respectivos centróides.
Como a pesquisa não visou à avaliação detalhada de qual o melhor algoritmo em
relação ao tempo de processamento e sua acurácia, foram utilizadas como parâmetros, as me-
didas apresentadas na pesquisa de Wives (1999).
Acerca dessa análise, foi eleito o algoritmo ‘Stars’ como GSM de ‘0.02’ para a
coleção de dados do projeto. É importante salientar que a escolha desses parâmetros está dire-
tamente ligada à coleção existente. É provável que esse nível de GSM e esse algoritmo não
venham a identificar grupos coesos para outra coleção.
Outro critério de avaliação para escolha do algoritmo e do GSM foi a densidade
dos grupos. A análise da quantidade de grupos unitários ocorreu pelo fato de que esses não
Capítulo VI - Modelagem 95
representaram, nesta pesquisa, ganho de conhecimento. Assim, um dos pontos considerados
foi a relação de quanto menor o número de grupos unitários melhor seria a solução.
Com a seleção do algoritmo e do nível de GSM por meio da interação com a ba-
se de testes, o próximo passo foi sua utilização no restante da coleção.
Considerando o enorme tempo de processamento, defrontou-se, nessa etapa do
projeto, com a viabilidade ou não dos processos que estavam sendo executados. Com esse
problema, quanto aos tempos de execução, ficaria inviável dar continuidade à análise dos tex-
tos selecionados para o projeto. Por exemplo, nos servidores15, o tempo estimado para proces-
samento foi de cerca de 562 horas para 5800 textos.
Com o intuito de sanar o problema, foram feitas diversas tentativas:
(i) Definição e configuração do limite de palavras comparadas por truncagem. Segundo
Wives (1999), um estudo indicou 50 palavras como boa escolha. Isto, porém não foi
fornecido na versão do Eurekha, disponibilizada para o projeto.
(ii) Alocação do processo em memória e aumento de prioridade da tarefa. Não resultou
em melhorias visíveis.
(iii) Opção de utilizar outro software para selecionar melhor as palavras, truncar ou fazer
uma identificação de radicais. Não foi encontrado software para tal processo. Para
tanto, o processo de extração de stopwords foi revisto e a tabela devidamente atuali-
zada.
(iv) Disponibilização de nova versão do software Eurekha. Cedida para o projeto a ver-
são 3.0.1 beta;
15 Pentium Xeon III dual 1 GHz 2 GB Ram
Capítulo VI - Modelagem 96
Com essa nova versão, os tempos de processamento da matriz foram bastante o-
timizados. Na Tabela 6.2, podem-se observar os tempos de execução das tarefas que têm o in-
tuito de servir de base na criação de planos de projeto para DCT.
Tabela 6.2 - Tempos de execução das tarefas. Mês
(2001) Tempo de
Processamento (Matriz) Tempo de processo
(Identificação dos Clusters) Máquina
Janeiro 1m33s < 1 min I Fevereiro 1h10m7s ~9 hs I Março 8h47m50s ~180 hs I Abril 14h43m59s ~190 hs II Maio 16h44m42s ~210 hs II Junho 15h14m39s ~210 hs II Julho 9h1m3s ~120 hs II Agosto 13h20m57s ~130 hs II Setembro 39h26m17s ~290 hs III Outubro 9h45m1s ~200 hs II Novembro 17h20m8s ~180 hs II Dezembro 30h26m44s ~380 hs III
• Máquina I - Pentium III dual 800 Mhz - 512 MB Ram. • Máquina II - Pentium Xeon III dual 1 GHz 2 GB Ram. • Máquina III - Pentium III dual 550 MHz 512 Ram.
Como se vê, o tempo de execução dos processos tornou-se viável para a conti-
nuação do projeto.
6.4 - Avaliação Técnica Depois de realizado o clustering nas notícias veiculadas pela empresa, foi possí-
vel verificar os resultados mediante observações do especialista. Essa análise foi efetuada de
forma subjetiva, focalizada de acordo com o critério geral de interesse, guiada pelos conheci-
mentos do especialista e pelos centróides obtidos dos grupos (Figura 6.2).
Capítulo VI - Modelagem 97
Figura 6.2 - Resultado do agrupamento de dezembro/01.
Grupo Documentos Centróides Cluster [1] 10% NUBLADO TEMPO REGIÃO CHUVA Cluster [2] 36% MINISTRO PRESIDENTE DESENVOLVIMENTO GOVERNO Cluster [3] 06% PRESIDENTE GOVERNO MINISTRO MILHÕES Cluster [4] 16% PRESIDENTE GOVERNO MINISTRO FEDERAL Cluster [5] 10% DÓLAR VENDA MINISTRO COMERCIAL Cluster [6] 09% CENTO ALTA DÓLAR VENDA Cluster [7] 04% PRESIDENTE FERNANDO HENRIQUE CARDOSO Cluster [8] 02% BANCO ESTADO CENTRAL NESTA Cluster [9] 02% COMISSÃO CÂMARA SENADO PLENÁRIO Cluster [10] 01% FEDERAL UNIVERSIDADE REINICIA MACEIÓ Cluster [11] 01% DÓLAR VENDA COMPRA COMERCIAL Cluster [12] 00% INFORMOU PAULISTA AEROPORTO POLÍCIA Cluster [13] 01% DÓLAR COMPRA VENDA COMERCIAL Cluster [14] 00% REUNIÃO MINISTÉRIO RELATÓRIO CONSELHO Cluster [15] 00% ENERGIA ANEEL MERCADO ELÉTRICA Cluster [16] 00% SENADO PROJETO FOGOS CHAGAS Cluster [17] 00% MAIORES BAIXA MILHÕES OPERA Cluster [18] 00% CULTURA PRÊMIOS MINISTÉRIO ENTREGA Cluster [19] 00% BRADESCO ESTADO CHUVAS VÍTIMAS Cluster [20] 00% CORPO BLAKE ESTADO ÍNDIA Cluster [21] 00% PUBLICA UNIÃO ÁLCOOL PORTARIA Cluster [22] 00% RECIFE MACIEL PASSA REVEILLON Cluster [23] 00% CENTRAL SETOR NOTA FISCAL Cluster [24] 00% PETRÓPOLIS DEFESA CIVIL DUQUE
A avaliação foi feita com o levantamento de pressupostos dirigidos para confir-
mação ou oposição de fatos que se referiram a acontecimentos de grande repercussão nacional
ou internacional no período (2001). Conhecendo-se esses grandes assuntos, o ambiente foi ex-
plorado, aplicando-se diferentes estratégias de observação e experimentação. Para tanto, foram
usados exemplos para testar esses pressupostos, permitindo formular conceitos parciais. Pode-
riam ser citados eventos como: campanhas de vacinação, campanhas educativas sobre AIDS e
outras, atentado terrorista ao World Trade Center, campanha de combate às drogas no polígo-
no da maconha, campanhas antiapagão, guerras, entre outros.
Com esse conhecimento, o especialista, pela observação, formulou pressupostos,
criou critérios de classificação, estabelecendo hierarquias. Dessa forma, puderam-se detectar
conceitos e categorizar os grupos de acordo com a medida de interação com o ambiente exter-
no.
Capítulo VI - Modelagem 98
Para construção do modelo na ferramenta de mineração de texto, foram adota-
dos os seguintes parâmetros:
(i) Técnica - Clustering
(ii) Nível de GSM - 0.02;
(iii) Algoritmo selecionado- Stars.
6.5 - Síntese do Capítulo Este capítulo discorreu sobre a quarta etapa da CRISP-DM. Foram obtidos, nes-
sa fase do estudo de caso, os parâmetros e conseqüentes grupos, executando-se a técnica sele-
cionada - clustering.
Pode-se considerar essa etapa como sendo a mineração dos dados em si, visto
que ela é tida como núcleo do processo de descoberta de conhecimento.
Com as informações obtidas, pode-se passar para próxima etapa da CRISP-DM
- avaliação, em que foram abordadas as tarefas ligadas ao pós-processamento.
Capítulo VII -
Pós-Processamento
Este capítulo foi baseado no artigo “Text mining: crossing the chasm between
the academy and the industry” (Silva, 2002) publicado nos anais do DM- 2002 Third
International Conference on Data Mining Methods and Databases for Engineering, Finance
and Other Fields - Data Mining 2002 (ANEXO B).
Apesar de a metodologia conter seis fases, a distribuição delas, nesta pesquisa,
foi feita em três partes: pré-processamento, modelagem e pós-processamento. Por conseguinte,
este capítulo tratou da interpretação e validação dos resultados, da sua utilização na empresa,
bem como dos conhecimentos adquiridos no transcorrer do estudo de caso seus resultados e
gráficos da pesquisa.
Iniciou-se com a avaliação do modelo em que foram revistos os passos adotados
durante a execução do projeto, mostrando os resultados, confrontando-os com os objetivos tra-
çados, tendo como feedback, por parte da empresa, sua continuidade ou não. Finalizou-se com
a apresentação do relatório final do projeto que englobou ainda o planejamento da aplicação
na empresa.
7.1 - Avaliação Essa fase consistiu na avaliação do modelo, revisão dos passos seguidos, verifi-
cando os resultados obtidos e o alcance dos objetivos do negócio. Determinaram-se também,
Capítulo VII - Pós-Processamento 100
as tarefas executadas. De acordo com os resultados obtidos e a revisão do processo, decidiu-se
pela continuidade do processo – Aplicação.
7.1.1 - Avaliação do Modelo
A metodologia CRISP-DM foi aplicada em um estudo de caso na RADIOBRÁS
com o uso de ferramentas de mineração de texto tendo como objetivo de estudo o acervo
público de notícias. Realizou-se a análise de 55.635 textos, totalizando cerca de 8.700.000
palavras. Para tanto, como pré-processamento, foram executadas as seguintes tarefas:
(i) aquisição e transferência dos arquivos-texto - notícias - do acervo da empresa;
(ii) preparação dos arquivos-texto; (iii) estatística dos textos, das palavras e do tamanho dos
arquivos; (iv) limpeza dos dados: arquivos corrompidos, nulos, inválidos ou fora do escopo do
projeto (notícias em português); (v) engenharia nos dados: separação de notícias em arquivos
independentes, e (vi) estatística final: palavras mais usadas e levantamento dos dados depois
da limpeza.
A seguir, foi feita a modelagem, selecionando-se as tecnologias utilizadas. Veri-
ficados os objetivos da mineração e os dados disponíveis, fez-se o clustering dos textos da
empresa, o que consiste em agrupar objetos similares em grupos distintos, onde todos os obje-
tos detêm características comuns. No caso deste projeto, foram separadas as matérias em gru-
pos, nos quais há o compartilhamento de determinadas palavras. Sendo assim, foi possível
particionar grande coleção de documentos, isolando aqueles pertencentes a um mesmo assun-
to. Isto facilitou a identificação de documentos relevantes para o usuário. Aplicando-se técni-
cas adicionais, foi possível identificar o assunto ou conhecimento específico de cada grupo,
facilitando o processo de recuperação de informações ou descoberta de conhecimento.
Capítulo VII - Pós-Processamento 101
Com a análise desses agrupamentos, pôde-se adquirir conhecimento e assim
confrontá-lo com fatos ocorridos no período estudado. Baseado no conhecimento do especia-
lista, adquirido com a experiência em lidar com os dados da empresa ou ainda pelas informa-
ções fornecidas pela descrição e sumarização dos dados, obtiveram-se relações relevantes para
o negócio da empresa.
Para formar os grupos, foi utilizada a ferramenta Eurekha, fruto da pesquisa a-
presentada por Wives (1999), juntamente com a proposta de Palazzo.
Depois de formados os grupos e respectivos centróides, fez-se uma análise com
vistas a extrair os conhecimentos a partir das informações encontradas. Foi então estabelecida
uma categorização de assuntos abordados pela RADIOBRÁS, elaborada pelo especialista,
com base na metodologia apresentada por Halliman (2001) que usou, além das informações
dos grupos, seu conhecimento do negócio. Um exemplo de categorização pode ser visto na
Figura 7.1.
Utilizando-se o percentual de distribuição de matérias nos grupos, o especialista
categorizou por assunto os grupos encontrados mês a mês. A quantificação das categorias foi
realizada com base nos dados de distribuição (%) dos centróides em relação à sua incidência
no período, o que possibilitou relacionar os principais assuntos tratados pela empresa.
Foram identificadas cinco grandes áreas (Figura 7.2) com as respectivas pala-
vras-chave: (i) Presidência da República - presidente, Fernando, Henrique, Cardoso;
(ii) Economia - banco central, valores monetários, inflação, cotação das bolsas de valores, co-
tação do dólar, taxa de juros, tesouro nacional; (iii) Meteorologia - previsão do tempo, nubla-
do, parcialmente, chuvas; (iv) Desenvolvimento - energia, valores monetários, nomes de
estatais, investimento e desenvolvimento; e (v) Política - siglas de partidos, câmara, senado,
nome de ministros, nomes de senadores.
Capítulo VII - Pós-Processamento 102
Categoria Grupo Documentos Centróides
Meteorologia Cluster [1] 10% NUBLADO TEMPO REGIÃO CHUVA
Presidência Cluster [2] 36% MINISTRO PRESIDENTE DESENVOLVIMENTO GOVERNO Cluster [3] 06% PRESIDENTE GOVERNO MINISTRO MILHÕES Cluster [4] 16% PRESIDENTE GOVERNO MINISTRO FEDERAL Cluster [7] 04% PRESIDENTE FERNANDO HENRIQUE CARDOSO Cluster [22] 00% RECIFE MACIEL PASSA REVEILLON
Economia Cluster [5] 10% DÓLAR VENDA MINISTRO COMERCIAL Cluster [6] 09% CENTO ALTA DÓLAR VENDA Cluster [8] 02% BANCO ESTADO CENTRAL NESTA Cluster [11] 01% DÓLAR VENDA COMPRA COMERCIAL Cluster [13] 01% DÓLAR COMPRA VENDA COMERCIAL Cluster [17] 00% MAIORES BAIXA MILHÕES OPERA Cluster [23] 00% CENTRAL SETOR NOTA FISCAL
Educação Cluster [10] 01% FEDERAL UNIVERSIDADE REINICIA MACEIÓ
Política Cluster [9] 02% COMISSÃO CÂMARA SENADO PLENÁRIO Cluster [21] 00% PUBLICA UNIÃO ÁLCOOL PORTARIA Cluster [18] 00% CULTURA PRÊMIOS MINISTÉRIO ENTREGA
Segurança Cluster [12] 00% INFORMOU PAULISTA AEROPORTO POLÍCIA Cluster [14] 00% REUNIÃO MINISTÉRIO RELATÓRIO CONSELHO Cluster [16] 00% SENADO PROJETO FOGOS CHAGAS
Desenvolvimento Cluster [15] 00% ENERGIA ANEEL MERCADO ELÉTRICA Cluster [19] 00% BRADESCO ESTADO CHUVAS VÍTIMAS Cluster [24] 00% PETRÓPOLIS DEFESA CIVIL DUQUE
Internacional Cluster [20] 00% CORPO BLAKE ESTADO ÍNDIA
Figura 7.1 - Resultado da categorização de dezembro/01.
Figura 7.2 - Grandes assuntos abordados pelas notícias.
Outras áreas com menor incidência de apresentação também foram enumeradas.
Elas representam 13% do total de notícias veiculadas. Essas áreas e suas principais
palavras-chave são as seguintes: Educação (censo escolar, universidade, ENEM), Saúde
Capítulo VII - Pós-Processamento 103
(AIDS, HIV, clone, genéricos, hospital, colesterol, remédio), Internacional (ONU, WWF, El
Salvador, Mercosul, Palestina, Israel, Nova York, atentado, torres, Estados Unidos),
Segurança (polícia federal, antidrogas), Previdência (INSS, previdência social, prazo), C&T
(Genoma, tecnologia), Justiça (tribunal, federal, justiça, julgamento, índio, Galdino), Meio
Ambiente (meio ambiente, pássaros, ISO, Amazônia), Agricultura (INCRA, reforma, agrária.
IBAMA, solo), Cultura (carnaval, arte, museu, exposição, orquestra, sinfônica, bonito,
festival, inverno), Transporte (aeroportos, polícia, rodoviária, metrô, conferência, trânsito),
Esporte (INTECOM, ECT, futebol, Nike, CBF, sets, maratona, Vasco, Gama, Cruzeiro,
Goiás, olimpíada), Nacional (qualidade, preço, carne, acidente, P-36) e Trabalho (mulher,
acordo, rurais, trabalho, infantil, fórum, SENAC, SEBRAE).
Para uma análise mais acurada das categorias, foram elaborados diversos gráfi-
cos. A seguir, são apresentados alguns, juntamente com interpretação realizada pelo
especialista.
Na Figura 7.3, são apresentadas as palavras com mais destaque de evolução de
uso no decorrer do período. Seguindo a abordagem sugerida por Halliman (2001), foram rela-
cionadas também as mais utilizadas nas notícias da empresa, excetuando-se as stopwords (Fi-
gura 7.4).
Destaque na Evolução
jane
iro
feve
reiro
mar
ço
abril
mai
o
junh
o
julh
o
agos
to
sete
mbr
o
outu
bro
nove
mbr
o
deze
mbr
o
Mês
Inic
idên
cia
presidente ministro governo energia saúde
Figura 7.3 - Evolução na incidência das principais palavras em 2001.
Capítulo VII - Pós-Processamento 104
Na avaliação desses gráficos, observou-se que o uso constante das palavras
“presidente”, “governo”, “ministro” sugere uma abordagem das ações da Presidência da Re-
pública e do governo federal. A palavra “saúde” aumenta na proporção em que o governo fe-
deral e o Ministério da Saúde divulgam campanhas de vacinação e de prevenção de doenças
(AIDS, por exemplo). E a característica mais realçada: o uso da palavra “energia”, compro-
vando o aspecto de cobertura da administração pública na campanha “antiapagão” conduzida
pelo governo federal.
Figura 7.4 - Palavras mais usadas.
Já pela análise das Figuras 7.5 e 7.6, pode-se concluir que a maioria das notícias
veiculadas é do tipo flash (IT-Internet) que não trazem consigo uma identificação de qual edi-
toria é o foco da notícia (política, economia, nacional, entre outras), ao contrário das matérias
consolidadas (MA). Isto não permite, a priori, uma avaliação mais precisa, por meios conven-
cionais de distribuição de editorias (pesquisa por editoria, por exemplo).
Capítulo VII - Pós-Processamento 105
Figura 7.5 - Distribuição de tipos de notícias.
É possível ainda comprovar que o maior número de notícias provém de
Brasília-DF, Rio de Janeiro-RJ e São Paulo-SP. Isto se deve ao fato de o Distrito Federal-DF e
o Rio de Janeiro-RJ serem os estados da federação como maior concentração de órgãos
federais. Na Figura 7.6, é realçada ainda a presença de Pernambuco-PE. Em uma análise mais
apurada, verificou-se que isto se deve à cobertura da empresa na ação do governo federal no
“Polígono da Maconha”.
Figura 7.6 - Distribuição geográfica no Brasil.
Seguindo a metodologia apresentada por Halliman (2001), foi realizada uma ca-
tegorização de assuntos abordados pela RADIOBRÁS pelo especialista no negócio que usou,
além das informações dos grupos, seu conhecimento.
Capítulo VII - Pós-Processamento 106
As categorias apresentadas na Figura 7.7 representam a classificação subjetiva
do especialista realizada nos grupos encontrados pela ferramenta de DCT por meio de seus
centróides.
Nessa figura, é possível observar a evolução das categorias mês a mês no perío-
do. Analisando-as, pode-se concluir que os assuntos abordados pela empresa condizem com os
objetivos traçados - cobertura da Presidência da República e dos atos e fatos da administração
pública federal brasileira. Com base na análise de suas principais palavras e assuntos aborda-
dos, foi comprovado estarem de acordo com a classificação adotada pela empresa em suas edi-
torias (política, economia, nacional e internacional).
De forma a ser analisada por outro ângulo, foram criados gráficos com essas ca-
tegorias mês a mês, mostrados nas Figuras 7.8 (a) e 7.8 (b). Pode-se, com isto, observar que
em certos meses, devido a fatos diversos, há congruência de notícias para determinados assun-
tos. Por exemplo: (i) crise financeira e risco de inflação (aumento em economia), (ii) campa-
nha antiapagão (aumento em desenvolvimento), (iii) guerras entre países e atentados aos EUA
(aumento em internacional e em segurança), (iv) greve nos metrôs, ônibus e trens (aumento em
transportes), (v) campanhas educacionais (aumento em educação) e (vi) meteorologia, conside-
rada de grande valor, visto que, em virtude de inúmeros fatores, esses dados podem ser essen-
ciais em regiões longínquas onde só há recepção de tais informações via rádio.
Capítulo VII - Pós-Processamento 107
Figura 7.7 – Categorias das notícias no período
Capítulo VII - Pós-Processamento 108
Figura 7.8 - Categorias das notícias por mês (a).
Capítulo VII - Pós-Processamento 109
Figura 7.8 - Categorias das notícias por mês (b).
Capítulo VII - Pós-Processamento 110
Avaliação final
Revendo os passos seguidos, bem como os critérios de sucesso descritos, a em-
presa considerou que o projeto atendeu às expectativas. A RADIOBRÁS considerou que os
resultados obtidos foram ao encontro dos objetivos do negócio, previamente determinados,
optando pela continuidade do processo.
7.1.2 - Revisão dos Processos
A síntese das abordagens metodológicas aplicadas no estudo de caso aqui consi-
derado é mostrada na Figura 7.9.
Figura 7.9 – Síntese metodológica do estudo de caso.
Realizou-se a análise de 55.635 textos, totalizando cerca de 8.700.000 palavras.
Como pré-processamento, foram executadas as seguintes tarefas: (i) aquisição e transferência
dos arquivos-texto – notícias – do acervo da empresa; (ii) preparação dos arquivos-texto; (ii-
i) estatística de quantidade de textos, palavras e tamanho de arquivos; (iv) limpeza dos dados:
Capítulo VII - Pós-Processamento 111
arquivos corrompidos, nulos, inválidos ou fora do escopo do projeto (notícias em português);
(v) engenharia nos dados: separação de notícias em arquivos independentes; e (vi) estatística
final: palavras mais usadas e resultado depois da limpeza dos dados.
A seguir, realizou-se a modelagem, selecionando-se as tecnologias a serem utili-
zadas. Verificados os objetivos da mineração e os dados disponíveis, fez-se o clustering nos
textos da empresa que consiste em agrupar objetos similares em grupos distintos em que todos
os objetos desse grupo que detenham características comuns. Neste projeto, separam-se as ma-
térias em grupos cujo requisito para o agrupamento foi o compartilhamento de determinadas
palavras. Assim sendo, foi possível particionar grande coleção de documentos, isolando aque-
les pertencentes a um mesmo assunto. Isso facilitou a identificação de documentos relevantes
para o usuário. Aplicando-se técnicas adicionais, foi possível identificar o assunto ou conhe-
cimento específico de cada grupo, facilitando o processo de recuperação de informações ou
descoberta de conhecimento.
Na análise desses agrupamentos, foram descobertas e identificadas informações
úteis para a RADIOBRÁS. Baseado no conhecimento do especialista, adquirido da experiên-
cia em lidar com os dados da empresa ou ainda pelas informações fornecidas pela descrição e
sumarização dos dados, obtiveram-se relações relevantes ao negócio da empresa.
Para a realização do clustering, selecionou-se a proposta de Palazzo, apresenta-
da na pesquisa de Wives (1999) e implementada na ferramenta Eurekha.
Depois de formados os grupos e respectivos centróides, fez-se uma análise de-
les, buscando extrair conhecimento gerado das informações encontradas. Foi então estabeleci-
da uma categorização por um especialista dos assuntos abordados pela RADIOBRÁS, com
base na metodologia apresentada por Halliman (2001) que usou, além das informações dos
grupos, seu conhecimento do negócio.
Capítulo VII - Pós-Processamento 112
Utilizando-se do percentual de distribuição de matérias nos grupos, o especialis-
ta categorizou-os por assunto encontrados mês a mês. A quantificação das categorias foi reali-
zada com base nos dados de distribuição (%) dos centróides em relação à sua incidência no
período, o que possibilitou relacionar os principais assuntos tratados pela empresa. A compro-
vação dessas grandes áreas permitiu aos administradores certificarem o fiel cumprimento da
missão da empresa.
7.1.3 - Próximos passos
Nessa fase do método, é realizada uma validação dos resultados alcançados com
a revisão do projeto. Por ser um projeto de cunho acadêmico, não houve necessidade de retor-
nar aos passos anteriores.
O projeto cumpriu os objetivos traçados. A certificação do cumprimento do pa-
pel da empresa, aliada à análise dos textos produzidos, tornou-se importante produto
para a RADIOBRÁS.
Portanto, a decisão da continuidade do projeto, sob o foco da aplicação no dia-a-
dia do negócio da empresa, dar-se-á com a avaliação pela alta administração.
7.2 - Aplicação O conhecimento adquirido como resultado desse projeto foi um conjunto de a-
ções que conduziram à organização do conhecimento obtido e sua disponibilização para o
cliente. Nessa fase, gerou-se um relatório final para explicar os resultados e as experiências.
7.2.1 - Planejamento da Aplicação
A pesquisa foi baseada em um estudo de caso com intuito acadêmico.
Procurou-se mostrar que é possível a transposição da DCT o ‘abismo’ de Moore.
Capítulo VII - Pós-Processamento 113
As informações obtidas tornaram-se úteis à empresa, elevando o nível de conhe-
cimento sistêmico dos administradores da empresa. Os resultados ganharam adesão do presi-
dente e da diretoria administrativa da empresa. Foram realizadas apresentações para vários
setores, tornando-os público à organização.
Na avaliação dos administradores a pesquisa aprimorou o índice de produção e-
xistente (número de matérias produzidas), detalhando a produção da empresa por assunto, ti-
pos, categorias, evolução do uso das palavras, entre outros.
A diretoria da RADIOBRÁS decidiu aplicar os resultados da pesquisa para o
ano de 2002 e incorporar os resultados no relatório de Indicadores de Desempenho da empre-
sa, a ser encaminhada à Secretária de Estado de Comunicação de Governo, vinculada à Presi-
dência da República, além de estudos de aplicação em outros produtos/áreas da empresa.
7.2.2 - Produção do relatório final
Na apresentação final do projeto, foram mostradas as principais atividades reali-
zadas, enfatizando os objetivos, principais resultados alcançados e produção literária.
Visto que um dos objetivos deste estudo foi sensibilizar a alta administração da
empresa, foi feita uma exposição oral, tendo como principais pontos:
11.. Visão Geral 1.1. Descoberta de conhecimento; 1.2. Definição de KDT; 1.3. Vantagens com aplicação da DCT na empresa;
22.. Cenário 2.1. Favorável; 2.2. 80% de informações em formato textual e apenas 7% de técnicas aplicadas nesse tipo
de dado; 2.3. Crescente aumento na disponibilização de informações;
33.. Principais Ganhos 3.1. Alinhamento de objetivos (dissertação e necessidade de análise da base textual da em-
presa); 3.2. Elevação do conhecimento sistêmico da empresa para a alta administração; 3.3. Aquisição de Know-How nas tecnologias e metodologias usadas no projeto;
Capítulo VII - Pós-Processamento 114
3.4. Análise do acervo e certificação do cumprimento do papel da empresa junto a socie-dade brasileira;
3.5. Aumento de visibilidade da empresa com a produção de artigos para congressos na-cionais e internacionais;
44.. Análise do Acervo 4.1. Mensuração da produção da empresa
4.1.1. Total de notícias por mês; 4.1.2. Percentual de notícias inválidas; 4.1.3. Avaliação da distribuição dos tipos de notícias; 4.1.4. Distribuição geográfica das notícias; 4.1.5. Padrão das notícias (tamanho e número médio de palavras por texto); 4.1.6. Análise de palavras mais usadas e freqüência de uso;
4.2. Análise dos Assuntos Abordados 4.2.1. Descoberta das grandes áreas abrangidas pelas notícias da empresa; 4.2.2. Percentual de distribuição dos principais assuntos tratados pela RADIOBRÁS; 4.2.3. Análise dos assuntos mês a mês; 4.2.4. Análise dos assuntos por categoria no período.
4.3. Gestão do Conhecimento 4.3.1. Definição e visão geral (modelo usado para análise); 4.3.2. Impactos com os resultados do projeto.
7.2.3 - Revisão de projeto
Nessa fase da CRISP-DM visou-se a resumir as principais experiências aprendi-
das com a execução do projeto. Procura-se mostrar, também, como os resultados da aplicação
do modelo interferiram nos processos da empresa.
Considerando que os detalhes das tarefas foram mostrados ao longo da aplica-
ção, estar-se-á abordando neste, exclusivamente, as principais dificuldades encontradas no
projeto. Adicionalmente no capítulo a seguir explana-se sobre os impactos do conhecimento
adquirido na gestão do conhecimento da RADIOBRÁS.
Os principais problemas encontrados foram:
Ferramentas - devido ao limite de recursos do projeto, as soluções foram dire-
cionadas para aplicativos de demonstração e/ou freewares. A falta de opções e posteriormente
a limitação de alguns desses softwares causaram atrasos no cronograma do projeto.
Capítulo VII - Pós-Processamento 115
Desenvolvimento próprio - a fim de agilizar o processo e superar algumas limi-
tações das ferramentas usadas, foi necessário desenvolver aplicativos próprios, tais como:
(i) exportador de dados (txt - banco relacional); (ii) analisador e programa de estatística (tenta-
tiva de uso de ferramentas de DCBD); (iii) rotinas diversas no banco de dados relacional para
estatísticas, e; (iv) rotinas diversas na planilha eletrônica para contabilização das palavras mais
usadas e respectivas freqüências de uso;
Alocação de máquinas - devido ao longo do tempo de processamento, foi ne-
cessário alocar novas máquinas para o projeto. A questão do tempo de processamento foi o
principal problema encontrado.
Análise dos resultados - a disponibilização do especialista para posterior análise
dos resultados foi onerosa, bem como o engajamento de determinadas e importantes áreas da
empresa ao projeto.
7.3 - Síntese do Capítulo Neste capítulo discorreu-se sobre as etapas e os resultados obtidos do
pós-processamento que englobou as duas últimas fases da CRISP-DM (avaliação e aplicação).
Foram mostradas as principais contribuições do projeto para a RADIOBRÁS, o
resumo das ações desenvolvidas, os detalhamentos das fases e a seqüência adotada, principais
gráficos e respectivas interpretações, além de comprovações por meio do confronto de resulta-
dos obtidos de fatos ocorridos no período analisado.
No capítulo a seguir abordou-se, com maior ênfase, a gestão do conhecimento
que apesar de estar ligada à fase de pós-processamento, estudada neste, foi desenvolvida em
um capítulo a parte, devido ao seu tamanho e destaque. O fato de terem sido baseados em arti-
gos publicados, também contribuiu para a separação dele.
Capítulo VIII -
Impactos do Conhecimento Adquirido
na Gestão do Conhecimento Este Capítulo foi baseado nos artigos “Suporte à Criação de Inteligência Organi-
zacional em uma Empresa Pública de Jornalismo com o uso de Mineração de Textos”
(Silva, 2002a), publicado no KM Brasil 2002 - 3º Workshop Brasileiro de Inteligência Compe-
titiva e Gestão do Conhecimento e o Congresso Anual da Sociedade Brasileira de Gestão do
Conhecimento (ANEXO C) e “Text Mining for Organizational Intelligence: A case study on a
public news agency” (Silva, 2002b), na 5th International Conference on Enterprise
Information Systems - ICEIS 2003 (ANEXO D).
Considerando que a RADIOBRÁS é uma importante empresa do Estado,
detendo papel relevante na divulgação dos atos da administração pública do País, fica evidente
a necessidade de uma auto-avaliação, calcada no conhecimento sobre os resultados das suas
atividades.
Como qualquer outra empresa, a RADIOBRÁS está sujeita à crescente exigên-
cia de competitividade imposta às organizações modernas. Nesse cenário, a geração e a fixa-
ção da inteligência organizacional têm-se revelado como diferenciais competitivos que podem
levar à gestão mais adequada dos negócios em diversos sentidos, como no relacionamento da
organização com seus clientes e na adequação da sua estrutura de trabalho, entre outros.
A importância da informação para a elaboração do conhecimento e síntese da in-
teligência são largamente reconhecidas, requer para tanto, tratamento adequado para obtenção
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 117
de insights que levem à ativação dos processos mentais atingindo tal síntese. Diversas concep-
ções, internas e externas sobre os rumos da organização podem ser alcançados com uso de fer-
ramentas para a extração de padrões em grandes quantidades de dados, subsidiando
decisivamente os gestores na tomada de decisões mais fundamentadas.
Essas concepções, elaboradas para responder a questões específicas, formam um
acervo de conhecimento num processo de aprendizagem organizacional que deverá gerar des-
dobramentos nos modos de gestão da organização.
As contribuições da Tecnologia da Informação nesse campo desenvolveram-se
inicialmente visando à extração de padrões dos bancos de dados transacionais que se
configuram num conjunto de tabelas padronizadas. Entretanto, considerando que a maior parte
das informações nas organizações encontra-se na forma textual, desenvolvimentos recentes
permitem a extração de padrões interessantes, baseados nesses dados, como por exemplo, no
presente caso: (i) mensuração da produção e distribuição geográfica de suas notícias;
(ii) levantamento das palavras mais usadas; (iii) descoberta das áreas de abrangência das
notícias; (iv) avaliação do cumprimento papel da empresa, de acordo com os assuntos
abordados em suas notícias; e (v) avaliação da cobertura jornalística da empresa.
Os impactos da gestão do conhecimento na RADIOBRÁS foram abordados com
base nas informações obtidas do estudo de caso, detalhado nos capítulos anteriores, conforme
modelo apresentado por Stollenwerk (2001).
8.1 - Gestão do Conhecimento e Impactos da Mineração de Textos Existem muitas abordagens sobre os processos de interpretação dos eventos que
ocorrem em uma organização. Daft & Weick op. cit. in Moresi (2001) apresentam o relacio-
namento entre os conceitos de varredura, monitoramento, compreensão, interpretação, enten-
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 118
dimento e aprendizado em três etapas que constituem o processo geral de aprendizado
(Figura 8.1).
Figura 8.1 - Processo geral de aprendizado.
No início do processo, é importante que se observe o ambiente com vistas a for-
necer, para os gerentes, dados coletados de sistemas ou de pessoas. De posse desses dados de-
senvolve-se o entendimento compartilhado, atribuindo-lhes significado. O aprendizado
envolve nova ação baseada na interpretação. Esse processo no qual o conhecimento sobre as
relações dos resultados das ações é elaborado denomina-se Aprendizado Organizacional. O
processo reinicia-se com o fornecimento de novos dados para interpretação, oriundos do ato de
aprender.
Como base para organizações que visam a adquirir conhecimento organizacional
por meio da gestão do conhecimento, Stollenwerk (2001) apresenta um modelo genérico de
gestão do conhecimento mediante o estudo dos principais modelos existentes em gestão e pla-
nejamento estratégico, procurando extrair o essencial de cada um deles.
8.2 - Modelo Genérico de Gestão do Conhecimento A Gestão do Conhecimento e o Planejamento Estratégico são alvo de diversas
abordagens, definições e percepções. Neste trabalho, selecionou-se o modelo genérico de
Stollenwerk (2001) que buscou agrupar os processos comuns por afinidade de conceitos. O
modelo resultante (Figura 8.2), segundo a autora, compõe os elementos e as dimensões para
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 119
aplicabilidade, caracterizando a importância e a conceituação da Gestão de Conhecimento nas
organizações.
Figura 8.2 - Modelo genérico de gestão do conhecimento.
O modelo apresentado é composto de sete processos: (i) identificação,
(ii) captura; (iii) seleção/validação; (iv) organização/modelagem; (v) compartilhamento;
(vi) aplicação; e (vii) criação. Além disso, o modelo ainda inclui quatro fatores facilitadores:
(i) liderança; (ii) cultura organizacional; (iii) medição e recompensa; e (iv) tecnologia de
informação e comunicação. A seguir, apresenta-se uma descrição sucinta desses processos e
fatores que compõem o modelo genérico.
8.2.1 - Processos da Gestão do Conhecimento
Identificação
Esse processo é considerado como estratégico para organização. Nele estão inse-
ridos a identificação e o desenvolvimento das competências críticas (competências essenciais)
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 120
para o sucesso da organização. Essas competências devem refletir, sustentar e estar alinhadas à
missão, aos valores e às visões do negócio. No enfoque gerencial, são abordados conhecimen-
tos, tecnologias e habilidades que dão suporte às competências atuais; no estratégico, a relação
de transferência e aquisição dos conhecimentos e habilidades necessários para apoiar o desen-
volvimento de novas competências. As principais etapas deste processo são: (i) lista de com-
petências; (ii) análise das competências necessárias e existentes; (iii) mapeamento do
conhecimento; (iv) identificação das fontes (páginas amarelas, diretório de especialistas etc); e
(v) soluções para suprir as necessidades de competências necessárias versus as existentes.
Captura
A captura refere-se à aquisição de conhecimento, habilidades e experiências ne-
cessárias para desenvolver e manter as competências, similar à fase de elaboração de conhe-
cimento. Essa captura pode ser obtida de fontes internas tais como especialistas e profissionais
seniores, sistemas de gestão da organização, clientes e fornecedores internos, simulação e mo-
delagem de processos, políticas, práticas e procedimentos e treinamento interno. Como fontes
externas para obtenção desse conhecimento, podem-se citar: publicações, serviços de consul-
toria, sistemas especialistas e bancos de dados comerciais, conferências e congressos, treina-
mentos e seminários, relacionamentos com clientes e fornecedores, joint ventures,
benchmarking, entre outras. Dentre suas principais etapas, destacam-se: (i) identificação das
fontes internas e externas; (ii) seleção das estratégias de aquisição; e (iii) aquisição, formaliza-
ção e recuperação do conhecimento.
Seleção e validação
O processo de seleção e validação visa a filtrar o conhecimento gerado,
recuperado ou desenvolvido, avaliando sua qualidade, sintetizando-o para uso futuro. Nesse
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 121
processo, são consolidados pontos como: (i) relevância e confiabilidade do conhecimento;
(ii) proposição de soluções de problemas relacionados a conhecimentos conflitantes;
(iii) desenvolvimento e criação de conhecimento não-disponível; (iv) redução do grau de
incerteza do conhecimento não comprovado; e (v) estabelecimento de visões múltiplas quando
houver solução para conhecimentos conflitantes.
Organização e armazenagem
O processo de organização e armazenagem visa, por meio da utilização de sis-
temas, a garantir a recuperação, de forma rápida, fácil e correta do conhecimento. Busca-se
formalizar o conhecimento ao máximo, objetivando otimizar sua eficácia. Suas etapas são:
(i) classificação do conhecimento; (ii) definição da arquitetura de tecnologia da informação
(TI); e (iii) criação de repositórios de conhecimentos, informações e dados.
Compartilhamento: acesso e distribuição
Nesse processo, busca-se facilitar o acesso às informações e aos conhecimentos
que, geralmente, restringem-se a um pequeno grupo de pessoas. A facilidade de acesso é o
ponto crítico do processo. Assim, a TI envolvida torna-se crucial. Para tanto, são necessárias
as seguintes ações: (i) identificação da necessidade de informação e de conhecimento; (ii) cri-
ação de mecanismos de recuperação e disseminação do conhecimento; (iii) capacitação dos
usuários potenciais nas ferramentas de recuperação; e (iv) disseminação automática do conhe-
cimento em tempo hábil.
Aplicação
É vital que o conhecimento adquirido seja aplicado em situações reais da orga-
nização. Isso pode auxiliar na busca de benefícios tais como a melhoria do desempenho e con-
quista de novos mercados. Nesse processo, são registradas as experiências com a utilização do
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 122
conhecimento e ainda a necessidade de novos conhecimentos. Suas etapas são: (i) aplicação do
conhecimento relevante, confiável e de alto valor agregado e (ii) registro das lições aprendidas
e dos ganhos obtidos com a utilização.
Criação do conhecimento
Esse processo envolve aprendizagem, externação do conhecimento, lições
aprendidas, pensamento criativo, pesquisa, experimentação, descoberta e inovação. A criação
de novos conhecimentos pode ser potencializada com a formulação e a operacionalização da
estratégia, inteligência competitiva, pesquisa e desenvolvimento, reengenharia, benchmarking,
entre outros. São etapas desse processo: (i) compartilhamento do conhecimento tácito;
(ii) criação de conceitos; (iii) justificação de conceitos; (iv) construção de um arquétipo; e
(v) difusão interativa do conhecimento (cross-leveling knowledge).
8.2.2 - Fatores Facilitadores da Gestão do Conhecimento
Liderança
É papel da liderança no processo de gestão obter compromisso e direcionamento
por parte dos administradores da organização. Esse processo está diretamente ligado à eficácia
da gestão do conhecimento na empresa. Nenhuma mudança significativa ocorre a menos que
parta da cúpula.
Cultura organizacional
É necessário que haja na organização uma cultura ao estímulo para cooperação.
Organizações de conhecimento são caracterizadas por terem: (i) alto desempenho; (ii) foco no
cliente; (iii) foco em melhoria e em excelência; (iv) nível elevado de competência e de conhe-
cimento; (v) altas taxas de aprendizagem e inovação; (vi) autogerenciamento; (vii) pró-
atividade e visão de futuro; e (viii) compartilhamento de conhecimento.
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 123
Medição e avaliação
Para que o processo geral de gestão do conhecimento tenha êxito, é preciso me-
dir e avaliar os desempenhos, os comportamentos e as atitudes. Desse modo, é possível efetuar
o devido reconhecimento e recompensa dos colaboradores. Métodos de medição e acompa-
nhamento permitem e facilitam o alcance de metas com melhor definição de padrões e foco
nas ações.
Tecnologia da Informação (TI)
A existência de uma TI adequada é vital para dar suporte à gestão de conheci-
mento. Geralmente, os projetos de gestão utilizam ferramentas de TI tais como banco de dados
relacionais, Mineração de dados, DataWarehousing e ferramentas de busca. Videoconferên-
cias, workgroups, newgroups, e-mails, Intranet e Internet podem ser vistas como ferramentas
de compartilhamento de conhecimento.
8.3 - Contribuições da Mineração de Texto no Modelo de Gestão
do Conhecimento É importante salientar que a análise realizada neste trabalho foi delimitada no
nível hierárquico definido pela Assessoria Administrativa da RADIOBRÁS, vinculada à dire-
toria administrativa da empresa. Um dos objetivos desta pesquisa foi divulgar e ampliar a prá-
tica de gestão do conhecimento.
Mesmo de maneira informal e pontual, a RADIOBRÁS já aplica gestão do co-
nhecimento. Em relação à aplicação formal dessa gestão, tem-se a realização de planejamento
estratégico na empresa. Como referencial teórico para essa análise, utilizou-se o modelo gené-
rico de Gestão do Conhecimento de Stollenwerk.
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 124
8.3.1 - Na Gestão da Empresa
Observou-se que a aplicação da metodologia CRISP-DM gerou dois tipos de
conhecimento: um relacionado a problemas de armazenamento das matérias (ver
seção 5.2.1) e outro relacionado ao cumprimento do papel da empresa.
Em relação ao primeiro, a empresa pôde direcionar esforços com objetivo de re-
cuperar essas informações em outras fontes, tais como: (i) backups; (ii) repositórios/servidores
antigos; (iii) arquivos em formato ‘html’ no servidor web da empresa. Em conseqüência, no-
vas rotinas de segurança e de armazenamento foram planejadas, a fim de resguardar, da me-
lhor maneira, o acervo da empresa.
Quanto ao segundo tipo de conhecimento, a constatação formal do cumprimento
do papel social da RADIOBRÁS junto à sociedade. Anteriormente, essa hipótese era tida
como verdade sustentada, apenas na experiência de seus dirigentes. Esse foi o principal resul-
tado alcançado.
Além disso, foi possível mensurar, de forma mais precisa, a produção da
empresa. Na primeira estatística de produção, foram avaliadas as matérias separadas por perí-
odos mensais de produção, informando quantidade de registros, tamanho total por mês (bytes),
quantidade média por dia de produção e tamanho médio de cada matéria (bytes). Isso
possibilitou à empresa conhecer melhor sua produção no decorrer de um ano inteiro, podendo
assim melhor avaliá-la.
Foi obtida também a quantidade de palavras por matéria. Isso permitiu que se
determinasse a média de palavras por texto em cada mês, viabilizando o acompanhamento do
fluxo e do padrão de tamanho das notícias veiculadas, fator importante para o jornalismo.
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 125
Outro resultado significativo foi a obtenção das palavras usadas com mais fre-
qüência. De posse dessas palavras foi possível apurar, com acurácia, os principais assuntos
abordados pela empresa.
A limpeza e a engenharia de dados forneceu a quantidade de matérias inválidas
ou fora do contexto. Assim, foi possível determinar o nível de incidência desses tipos indese-
jáveis de matérias.
Outro produto da análise foi a distribuição geográfica das origens das matérias.
Isso permitiu à empresa comprovar a eficácia de sua cobertura jornalística no País, confron-
tando assuntos, localidades e fatos de grande repercussão nacional no período analisado.
Como base no agrupamento das notícias, foi possível certificar e enumerar as
grandes áreas de abrangência da empresa. A comprovação dessas áreas permitiu aos adminis-
tradores assegurarem o cumprimento das metas traçadas para a empresa.
Com os resultados obtidos neste trabalho, os dirigentes da RADIOBRÁS pude-
ram conhecer melhor o potencial das tecnologias envolvidas no processo razão pela qual estu-
dam a ampliação do campo de abrangência do projeto, incluindo as seguintes ações:
(i) aplicação da tecnologia nos demais produtos da empresa; (ii) estudo de uma forma de uni-
versalizar o conhecimento adquirido na organização; (iii) revisão de alguns processos e estu-
dos, com maior profundidade, dos conceitos e assuntos descobertos (por exemplo,
direcionamento à produção); e (iv) exploração mais efetiva de alguns grupos, analisando a ca-
tegorização de assuntos, com enfoques diferentes.
8.3.2 - No Modelo Genérico de Gestão do Conhecimento
Essa avaliação foi obtida de uma entrevista informal e qualitativa depois da a-
presentação do projeto e modelo de gestão de Stollenwerk ao chefe da Assessoria Administra-
Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento 126
tiva e de Sistemas - ASADM, área vinculada diretamente à diretoria administrativa da empre-
sa. (ANEXO A).
Sob o ponto de vista do gerente da ASADM o projeto colaborou, especificamen-
te e de maneira importante para as tarefas de Captura, para a aquisição de conhecimento sis-
têmico da empresa e na Seleção e Validação, com a síntese das informações em diversos
gráficos. Em relação aos fatores facilitadores o projeto contribuiu para a aquisição de Know
How das técnicas e metodologias para aquisição de conhecimento em texto.
8.4 - Síntese do Capítulo
A RADIOBRÁS desponta como uma empresa que busca excelência em sua ad-
ministração. A disputa para obtenção de direitos para agenciar a publicidade legal, aliada à
concorrência na cobertura jornalística do governo, é exemplo de fator condicionante para tal
filosofia de administração. Na cobertura jornalística, destacam-se os serviços de televisão, mí-
dia impressa, notícias em tempo real, portal Internet e rádio que, por ser veículo oficial do go-
verno, torna suas notícias também oficiais.
Esse cenário contribui para que a empresa tenha necessidade de manter-se no
mercado jornalístico como referência. Outros fatores expressos em sua missão fazem com que
a RADIOBRÁS tenha de estar em constante melhoria na prestação de seus serviços.
Conhecer os assuntos tratados pela empresa, confrontando-os com fatos e acon-
tecimentos mundiais permitiu aos administradores também confrontar as ações do governo -
mediante a veiculação jornalística - com as rotinas atuais da organização. Nesse sentido, nesta
pesquisa evidenciou-se uma aderência da produção da RADIOBRÁS com seus objetivos. Co-
mo trabalho futuro, os resultados obtidos deverão ser alvo de crítica mais apurada para um
possível refinamento em algumas das etapas consideradas. Pretende-se, assim, que o conheci-
mento proporcionado pelos resultados aqui apresentados seja plenamente aproveitado em be-
nefício da instituição.
Capítulo IX - Conclusões e Trabalhos Futuros
Considerando que a tomada de decisão é um processo de investigação, reflexão
e análise, justifica-se a necessidade de a alta administração obter informação qualitativa que
contenha elevado valor agregado.
As organizações podem ser vistas como sistemas de processamento de informa-
ção e, portanto, têm informações alinhavadas na maioria de seus procedimentos administrati-
vos. Assim, a Gestão do Conhecimento pode, por sua vez, ser vista como o conjunto de
atividades que busca desenvolver e controlar todo tipo de conhecimento em uma organização,
a fim de apoiar o processo decisório em todos os níveis.
Nesta pesquisa, discorreu-se sobre um estudo de caso realizado em uma empresa
pública de jornalismo - RADIOBRÁS - para a criação de Inteligência Organizacional com a
aplicação de ferramentas de mineração de texto. Para isso, com base no questionamento do
cumprimento do papel da empresa, procurou-se delinear o ambiente informacional sob o foco
do modelo genérico de gestão do conhecimento com análise de padrões extraídos do enorme
volume de textos produzidos por seus jornalistas.
As contribuições deste trabalho incluem: (a) estudo do pressuposto em relação à
carência metodológica e o baixo nível de aplicação de mineração de texto, (b) relato de expe-
riência na qual descrevemos todos os passos na aplicação de CRISP-DM na mineração de tex-
to, e (c) dificuldades encontradas e soluções adotadas na condução da pesquisa.
Capítulo IX - Conclusões e Trabalhos Futuros 128
Em relação à questão metodológica, visto que o projeto de mineração de texto
conduzido com a metodologia CRISP-DM teve êxito, obtendo que é possível, na prática, re-
verter conhecimentos adquiridos com o KDT em benefício do melhoramento da eficiência or-
ganizacional, verifica-se que não há restrição metodológica para condução de projetos de
DCT.
Este trabalho apresentou uma experiência de condução e aplicação da tecnologia
de DCT, realizando-se testes que mostraram as vantagens para uma organização, a
RADIOBRÁS, da aplicação dessa tecnologia, uma vez que gerou informações úteis à empresa,
elevando o nível de conhecimento sistêmico dos administradores da empresa. A essa experiên-
cia de sucesso, adicionam-se outros relatos de igual natureza, tais como os apresentados por
Haliman (2001), Wives (1999) e Loh (2000), em especial para abordagem de Palazzo (Loh,
2000a).
Ao analisar de forma inédita sua produção jornalística, a RADIOBRÁS obteve
importante instrumento capaz de expor, em um dos seus produtos, os conceitos abordados por
ela. Isso é de suma importância visto que com essa extração de conhecimento, a empresa pôde
ter informações apuradas para a comprovar de forma incontestável seu papel junto à sociedade
e à Presidência da República do Brasil.
Neste estudo, obtiveram-se os seguintes resultados: (i) foco das notícias no glo-
bal (todo o período pesquisado); (ii) total de produção real por mês; (iii) distribuição geográfi-
ca da origem das notícias produzidas; (iv) agrupamentos, indicando os termos (palavras) mais
importantes nestes; (v) categorias de assuntos, dispostos por períodos e por incidência; e
(vi) confronto de dados reais (por exemplo: campanha antiapagão, efeitos de fatos internacio-
nais).
Capítulo IX - Conclusões e Trabalhos Futuros 129
Para a RADIOBRÁS, como para as demais empresas que conseguem aumentar
sua inteligência organizacional, este projeto ajudou a acrescer seu conhecimento sistêmico e
com isso adquirir mais flexibilidade e agilidade, características importantes na gestão de uma
empresa. Com os conhecimentos gerados do projeto, espera-se obter uma gerência ainda mais
efetiva dos recursos informacionais e do conhecimento, bem como das tecnologias da infor-
mação associadas, revendo processos executados em determinados setores da empresa.
Para seus administradores, nomeadamente os líderes, acredita-se ter elevado o
conhecimento sistêmico da empresa (negócio e operações, sistema organizacional, produtos)
no seu contexto, ou seja, interação com o seu meio envolvente, permitindo-lhes definir objeti-
vos e traçar metas.
A RADIOBRÁS é uma importante empresa do Estado e detém importante papel
na divulgação dos atos da administração pública do País. Acrescentar-lhe mais conhecimento
assume especial relevância e significado. Esse fato torna-se ainda mais significativo quando a
empresa é uma das principais agências de notícias do Brasil. Pois, é notório que a economia e
outros setores da administração pública são constituídos de muitas variáveis, sendo uma delas
as notícias oficiais a respeito de determinado assunto. Conhecer os assuntos tratados pela em-
presa, confrontando-os com fatos e acontecimentos mundiais permite aos administradores te-
rem um efetivo descritor das ações do governo em relação à sociedade brasileira.
Os administradores da RADIOBRÁS, com os resultados obtidos, puderam
conhecer melhor o potencial das tecnologias envolvidas no processo e com isto pretendem
alçar o domínio do projeto, estendendo essa tecnologia para futuros projetos. Dentre os futuros
passos destacam-se: (i) aplicação da tecnologia nos demais produtos da empresa; (ii) estudo de
uma forma de avaliar a universalização do conhecimento adquirido na organização; (iii)
revisão de alguns processos e estudos mais aprofundados dos conceitos e assuntos descobertos
Capítulo IX - Conclusões e Trabalhos Futuros 130
(por exemplo, direcionamento a produção); (iv) melhor exploração de alguns grupos,
analisando de outra forma a categorização de assuntos; e (v) outros passos, que, por ser tratar
de pontos estratégicos, não foram publicados neste trabalho.
Considerando o resultados alcançados neste trabalho (a proposta de uma forma
de descoberta em texto de informações úteis a uma empresa e o relato da experiência vivida na
RADIOBRÁS), acredita-se que se tenha mostrado a possibilidade de transpor o ‘abismo’ de
Moore, no caso do KDT.
Como seqüência desse trabalho, pode-se vislumbrar trabalhos futuros nas se-
guintes linhas:
(i) Estudo de novos algoritmos e rotinas mais ágeis, haja vista os problemas
apresentados na Tabela 6.2;
(ii) Elaboração de técnicas e/ou rotinas a fim de automatizar a categorização dos
grupos obtidos da aplicação da metodologia de Halliman (seção 4.2.3).
Capítulo X - Referências Bibliográficas 131
Capítulo X -
Referências Bibliográficas
AGRAWAL, R. Data Mining: Crossing the Chasm. Invited talk at the 5th ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining (KDD-99). San Diego, California, Aug 1999. Disponível em: <http://www.almaden.ibm.com/ cs/quest/pubs.html>. Acesso em 15 mai. 2001.
BAKEL, Bas. Modern Classical document indexing a linguistic contribution to knowledge-based: Annual international ACM sigir conference on research and development in information retrieval. New York, 1998.
CANONGIA, Claudia et. al. Convergência da Inteligência Competitiva com Construção de Visão de Futuro: proposta metodológica de Sistema de Informação Estratégica (SIE) Revista Ciência da Informação, Brasília, v.2 n.3, jun. 2001. Disponível em: <http://www.dgzero.org/jun01/art_02.htm>. Acesso em 30 dez. 2002.
CHAPMAN, P.; et. al. The CRISP-DM Process Model: Discussion Paper. 2000. Disponível em: <http://www.crisp-dm.org>. Acesso em: 08 jul. 2001.
DIXON, Mark. An Overview of Document Mining Technology, [S.l.: s.n], out. 1997.
FAYYAD, U.; et.al. Advances in Knowledge Discovery and Data Mining. Cambridge: MIT Press, 1996.
FERNEDA, Edberto. Construção Automática de um Thesaurus Retangular. ago. 1997. Dissertação (Mestrado em Informática), Universidade Federal da Paraíba, Campina Grande – PB.
HALLIMAN, C. Business intelligence using smart techniques: environmental scanning using text mining and competitor analysis using scenarios and manual simulation. Houston: Information Uncover, 2001.
JOHN, G.H. Enhancements to the Data Mining Process. mar, 1997. Tese (Doutorado), Universidade de Stanford, Stanford.
LOH, S.; WIVES, L.K.; PALAZZO, J.M.O. Descoberta proativa de conhecimento em coleções textuais: iniciando sem hipóteses. In: Oficina de Inteligência Artificial (OIA), IV, out. 2000. Proceedings... Pelotas: EDUCAT, 2000.
Capítulo X - Referências Bibliográficas 132
LOH, S.; WIVES, L.K.; PALAZZO, J.M.O. Descoberta proativa de conhecimento em textos: aplicações em inteligência competitiva. In: International Symposium on Knowledge Management/Document Management (ISKM/DM 2000), III, nov. 2000a. Proceedings... Curitiba/PR: PUC-PR, 2000a. p.125-147.
MORESI, E. A. D. Monitoramento Ambiental. In: TARAPANOFF, Kira (Org.) Inteligência Organizacional e Competitiva. Brasília: UnB, 2001, p. 93-109.
MORESI E. A. D. Inteligência organizacional: um referencial integrado. Revista Ciência da Informação, Brasília, v. 30, n. 2, p. 35-46, maio/ago. 2001a.
NUGGETS® KDnuggets.com (KD stands for Knowledge Discovery) is the leading source of information on Data Mining, Web Mining, Knowledge Discovery, and Decision Support Topics, 2001. Disponível em: <http://www.kdnuggets.com/polls/data_mining_techniques.htm>. Acesso em: 21 ago. 2001.
PALAZZO, J.M.O.; SCARINCI, Rui G. Extração de informação como base para descoberta de conhecimento em dados não estruturados. In: Workshop Interno sobre Descoberta de Conhecimento em Bases de Dados, I, Jul. 2000. Proceedings... Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 2000.
PRADO, Hércules A. Abordagens híbridas para mineração de dados. Exame de qualificação, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 1998.
RADIOBRÁS. Manual de Organização: Regimento Interno da RADIOBRÁS. cód. 100, PORT-PRESI nº 0240/2001, Brasília-DF, jun. 2001.
RADIOBRÁS. Planejamento Estratégico da RADIOBRÁS. Relatório interno, Brasília-DF, 2001a.
SILVA, Edilberto M.; PRADO, H.P.; FERNEDA, Edilson - Text mining: crossing the chasm between the academy and the industry. In: DM2002-Third International Conference on Data Mining Methods and Databases for Engineering, Finance and Other Fields - Data Mining 2002. Bologna, set. 2002. Proceedings... Italy: WIT Press, 2002, p.351-361.
SILVA, Edilberto M.; PRADO, H.P.; FERNEDA, Edilson. Suporte à Criação de Inteligência Organizacional em uma Empresa Pública de Jornalismo com o uso de Mineração de Textos. In: KM Brasil 2002 - 3º Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento e o Congresso Anual da Sociedade Brasileira de Gestão do Conhecimento, São Paulo, set. 2002a.
SILVA, Edilberto M.; PRADO, H.P.; FERNEDA, Edilson. Text Mining for Organizational Intelligence: A Case Study On A Public News Agency. In: 5th International Conference on Enterprise Information Systems - ICEIS 2003, Angers, França, 2002b.
STOLLENWERK, M. F. L. Gestão do Conhecimento: conceitos e modelos. In: TARAPANOFF, Kira (Org.) Inteligência Organizacional e Competitiva. Brasília: UnB, 2001, p. 143-163.
Capítulo X - Referências Bibliográficas 133
TAN, A.H. Text Mining: The state of the art and the challenges, Kent Ridge Digital Labs, 1999. Disponível em: <http://textmining.krdl.org.sg>. Acesso em: 23 ago. 2001.
TARAPANOFF, Kira; et. al. Sociedade da informação e inteligência em unidades de informação, Revista Ciência da Informação, Brasília, v. 29, n. 3, p. 91-100, set./dez. 2000.
UNIVERSITY of California at Berkeley. How Much Information? Study about atempt to measure how much information is produced in the world each year. Regents of the University of California, 2000. Disponível em: <http://www.sims.berkeley.edu/how-much-info>. Acesso em: 21 ago. 2001.
WIVES, Leandro K. Tecnologias de descoberta de conhecimento em textos aplicadas à Inteligência competitiva. Exame de qualificação, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 2000.
WIVES, Leandro K.; LOH, S. Tecnologias de descoberta de conhecimento em informações textuais: ênfase em agrupamento de informações, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 2000a.
WIVES, Leandro K.; LOH, S. Um Estudo Sobre Técnicas de Recuperação de Informações com Ênfase em Informações Textuais. Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, dez. 1997.
WIVES, Leandro K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas usando Técnicas de Clustering. abr. 1999. Dissertação (Mestrado em Ciência da Computação), Universidade Federal do Rio Grande do Sul, Porto Alegre.
Anexo A -
Autorização e Avaliação da RADIOBRÁS
Autorização: Autorização para uso do nome da RADIOBRÁS
Responsável: Luiz Antônio Duarte, Diretor da DACAF - Diretoria Administrativa e de
Finanças.
Em: 30 de abril de 2002.
Avaliação: Entrevista informal e qualitativa
Responsável: José Roberto Barrozo Costa, gerente da ASADM - Assessoria de Sistemas
Administrativos, ligada a DACAF - Diretoria Administrativa e de Finanças.
Em: 02 de setembro de 2002.
Anexo A – Autorização do uso do nome da RADIOBRÁS 135
DDEECCLLAARRAAÇÇÃÃOO
Brasília-DF, 30 de Abril de 2002.
Declaro para os devidos fins que o Sr. Edilberto Magalhães Silva, Analista de Suporte
em Comunicação - ANC, funcionário do quadro permanente da RADIOBRÁS, matrícula
012231-9, está autorizado a usar o nome da RADIOBRÁS em sua dissertação de mestrado,
bem como nos artigos, publicações, pôsteres, apresentação em congressos ou outros meios que
dela se originarem.
Inclui-se nesta: permissão para importação e manipulação das notícias produzidas
pela empresa, descrição da empresa e seus deveres e conseqüente divulgação do teor das
notícias por ela disponibilizadas, através de informações agrupadas (consolidadas).
Os dados disponíveis para a pesquisa deverão ser domínio público e o empregado
deverá apresentar o estágio e os resultados obtidos freqüentemente.
LUIZ ANTÔNIO DUARTE M. FERREIRA Diretor Comercial Administrativo e Finanças
Anexo A – Avaliação – entrevista com gerente da ASADM 136
Brasília-DF, 02 de Setembro de 2002.
REF.: Avaliação do Projeto de KDT
Venho por meio desta, apresentar minha análise dos resultados obtidos pelo projeto de
aquisição de conhecimento em textos conduzido na empresa pelo Sr. Edilberto Magalhães Silva,
matrícula 012231-9.
Ao meu ver os principais benefícios do projeto para gestão da empresa foram:
• Descoberta e avaliação da distribuição das grandes áreas de foco das notícias;
• Certificação do cumprimento do papel da RADIOBRÁS;
• Levantamento das palavras mais usadas e avaliação da padronização dos textos com
média de palavras e tamanhos das notícias;
• Análise do acervo e diversas estatísticas de produção, tais como: Mensuração, de
forma mais precisa, a produção no decorrer do período, distribuição geográfica, dis-
tribuição dos tipos de notícias, entre outros;
Avaliando os resultados alcançados, sob o foco do modelo genérico de gestão do co-
nhecimento de Stollenwerk, verifico que o mesmo contribuiu em duas tarefas especificamente: Cap-
tura e Seleção Validação.
Anexo A – Avaliação – entrevista com gerente da ASADM 137
Com o projeto acredito que houve uma elevação do conhecimento sistêmico da em-
presa por parte da administração da empresa. A certificação do cumprimento do papel da empresa
comprovou que a condução da empresa não necessita ser alterada.
Em relação aos fatores facilitadores observo uma contribuição no aspecto tecnológico,
pois permitiu a empresa obter know how em técnicas e metodologias de text mining, bem como con-
dução de projetos de aquisição do conhecimento, que poderão ser usadas em projetos futuros na em-
presa.
Devo ressaltar que a presente análise foi realizada em um nível hierárquico não ideal
(assessoria de diretoria). Apesar disto, acredito que o projeto galgou um importante passo na sensibi-
lização da alta administração da empresa para aplicações que visam descobrir informações úteis, de
maneira automatizada, auxiliando os gestores da empresa na tomadas de decisões estratégicas.
Sem mais para o momento,
José Roberto Barrozo Gerente da ASADM – Assessoria de Sistemas Administrativos
Anexo B -
Artigo no DM 2002
Artigo: Text mining: crossing the chasm between the academy and the industry
Conferência: DM 2002 - Third International Conference on Data Mining Methods and
Databases for Engineering, Finance and Other Fields - Data Mining 2002
http://www.wessex.ac.uk/conferences/2002/datamining02
Data: 25-27/Setembro/2002
Local: Bolonha, Itália
Patrocinador: Wessex Institute of Technology - Advancing International Technology
Transfer http://www.wessex.ac.uk
Categoria: Text Mining, Structure Mining & Context Mining
Áreas de Abrangência:
(i) Data Warehousing and Databases;
(ii) Web Mining;
(iii) Data Analysis and Data Mining on Large Databases;
(iv) Data Mining Methodologies;
(v) Knowledge Discovery and Data Mining;
(vi) Text Mining, Structure Mining and Context Mining, entre outras.
Anexo B – Artigo no DM 2002 139
Text mining: crossing the chasm between the academy and the industry
E. M. Silva1,2, H. A. do Prado1,3, E. Ferneda1 1 Graduate Program on Knowledge and TI Management Universidade Católica de Brasília, Brazil 2 RADIOBRÁS - Brazilian Government Agency - “Brazil Agency”, Brazil 3 Center for Agricultural Research on Savannah - Embrapa, Brazil
Abstract The existence of a chasm between the development phase and the adoption of new technologies has been widely recognized. Some reasons that make hard the transition academy-industry for new technology are: (a) the weak usability commonly presented by emergent technology in regard to the required ease of ordinary users; (b) few successful experiences reported; and (c) the lack of an adequate methodology to new tools. In this paper we argue that text mining technology is exactly in the chasm point and study the hypothesis (c) mentioned above. The start point of our argumentation is the contradiction posed by the extraordinary amount of information in text form - about 80% of all existing information in a company - while the amount of text mining/web mining applications does not go beyond 7%. At the same time, we observe that the available technological alternatives present an excellent level of maturity, with many functions and adequate interfaces for the common user. The research was carried out by means of a case study in which we used texts issued by a journalistic agency. In order to explore our hypothesis, we applied the CRISP-DM method that was originally conceived for data mining. The contribution of this work includes the examination of the methodological hypothesis for the lack of text mining applications, an experience report in which we describe the steps carried out to apply CRISP-DM to text mining, and the findings in the target domain.
1 Introduction Since the early nineties, researchers in Knowledge Discovery from Databases (KDD) have dedicated intensive efforts to extract human understandable patterns from structured databases, as well as to make the whole work as automatic as possible. In this way important advances have been achieved, allowing technology to cross the usual gap that occurs when results move from academy to industry. However, just recently the counterpart of structured data, pure or marked text, has received attention as a crucial source of knowledge to improve business management. In this sense, studies on clustering applied to extract meaning from huge amounts of text have been carried out. This paper departs from the reasonable question about why Knowledge Discovery from Text (KDT) has not crossed the same gap. It is really hard to understand this fact if one considers the current state-of-art in KDT, which allows the organizations to take advantage from knowledge hidden in many textual sources. In this work we apply the well-known CRISP-DM methodology in the texts issued by a Brazilian
Anexo B – Artigo no DM 2002 140
journalistic organization aiming to figure out the degree in which the company has accomplished its objectives. During the case study, we observed how a data mining method (CRISP-DM) could be fitted to the case of textual data.
2 Motivation According to Tan [5], 80% of a company's information is contained in text documents. In contrast, a poll from Kdnuggets [4] found that only 2% percent of all knowledge discovery applications are carried out on text databases. If we add the web mining applications, that use marked text, that percent goes to 7%. It is the case to ask why, in an economy of increasing competition, the advantage brought by knowledge discovery from text is not as common as one could expect.
In his popular model (Figure 1) to explain the phases of technology adoption, Moore (op. cit. in [1]) discusses the existence of a chasm between the “early adopters” and the “early majority pragmatists” that technology has to cross in order to become widely applied. The motivation for this study is our belief that text mining is exactly stalled in this chasm.
Figure 1 - Classification scheme for adopters of innovative technology
From this belief, we could enumerate some hypothesis to investigate why text mining has not crossed the chasm yet: (a) lack of adequate technology, failing, say, in usability requirements for example, (b) few successful experiences reported, and (c) lack of adequate methodology to drive users in developing text mining applications. To develop our study we focused in the third hypothesis, looking for methodological reasons for the low use of text mining technology.
3 Applying CRISP-DM CRISP-DM (CRoss-Industry Standard Process for Data Mining) [2], is a methodology developed to promote the standardization of the data mining process. It encompasses a set of phases and processes that describe the tasks that
Anexo B – Artigo no DM 2002 141
one has to carry out to develop a data mining application. The method is vendor neutral and domain independent, being well suited to manage the whole process of development. Six phases integrate the method as shown in Figure 2 and described next.
Figure 2 - Phases of CRISP-DM
Business understanding - this phase looks for the identification of requirements and objectives of the application under the client’s point of view. Problems and restrictions that can cause loss of time and effort must be considered. This phase also includes a description of the client background, its business objectives, and a description of the criteria used to measure the success of the achievement. Data understanding - identify all information relevant to carry out the study and a first approximation of its content, quality, and utility. The initial collection of data helps the analyst in learning about its details. Conflicts related to the expected and the real format and values are identified in this phase. Information of the manner in which data was collected, including its sources, meaning, volumes, reading procedure, etc - can also be of interest since it is a good indicator of the data quality. In this phase the first discoveries are carried out. Data preparation - this phase consists of the tasks concerned on the acquisition of a final data set, from which the model will be created and validated. Tools for data extraction, cleaning, and transformation are applied to data preparation. Joins of tables, aggregation of values, format changing are performed to satisfy the input requirements of the learning algorithms. Modeling - in this phase the more appropriate data mining techniques are selected and applied, according to the objectives so far defined. Modeling represents the core phase of data mining, that is, the choice of the technique, its
Anexo B – Artigo no DM 2002 142
parameterization, and its execution over a training data set. Many different and complimentary models can be created in this phase. Evaluation - the evaluation phase consists in reviewing the past steps in order to check the results against the objectives defined in the business understanding phase. It is also defined in this phase the next tasks to be performed. According to the results, it is defined route corrections, which correspond to the return to one of the already performed phases using other parameters or looking for more data. Deployment - set of actions necessary to make available to the organization the acquired knowledge. In this phase it is generated a final report to explain the results and the experiences useful in the client business.
3.1 Business Understanding RADIOBRÁS (http://www.radiobras.gov.br) is a Brazilian public company that aims to establish a communication channel between the departments of Federal Government and the Brazilian society. By this way, RADIOBRÁS pursues to universalize the information regarding the acts and facts of the Federal Republic of Brazil. Its objectives are: (a) To publish the accomplishments of the Federal Government in the economy,
social politics and to spread out abroad adequate knowledge of the Brazilian reality, as well as implanting and operating senders and exploring services of broadcasting of the Federal Government;
(b) To implant and to operate it’s repeating networks and retransmission of broadcasting, exploring its services, as well as promoting and stimulating the formation and the training of specialized staff necessary to its activities;
(c) To gather, elaborate, transmit, and distribute, directly or in cooperation with other social communication entities, news, photographs, bulletins and programs concerned to acts and facts from the Government and other issues of political, financial, civic, social, sportive, cultural and artistic nature, by means of graphical, photographic, cinematographic, electronic or any other vehicle;
(d) To distribute the legal publicity from the entities related directly or indirectly to the Government;
(e) To perform other activities assigned to it by the Chief Ministry of State of the Government Communication Secretariat of the President of the Republic. By means of this project, RADIOBRÁS aims to obtain indicators related to
the distribution of news by subject, the diffusion of news abroad, to estimate the distribution of news along the government departments, to check the news contents regarding to the Communication Secretariat. For this purpose, efforts will be focused in measuring the amount of news by kind, period and main topics, in extracting the concepts produced and propagated by the agency based on clustering analysis, determining the amount of news about acts and facts of the Government, and studying the degree in which RADIOBRÁS is achieving its objectives. This work meets these objectives by (a) determining the most important words in the issued news, (b) determining the main correlation among the news and the keywords that compose each cluster, (c) separating news by groups, (d) pointing out the most representative words, (e) discovering the main
Anexo B – Artigo no DM 2002 143
concepts from the clustering analysis, and (f) elaborating statistics about the news by time, subject and quantity.
3.2 Data Understanding The data were obtained from the public repository of the agency. Each text file corresponds to specific news. Corrupted, control files and news files in foreign language were discarded.
We considered just the news produced in 2001. Figure 3 shows the monthly production of news in this year.
Janu
ary
Febr
uary
Mar
ch
Apr
il
May
June July
Augu
st
Sep
tem
ber
Oct
ober
Nov
embe
r
Dec
embe
r
4734
5634548056215503
51045429
5838
5397
4599
2049
247
0
1000
2000
3000
4000
5000
6000
Evolution of the most used words
Figure 3 - Monthly production in 2001
3.3 Data Preparation The selected news, that includes releases, complete notices, guidelines, presidential agenda, events in course and photos are prepared according to the cycle depicted in Figure 4.
In this phase we found that the production from January and February should consider as outliers and consequently, discarded. This happened due to problems of importing texts from the repository that caused loss of records.
3.4 Data Modeling We carried out the work in this phase by describing and summarizing the data, and, then, segmenting the set of texts. It was applied Tan [5] approach, in which two steps are performed: (a) text refinement, which corresponds to transforming the text from free form to an intermediary form, and (b) knowledge extraction, corresponding to the data mining itself. An example of data description and summarization is shown in Figure 5. Results from segmentation can be seen in Figures 6 and 7. To induce the clusters we applied the Eurekha [6] tool, choosing the Star option. The overall process of clustering, required for segmentation, is depicted in Figure 8.
Anexo B – Artigo no DM 2002 144
Figure 4 - Data Preparation
Evolution of the most used words
Janu
ary
Febr
uary
Mar
ch
April
May
June July
Augu
st
Sept
embe
r
Oct
ober
Nov
embe
r
Dec
embe
r
Month
Inci
denc
e
President Minister Government Energy Health
Figure 5 - Incidence of most used words (2001)
Anexo B – Artigo no DM 2002 145
Presidency
6,00
32,0036,00
29,00 32,25
19,00
31,00 31,00
46,00
31,5025,00
62,00
Janu
ary
Febr
uary
Mar
ch
April
May
June July
Aug
ust
Sep
tem
ber
Oct
ober
Nov
embe
r
Dec
embe
r
Economy
24,00
36,00
12,0017,00 19,50
45,00
23,00
8,00 10,7516,50
25,25 23,00
Janu
ary
Febr
uary
Mar
ch
Apr
il
May
June
July
Aug
ust
Sep
tem
ber
Oct
ober
Nov
embe
r
Dec
embe
r
Figure 6 - Examples of categories: Presidency and Economy
Types of News - 2001
Flash78,49%
New s19,40%
Guidelines2,11%
Distribution of news by state (Brazil)
DF68,23%
PE1,62%
Outros3,36%
MS1,90%
RS1,39%
SP7,88%
RJ15,63%
Figure 7 - Kind of news and geographic distribution
Anexo B – Artigo no DM 2002 146
Figure 8 - Methodology for clustering in KDT
3.5 Model Evaluation The clusters found in the previous phase were analyzed by an expert in order to discover some meaning in them. After that, a categorization by subject was carried out. This categorization was performed by applying the methodology introduced by Halliman [3] that combines cluster analysis with background knowledge.
3.5.1 Results After analyzing the categories found, five major areas were identified: (a) Presidency of Republic - 30% (president, Fernando, Henrique, Cardoso), (b) Economy - 21% (central bank, monetary values, inflation, stock exchange, dollar rates, interests, national treasure), (c) Meteorology - 21% (time forecast, cloudy, partially, rain), (d) Development - 8% (energy, monetary values, state companies, investment and development) and (e) Politics - 7% (parties acronyms, house of representatives, senators, ministry names, senators names). It is important to emphasize that this classification was just a feeling before the present analysis and now have a sound rationale. Almost all news does not have any label that could be used as category.
Other less frequent categories, that total 13% of the whole text set, were also listed. Next this categories as well as their corresponding key words, are described: Education (school census, university, national school evaluation), Health (AIDS, HIV, clone, generic medicines, hospital, cholesterol, medicine), International (UN, WWF, El Salvador, Mercosul, Palestine, Israel, New York, attempted against, towers, United States), Security (federal police, antidrugs), Providence (INSS, social security, deadline), R&D (Genoma, technology), Justice (court, federal, justice, trial, Indian, Galdino), Environment (environment,
Anexo B – Artigo no DM 2002 147
birds, ISO, Amazon), Agriculture (INCRA, agrarian reform, IBAMA, soil), Culture (carnival, art, museum, exhibition, orchestra, symphonic, beautiful, winter festival), Transportation (airports, police, bus station, subway, conference, traffic), Sports (INTECOM, ECT, soccer, Nike, CBF, sets, marathon, Vasco, Gama, Cruzeiro, Goiás, Olympic games), National (quality, price, meat, accident, P-36), Work (woman, agreement, rural, work, infant, forum, SENAC, SEBRAE).
For a better understanding of the categories, it was created many graphs like in Figure 5 that shows the most used words during 2001. They were interpreted by an expert that issued the interpretations below. Evaluation of Figure 5. The constant use of the words “president”, “government”, and “minister” suggest the approach of actions taken by central administration. The frequency of the word “healthy” increases as the government and the Healthy Department make public vaccination and drug prevent campaigns (e.g., against AIDS). The most scored word was “energy” pointing out the effort employed by the central administration to deal with the lack of energy in the country in a certain period. Evaluation of Figure 6. The categories “presidency”, “politics”, “development”, and “economy” meets the agency objectives regarding to the coverage of acts and facts generated by the central administration. They also reflect that, in each month, there are coincidence between the news and important facts. We can mention, for example, financial crisis and “economy”, development and “blackout campaign”, war and terrorism in USA and “International” and “Security”, strike in the metro, bus and trains and “transportation”, educational campaigns and “education”. Evaluation of Figure 7. Almost all news are flashes (IT-Internet) that do not bring any other information but the pure text (e.g., it is not informed the news focus). It does not allow a more precise evaluation regarding to the distribution inside the slices. It is also possible to verify that the biggest amount of news come from Distrito Federal (DF), Rio de Janeiro (RJ) and São Paulo (SP). It agrees with the fact that Brasília and Rio de Janeiro are the headquarters of many public departments. In this graphic we can see the presence of Pernambuco, mainly due to the news related to the so-called “polygon of marijuana”.
3.5.2 Evaluation of results Considering the success criteria defined by the administration, the results were considered to fulfill the organization’s expectations. Actually, since the application raised new questions, the user decided to keep the studies in order to these new questions.
3.6 Development The application has shown to be an important alternative to develop an institutional self knowledge useful for a better management both internally and externally.
The results available for this purpose include: (a) main subjects approached in the news, (b) monthly production, (c) geographical distribution of news’ sources, (d) clusters and their most important words, (e) different kinds of subject categorization, and (f) comparison between issued news and current national and international facts.
Anexo B – Artigo no DM 2002 148
By knowing the subjects approached in the issued news, the heads of RADIOBRÁS has developed an effective view of the role it is playing in the society, being able to correct any deviation in accomplishing its mission.
4 Conclusion We departed from the fact that, although 80% of a company's information is contained in text documents, only 7% of KDD applications are developed to process pure or marked text. A fair belief is that this huge amount of information hides useful knowledge that could lever the organization to a better position in the market. With these facts in mind we decided to investigate the low interest in text mining enumerating, initially, some hypotheses related to usability, few reported experiences, and the lack of methodology. In this work we focused our attention to the methodological hypothesis, carrying out our research by means of a case study in a Brazilian news agency. We applied the CRISP-DM methodology, which was originally elaborated to drive data mining applications (that process structured data). The methodology was completely adequate to develop text mining application, as the obtained results can show.
It became evident that the methodological hypothesis should be disregarded, opening a research opportunity to study other hypotheses.
References AGRAWAL, R. “Data Mining: Crossing the Chasm”, Invited talk at the 5th
ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining (KDD-99), San Diego, California, August 1999. http://www.almaden.ibm.com/cs/quest/PUBS.html (15/05/2001)
CHAPMAN, P., KERBER R., CLINTON J., KHABAZA T., REINARTZ T., WIRTH R. - “The CRISP-DM Process Model”, Discussion Paper, 2000. http://www.crisp-dm.org (08/07/2001)
HALLIMAN, C. “Business intelligence using smart techniques: environmental scanning using text mining and competitor analysis using scenarios and manual simulation”, Information Uncover, Houston, 2001.
NUGGETS® “KDnuggets.com (KD stands for Knowledge Discovery) is the leading source of information on Data mining, Web Mining, Knowledge Discovery, and Decision Support Topics”. http://www.kdnuggets.com/polls/ data_mining_techniques.htm (21/08/2001)
TAN, A.-H. “Text mining: The state of the art and the challenges”, Kent Ridge Digital Labs, 1999. http://textmining.krdl.org.sg (23/08/2001)
WIVES, L. K. “Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de Clustering” MSc Dissertation, Porto Alegre (Brazil), PPGC/UFRGS, 1999.
Anexo C -
Artigo no KM Brasil 2002
Artigo: Suporte à Criação de Inteligência Organizacional em uma Empresa Pública
de Jornalismo com o uso de Mineração de Textos.
Conferência: KM Brasil 2002 - 3º Workshop Brasileiro de Inteligência Competitiva e
Gestão do Conhecimento e o Congresso Anual da Sociedade Brasileira de
Gestão do Conhecimento
http://www.kmbrasil.com
Data: 16-18/Setembro/2002
Local: São Paulo, Brasil
Realização: UFSCar - Universidade Federal de São Carlos e SBGC - Sociedade
Brasileira de Gestão do Conhecimento
Áreas de Abrangência:
(i) Aplicações empresariais, governamentais, na ciência e tecnologia e outras;
(ii) Aprendizagem organizacional;
(iii) Ensino e pesquisa em IC e GC;
(iv) Metodologias;
(v) Tecnologias de informação, envolvendo: comércio eletrônico, portais
corporativos, segurança e sistemas de informação;
(vi) Entre outras.
Anexo C - Artigo no KM Brasil 2002 150
SUPORTE À CRIAÇÃO DE INTELIGÊNCIA ORGANIZACIONAL EM UMA EMPRESA PÚBLICA DE JORNALISMO COM O USO DE
MINERAÇÃO DE TEXTOS
EDILBERTO M. SILVA 1,2, HÉRCULES. A. DO PRADO 1,3, EDILSON FERNEDA 1
1 Programa de Pós-graduação em Gestão do Conhecimento e da Tecnologia da Informação, Universidade Católica de Brasília (UCB/DF)
Campus Universitário II - Pró-Reitoria de Pós-Graduação e Pesquisa - SGAN 916 - Módulo B, 70.790-160 Brasília/DF 2 Agência Brasil RADIOBRÁS - Empresa Brasileira de Comunicação S.A. SCRN 702/3 Bloco B Ed. RADIOBRÁS - Brasília/DF - CEP: 70.710-750
3 Embrapa - Cerrados Km 18 da BR020 - Planaltina - DF, CEP 73.301-970 - Caixa Postal 08.223
e-mails: [email protected], [email protected], [email protected]
Apresenta-se, nesse artigo, um estudo de caso sobre a criação de inteligência organizacional com a aplicação de ferramentas
de mineração de texto. Partindo do questionamento do cumprimento do papel social da RADIOBRÁS, empresa pública de
jornalismo, construiu-se um modelo para análise de padrões extraídos do enorme volume de textos produzidos por seus
jornalistas. O método CRISP-DM foi aplicado compreendendo a aquisição das matérias produzidas ao longo de 2001,
preparação desse material, com a limpeza e formatação dos arquivos, criação de um modelo de agrupamentos e a geração de
diversas visões na forma de estatísticas e de gráficos. As visões foram fornecidas à administração da empresa permitindo
interpretações úteis para o autoconhecimento da organização. O processo completo é descrito em detalhes no corpo do artigo.
Considerando que a RADIOBRÁS é uma importante empresa do Estado, detendo um papel relevante na divulgação dos atos
da administração pública do País, fica evidente a necessidade de uma auto-avaliação calcada no conhecimento sobre os
resultados das suas atividades. Como qualquer outra empresa, a RADIOBRÁS está sujeita à crescente exigência de
competitividade imposta às organizações modernas. Nesse cenário, a geração e a fixação da inteligência organizacional têm
se revelado como diferenciais competitivos que podem levar a uma gestão mais adequada dos negócios em diversos sentidos,
como no relacionamento da organização com os seus clientes e na adequação da sua estrutura de trabalho, entre outros. A
importância da informação para a elaboração do conhecimento e, conseqüentemente, a síntese da inteligência é largamente
reconhecida, requerendo tratamento adequado para obtenção de insights que levem à ativação dos processos mentais que
levarão àquela síntese. Diversas visões, internas e externas, sobre os rumos da organização podem ser obtidas com o uso de
ferramentas para a extração de padrões em grandes quantidades de dados, subsidiando decisivamente os gestores na tomada
de decisões fundamentadas. Essas visões, construídas para responder a questões específicas, formam um acervo de
conhecimento num processo de aprendizagem organizacional que deverá gerar desdobramentos nos modos de gestão da
organização. As contribuições da Tecnologia da Informação nesse campo desenvolveram-se inicialmente visando à extração
de padrões dos bancos de dados transacionais que se configuram num conjunto de Tabelas bem comportadas. Entretanto,
considerando que a maior parte das informações nas organizações encontra-se na forma textual, desenvolvimentos recentes
permitem a extração de padrões interessantes a partir desse tipo de dados, como por exemplo, no presente caso: (i)
mensuração da produção e distribuição geográfica de suas notícias, (ii) levantamento das palavras mais usadas, (iii)
descoberta das áreas de abrangência das notícias, (iv) avaliação do cumprimento papel da empresa, de acordo com os
assuntos abordados em suas notícias, e (v) avaliação da cobertura jornalística da empresa.
Palavras-chave: Inteligência Organizacional; aprendizagem organizacional; CRISP-DM; KDT; RADIOBRÁS.
Anexo C - Artigo no KM Brasil 2002 151
SUPPORT TO THE CREATION OF ORGANIZACIONAL INTELLIGENCE IN A PUBLIC COMPANY OF
JOURNALISM WITH THE USE OF TEXT MINING. In this article it is presented a case study on the creation of
organizational intelligence in RADIOBRÁS with the application of text mining tools. Departing from the question about if
RADIOBRÁS is fulfilling its social role, we construct an analysis model based on the enormous volume of texts produced by
its journalists. CRISP-DM method was applied including the acquisition of the news produced during 2001, preparation of
this material, with the cleansing and formatting of the archives, creation of a model of clustering and the generation of many
views in the form of statistics and graphs. The views had been supplied to the administration of the company allowing useful
interpretations of the self-knowledge of the organization. The complete process is described in details in the body of the
article. Considering that the RADIOBRÁS is an important company of the State, pursuing an important objective by
spreading out the acts of the public administration of the country, it is evident the necessity of a self evaluation based in the
knowledge of its results. We must recognize that, as any another company, RADIOBRÁS is subject to the increasing
requirement of competitiveness imposed to the modern organizations. In this scene, the generation and retention of
organizational intelligence have been recognized as a competitive differential that can lead to a more adequate management
of the businesses in many directions, as in its relationship with customers and in the adequacy of its structure of work, among
others. The importance of the information for the elaboration of the knowledge and, consequently, the synthesis of
intelligence is wide recognized, requiring treatment adjusted for attainment of insights that can lead to the activation of the
mental processes that will lead to that synthesis. Many internal and external views on the routes of the organization can be
built with the use of tools for the extraction of patterns in great amounts of data, subsidizing decisively the managers in the
decision making process. These views, constructed to answer the specific questions, constitute knowledge in a process of
Organizational Learning that influences radically the way in which the organization is managed. The contributions of IT in
this field were developed, initially, aiming at the extraction of patterns from transactional databases that contains well
structured data. However, considering that most of the information in the organizations are found find in textual form, recent
developments allows the extraction of interesting standards from this type of data, as for example, in the present case with: (i)
the measure of production and geographic distribution of RADIOBRÁS news, (ii) a survey of the most used words, (iii) the
discovery of the covering areas of the news, (iv) the evaluation of how the company is fulfilling its role, in accordance with
the subjects approached in its news, and (v) the evaluation of the journalistic covering of the company.
Keywords: Organizational intelligence; learning organization; CRISP-DM; KDT; RADIOBRÁS.
Anexo C - Artigo no KM Brasil 2002 152
I - INTRODUÇÃO
As organizações estão sendo constantemente desafiadas a se adaptarem às mudanças
ambientais, levando em consideração, entre outros, as expectativas dos clientes, estratégias
competitivas, avanços tecnológicos, condições instáveis na economia e na sociedade.
Considerando que a tomada de decisão é um processo de investigação, reflexão e
análise, justifica-se o aumento da necessidade da alta administração de obter informação
qualitativa que contenha um alto valor agregado.
As organizações podem ser vistas como sistemas de processamento de informação e,
portanto, têm informações alinhavadas na maioria de seus procedimentos administrativos.
Assim, a Gestão do Conhecimento pode, por sua vez, ser vista como o conjunto de atividades
que busca desenvolver e controlar todo tipo de conhecimento em uma organização, a fim de
apoiar o processo decisório em todos os níveis.
Neste trabalho, discorre-se sobre um estudo de caso realizado em uma empresa
pública de jornalismo para a criação de inteligência organizacional com a aplicação de
ferramentas de mineração de texto. Para isso, a partir do questionamento do cumprimento do
papel social da empresa, procurou-se delinear o ambiente informacional sob o foco do modelo
genérico de gestão do conhecimento.
II - MOTIVAÇÃO
De acordo com Tan1, 80% da informação contida nas organizações se encontram na
forma textual. Em contraste com este fato, uma pesquisa publicada em Kdnuggets®2 afirma
que somente 2% de toda aplicação de descoberta de conhecimento são aplicadas em bancos
de dados textuais. Se forem adicionadas aplicações em web mining, que usa textos com tags,
este percentual chega-se a 7%. Neste sentido, questiona-se por que, numa economia com
acirrada competitividade, as aplicações de descoberta de conhecimento em texto não são tão
comuns quanto seria de se esperar.
Em seu modelo (Figura 1) que explica a adoção de novas tecnologias, Moore3 discute
a existência de um “abismo” entre as fases “adeptos iniciais” e “maioria inicial” que uma
tecnologia deve atravessar para torna-se extensamente aplicada. A motivação deste estudo
está baseada no reconhecimento de que o text mining encontra-se exatamente neste ponto.
Anexo C - Artigo no KM Brasil 2002 153
FIGURA 1 - Classificação de consumidores de novas tecnologias
A partir desse ponto, podem-se enumerar algumas hipóteses para investigar o por que
do text mining não ter atravessado ainda este “abismo”: (i) falta de uma tecnologia adequada,
no que se refere à exigência em sua usabilidade, por exemplo, (ii) poucos relatos de
experiência de sucesso e (iii) inexistência de uma metodologia adequada para guiar os
usuários nas aplicações de text mining;
Considerando a disponibilidade de tecnologias com excelente nível de maturidade,
com diversas funcionalidades e interfaces adequadas aos usuários comuns, decidiu-se
focalizar os estudos na terceira hipótese, que trata da questão metodológica. A pesquisa foi
conduzida com um estudo de caso no qual se utilizam notícias publicadas por uma agência de
notícias brasileira, a RADIOBRÁS.
Para explorar nossas hipóteses, aplicou-se a metodologia CRISP-DM (CRoss-Industry
Standard Process for Data Mining)4, concebida originalmente para data mining. Essa
metodologia foi desenvolvida com o intuito de promover a padronização de conceitos e
técnicas na busca de informações específicas para tomada de decisões. Ela consiste de um
conjunto de fases e processos padrões para gerência de projetos de data mining,
independentes da área de negócio e das ferramentas usadas, de forma estruturada e metódica.
É constituída de seis fases: (i) Compreensão do Negócio, (ii) Compreensão dos Dados, (iii)
Preparação dos Dados, (iv) Modelagem, (v) Avaliação do Modelo e (vi) Aplicação.
III - ANÁLISE DOS TEXTOS PRODUZIDOS
A metodologia CRISP-DM foi aplicada em um estudo de caso na RADIOBRÁS com
o uso de ferramentas de mineração de texto sobre seu acervo público de notícias. A
RADIOBRÁS é uma empresa pública brasileira que visa servir de canal de interlocução dos
órgãos do Governo Federal com a sociedade brasileira, buscando universalizar as informações
Anexo C - Artigo no KM Brasil 2002 154
referentes a atos e fatos da administração pública federal do Brasil.
Realizou-se a análise de 55.635 textos, totalizando cerca de 8.700.000 palavras. Para
tanto, como pré-processamento, foram executadas as seguintes tarefas: (i) aquisição e
transferência dos arquivos textos - notícias - do acervo da empresa, (ii) preparação dos
arquivos textos, (iii) estatística de quantidade de textos, palavras e tamanho de arquivos, (iv)
limpeza dos dados: arquivos corrompidos, nulos, inválidos ou fora do escopo do projeto
(notícias em português), (v) engenharia nos dados: separação de notícias em arquivos
independentes, e (vi) estatística final: palavras mais usadas, resultado após limpeza dos dados.
A seguir, foi feita a modelagem, onde foram selecionadas as tecnologias a serem
utilizadas. Verificados os objetivos da mineração e os dados disponíveis, foi realizada uma
clustering dos textos da empresa, que consiste em agrupar objetos similares em grupos
distintos, onde todos os objetos deste grupo detenham características em comum. No caso
deste projeto, separam-se as matérias em grupos, onde todos os membros compartilham
determinadas palavras. Deste modo, foi possível particionar uma grande coleção de
documentos, isolando aqueles pertencentes a um mesmo assunto. Isto facilitou a identificação
de documentos relevantes para o usuário. Aplicando-se técnicas adicionais, foi possível
identificar o assunto ou conhecimento específico de cada grupo, facilitando o processo de
recuperação de informações ou descoberta de conhecimento.
Com a análise destes agrupamentos, pode-se criar e explicar hipóteses. Baseado no
conhecimento a priori detido pelo especialista, adquirido com a experiência nos dados da
empresa ou ainda pelas informações fornecidas pela descrição e sumarização dos dados,
pretende-se obter relações relevantes ao negócio da empresa.
Para a realização do clustering foi escolhida a proposta de Palazzo, apresentada na
pesquisa de Wives5 e implementada na ferramenta Eurekha.
Após a obtenção dos grupos e respectivos centróides, foi realizada uma análise dos
mesmos, buscando extrair conhecimento a partir das informações encontradas. Foi então
realizada uma categorização de assuntos abordados pela RADIOBRÁS. Esta categorização foi
realizada pelo especialista com base na metodologia apresentada por Halliman6, que usou,
além das informações dos grupos, seu conhecimento prévio do negócio.
A partir do percentual de distribuição de matérias nos grupos, o especialista
categorizou os grupos encontrados mês a mês e por assunto. A quantificação das categorias
foi realizada através dos dados de distribuição (%) dos centróides em relação à sua incidência
no período. Com a categorização foi possível relacionar os principais assuntos tratados pela
empresa. Foram identificadas cinco grandes áreas: (i) Presidência da República - 30%
Anexo C - Artigo no KM Brasil 2002 155
(presidente, Fernando, Henrique, Cardoso), (ii) Economia - 21% (banco central, valores
monetários, inflação, cotação das bolsas de valores, cotação do dólar, taxa de juros, tesouro
nacional), (iii) Meteorologia - 21% (previsão do tempo, nublado, parcialmente, chuvas), (iv)
Desenvolvimento - 8% (energia, valores monetários, nomes de estatais, investimento e
desenvolvimento) e (v) Política - 7% (siglas de partidos, câmara, senado, nome de ministros,
nomes de senadores).
Outras áreas com menor incidência de apresentação também foram elencadas. Elas
representam 13% do total de notícias veiculadas. Estas áreas e suas principais palavras-chave
são as seguintes: Educação (censo escolar, universidade, ENEM), Saúde (AIDS, HIV, clone,
genéricos, hospital, colesterol, remédio), Internacional (ONU, WWF, El Salvador, Mercosul,
Palestina, Israel, Nova York, atentado, torres, Estados Unidos), Segurança (polícia federal,
antidrogas), Previdência (INSS, previdência social, prazo), C&T (Genoma, tecnologia),
Justiça (tribunal, federal, justiça, julgamento, índio, Galdino), Meio Ambiente (meio
ambiente, pássaros, ISO, Amazônia), Agricultura (INCRA, reforma, agrária. IBAMA, solo),
Cultura (carnaval, arte, museu, exposição, orquestra, sinfônica, bonito, festival, inverno),
Transporte (aeroportos, polícia, rodoviária, metrô, conferência, trânsito), Esporte
(INTECOM, ECT, futebol, Nike, CBF, sets, maratona, Vasco, Gama, Cruzeiro, Goiás,
olimpíada), Nacional (qualidade, preço, carne, acidente, P-36) e Trabalho (mulher, acordo,
rurais, trabalho, infantil, fórum, SENAC, SEBRAE).
Para melhor análise das categorias foram criados diversos gráficos. A seguir, são
apresentados alguns, juntamente com interpretação realizada pelo especialista.
No Gráfico de “incidência de palavras” são apresentas as palavras mais usadas no
decorrer do período e sua evolução no decorrer do mesmo (Figura 2). Sua avaliação mostra
que o uso constante das palavras “presidente”, “governo”, “ministro” sugerem uma
abordagem das ações da Presidência da República e do Governo Federal. A palavra “saúde”
aumenta na proporção em que o Governo Federal e o Ministério da Saúde divulgam
campanhas de vacinação e prevenção de doenças (AIDS, por exemplo). E a característica
mais realçada: o uso da palavra “energia” comprovando o aspecto de cobertura da
administração pública na campanha “antiapagão” conduzida pelo Governo Federal.
Já pela análise do Gráfico de “tipo e distribuição geográfica no Brasil” (Figura 3),
pode-se concluir que a maioria das notícias veiculadas é do tipo flash (IT-Internet), que não
trazem consigo uma identificação de qual editoria é o foco da notícia (política, economia,
nacional, entre outras), ao contrário das matérias consolidadas (MA). Isto não permite, a
priori, uma avaliação mais precisa, através de meios convencionais de distribuição de
Anexo C - Artigo no KM Brasil 2002 156
editorias (pesquisa por editoria, por exemplo). É possível ainda comprovar que o maior
número de notícias provêm de: Brasília - DF, Rio de Janeiro - RJ e São Paulo - SP. Isto se
deve ao fato de o DF e o RJ serem os estados da federação como maior concentração de
órgãos federais no Brasil. Neste gráfico é realçada ainda a presença de Pernambuco - PE. Em
uma análise mais apurada, verificou-se que isto se deve à cobertura da empresa na ação do
Governo Federal no “Polígono da Maconha”.
Destaque na Evolução
jane
iro
feve
reiro
mar
ço
abril
mai
o
junh
o
julh
o
agos
to
sete
mbr
o
outu
bro
nove
mbr
o
deze
mbr
o
Mês
Inic
idên
cia
presidente ministro governo energia saúde
FIGURA 2 - Destaque na evolução das palavras mais usadas
FIGURA 3 - Tipos de notícias e distribuição geográfica
Presidência
6,00
32,0036,00
29,0032,25
19,00
31,00 31,00
46,00
31,5025,00
62,00
jane
iro
feve
reiro
mar
ço
abril
mai
o
junh
o
julh
o
agos
to
sete
mbr
o
outu
bro
nove
mbr
o
deze
mbr
o
Economia
24,00
36,00
12,0017,00 19,50
45,00
23,00
8,00 10,7516,50
25,25 23,00
jane
iro
feve
reiro
mar
ço
abril
mai
o
junh
o
julh
o
agos
to
sete
mbr
o
outu
bro
nove
mbr
o
deze
mbr
o
FIGURA 4 - Exemplo de categorias encontradas (presidência e economia)
Anexo C - Artigo no KM Brasil 2002 157
O Gráfico “categorias” (Figura 4) representa uma classificação subjetiva do
especialista realizada nos grupos encontrados pela ferramenta de KDT (Knowledge Discovery
in Text), através de seus centróides. A presença da categoria “presidência”, “política”,
“desenvolvimento” e “economia”, condiz com os objetivos da empresa: cobertura da
Presidência da República e dos atos e fatos da administração pública federal brasileira.
Comprovam ainda, visto terem sido obtidas com análise de suas principais palavras (assuntos
abordados), estarem de acordo com a classificação adotada pela empresa em suas editorias.
Reflete também que em certos meses, devido a fatos diversos, há congruência de notícias para
determinados assuntos. Por exemplo: (i) crise financeira e risco de inflação (aumento em
economia), (ii) campanha “antiapagão” (aumento em desenvolvimento), (iii) guerras entre
Países e atentados aos EUA (aumento em Internacional e em Segurança), (iv) greve nos
metrôs, ônibus e trens (aumento em transportes), (v) campanhas educacionais (aumento em
educação) e (vi) meteorologia, considerada de grande valor, visto que, devido a inúmeros
fatores, estes dados podem ser essenciais em regiões longínquas, onde só há recepção de tais
informações através de rádios.
IV - GESTÃO DO CONHECIMENTO E IMPACTOS DA MINERAÇÃO DE TEXTOS
Existem muitas abordagens sobre os processos de interpretação dos eventos que
ocorrem em uma organização. Daft & Weick7 apresentam o relacionamento entre os conceitos
de varredura, monitoramento, compreensão, interpretação, entendimento e aprendizado em
três estágios (Figura 5). Estes estágios constituem o processo geral de aprendizado.
FIGURA 5 - Processo geral de aprendizado
O processo inicia-se com a tarefa de observar o ambiente e fornecer dados, coletados
de sistemas ou de pessoas, para os gerentes. De posse destes dados é desenvolvido o
entendimento compartilhado, atribuindo-lhes significado. O aprendizado envolve uma nova
ação baseada na interpretação. Este processo, no qual o conhecimento é desenvolvido sobre as
relações dos resultados das ações, é definido como Aprendizado Organizacional. O processo
reinicia-se com o fornecimento de novos dados para interpretação, oriundos do ato de
aprender.
Anexo C - Artigo no KM Brasil 2002 158
Este processo pode ser tomado como base para organizações que visam adquirir
conhecimento organizacional por meio da gestão do conhecimento. Para tanto, Stollenwerk8
apresenta um modelo genérico de gestão do conhecimento por meio do estudo dos principais
modelos existentes em gestão e planejamento estratégico, procurando extrair o essencial de
cada um deles.
4.1 MODELO GENÉRICO DE GESTÃO DO CONHECIMENTO
A Gestão do Conhecimento e o Planejamento Estratégico são alvos de diversas
abordagens, definições e percepções. Neste trabalho, selecionou-se o modelo genérico de
Stollenwerk que buscou agrupar os processos comuns por afinidade de conceitos. O modelo
resultante (Figura 6), segundo a autora, compõe os elementos e dimensões para aplicabilidade,
caracterizando a importância e conceituação da Gestão de Conhecimento nas organizações.
FIGURA 6 - Modelo genérico de gestão do conhecimento
O modelo apresentado é composto de sete processos: (i) identificação, (ii) captura,
(iii) seleção/validação, (iv) organização/modelagem, (v) compartilhamento, (vi) aplicação e
(vii) criação. Além disso, o modelo ainda inclui quatro fatores facilitadores: (i) liderança, (ii)
cultura organizacional, (iii) medição e recompensa e (iv) tecnologia de informação e
comunicação. A seguir, apresenta-se uma descrição sucinta destes processos e fatores que
compõem o modelo genérico.
Anexo C - Artigo no KM Brasil 2002 159
4.1.1 - PROCESSOS DA GESTÃO DO CONHECIMENTO
Identificação
Este processo é considerado como estratégico para organização. Nele estão inseridos a
identificação e desenvolvimento das competências críticas (competências essenciais) para o
sucesso da organização. Estas competências devem refletir, apoiar e estarem alinhadas com a
missão, valores e visões do negócio. No enfoque gerencial são abordados conhecimentos,
tecnologias e habilidades que apóiam as competências atuais. No enfoque estratégico é visto a
relação de transferência e aquisição dos conhecimentos e habilidades necessários para apoiar
o desenvolvimento de novas competências. Suas principais etapas são: (i) lista de
competências, (ii) análise das competências necessárias e existentes, (iii) mapeamento do
conhecimento, (iv) identificação das fontes (páginas amarelas, diretório de especialistas, etc) e
(v) soluções para suprir as necessidades de competências necessárias versus as existentes.
Captura
A captura trata da aquisição de conhecimento, habilidades e experiências necessárias
para criar e manter as competências, similar a fase de criação de conhecimento. Esta captura
pode ser obtida de fontes internas tais como especialistas e profissionais seniores, sistemas de
gestão da organização, clientes e fornecedores internos, simulação e modelagem de processos,
políticas, práticas e procedimentos e treinamento interno. Como fontes externas para obtenção
deste conhecimento pode-se relacionar: publicações, serviços de consultoria, sistemas
especialistas e bancos de dados comerciais, conferências e congressos, treinamentos e
seminários, relacionamentos com clientes e fornecedores, joint ventures, benchmarking, entre
outras. Entre suas principais etapas, destacam-se: (i) identificações das fontes internas e
externas, (ii) seleção das estratégias de aquisição e (iii) aquisição, formalização e recuperação
do conhecimento.
Seleção e validação
O processo de seleção e validação visa filtrar o conhecimento gerado, recuperado ou
desenvolvido avaliando sua qualidade e o sintetizando para uso futuro. Neste processo são
consolidados pontos como: (i) relevância e confiabilidade do conhecimento, (ii) proposição de
soluções de problemas relacionados a conhecimentos conflitantes, (iii) desenvolvimento e
criação de conhecimento não disponível, (iv) redução do grau de incerteza do conhecimento
não comprovado e (v) estabelecimento de visões múltiplas quando houver solução para
conhecimentos conflitantes.
Anexo C - Artigo no KM Brasil 2002 160
Organização e armazenagem
O processo de organização e armazenagem visa, por meio da utilização de sistemas,
garantir a recuperação, de forma rápida, fácil e correta, do conhecimento armazenado. Busca-
se formalizar o conhecimento ao máximo, objetivando otimizar sua eficácia. Suas etapas são:
(i) classificação do conhecimento, (ii) definição da arquitetura de tecnologia da informação
(TI) e (iii) criação de repositórios de conhecimentos, informações e dados.
Compartilhamento: acesso e distribuição
Neste processo, busca-se facilitar o acesso das informações e conhecimentos que
geralmente se restringem a um pequeno grupo de pessoas. A facilidade de acesso é o ponto
crítico do processo. Assim, a TI envolvida torna-se crucial. Para tanto, é necessário: (i)
identificação da necessidade de informação e de conhecimento, (ii) criação de mecanismos de
recuperação e disseminação do conhecimento, (iii) capacitação dos usuários potenciais nas
ferramentas de recuperação e (iv) disseminação automática do conhecimento em tempo hábil.
Aplicação
É vital que o conhecimento adquirido seja aplicado em situações reais da organização.
Isto pode auxiliar na busca de benefícios tais como melhoria de desempenho e conquista de
novos mercados. Neste processo, são registradas as experiências com a utilização do
conhecimento e ainda a necessidade de novos conhecimentos. Suas etapas são: (i) aplicação
do conhecimento relevante, confiável e de alto valor agregado e (ii) registro das lições
aprendidas e dos ganhos obtidos com a utilização.
Criação do conhecimento
Este processo envolve aprendizagem, externalização do conhecimento, lições
aprendidas, pensamento criativo, pesquisa, experimentação, descoberta e inovação. A criação
de um novo conhecimento pode ser potencializada com a formulação e operacionalização da
estratégia, inteligência competitiva, pesquisa e desenvolvimento, reengenharia,
benchmarking, entre outros. São etapas deste processo: (i) compartilhamento do
conhecimento tácito; (ii) criação de conceitos; (iii) justificação de conceitos; (iv) construção
de um arquétipo; e (v) difusão interativa do conhecimento (cross-leveling knowledge).
4.1.2 FATORES FACILITADORES DA GESTÃO DO CONHECIMENTO
Liderança
É papel da liderança no processo de gestão obter compromisso e direcionamento por
parte dos administradores da organização. Este processo está diretamente ligado à eficácia da
Anexo C - Artigo no KM Brasil 2002 161
gestão do conhecimento na empresa. Nenhuma mudança significativa ocorre a menos que
parta da cúpula.
Cultura organizacional
É necessário que haja na organização uma cultura ao estímulo para cooperação.
Organizações de conhecimento são caracterizadas por terem: (i) alto desempenho, (ii) foco no
cliente, (iii) foco em melhoria e em excelência, (iv) nível elevado de competência e de
conhecimento, (v) altas taxas de aprendizagem e inovação, (vi) autogerenciamento, (vii) pró-
atividade e visão de futuro e (viii) compartilhamento de conhecimento.
Medição e avaliação
Para que o processo geral de gestão do conhecimento tenha êxito, é necessário medir e
avaliar os desempenhos, comportamentos e atitudes. Desse modo, é possível efetuar o devido
reconhecimento e recompensa dos colaboradores. Métodos de medição e acompanhamento
permitem e facilitam atingir metas com melhor definição de padrões e foco nas ações.
Tecnologia da Informação
A existência de uma TI adequada é vital para suporte à gestão de conhecimento.
Geralmente, os projetos de gestão utilizam ferramentas de TI tais como banco de dados
relacionais, Data Mining, Datawarehousing e ferramentas de busca. Consideram-se
ferramentas de compartilhamento de conhecimento tais como videoconferências, workgroups,
newgroups, e-mails, Intranet e Internet.
4.2 CONTRIBUIÇÕES DA MINERAÇÃO DE TEXTO NO MODELO DE GESTÃO DO
CONHECIMENTO DA RADIOBRÁS
Mesmo que de maneira informal e pontual, a RADIOBRÁS já aplica gestão do
conhecimento. Em relação à aplicação formal da gestão de conhecimento, tem-se a realização
de planejamento estratégico na empresa. Como referencial teórico para a presente análise,
utilizou-se o modelo genérico de Gestão do Conhecimento de Stollenwerk.
É importante salientar que a análise feita neste trabalho foi delimitada no nível
hierárquico definido pela Assessoria Administrativa da RADIOBRÁS, vinculada à diretoria
administrativa da empresa. Um dos objetivos desta pesquisa é a motivação da administração
superior da empresa em divulgar e ampliar a prática de gestão do conhecimento.
Observou-se que, através da aplicação da metodologia CRISP-DM, se chegou a dois
tipos de conhecimento: um primeiro, decorrente da aplicação da metodologia em si, e um
segundo, como conseqüência da análise dos resultados obtidos pela mineração de dados.
Anexo C - Artigo no KM Brasil 2002 162
Em relação ao primeiro tipo de conhecimento, foram descobertos problemas de
armazenamento das matérias. Com isso, a empresa pôde direcionar esforços com objetivo de
recuperar tais informações em outras fontes, tais como: (i) backups; (ii)
repositórios/servidores antigos; (iii) arquivos em formato ‘html’ no servidor web da empresa.
Em conseqüência, novas rotinas de segurança e armazenamento foram planejadas, a fim de
resguardar, da melhor maneira, o acervo da empresa.
Quanto ao segundo tipo de conhecimento, a análise obtida com o uso do text mining,
constatou formalmente o cumprimento do papel social da RADIOBRÁS junto à sociedade.
Anteriormente, esta hipótese era tida como verdade sustentada com base na experiência de
seus dirigentes. Esse foi o principal resultado alcançado.
Além disso, foi possível mensurar, de forma mais precisa, a produção da empresa. Na
primeira estatística de produção foram avaliadas as matérias separadas por períodos mensais
de produção, informando quantidade de registros, tamanho total por mês (bytes), quantidade
média por dia de produção e tamanho médio de cada matéria (bytes). Isso possibilitou à
empresa avaliar sua produção no decorrer de um ano inteiro, podendo assim gerenciar melhor
sua logística de cobertura.
Foi obtida também a quantidade de palavras por matéria. Isso permitiu que se
determinasse a média de palavras por texto em cada mês, viabilizando o acompanhamento do
fluxo e do padrão de tamanho das notícias veiculadas, fator importante para o jornalismo.
Outro resultado significativo foi a obtenção das palavras usadas com maior freqüência.
De posse destas palavras foi possível apurar com acurácia os principais assuntos abordados
pela empresa.
A limpeza e a engenharia de dados forneceu a quantidade de matérias inválidas ou fora
do contexto. Assim, foi possível determinar o nível de incidência desses tipos indesejáveis de
matérias.
Outro produto da análise foi a distribuição geográfica das origens das matérias. Isso
permitiu à empresa comprovar a eficácia de sua cobertura jornalística no País, confrontando
assuntos, localidades e fatos de grande repercussão nacional no período analisado.
A partir do agrupamento das notícias foi possível certificar e enumerar as grandes
áreas de abrangência da empresa. A comprovação destas áreas permitiu aos administradores
certificarem o cumprimento das metas traçadas à empresa.
Os administradores da RADIOBRÁS, com os resultados obtidos neste trabalho
puderam conhecer melhor o potencial das tecnologias envolvidas no processo, e com isto
pretendem estender a abrangência do projeto. Entre os futuros passos pode-se considerar: (i)
Anexo C - Artigo no KM Brasil 2002 163
aplicação da tecnologia nos demais produtos da empresa, (ii) estudo de uma forma de
universalizar o conhecimento adquirido na organização, (iii) revisão de alguns processos e
estudo, com maior profundidade, dos conceitos e assuntos descobertos (por exemplo,
direcionamento a produção) e (iv) melhor exploração de alguns grupos, analisando de outra
forma a categorização de assuntos.
V - CONCLUSÕES E TRABALHOS FUTUROS
A RADIOBRÁS desponta como uma empresa que busca excelência em sua
administração. A disputa para obtenção de direitos para agenciar a publicidade legal, aliada à
concorrência na cobertura jornalística do governo é exemplo de fator condicionante para tal
filosofia de administração. Na cobertura jornalística, destacam-se os serviços de televisão,
mídia impressa, notícias em tempo real, portal Internet e rádio que, por ser veículo oficial do
governo, torna suas notícias também oficiais.
Este cenário contribui para que a empresa tenha necessidade de manter-se no mercado
jornalístico como referência. Outros fatores expressos em sua missão fazem com que a
RADIOBRÁS tenha que estar em constante melhoria na prestação de seus serviços.
Conhecer os assuntos tratados pela empresa, confrontando-os com fatos e
acontecimentos mundiais permitiu aos administradores também confrontar as ações do
governo -através da veiculação jornalística - com as rotinas atuais da organização. Nesse
sentido, a nossa pesquisa evidenciou uma aderência da produção da RADIOBRÁS com os
seus objetivos. Como trabalho futuro, os resultados obtidos deverão ser alvo de crítica mais
refinada para um possível refinamento em algumas das etapas consideradas. Pretende-se,
assim, que o autoconhecimento proporcionado pelos resultados aqui apresentados seja
plenamente aproveitado em benefício da instituição.
NOTAS E REFERÊNCIAS 1 TAN, A.-H. Text mining: The state of the art and the challenges, Kent Ridge Digital Labs,
1999. Disponível em <http://textmining.krdl.org.sg>. Acesso em: 23 ago. 2001. 2 NUGGETS® KDnuggets.com (KD stands for Knowledge Discovery) is the leading source
of information on Data Mining, Web Mining, Knowledge Discovery, and Decision Support
Topics. Disponível em <http://www.kdnuggets.com/polls/data_mining_techniques.htm>.
Acesso em: 21 ago. 2001. 3 citado em AGRAWAL, R. Data Mining: Crossing the Chasm. Invited talk at the 5th ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-99),
Anexo C - Artigo no KM Brasil 2002 164
San Diego, California, August 1999. Disponível em
<http://www.almaden.ibm.com/cs/quest/PUBS.html>. Acesso em: 15 mai. 2001. 4 CHAPMAN, P., KERBER R., CLINTON J., KHABAZA T., REINARTZ T., WIRTH R. -
The CRISP-DM Process Model. Discussion Paper, 2000. Disponível em <http://www.crisp-
dm.org>. Acesso em: 08 jul. 2001. 5 WIVES, L. K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento
de Informações não Estruturadas Usando Técnicas de Clustering. Dissertação de Mestrado,
PPGC/UFRGS, Porto Alegre (RS), 1999. 6 HALLIMAN, C. Business intelligence using smart techniques: environmental scanning
using text mining and competitor analysis using scenarios and manual simulation.
Information Uncover, Houston, 2001. 7 citado em MORESI, E. A. D. Monitoramento Ambiental. In: TARAPANOFF, Kira. (Org.)
Inteligência Organizacional e Competitiva, Brasília, Ed. UnB, p. 93-109, 2001. 8 STOLLENWERK, M. de F. L. Gestão do Conhecimento: conceitos e modelos. In:
TARAPANOFF, Kira. (Org.) Inteligência Organizacional e Competitiva, Brasília, Ed. UnB,
p. 143-163, 2001.
Anexo C - Artigo no KM Brasil 2002 165
Anexo D -
Artigo no ICEIS 2003
Artigo: Text Mining for Organizational Intelligence:A Case Study On A Public
News Agency.
Conferência: 5th International Conference on Enterprise Information Systems ICEIS 2003
http://www.iceis.org/Cfp2003.htm
Data: 23-26/Abril/2003
Local: Angers, França
Realização: ESEO - L' École Superieur d' Électronique de l' Ouest - Angers (França),
em colaboração com a EST - Escola Superior de Tecnologia de Setúbal
(Portugal)
Áreas de Abrangência:
(i) Databases and Information Systems Integration;
(ii) Artificial Intelligence and Decision Support Systems;
(iii) Information Systems Analysis and Specification;
(iv) Software Agents and Internet Computing.
Anexo D - Artigo no ICEIS 2003 167
TEXT MINING FOR ORGANIZATIONAL INTELLIGENCE
A Case Study On A Public News Agency
Edilberto M. Silva Agência Brasil RADIOBRÁS – Empresa Brasileira de Comunicação S.A, Brasília, Brazil
Email: [email protected]
Edilson Ferneda Universidade Católica de Brasília, Brasília, Brazil
Email: [email protected]
Hércules A. do Prado Empresa Brasileira de Agropecuária (Embrapa) – Cerrados / Universidade Católica de Brasília, Brasília, Brazil
Email: [email protected]
Keywords: Organizacional intelligence; learning organization; CRISP-DM; KDT.
Abstract: In this article it is presented a case study on the creation of organisational intelligence in a Brazilian news agency (RADIOBRÁS) with the application of text mining tools. Departing from the question about if RADIOBRÁS is fulfilling its social role, we construct an analysis model based on the enormous volume of texts produced by its journalists. CRISP-DM method was applied including the acquisition of the news pro-duced during 2001, preparation of this material, with the cleansing and formatting of the archives, creation of a model of clustering and the generation of many views. The views had been supplied to the administra-tion of the company allowing them to develop more accurate self-knowledge. RADIOBRÁS is an important company of Brazilian State, that spreads out the acts of the public administration and needs a self evaluation based in the knowledge of its results. As any other company, RADIOBRÁS is subject to the increasing re-quirement of competitiveness imposed to the modern organisations. In this scene, the generation and retention of organisational intelligence have been recognised as a competitive differential that can lead to a more adequate management of the businesses, including its relationship with customers and in the adequacy of its structure of work. The importance of the information for the elaboration of the knowledge and, conse-quently, the synthesis of intelligence is widely recognised, and requires a proper treatment adjusted to reach insights that can lead to the activation of the mental processes that will lead to that synthesis. Many internal and external views on the organisation can be built with the use of tools for the extraction of patterns from a large amount of data, subsidising decisively the managers in the decision making process. These views, constructed to answer the specific questions, constitute knowledge in a process of Organisational Learning that influences radically the way in which the organisation is managed. The contributions of IT in this field were developed, initially, aiming at the extraction of patterns from transactional databases that contains well structured data. However, considering that most of the information in the organisations are found in textual form, recent developments allows the extraction of interesting patterns from this type of data. Some patterns extracted in our case study are: (i) the measure of production and geographic distribution of RADIOBRÁS news, (ii) a survey of the most used words, (iii) the discovery of the covering areas of the news, (iv) the evaluation of how the company is fulfilling its role, in accordance with the subjects approached in its news, and (v) the evaluation of the journalistic covering of the company.
Anexo D - Artigo no ICEIS 2003 168
1 INTRODUCTION
Organisations have been constantly challenged to adapt themselves to the everyday changes, consider-ing, among others, the clients expectations, competi-tive strategies, technologic advances, unstable conditions in the economy and in the society.
The decision making is an investigative and ana-lytic process that justifies the requirements of quali-tative information by the administration.
Organisations can be seen as information proc-essing systems and, therefore, have delineated in-formation in the great majority of their managerial proceedings. By consequence, the knowledge man-agement can be seen as the group of activities which aims the development of the knowledge in an or-ganisation to support conclusive processes in all levels.
In this work, we present a case study in a public news agency to create the organisational intelligence applying text mining tools. We question the fulfil-ment of the social role of the company, delineate the information environment under the focus of knowl-edge management, and generate outcomes that can lead to the synthesis of organisational knowledge.
2 MOTIVATION
According to Tan (2001), 80% of the information held in the companies are found in the form of texts. In contrast to this fact, a poll published by Kdnug-gets® (2001) shows that just 2% of all KDD (Knowledge Discovery from Databases) applications is developed using textual databases. By adding ap-plications in Web Mining, which uses marked texts,
this percentage goes up to 7%. This way, the ques-tion is: why, in such a competitive economy, the application of the Knowledge Discovery from Texts is not so usual as we could expect?
Moore (1999), in his model (Figure l), explains the adoption cycle of new technologies and dis-cusses the existence of a “chasm” between the “early adopters, visionaries” and the “early majority prag-matists” phases that a technology has to go through to become extensively applied. The motivation for this study is the recognition that text mining is ex-actly in this point.
Based on these facts, we can enumerate some hypotheses to investigate why the text mining has not crossed this chasm yet: (i) the weak usability of the available technology, (ii) few reports of success-ful experiences and (iii) inexistence of an adequate methodology to guide the users in development of text mining applications.
With respect to the first hypothesis, there are many available tools with excellent level of matur-ity, and lots of adequate functions and interfaces to the ordinary user. On the other hand, the few reports of successful applications does not justify the chasm, although is not so stimulating for the development of new applications. Thus, we decided to analyse the third hypothesis, which is concerned with the meth-odological subject.
In order to explore our hypothesis, we applied the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology (Chapman, 2001), origi-nally conceived to promote the standardization of the principles and techniques for Data Mining. It is composed by a group of phases and standard proc-esses for the management of Data Mining projects, independently of the business field and the tools in
Figure 1: Classification of clients of new technologies.
Anexo D - Artigo no ICEIS 2003 169
use. The six phases of CRISP-DM are: (i) business understanding, (ii) data understanding, (iii) data preparation, (iv) modelling, (v) model evaluation and (vi) application.
3 ANALYSIS OF THE PRODUCED TEXTS
We had analysed 55.635 texts, which contains about 8.700.000 words, carrying out the following pre-processing tasks: (i) acquisition and transference of the text archives corresponding to the news from the company’s archives, (ii) preparation of the text archives, (iii) statistics of the number of texts, words and archives size, (iv) data cleansing (null, invalid or incorrect format), (v) data engineering (separation of the news in independent archives), and (vi) final statistics referring to the most used words after the data cleansing.
The modelling was the next step, with the selec-tion of the technologies to be used. The clustering took place after verifying the targets of the mining process and the available texts. It consisted of gath-ering similar subjects in distinct groups, where all the subjects of same group have common character-istics. In this project, the subjects are separated into groups with all group members sharing certain words. This way, it was possible to divide a great collection of documents, isolating those belonging to the same topic in order to make it easier for the user to identify important documents.
After analysing these groups, it was possible to create and analyse hypotheses. Based on the knowl-edge of the specialist, acquired with experience with the company archives, or yet by the information through description and data summary, it was possi-ble to get important relations related to the company business. The clustering was based on the Palazzo’s proposal (Wives, 1999) and implemented in the Eurekha tool.
In order to extract knowledge, the groups were analysed and a categorisation of subjects approached by RADIOBRÁS was created. This work was made by specialists based on the methodology presented by Halliman (2001), who used not only the informa-tion related to the groups, but also the previous knowledge about the business.
After establishing the percentage of distribution of subjects in the groups, the specialists categorized the groups by month and by subject. The number of categories was made through the distribution of data based on its incidence in the period. The categorisa-tion permitted to relate the main topic covered by the company. Five big areas were created: (i) Republic Presidency – 30% (President, Fernando, Henrique,
Cardoso), (ii) Economy – 21% (Central Bank, mone-tary values, inflation, stock exchange, dollar quota-tion, interest rate, The national Treasury), (iii) Meteorology – 21% (weather forecast, cloudy, par-tially, showers), (iv) Development – 8% (electricity, monetary values, government companies names, investment and development) and (v) Politics – 7% (parties names, chamber, senate, names of ministers and senators).
There are other areas in which the incidence is not so significant but were catalogued as well. They represent 13% of the total of news. These areas and their keywords are: Education (school census, uni-versity, ENEM), Health (AIDS, HIV, clone, generic medicine, hospital, cholesterol, medicine), Interna-tional (UN, WWF, El Salvador, Mercosul, Palestine, Israel, New York , towers, The US), Security (public safety, federal police, anti-drugs), Social Welfare (INSS, retirement), Science and Technology (ge-nome, technology), Justice (court, federal, justice, judgement, Aborigene, Galdino) Environment (birds, ISO, Amazon), Agriculture (INCRA, agrarian reform, IBAMA, soil), Culture (carnival, art, mu-seum, exhibition, orchestra, beauty, festival, winter), Transportation (airports, police, bus station, subway, conference, traffic), Sport (INTECOM, ECT, soccer, Nike, CBF, sets, marathon, Vasco, Gama, Cruzeiro, Goias, Olympics) National (quality, price, meat, accident, P-36) and Labour (woman, agreement, rural, labour, infants, forum, SENAC, SEBRAE).
Many graphics were developed to analyse the categories. Some of these graphics are shown with the respective interpretation of the specialist.
Figure 2 shows the most used words during the period and its evolution during the process. This evolution shows that the constant use of words such as “president”, “government”, “minister” suggest that the subjects is related to the Presidency of the Republic and the Federal Government. The word “health” grows as the Federal Government and the Ministry of Health make public campaigns of vacci-nation and prevention of diseases such as AIDS. The reinforcement of the word “energy” referring to the aspect of the coverage made by the government in the campaign “anti-blackout”.
The graphic in Figure 3 shows that great part of the news is “flash” type (IT-Internet), which does not bring any identification about editorship (poli-tics, national economy, etc) opposing to the type of consolidated subjects (MA). It does not allow, at first, a very precise evaluation, through conventional means of distribution of editorials (research using editorship). It not difficult to notice that the enor-mous number of news comes from: Brasilia – DF, Rio de Janeiro – RJ and Sao Paulo – SP. It happens because the federal departments are concentrated in DF and Rio. This graphic also shows the state of
Anexo D - Artigo no ICEIS 2003 170
Pernambuco – PE as a consequence of the special attention to the “Marijuana Polygon” in that part of the country.
Figure 4 represents a subjective classification of the specialists developed in the groups found by the KDT tool. The presence of the categories “presi-dency”, “politics”, “development” and “economy” are in tune with the company aims: the coverage of the Presidency of the Republic and the acts and facts of the Federal Brazilian Public Administration. Yet, they show an agreement with the adopted clas-sification by the company in its editorials. It also reflects that in certain months there is congruence of news with certain subjects. For example: (i) finan-cial crisis and inflation risk (increase in economy), (ii) anti-blackout campaign (increase in develop-ment), (iii) wars among countries and terrorism (in-crease in International and Security), (iv) strike on the subways, buses and trains (increase in transportation), (v) educational campaigns (increase in education) and (vi) meteorology, considered of high value,, these data can be essential in far away regions, where the information just arrives through radio transmission.
4 KNOWLEDGE MANAGEMENT AND IMPACTS OF THE TEXT MINING
There are many approaches related to the interpreta-tion processes of the events that occur in an organi-sation. Draft & Weick (cited in Moresi, 2000) shows the relationship between concepts of monitoring, understanding, interpretation, understanding and learning in three stages (Figure 5). These stages con-stitute the general learning process.
The process starts by observing the environment and by supplying data, collected in systems or with people, to the managers. After that, the shared un-derstanding is developed, leading to a the meaning gain. Learning involves new action based on inter-pretation. This process, in which the knowledge is developed about the relations of the actions results, is defined as Organisational Learning. It begins again with the supply of new data for interpretation, derived from the learning act.
This process can be taken as a basis for organi-sations that aim to acquire organisational knowledge through the knowledge management. This way, Stol-lenwerk (2001) developed a generic model of knowledge management by studying the most im-portant models related to management and strategic planning, extracting the essential from each one.
Janu
ary
Febr
uary
Mar
ch
Apr
il
May
June
July
Augu
st
Sept
embe
r
Oct
ober
Nov
embe
r
Dec
embe
r
Month
Inci
denc
e
minister president government federal energy
Figure 2. Most used words
Anexo D - Artigo no ICEIS 2003 171
4.1 Generic Model Of Knowledge Management
The knowledge management and the strategic plan-ning are targeted by many approaches definitions and perceptions. In this work, the Stollenwerk ge-neric model was selected to provide the gathering of common processes considering the similarities among the concepts.
This model is made up of seven processes: (i) identification, (ii) capture, (iii) selection/validity, (iv) organisation/modelling, (v) sharing, (vi) applica-tion and (vii) creation. Besides that, the model in-cludes four other facilitators: (i) leadership, (ii) organisational culture, (iii) measuring and compen-sation and (iv) technology of information and communication. In this work we show a real description of these processes and factors that make up the generic model.
4.1.1 Knowledge Management Processes
Identification This process is considered as strategic for the or-ganisation. It contains the identification and devel-opment of the critic competencies (essential competencies) aiming to the success of the organisa-
tion. These competencies must reflect, give support and be paired with the mission, values and business views. In the managerial focus are included knowl-edge, technologies and skills that give support for new competencies. The strategic focus shows the relation of transference and acquisition of the knowledge and skills required to support the devel-opment of new competencies. Its main steps are: (i) list of competencies, (ii) analysis of the necessary and existent competencies, (iii) knowledge mapping, (iv) identification of sources (yellow pages, special-ists directory, etc) and (v) solutions to supply the necessity of competencies versus the existent ones.
Capture
The capture aims to the knowledge acquisition, skills and necessary experiences to create and main-tain the competencies, similar to the phase of the knowledge creation. The capture can be performed over internal sources such as senior specialists and professionals, management systems, clients and sup-pliers, simulation and process modelling, policies, proceedings practices and internal training. The ex-ternal sources can be: publishing, consultant ser-vices, specialist systems and commercial databases, conferences and congresses, training and seminaries, relationship with clients and suppliers, joint ven-tures, benchmarking, among others. The main steps are: (i) identification of internal and external sources, (ii) selection of the strategies for acquisition
Figure 3. News types and geographic distribution
Figure 4. Examples of categories
Anexo D - Artigo no ICEIS 2003 172
and (iii) acquisition, formalisation and knowledge recovery.
Selection And Validity
The process of selection and validity aims to filter the generated knowledge, recovered or developed, by evaluating its quality and summarising it for fu-ture use. This process consolidates issues such as: (i) relevancy and dependability of the knowledge, (ii) proposal of solutions to problems related to conflict-ing knowledge, (iii) development and creation of unavailable knowledge, (iv) decrease of the degree of uncertainty of the unproven knowledge and (v) establishment of multiple views when there are no solutions to conflicting knowledge. Organisation and Storage The process of organisation and storage aims to guarantee the quick and correct recovery of the stored knowledge. It aims to formalise the knowl-edge, in order to optimise its efficiency. It’s made up of the following steps: (i) knowledge classification, (ii) definition of the architecture of technology of the information (TI) and (iii) creation of replacement of knowledge information and data.
Sharing: Access And Distribution
The aiming of this process is to make easy the ac-cess to information e knowledge that are usually restricted to a small number of people. The easy way of access is the critic point of the process. This way, the TI involved becomes crucial, being necessary: (i) identification of the information and knowledge re-quirements, (ii) creation of mechanisms of knowl-edge recovering and dissemination, (iii) qualifying main users with the recovery tools and (iv) auto-matic dissemination of the knowledge just in time.
Application
The acquired knowledge should be applied in real situations in the organisation. It can help in the search for benefits such as performance improve-ment and the conquest of new markets. This process records the experiences with the use of knowledge and the need for new knowledge. The steps are: (i) application of relevant, reliable and high aggregated value knowledge and (ii) record of learned lessons and the advantages with its use.
Figure 5. General learning process
Figure 6. Generic model of knowledge management
Anexo D - Artigo no ICEIS 2003 173
Creation of The Knowledge
This process involves learning, knowledge externali-sation, learned lessons, creative thought, research, experiments, discovery and innovation. The creation of new knowledge can be improved with the formu-lation and operation of the strategy, competitive in-telligence, research and development, re-engineering, benchmarking, among others. The steps of this process are: (i) sharing of the tacit knowl-edge, (ii) concepts creation, (iii concepts explana-tion, (iv) building of an archetype, and (v) cross-levelling knowledge.
4.1.2 Factors And Facilitators of The Knowledge Management
Leadership
The role of the leadership in the management proc-ess is to get commitment and direction from the or-ganisation managers. This process is tightly linked to the efficiency of the knowledge management in the company. No significant change will happen, unless it comes from the staff.
Organisational Culture
It is essential to have in the organisation culture to stimulate the co-operation. Knowledge-based or-ganisations are characterised as having: (i) high per-formance, (ii) focus on the client, (iii) focus on improvement and on excellency, (iv) high level of competence and knowledge, (v) high rate of learning and innovation, (vi) self management, (vii) pro-activity and view of the future and (viii) knowledge sharing.
Mediation And Evaluation
As a requirement to the success of the knowledge management process it is necessary to measure and evaluate performance, behaviours and attitudes. This way it is possible to recognise and reward the co-workers. Methods of measurement and tracking al-low and make it easy to reach goals with better defi-nition of standards e focus on the actions.
Information Technology
The existence of an adequate IT is vital to support the knowledge management. The projects of man-agement usually adopt tools of IT such as relational databases, data mining, data warehousing and search tools. Video conferences, workgroups, newsgroups, e-mails, intranet and Internet are considered tools of sharing.
4.2 Contributions of Text Mining on the Knowledge Management Model of RADIOBRÁS
Even in an informal and narrow way, RADIOBRÁS already applies the knowledge management. When applying it formally, there is the strategic planning accomplishment in the company. As a theoretical referential to this analysis, the Stollenwerk generic knowledge management model was used.
It is important to state that the analysis made in this work was delimited into the hierarchy defined by the RADIOBRÁS advisory committee, linked to the managerial board of the company. One of the aims of this research is the motivation of the high administration of the company to publish and spread out the practice of the knowledge management.
We have reached two types of knowledge by us-ing the CRISP-DM methodology. The first came from the methodology application itself, and the second as a consequence of the analysis of the re-sults reached by mining process.
Problems with the storage of subjects were de-tected in the first type of knowledge and so the com-pany directed efforts to recover information in other sources such as: (i) backups, (ii) repository/old sup-pliers, (iii) files in the format `html` in the company web server. Then new routines of safety and storage were planned in order to save the archives in the best way possible.
The second type of knowledge showed that RADIOBRÁS has fulfilled its social role in the presence of the society. Previously, this hypothesis were accepted based only in the experience of the company leaders. This was an important result from this research.
Besides that, it was possible to measure, con-cisely, the company outcomes. In the first outcomes statistic the subjects were evaluated by month exhib-iting the number of records, the size (bytes), daily average output and size of each subject (bytes). This way, it was possible to evaluate the outcomes in the whole year and improve the management in its cov-erage logistic.
The number of words were counted in order to determine the word average by text in each month. It also allowed to keep track of the flow and pattern of the published news, a very important factor to the journalism.
The most used words were also detected as a very important result of this work. These words and their co-relations show exactly the main topics cov-ered by the company.
The data cleansing and engineering produced the amount of invalid or out of context subjects, and
Anexo D - Artigo no ICEIS 2003 174
allowed to determine the level of incidence of this undesirable kind of subjects.
The geographic distribution of subjects sources was also analysed, allowing the company to check the efficacy of its journalistic coverage. The subjects were co-related and the places and facts of great national repercussion analysed.
By clustering the news we could verify and enu-merate the great areas covered by the company. The verification of these areas allowed the administrators to check the accomplishment of the goals company.
Based on the results reached on this work, RADIOBRÁS managers could become aware about the power of the technologies involved in the proc-ess and now they intend to extend the project scope.
The next steps are: (i) application of the technol-ogy on the others products of the company, (ii) study of a way to universalise the knowledge acquired by the organisation, (iii) review of some projects and study, in a deeper way, of the concepts and subjects discovered (for example the direction given to the output) and (iv) improve the exploration of some groups, analysing in a different way the categories of subjects.
5 CONCLUSIONS AND FUTURE DEVELOPMENT
RADIOBRÁS arise as a company which search for excellence in its administration. The competition to get the rights to manage the official publishing linked to the competition in the journalistic coverage of the government are the main factors that guide its administration. The journalistic coverage includes television, printed media, news in real time, Internet and radio. Broadcasting stations are official, so are the news transmitted by them.
This scenery is positive since the company has the need to keep in the market as reference. Know-ing the subjects covered by the company and com-paring them to the world happenings has allowed to the managers to check the government actions – through the journalistic coverage - with the current routines of the organisation. In this sense, our work has shown an adherence between the RADIOBRÁS outcomes and its targets. As future work, the posi-tive results will be refined, being targeted by more accurate analysis, in order to improvement some important steps in the overall process. The self-knowledge provided by the results should be highly considered and used to bring benefit to the institu-tion.
REFERENCES
Agrawal, R., 1999. Data Mining: Crossing the Chasm. Invited talk at the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Min-ing (KDD–99), San Diego, California. http://www. almaden.ibm.com/cs/quest/PUBS.html. (05/15/01).
Chapman, P., Kerber R., Clinton J., Khabaza T., Reinartz t., Wirth R., 2000. The CRISP-DM Process Model. http://www.crisp–dm.org. (07/08/01).
Halliman, C., 2001. Business intelligence using smart techniques: environmental scanning using text mining and competitor analysis using scenarios and manual simulation. Information Uncover, Houston.
Moore, G.A., McKenna, R., 1999. Crossing the Chasm: Marketing and Selling High-Tech Products to Main-stream Customers, HarperBusiness,
Moresi, E.A.D., 2001 Monitoramento Ambiental. In: Tarapanoff, Kira. (Org.) Inteligência Organizacional e Competitiva, Brasília, Ed. UnB, p. 93-109.
Nuggets®, 2001 KDnuggets.com (KD stands for Knowl-edge Discovery) is the leading source of information on Data Mining, Web mining, Knowledge Discovery, and Decision Support Topics. http://www.kdnuggets. com/polls/data_mining_techniques.htm. (08/21/01).
Stollenwerk, M.F.L., (2001). Gestão do Conhecimento: conceitos e modelos. In: Tarapanoff, Kira (Org.) Inte-ligência Organizacional e Competitiva, Brasília, Ed. UnB, p. 143-163.
Tan, A.-H., 2001. Text mining: The state of the art and the challenges, Kent Ridge Digital Labs, 1999. http://textmining.krdl.org.sg. (08/23/01).
Wives, L. K., 1999. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informa-ções não Estruturadas Usando Técnicas de Clustering. MSc Thesis, PPGC/UFRGS, Porto Alegre (Brazil). (in portuguese)