Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
Descoberta de conhecimento em textos - Análise semântica
● Diogo Cardoso● Eduardo Camilo Inácio● Eduardo Monteiro Dellandréa● Guilherme Gomes
Introdução
● Diversidade de textos não padronizados;
● Emails, artigos, documentos digitalizados poderiam ser
perdidos na ausência de uma análise criteriosa;
● Expor as técnicas de KDT.
Visão Geral KDT
● Descoberta de Conhecimento em Textos;
● KDT (Knowledge Discovered in Texts);
● Feldman e Dagan em 1995;
● Evolução da técnica de recuperação de informações;
● Mecanismo de busca X Mineração de texto;
● Extrair dados, encontrar padrões.
Etapas do Processo de Descoberta.
1 - Definição de objetivos.
2 - Seleção dos dados.
3 - Limpeza dos dados.
4 - Redução ou projeção dos dados.
5 - Escolha da técnica, método ou tarefa de mineração.
6 - Mineração.
Etapas do Processo de Descoberta. (cont.)
7 - Interpretação dos resultados.
8 - Consolidação do conhecimento descoberto.
Técnicas de KDT
● Desafio
○ Processamento de Linguagens Naturais
● Abordagens de Aprendizado
○ Supervisionado
○ Não Supervisionado
Técnicas de KDT (cont.)● Extração de Informação
● Rastreamento de Tópicos (Topic Tracking)
● Sumarização
● Categorização ou Classificação
● Agrupamento (Clustering)
● Acoplamento de Conceitos (Concept Linkage)
● Visualização de Informação
● Respondendo a Perguntas (Question Answering)
● Associação
Extração de Informação
● Produzir uma saída estruturada a partir de documentos de texto não estruturados
● Baseado na identificação de frases-chave a partir de
sequências pré-definidas
● Normalmente associado a uma etapa de pré-processamento de dados
Topic Tracking● Encontrar documentos relacionados com
determinados tópicos● Aplicações que buscam documentos baseados no
perfil dos usuários (Yahoo! Alerts)
● Baseado em identificação de palavras-chave nos
textos e comparação com tópicos desejados
● Maior parte dos métodos de identificação de palavras-
chave utilizam a quantidade de aparições dos termos
no texto como métrica
Sumarização
● Criar um resumo ou sumário de um documento automaticamente
● Busca por palavras ou frases com grande
importância no texto
● Redução do conteúdo sem perda de significado geral● Especialmente interessante para documentos muito
extensos
Categorização
● Determinar a classe ou categoria a qual pertence um documento
● Bastante similar a técnica utilizada em Data Mining● Capacidade de reconhecimento associada ao conjunto
de testes● Utilizada para indexação de documentos
Clustering
● Documentos agrupados de acordo com suas semelhanças e co-relacionamentos
● Bastante similar a técnica utilizada em Data Mining● Necessita de avaliação de um especialista do domínio
● Performance melhorada quando considera a
semântica do texto
Concept Linkage● Identificação de conexões entre documentos● Baseado na identificação de conceitos
compartilhados entre os documentos
● Exemplo:
Documento 1 relaciona os tópicos X com Y
Documento 2 relaciona os tópicos Y com Z
Concept Linkage identifica relacionamento entre X e Z
Visualização de Informação● Apresentação de fontes textuais em uma hierarquia
ou mapa● Implementações oferecem recursos de navegação e
busca● Preparação dos dados, análise e extração dos dados,
construção da apresentação● Utiliza outras técnicas nas etapas de preparação,
análise e extração dos dados
Question Answering
● Capacidade de responder perguntas feitas em linguagem natural
● Utiliza outras técnicas para determinar o assunto da questão
● Solução para interfaces de entrada de sistemas especialistas
Associação● Encontrar regras de associação entre tópicos ou
conceitos em um conjunto de documentos● Determinações do tipo:
Se um conceito X existe no documento, então um
conceito Y também existe.
● Bastante similar a técnica utilizada em Data Mining
Ferramentas de mineração de conhecimento em textos
SAS Text Miner
● Empresa líder de mercado em soluções de inteligência analítica.
● Permite análises avançadas, tornando possível compreender as tendências futuras e atuar em novas oportunidades, mais precisamente e com menos risco.
● Inclui recursos avançados de linguística da solução de mineração de dados núcleo da SAS ® Enterprise Miner.
Ferramentas de mineração de conhecimento em textos
SAS Text Miner
Ferramentas de mineração de conhecimento em textos
Intext Mining - Text Mining Suite
● Classificação: para identificação de assuntos, temas;● Clustering de textos: separação automática de textos
em grupos sem a necessidade prévia de determinação do número de grupos;
● Recuperação de textos por similaridade: a partir de um texto de entrada a ferramenta retorna uma lista de textos similares ordenado por nível de similaridade;
● Possui um módulo Wizard. Basta responder a algumas perguntas do assistente para receber o resultado da análise.
Ferramentas de mineração de conhecimento em textos
Intext Mining - Text Mining Suite
Ferramentas de mineração de conhecimento em textos
IBM TAKMI – Text Mining System
● Uma das várias ferramentas de Data Mining e BI, que trabalham com Text Mining da IBM;
● Destaca-se pela especialização em mineração de texto para a análise de logs de call centers, mas pode ser aplicável a qualquer tipo de dados de texto grandes em geral;
● Há também uma versão especializada para a análise de publicações médicas chamada de MedTAKMI.
Ferramentas de mineração de conhecimento em textos
NetOwl TextMiner
Permite encontrar, organizar, analisar e extrair um grande volume de informações não estruturadas.
● Pesquisa semântica avançada;● Integrado Análise Geoespacial;● Link de Análise Integrada;● Análise biográfica;● Reduz o tempo de análise e decisão;● Revela riscos e oportunidades;● Melhora o serviço ao cliente;● Aumenta a introspecção de negócio e tendências.
Ferramentas de mineração de conhecimento em textos
NetOwl TextMiner
Ferramentas de mineração de conhecimento em textosSobek
● Desenvolvido por alunos de pós-graduação em educação da Universidade Federal do Rio Grande do Sul (UFRGS).
● Procura e registra ocorrências de palavras repetidas ou sinônimas no documento, fazendo relações e criando grafos de interação entre elas, expondo os principais termos/conceitos do texto em mineração.
● Cria um banco de conceitos e possíveis relações associativas para ajudar na procura de palavras-chave, encontrando um maior número de ligações entre os conceitos.
Ferramentas de mineração de conhecimento em textosReferral Web
● Capaz de descobrir quais são as pessoas mais experientes em determinado assunto ou área, além de analisar co-relacionamentos entre pessoas.
● Princípio de que as pessoas mais experientes são aquelas mais citadas ou requisitadas na rede informal.
● Utiliza qualquer rede informal on-line (e-mail, foruns, página WEB, sites de busca) como fonte de informação.
Site de teste para análise de opinião
● School of Computer Science, The University of Manchester, UK ● Somente em Inglês● http://www.nactem.ac.uk/opminpackage/opinion_analysis
Conclusão
Com a grande disponibilidade de textos na internet, uma pesquisa comum não nos fornece todas as informações de uma forma padronizada e estruturada.
De acordo com o que foi exposto neste trabalho, o KDT possui técnicas como topic tracking, sumarização, categorização que nos permite selecionar, de forma inteligente, a informação mais útil e relevante.
ReferênciasGupta, V., & Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging
Technologies in Web Intelligence, 1(1), 60–76.
Ferramenta SAS Text Miner, disponível em http://www.sas.com/text-analytics/text-miner/index.htmlFerramenta Text Mining Suite, disponível em http://www.intext.com.br/Ferramenta SOBEK, disponível em http://sobek.ufrgs.brFerramenta IBM TAKMI, disponível em http://www.research.ibm.com/trl/projects/textmining/takmi/takmi_e.htmFerramenta NetOwl TextMiner, disponível em http://www.netowl.com/textminer/Ferramenta Referral Web, disponível em http://dl.acm.org/citation.cfm?id=245123