Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
NOTÍCIAS
• Sistemas de recomendação
PROCESSAMENTO DE INFORMAÇÃO
“ The News.me Daily Email finds the best stories from your Twitter stream”
PROCESSAMENTO DE INFORMAÇÃO
“paper.li enables people to publish newspapers based on topics they like and treat their readers to fresh news, daily”
• Sistemas de personalização de notícias
EXTRACÇÃO DE INFORMAÇÃO
• Alinhamento de notícias em várias línguas
EXTRACÇÃO DE INFORMAÇÃO
• Agregadores de notícias
EXTRACÇÃO DE INFORMAÇÃO
VISUALIZAÇÃO DE INFORMAÇÃO
• Distribuição de notícias por categoria (newsmap.jp)
• Timeline de notícias (247.liberi.it)
VISUALIZAÇÃO DE INFORMAÇÃO
• Wordcould de tópicos (Jornal de Negócios)
VISUALIZAÇÃO DE INFORMAÇÃO
VISUALIZAÇÃO DE INFORMAÇÃO
• Infografia voxx + twitter
• Redes de entidades (dirtyenergymoney.com)
VISUALIZAÇÃO DE INFORMAÇÃO
• Redes de tópicos e personalidades em notícias (247.liberi.it)
VISUALIZAÇÃO DE INFORMAÇÃO
•Geo-referenciação/localização de notícias
VISUALIZAÇÃO DE INFORMAÇÃO
VERBETESEXTRACÇÃO AUTOMÁTICA DE MICRO-BIOGRAFIAS
• Serviço para pesquisa biográfica de entidades (pessoas, organizações)
• Este serviço responde a perguntas como:
• Quem é Alberto João Jardim?
• Qual a profissão/cargo de Paulo Portas em July 2011? e hoje?
• Quem é o ministro da defesa de Israel?
PESQUISA BIOGRÁFICA
• Com quem co-ocorreu Paulo Bento de Outubro de 2010 até hoje?
• Tendências de co-ocorrências entre Paulo Bento e Jorge Jesus entre Setembro 2011 até hoje?
CO-OCORRÊNCIAS
• Paulo Bento: selecionador nacional• Rui Bento: treinador Beira Mar• Vítor Bento: economista
DESAMBIGUAÇÃO
• Com base no contexto (notícia, blog, tweet, etc)
• Nomes: Paulo Bento
• Cargos/profissões: selecionador nacional
• Acrónimos e tags: futebol ou economia
• Rede de co-ocorrências: José Mourinho
DESAMBIGUAÇÃO
• Recolhe informação das notícias da web
• Extraí tuplos das notícias com base em padrões
• [ Paulo Bento; Selecionador Nacional; 2010-10-01; 2011-10-04 ]
• Identifica nomes alternativos (Pedro Passos Coelho, Passos Coelho, Passos)
• Classifica os tuplos como pessoa, organizacão ou outro
• Guarda os tuplos numa BD MySQL e fornece os dados via WS
Como funciona?
• Catálogo de serviços do sapo:• services.sapo.pt >> InformationRetrievel
• Métodos:• WhoIs?name=Paulo Portas&date=2010-07-01
• WhoIs?job=ministro da defesa de Israel
• GetPersonalities[?min=5]
• GetErgos[?min=5]
• GetCoOccurrences?name=PauloPortas&begin_date=...&end_date=...
• GetCoOccurrencesTrends?name1=...&name2=...&begin_date=...&end_date=...
• Combinação de parâmetros: name, name_like, job, job_like, date, margin, format
• Flags: inactive, dead
Onde está disponível?
• Voxx
• PeopleSearch
• Semantic Lists
• Sapo
• LIACC/FEUP
• you?
Utilizadores
VERBATIM / VOXXEXTRACÇÃO AUTOMÁTICA DE CITAÇÕES EM NOTÍCIAS
gmalta gmalta
MOTIVAÇÃO
•Actualmente existe um fluxo gigantesco de notícias que são publicadas diariamente em sites web
• Como organizar toda esta informação e torná-la útil do ponto de vista humano?
•Como criar histórico de citações?
•Como seguir tópicos ou personalidades?
•Como identificar tópicos ou personalidades activas/quentes?
gmalta gmalta
TECNOLOGIAS BASE
• Recolha de notícias
• Extracção de citações
• Classificação automática de notícias
• Interface dinâmico
gmalta gmalta
RECOLHA DE NOTÍCIAS
•Stream de dados fornecidos pelo Sapo<?xml version="1.0" encoding="UTF-8"?><document timestamp="2010-10-13T21:04:14.701Z" isnew="false"> <channel-title>www.ocastanheirense.com</channel-title> <url>http://www.ocastanheirense.com/1832/noticias.html</url> <hostname>www.ocastanheirense.com</hostname> <pubdate>2010-10-10T02:58:21Z</pubdate> <title>Paulo Portas visitou Castanheira de Pera</title> <body>O Município de Castanheira de Pera comemorou mais um aniversário do 25 de Abril. O hastear da Bandeira, com a presença de entidades civis, GNR e escolta dos Bombeiros Voluntários, abriu as solenidad$ <lang>pt</lang> <categories/> <images/> <geo> <local> <name>Pedrógão Grande</name> <district id="10">Leiria</district> <municipality id="1013">Pedrógão Grande</municipality> <parish id="101302">Pedrógão Grande</parish> </local> </geo></document>
gmalta gmalta
RECOLHA DE NOTÍCIAS
• Consumir o stream de dados
• Armazenar os dados em BD indexadas
• Estruturar a BD para escrita menos frequente e leitura muito frequente
• Estruturar a BD (tabelas) para pesquisas rápidas
• Utilizar crons para repetir o processo horiariamente
• 1000 a 1500 notícias / dia
gmalta gmalta
RECOLHA DE NOTÍCIAS
gmalta gmalta
0"
500"
1000"
1500"
2000"
2500"
3000"
3500"
4000"
4500"
9/1/11" 9/4/11" 9/7/11" 9/10/11" 9/13/11" 9/16/11" 9/19/11" 9/22/11" 9/25/11" 9/28/11"
• O que são citações?
EXTRACÇÃO DE CITAÇÕES
gmalta gmalta
EXTRACÇÃO DE CITAÇÕES
• Como são identificadas?
“José Sócrates afirmou que o crescimento ... da recuperação económica.”
1. A citação inicia-se com o nome próprio (neste caso nome de pessoa)
2. Segue-se um verbo de comunicação
3. Termina num ponto final
gmalta gmalta
EXTRACÇÃO DE CITAÇÕES
• Baseia-se em regras (expressões regulares)
1. Cada nova notícia é analisada
2. Se for identificada uma citação na notícia
3. Citação é extraída e armazenada numa BD
4. Processo repetido até finalizar a notícia
5. Executado horariamente até terminarem as novas notícias
• 17 categorias de regras, 118 verbos de comunicaçãogmalta gmalta
• Como resolver o problema de notícias / citações duplicadas?
EXTRACÇÃO DE CITAÇÕES
gmalta gmalta
EXTRACÇÃO DE CITAÇÕES
• É um problema grave
Extracção de Conteúdos: Duplicados
• "40% das citações extraídas têm pelo menos um duplicado.
00%
10%
20%
30%
40%
50%
60%
70%
1 2 3 4 5 6 7 8
Group size
gmalta gmalta
EXTRACÇÃO DE CITAÇÕES
• Estratégias típicas de remoção de duplicados:
1. Cada nova notícia é comparada com as notícias já recolhidas e temporalmente próximas (aprox. 15 dias)
2. Sempre que a sobreposição entre duas notícias é grande é criado um grupo de notícias duplicadas
3. Este processo repete-se horariamente e até terminarem novas notícias
4. Só será processada uma notícia de cada grupo de duplicados
gmalta gmalta
CLASSIFICAÇÃO DE NOTÍCIAS
• Como atribuir automaticamente um tópico / tema para uma notícia?
• Usar as taggs atribuídas pelos jornalistas?
• Usar as secçoes dos jornais onde são publicadas as notícias?
• Usar “pistas” presentes nos títulos das notícias?
• Usar palavras-chave nas notícias?
gmalta gmalta
CLASSIFICAÇÃO DE NOTÍCIAS
• Como funciona a classificação automática de texto?
1. É criado um conjunto de exemplos positivos
2. A partir deste conjunto é criado um modelo de classificação
3. O modelo é depois aplicado a notícias (documentos teste)
4. Com base nos modelos previamente treinados, o sistema retorna um possível tópico para a notícia (com um valor de probabilidade)
5. Tópico aceite se o valor de probabilidade obtido acima do threshold
gmalta gmalta
CLASSIFICAÇÃO DE NOTÍCIAS
• Como criar o conjunto de exemplos positivos?
1. Identificar tópicos a partir de padrões típicos no título
• Problemas / desafios com esta técnica:‣ “Dia 20 de Junho: Marchas populares em Palmela”‣ “Paulo Portas: Banco de Portugal precisa ...”
gmalta gmalta
CLASSIFICAÇÃO DE NOTÍCIAS
• Classificadores usados:
1. k-Nearest Neighbour
2. Rocchio
3. Support Vector Machines
• Notícias novas classificadas horáriamente
• Modelos treinados diariamente
gmalta gmalta
CLASSIFICAÇÃO DE NOTÍCIAS
• Porquê 3 classificadores?
‣ Tópicos pouco-equilibrados
Classificação: Estatísticas
• " 40% das citações extraídas são classificadas
• Distribuição das citações pelos tópicos:
30
0
100
200
300
400
500
600
Fute
bol
Legi
slat
ivas
PS
D
Eur
opei
as
BPN
E
UA
Fr
eepo
rt
Edu
caçã
o PS
C
rise
G
uiné
-Bis
sau
BPP
Pr
oved
or
Lisb
oa
Qim
onda
M
édio
Ori
ente
M
adei
ra
Gov
erno
A
utár
quic
as/L
isbo
a E
U
Des
port
o Ir
ão
Gri
pe A
H1N
1 Ju
stiç
a Sp
orti
ng
Con
junt
ura
Aço
res
gmalta gmalta
DEMONSTRAÇÃO
gmalta gmalta
TÓPICOS DE INVESTIGAÇÃO
• Extracção de informação
• Identificação e extracção de citações e descrições biográficas• Identificação de entidades (nomes de pessoas e organizações)• Desambiguação de entidades• Identificação de possíveis tópicos para notícias
• Aprendizagem Automática (Machine Learinig)
• Classificação de notícias por tópico ou tema
gmalta gmalta
PARA TERMINAR...
TÓPICOS PARA TRABALHOS
• Recolha automática de dados biográficos da wikipedia, LinkedIn, Twitter, ...
• Visualização de redes de pessoas / organizações
• Criação de time-lines em notícias
• Visualização de palavras-chave em notícias
• Criação de perfis opinativos
• Geo-referênciação de notícias
LINKS & CONTACTOS
• Voxx: http://voxx.sapo.pt
• Verbetes: http://services.sapo.pt -> InformationRetrievel/Verbetes
• NewYorkTimesLab: http://nytlabs.com
• NewsExplorer: http://emm.newsexplorer.eu/NewsExplorer/
• Visual Complexity: http://www.visualcomplexity.com
Prof. Eugénio Oliveira - [email protected] Teixeira - [email protected]