Upload
elpida
View
25
Download
0
Embed Size (px)
DESCRIPTION
Mapeamento de Thesauri. Daniela F. Brauner. Agenda. Introdução Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta. Introdução. Interoperabilidade. Milhares de provedores de informação (fontes de dados): Esquemas diferentes - PowerPoint PPT Presentation
Citation preview
Mapeamento de Thesauri
Daniela F. Brauner
Agenda
• Introdução
– Interoperabilidade
– Mapeamentos
• Em nível de esquema
• Em nível de dados
• Abordagens existentes
• Abordagem proposta
Introdução
• Milhares de provedores de informação (fontes de dados):
– Esquemas diferentes
– Categorias diferentes para classificação dos dados (≠ thesauri)
• Solução proposta:
– Dados estruturados
– Ontologias para descrever a semântica
– Computadores capazes de “entender” estes dados
– (mesma proposta da Web Semântica!)
• ...e os problemas continuam:
– Natureza descentralizada da Web
– Cada provedor de informação usando sua própria ontologia
Interoperabilidade
Introdução
• Busca por “city” no Swoogle
• 722 resultadosi.e. definições diferentes
Interoperabilidade
Introdução
ADL GazetteerGEOnet
Find all cities called
“Rio de Janeiro”
Mapeamentos
Introdução
ADL GazetteerGEOnet
Mediator
GEOnet Wrapper
ADL Wrapper
Basic Architecture of A Data Integration System
Find all cities called
“Rio de Janeiro”
Mapeamentos
Introdução
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333?
?? ?
GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
? ?
• Schema-level mapping
Mapeamentos
Find all cities called
“Rio de Janeiro” • Data-level mapping
Abordagens existentes
• ILA [Etzioni, 2000]
• SEMINT [Syan et al., 2000]
• AnchorPrompt [Musen and Noy, 2001]
• Cupid [Madhavan et al., 2001]
• LSD [Doan et al., 2001]
• SimilarityFlooding [Melnik et al., 2002]
• PROM [Doan et al., 2003]
• GLUE [Doan et al., 2003]
• CATO [Felicissimo, 2004]
• iMAP [Dhamankar et al., 2004]
• ...
Administrative areaPopulated placesPolitical areasCountriesCitiesCapitals...
ADL
FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp
AREA area ADM1 first-order administrative divisionADM2 second-order administrative divisionADM3 third-order administrative divisionADM4 fourth-order administrative divisionADMD administrative divisionADMF administrative facilityPPL populated placePPLA seat of a first-order administrative divisionPPLC capital of a political entityPPLL populated localityPPLQ abandoned populated placePPLR religious populated placePPLS populated placesPPLW destroyed populated placePPLX section of populated place...
GEOnet
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
• Utilizando os nomes dos termos
Cities
Populated places
Capitals
Administrative area
Political areas
Countries
ADL
FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start
Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
OpenCyc
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
IndependentCountry
• Utilizando as estruturas das árvores
Cities
Populated places
Capitals
Administrative area
Political areas
Countries Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
Exemplos: Instância ADL OpenCyc
Rio Grande, RS – Brazil Populated Places City
Smithers, BC – Canada Populated Places City
Rio de Janeiro, RJ – Brazil Populated Places City
São Paulo, SP – Brazil Populated Places City
Cardiff – Wales Populated Places CapitalCityOfRegion
Asmara – Eritrea Capitals CapitalCityOfRegion
Rome – Italy Capitals CapitalCityOfRegion
Brussels – Belgium Capitals CapitalCityOfRegion
ADL OpenCyc
Abordagens existentes
IndependentCountry
?
Abordagens existentes
• Estratégia de tradução do Google
– Sistema “aprende” através de traduções existentes
“My name is Daniela. I am 26 years old.”
“Mein name ist Daniela. Ich bin 26 Jahre alt.”
“Meu nome é Daniela. Eu tenho 26 anos.”
“Mi nombre es Daniela. Yo tengo 26 años.”
http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de
http://www.inf.puc-rio.br/~dani/eshttp://www.inf.puc-rio.br/~dani/br
Abordagens existentes
• 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos
hieróglifos
egípcio
demótico
(Copta)
grego
http://www.thebritishmuseum.ac.uk
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
– Removemos algumas stop-words
– Mapeamos conceitos com maior ocorrência de palavras em comum
Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
Bay
a coastal indentation between two
capes or headlands, larger than a cove
but smaller than a gulf?
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
Peninsula
an elongate area of land projecting into
a body of water and nearly surrounded
by water
GEOnet(4) Peninsula: land, body, water, surrounded(3) Island: land, surrounded, water(2) Pool: body, water
≠Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
Waterfall
a perpendicular or very steep descent
of the water of a stream
Waterfall
perpendicular or very steep falls of
water in the course of a stream.
Abordagens existentes
• Utilizando representação formal
– Criamos 3 ontologias: ADL, GEO e concepts
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
• Etapas:1. Levantamento dos dados
a. Definição dos conjuntos de treinamento e teste
2. Treinamento a. Cruzamento das instâncias de treinamento (definir freqüências)
b. Cálculo das probabilidades de alinhamento
3. Teste e validação
Abordagens existentes
Etapas concluídas:
1. Conjunto de exemplos:
– Instâncias brasileiras:
• ADL: 17.991
• GEOnet: 87.608
2. Treinamento:
– Instâncias mapeadas pelos valores de LAT/LON
– 221 pares identificados (~16%)
– Ex:
– Termos dos thesauri:
• ADL: 210
• GEOnet: 642
Combinações possíveis: 134.820
ADL (a) GEOnet (b) nab P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
P( b | a ) =nab
na
Abordagem proposta
• Mediador “espertinho”
(utilizando técnicas de aprendizagem de máquina)
• Aprende em 2 momentos:
– A priori (offline)
– A posteriori (runtime)
• Aprende a partir de:
– Consultas dos usuários
– Análise das respostas das consultas dos usuários
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Select populated places From ADL Within “-54, -34 -52.5, -33”
Ahááá!!!PPL ≡
PopulatedPlaces
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Select populated places From ADL Within “-54, -34 -52.5, -33”
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das respostas das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Cache
ADL GEOnet n P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
Mapeamento de Thesauri
Daniela F. Brauner