Upload
eric-sieverts
View
186
Download
5
Embed Size (px)
Citation preview
semantisch zoeken in een webomgeving
semantisch web, knowledge graph, ontologieën, metadata, linked data, ....
Eric Sieverts @sieverts
E-discovery juni 2014
semantisch zoeken
semantisch zoeken ≡ semantisch web van het semantisch web zoals dat Tim Berners Lee in 2004 voor ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd, maar die helpen wel bij "semantisch zoeken"
eric sieverts, juni 2014 2
semantisch zoeken
semantisch web
entiteiten
ontologieën
metadata ….
semantisch zoeken
zoeken doen we allemaal, maar wat is semantisch zoeken ?
heel globaal 2 aspecten daaraan:
1. inschatten wat zoekers met hun zoekvraag bedoelen "no strings but things" bijvoorbeeld:
– om concreet antwoord te kunnen geven, in plaats van lijstje met "ten blue links"
2. interpretatie van de betekenis van (in webpagina's) aangeboden content
eric sieverts, juni 2014 3
semantisch zoeken
zoeken doen we allemaal, maar wat is semantisch zoeken ?
heel globaal 2 aspecten daaraan:
1. inschatten wat zoekers met hun zoekvraag bedoelen – concreet antwoord in plaats van "ten blue links"
2. interpretatie van de betekenis van (in webpagina's) aangeboden content
bijvoorbeeld: – ten behoeve van die concrete antwoorden, of – om in die "ten blue links" extra informatie te kunnen tonen
eric sieverts, juni 2014 6
semantisch zoeken
1. bepalen wat de zoeker bedoelt – uit locatie van de zoeker bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
– uit eerder zoekgedrag van de zoeker bijv.: personalisatie van ranking bij Google
– door analyse van de zoekvraag • uit algemene statistiek van zoekvragen
bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian" • door herkennen van "entiteiten"
bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn) • door natuurlijke taalinterpretatie
– ...
eric sieverts, juni 2014 8
semantisch zoeken
2. interpretatie van betekenis in webpagina's – herkennen van entiteiten in de tekst bijv.: namen van personen, bedrijven, steden, producten, ...
– automatisch herkennen van betekenis bijv.: door "machine learning" getraind op vaste concepten
– gebruik van metadata/codering volgens ontologieën bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit structuur van beschikbare informatie bijv.: gestructureerd opgeslagen kenmerken in Facebook
– koppelen aan data uit andere bronnen bijv.: linked (open) data
– ...
eric sieverts, juni 2014 9
1. intentie van de zoeker
intentie of context van zoekvraag kan worden bepaald:
• op basis van de locatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel)
• op basis van eerder zoekgedrag van de zoeker
• op basis van analyse van gestelde vraag
eric sieverts, juni 2014 10
1. intentie van de zoeker
intentie of context van zoekvraag kan worden bepaald:
• op basis van de locatie van de zoeker
• op basis van eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan (zoals toegepast in Google's relevantie-personalisatie;
opgeslagen "web history" is ook al "big data")
• op basis van analyse van de gestelde vraag
eric sieverts, juni 2014 11
1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van locatie
• op basis van eerder zoekgedrag
• op basis van analyse van de gestelde vraag – naam van persoon, bedrijf, product, gebeurtenis, … >> feiten – naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden – natuurlijke taal interpretatie – statistiek op frequente eerdere vragen
eric sieverts, juni 2014 12
Google Knowledge
Graph
wolfram|alpha
Wie “Bach” zoekt, zal vermoedelijk J.S. bedoelen en liever gegevens dan websites over hem vinden Google's Knowledge Graph kent >500 miljoen objecten met >3,5 miljard kenmerken (deels ook in het Nederlands)
13
gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en (statistische) analyse van eigen gegevens
wat is in dit verband een "graph"?
een netwerk van al die concepten met hun onderlinge relaties en kenmerken
14
hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen? "how many plays wrote Shakespeare ?"
31
"how many plays wrote Shakespeare ?"
hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen? "who won the 1992 Nobel Peace Prize ?"
34
"who won the 1992 Nobel Peace Prize ?"
2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 2014 35
herkennen van "entiteiten"
example: article from NYTimes analysed by ….. >>
36
example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ zie vb Powerhouse museum
example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/
38 eric sieverts, juni 2014
2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 2014 39
voorbeeld: PDF document geanalyseerd met Dewey Classifier
categorisatie: onderwerp
41
Zoekresultaat uit Nederlandse Impala-systeem (Cees Snoek, UvA) dat is getraind op afbeeldingen van honderden concepten (waaronder schapen)
2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 2014 46
eric sieverts, juni 2014
gebruik van semantische codering
gestandaardiseerde markering van kenmerken in webpagina's - "semantic markup"
voorbeelden van zulke "embedded metadata": – recipe search bij Google en Yahoo – toepassing e-commerce ontology
daarbij gebruikte standaarden: – rich snippet markup / microdata / schema.org (Google, Yahoo, Bing, Yandex) onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek – RDFa
47
48
standaardisatie van kenmerken van producten
met "GR-ontologie" volgens "RDFa“ in “XHTML”
50
nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s
53
+ nu ook Yandex
de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd
door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web
54
microdata en RDFa
• toepassing hiervan op open web is vaak "SEO-driven" • Google biedt webmasters "Structured data testing tool" dat
fouten in codering detecteert
zie blogposts op SearchEngineLand: http://searchengineland.com/how-to-use-rich-snippets-semantic-markup-to-send-rich-signals-139886 http://searchengineland.com/5-ways-optimize-markup-knowledge-graph-semantic-search-186755
eric sieverts, juni 2014 55
• zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker)
• zoeker krijgt al extra informatie over gevonden items in zijn 10 blue links
(zoals Google's rich snippets)
wat heeft zoeker hieraan?
2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 2014 60
betekenis door structuur
• kent betekenis toe door gegevens gestructureerd op te slaan
• doet dat ook in een "graph" >> graph search
61 eric sieverts, juni 2014
Facebook Graph Search alles wat gebruikers registreren, wordt gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden
2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 2014 63
Tim Berners Lee: 1989: "invented" the World Wide Web
2004: proposed the "semantic web"
2006: designed "linked data" as a step towards realisation of the semantic web
eric sieverts, juni 2014 64
van web tot linked data intermezzo linked data
linked data
linked (open) data • kan weergegeven als RDF-tripels zodat die data computer-leesbaar zijn • ze staan op internet zodat het "open" is • bedoeld om te worden hergebruikt zodat het belangrijk ingrediënt voor het semantisch web is • is gestandaardiseerd zodat het makkelijk hergebruikt kan worden • iedereen kan (en moet!) data bijdragen waardoor het soms wel een beetje een rommeltje is • je kunt zoeken in linked data triple-stores SPARQL is voor linked data wat SQL is voor relationele database
eric sieverts, juni 2014 65
intermezzo linked data
intermezzo linked data rdf tripels
eric sieverts, juni 2014 66
naar idee van Lucas Koster / IP
"Uit Berlijn"
boek
Uit Berlijn
"Armando"
Schuldig landschap
http://www.worldcat.org/oclc/10098995 http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://xmlns.com/foaf/spec/#term_name
http://viaf.org/viaf/9885610/
http://hdl.handle.net/10934/RM0001.COLLECT.496040
http://purl.org/dc/terms/creator
http://purl.org/dc/terms/creator
http://schema.org/Book
Armando
http://purl.org/dc/terms/title
dbpedia: data from Wikipedia
last.fm: artists
geonames: 6.2 M toponyms
BBC: wildlife finder
project Gutenberg IMDB
music brainz
Reuters: openCalais
viaf: virtual international authority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
in semantisch web wordt van "alles"
de betekenis vastgelegd
eric sieverts, juni 2014
semantisch web
om betekenis ook te kunnen begrijpen zijn "ontologieën" nodig
68
intermezzo semantisch web & ontologieën
Originally from: http://www.emiliosanfilippo.it/?page_id=1172
ontologieën
69
"Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations" Wikipedia
filosofie kunstmatige intelligentie
semantisch web
70
linked (open) data
ontologieën
eric sieverts, juni 2014
intermezzo semantisch web & ontologieën
70
filosofie kunstmatige intelligentie
semantisch web
71
linked (open) data
ontologieën
eric sieverts, juni 2014
intermezzo semantisch web & ontologieën
“een ontologie is een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen” of: een geformaliseerde kennisrepresentatie, meestal voor een beperkt onderwerpsdomein (bijv. een wijnontologie)
71
relaties tussen enkele concepten in een eenvoudige "wijn-ontologie"
Château Lafitte Rothschild {is een} wijnhuis Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} Pauillac Bordeaux {is een} wijnstreek ....
veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for
72
hiërarchische structuur van concepten van één soort in een eenvoudige "wijn-ontologie"
voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM]
73
elk soort kennisorganisatiesysteem waarmee betekenis beschreven kan worden, dus ook:
• thesauri • taxonomieën • semantische netwerken • namenlijsten • concordanties • …
in veel algemenere zin dan alleen "echte" ontologieën formele standaard notaties nodig om ze te beschrijven
filosofie kunstmatige intelligentie
semantisch web
74
linked (open) data
schema.org is ook simpele vorm hiervan
ontologieën
eric sieverts, juni 2014
intermezzo semantisch web & ontologieën
74
"conceptuele datamodellen" voor allerlei domeinen, zoals • foaf (persoonsgegevens) • dublin core (15 velden voor vooral erfgoed) • good-relations ontology (e-commerce) • music ontology (muziek) • skos (thesaurusrelaties) • cidoc-crm (erfgoed)
definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden
filosofie kunstmatige intelligentie
semantisch web
75
linked (open) data
eric sieverts, juni 2014
intermezzo semantisch web & ontologieën ontologieën
75
semantisch zoeken
slotconclusies:
al is het hele "semantisch web" er misschien nog niet, er is wel steeds meer semantiek op het web, zowel bij zoekmachines als in webpagina's zelf
daardoor wordt het vinden van informatie (of feiten en antwoorden?) steeds makkelijker
maar wel vooral nog voor mainstream onderwerpen
en voor informatiespecialisten blijven de spreekwoordelijke "ten blue links" onontbeerlijk om goed gefundeerde antwoorden te kunnen geven
eric sieverts, juni 2014 76