77
semantisch zoeken in een webomgeving semantisch web, knowledge graph, ontologieën, metadata, linked data, .... Eric Sieverts @sieverts E-discovery juni 2014

Semantisch zoeken in een webomgeving

Embed Size (px)

Citation preview

semantisch zoeken in een webomgeving

semantisch web, knowledge graph, ontologieën, metadata, linked data, ....

Eric Sieverts @sieverts

E-discovery juni 2014

semantisch zoeken

semantisch zoeken ≡ semantisch web van het semantisch web zoals dat Tim Berners Lee in 2004 voor ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd, maar die helpen wel bij "semantisch zoeken"

eric sieverts, juni 2014 2

semantisch zoeken

semantisch web

entiteiten

ontologieën

metadata ….

semantisch zoeken

zoeken doen we allemaal, maar wat is semantisch zoeken ?

heel globaal 2 aspecten daaraan:

1. inschatten wat zoekers met hun zoekvraag bedoelen "no strings but things" bijvoorbeeld:

– om concreet antwoord te kunnen geven, in plaats van lijstje met "ten blue links"

2. interpretatie van de betekenis van (in webpagina's) aangeboden content

eric sieverts, juni 2014 3

4 eric sieverts, juni 2014

5

semantisch zoeken

zoeken doen we allemaal, maar wat is semantisch zoeken ?

heel globaal 2 aspecten daaraan:

1. inschatten wat zoekers met hun zoekvraag bedoelen – concreet antwoord in plaats van "ten blue links"

2. interpretatie van de betekenis van (in webpagina's) aangeboden content

bijvoorbeeld: – ten behoeve van die concrete antwoorden, of – om in die "ten blue links" extra informatie te kunnen tonen

eric sieverts, juni 2014 6

7

semantisch zoeken

1. bepalen wat de zoeker bedoelt – uit locatie van de zoeker bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”

>> adres van pizzeria in de buurt

– uit eerder zoekgedrag van de zoeker bijv.: personalisatie van ranking bij Google

– door analyse van de zoekvraag • uit algemene statistiek van zoekvragen

bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian" • door herkennen van "entiteiten"

bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn) • door natuurlijke taalinterpretatie

– ...

eric sieverts, juni 2014 8

semantisch zoeken

2. interpretatie van betekenis in webpagina's – herkennen van entiteiten in de tekst bijv.: namen van personen, bedrijven, steden, producten, ...

– automatisch herkennen van betekenis bijv.: door "machine learning" getraind op vaste concepten

– gebruik van metadata/codering volgens ontologieën bijv.: informatie gecodeerd met begrippen uit schema.org ontologie

– uit structuur van beschikbare informatie bijv.: gestructureerd opgeslagen kenmerken in Facebook

– koppelen aan data uit andere bronnen bijv.: linked (open) data

– ...

eric sieverts, juni 2014 9

1. intentie van de zoeker

intentie of context van zoekvraag kan worden bepaald:

• op basis van de locatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel)

• op basis van eerder zoekgedrag van de zoeker

• op basis van analyse van gestelde vraag

eric sieverts, juni 2014 10

1. intentie van de zoeker

intentie of context van zoekvraag kan worden bepaald:

• op basis van de locatie van de zoeker

• op basis van eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan (zoals toegepast in Google's relevantie-personalisatie;

opgeslagen "web history" is ook al "big data")

• op basis van analyse van de gestelde vraag

eric sieverts, juni 2014 11

1. intentie van de zoeker

intentie of context van vraag kan worden bepaald:

• op basis van locatie

• op basis van eerder zoekgedrag

• op basis van analyse van de gestelde vraag – naam van persoon, bedrijf, product, gebeurtenis, … >> feiten – naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden – natuurlijke taal interpretatie – statistiek op frequente eerdere vragen

eric sieverts, juni 2014 12

Google Knowledge

Graph

wolfram|alpha

Wie “Bach” zoekt, zal vermoedelijk J.S. bedoelen en liever gegevens dan websites over hem vinden Google's Knowledge Graph kent >500 miljoen objecten met >3,5 miljard kenmerken (deels ook in het Nederlands)

13

gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en (statistische) analyse van eigen gegevens

wat is in dit verband een "graph"?

een netwerk van al die concepten met hun onderlinge relaties en kenmerken

14

15 eric sieverts, juni 2014

meer uit de Knowledge Graph

generieke vragen leveren

"carousel"

16 eric sieverts, juni 2014

17 eric sieverts, juni 2014

maar niets over de diefstal ….

19

20 eric sieverts, juni 2014

feitelijk antwoord boven gewone resultaten

eric sieverts, juni 2014 21

22 eric sieverts, juni 2014

eric sieverts, juni 2014 23

24 eric sieverts, juni 2014

25 eric sieverts, juni 2014

26 eric sieverts, juni 2014

vergelijkingen

27 eric sieverts, juni 2014

Bing heeft zijn "Entity Engine" (Satori) die ook steeds slimmer begint te worden

28

maar alleen bij landeninstelling "Verenigde Staten"

29

eric sieverts, juni 2014 30

hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen? "how many plays wrote Shakespeare ?"

31

"how many plays wrote Shakespeare ?"

32

"how many plays wrote Shakespeare ?"

33

"who won the 1992 Nobel Peace Prize ?"

hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen? "who won the 1992 Nobel Peace Prize ?"

34

"who won the 1992 Nobel Peace Prize ?"

2. interpretatie van betekenis

betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals

plaats, persoon, bedrijf, product, ...)

• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")

• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web

• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)

• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")

• ...

eric sieverts, juni 2014 35

herkennen van "entiteiten"

example: article from NYTimes analysed by ….. >>

36

example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ zie vb Powerhouse museum

example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/

38 eric sieverts, juni 2014

2. interpretatie van betekenis

betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals

plaats, persoon, bedrijf, product, ...)

• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")

• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web

• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)

• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")

• ...

eric sieverts, juni 2014 39

eric sieverts, juni 2014

categorisatie: sentiment detection

voorbeeld: PDF document geanalyseerd met Dewey Classifier

categorisatie: onderwerp

41

resultaat van analyse van PDF document

42

Google herkent objecten in images

43

Zoekresultaat uit Nederlandse Impala-systeem (Cees Snoek, UvA) dat is getraind op afbeeldingen van honderden concepten (waaronder schapen)

pinterest biedt automatisch (?) gegenereerde filters op onder meer recepten

?

2. interpretatie van betekenis

betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals

plaats, persoon, bedrijf, product, ...)

• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")

• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web

• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)

• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")

• ...

eric sieverts, juni 2014 46

eric sieverts, juni 2014

gebruik van semantische codering

gestandaardiseerde markering van kenmerken in webpagina's - "semantic markup"

voorbeelden van zulke "embedded metadata": – recipe search bij Google en Yahoo – toepassing e-commerce ontology

daarbij gebruikte standaarden: – rich snippet markup / microdata / schema.org (Google, Yahoo, Bing, Yandex) onder andere voor: recepten, recencies, personen,

producten, organisaties, gebeurtenissen, muziek – RDFa

47

browser extensies (in Chrome) om embedded metadata uit pagina's te pikken

standaardisatie van kenmerken van producten

met "GR-ontologie" volgens "RDFa“ in “XHTML”

50

52

nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s

53

+ nu ook Yandex

de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd

door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web

54

microdata en RDFa

• toepassing hiervan op open web is vaak "SEO-driven" • Google biedt webmasters "Structured data testing tool" dat

fouten in codering detecteert

zie blogposts op SearchEngineLand: http://searchengineland.com/how-to-use-rich-snippets-semantic-markup-to-send-rich-signals-139886 http://searchengineland.com/5-ways-optimize-markup-knowledge-graph-semantic-search-186755

eric sieverts, juni 2014 55

• zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker)

• zoeker krijgt al extra informatie over gevonden items in zijn 10 blue links

(zoals Google's rich snippets)

wat heeft zoeker hieraan?

hulp voor makers van pagina's voor toevoegen metadata

57

58

59

2. interpretatie van betekenis

betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals

plaats, persoon, bedrijf, product, ...)

• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")

• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web

• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)

• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")

• ...

eric sieverts, juni 2014 60

betekenis door structuur

Facebook

• kent betekenis toe door gegevens gestructureerd op te slaan

• doet dat ook in een "graph" >> graph search

61 eric sieverts, juni 2014

Facebook Graph Search alles wat gebruikers registreren, wordt gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden

2. interpretatie van betekenis

betekenis herkennen (van tekst) in webpagina's • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals

plaats, persoon, bedrijf, product, ...)

• automatische categorisatie door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")

• betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web

• betekenis af te leiden uit structuur van opgeslagen gegevens (bijvoorbeeld bij Facebook Graph Search)

• voor inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data")

• ...

eric sieverts, juni 2014 63

Tim Berners Lee: 1989: "invented" the World Wide Web

2004: proposed the "semantic web"

2006: designed "linked data" as a step towards realisation of the semantic web

eric sieverts, juni 2014 64

van web tot linked data intermezzo linked data

linked data

linked (open) data • kan weergegeven als RDF-tripels zodat die data computer-leesbaar zijn • ze staan op internet zodat het "open" is • bedoeld om te worden hergebruikt zodat het belangrijk ingrediënt voor het semantisch web is • is gestandaardiseerd zodat het makkelijk hergebruikt kan worden • iedereen kan (en moet!) data bijdragen waardoor het soms wel een beetje een rommeltje is • je kunt zoeken in linked data triple-stores SPARQL is voor linked data wat SQL is voor relationele database

eric sieverts, juni 2014 65

intermezzo linked data

intermezzo linked data rdf tripels

eric sieverts, juni 2014 66

naar idee van Lucas Koster / IP

"Uit Berlijn"

boek

Uit Berlijn

"Armando"

Schuldig landschap

http://www.worldcat.org/oclc/10098995 http://www.w3.org/1999/02/22-rdf-syntax-ns#type

http://xmlns.com/foaf/spec/#term_name

http://viaf.org/viaf/9885610/

http://hdl.handle.net/10934/RM0001.COLLECT.496040

http://purl.org/dc/terms/creator

http://purl.org/dc/terms/creator

http://schema.org/Book

Armando

http://purl.org/dc/terms/title

dbpedia: data from Wikipedia

last.fm: artists

geonames: 6.2 M toponyms

BBC: wildlife finder

project Gutenberg IMDB

music brainz

Reuters: openCalais

viaf: virtual international authority file

LCSH

NY times

Flickr

"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata,

kunnen computers betekenis van die data "begrijpen" en die data gebruiken

rechtspraak.nl

in semantisch web wordt van "alles"

de betekenis vastgelegd

eric sieverts, juni 2014

semantisch web

om betekenis ook te kunnen begrijpen zijn "ontologieën" nodig

68

intermezzo semantisch web & ontologieën

Originally from: http://www.emiliosanfilippo.it/?page_id=1172

ontologieën

69

"Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations" Wikipedia

filosofie kunstmatige intelligentie

semantisch web

70

linked (open) data

ontologieën

eric sieverts, juni 2014

intermezzo semantisch web & ontologieën

70

filosofie kunstmatige intelligentie

semantisch web

71

linked (open) data

ontologieën

eric sieverts, juni 2014

intermezzo semantisch web & ontologieën

“een ontologie is een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen” of: een geformaliseerde kennisrepresentatie, meestal voor een beperkt onderwerpsdomein (bijv. een wijnontologie)

71

relaties tussen enkele concepten in een eenvoudige "wijn-ontologie"

Château Lafitte Rothschild {is een} wijnhuis Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} Pauillac Bordeaux {is een} wijnstreek ....

veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for

72

hiërarchische structuur van concepten van één soort in een eenvoudige "wijn-ontologie"

voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM]

73

elk soort kennisorganisatiesysteem waarmee betekenis beschreven kan worden, dus ook:

• thesauri • taxonomieën • semantische netwerken • namenlijsten • concordanties • …

in veel algemenere zin dan alleen "echte" ontologieën formele standaard notaties nodig om ze te beschrijven

filosofie kunstmatige intelligentie

semantisch web

74

linked (open) data

schema.org is ook simpele vorm hiervan

ontologieën

eric sieverts, juni 2014

intermezzo semantisch web & ontologieën

74

"conceptuele datamodellen" voor allerlei domeinen, zoals • foaf (persoonsgegevens) • dublin core (15 velden voor vooral erfgoed) • good-relations ontology (e-commerce) • music ontology (muziek) • skos (thesaurusrelaties) • cidoc-crm (erfgoed)

definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden

filosofie kunstmatige intelligentie

semantisch web

75

linked (open) data

eric sieverts, juni 2014

intermezzo semantisch web & ontologieën ontologieën

75

semantisch zoeken

slotconclusies:

al is het hele "semantisch web" er misschien nog niet, er is wel steeds meer semantiek op het web, zowel bij zoekmachines als in webpagina's zelf

daardoor wordt het vinden van informatie (of feiten en antwoorden?) steeds makkelijker

maar wel vooral nog voor mainstream onderwerpen

en voor informatiespecialisten blijven de spreekwoordelijke "ten blue links" onontbeerlijk om goed gefundeerde antwoorden te kunnen geven

eric sieverts, juni 2014 76

the end

eric sieverts, juni 2014 77