56
ZBW is member of the Leibniz Association Anforderungen an Thesauri im Semantic Web Joachim Neubert ZBW – Leibniz Informationszentrum Wirtschaft, Kiel/Hamburg Deutsche Nationalbibliothek Leipzig 1.3.2016 Frankfurt a.M. 2.3.2016

Anforderungen an Thesauri im Semantic Web

Embed Size (px)

Citation preview

Page 1: Anforderungen an Thesauri im Semantic Web

ZBW is member of the Leibniz Association

Anforderungen an Thesauri im Semantic Web

Joachim Neubert ZBW – Leibniz Informationszentrum Wirtschaft, Kiel/Hamburg Deutsche Nationalbibliothek Leipzig 1.3.2016 Frankfurt a.M. 2.3.2016

Page 2: Anforderungen an Thesauri im Semantic Web

Agenda

1. Thesauri im Semantic Web 2. Standards: SKOS, ISO 25964 3. STW als Beispiel eines SKOS-Thesaurus 4. Mappings / Crosskonkordanzen 5. Nutzung von SKOS-Thesauri und Mappings in Applikationen 6. Tools für SKOS-Thesauri 7. Anwendung auf die GND 8. Anforderungen / Wunschliste

Page 2

Page 3: Anforderungen an Thesauri im Semantic Web

Page 3

Page 4: Anforderungen an Thesauri im Semantic Web

Page 4

Page 5: Anforderungen an Thesauri im Semantic Web

Page 5

Page 6: Anforderungen an Thesauri im Semantic Web

Boom von Thesauri im Semantic Web

• bartoc.org verzeichnet rund 100 Thesauri im SKOS-Format • Getty: große Umbauten und Öffnung mit Blickrichtung auf Linked

Open Data (AAT, Geographical Names, ULAN Artists) • Reorganisation und tendenzielle Verschmelzung der

agrarwissenschaftlichen Vokabulare (Agrovoc, NAL Thesaurus, z.T. CAB Thesaurus) im GACS (Global Agricultural Concept Scheme)

• Neuentwicklungen wie Getty CONA (Cultural Objects Name Authority)

• Wikidata als „universelle Normdatei“ und Verknüpfungspunkt multilingualer Informationsressourcen

Page 6

Page 7: Anforderungen an Thesauri im Semantic Web

2. Thesaurus-Standards

Page 7

Page 8: Anforderungen an Thesauri im Semantic Web

Page 8

Strukturierung durch SKOS

• Simple Knowledge Organization System • entwickelt mit dem Ziel, Schlagwortsysteme, Thesauri,

Klassifikationen u.ä. für das Semantic Web nutzbar zu machen • beruht auf eindeutigen Identifiern (URIs) für Begriffe

skos:Concept – „unit of thought“ • erlaubt zu Begriffen Vorzugsbezeichnungen und alternative

Bezeichnungen in beliebig vielen Sprachen • unterstützt die üblichen Thesaurusrelationen (broader, narrower,

related)

Page 9: Anforderungen an Thesauri im Semantic Web

Page 9

Strukturierung durch SKOS (2)

• ermöglicht Dokumentation (definition, scopeNote, historyNote, etc.) • ergänzende Gliederung durch skos:Collections • zusätzliche Strukturierungsmöglichkeiten durch SKOS-XL

(z.B. Beziehung zwischen einer Bezeichnung und deren Abkürzung) • unterstützt Mapping verschiedener Thesauri (exactMatch,

closeMatch, broadMatch, narrowMatch, relatedMatch) • erweiterbar durch anwendungsspezifische Klassen und

Eigenschaften • seit August 2009 Recommendation des W3C

http://www.w3.org/2004/02/skos/

Page 10: Anforderungen an Thesauri im Semantic Web

Thesaurus Norm ISO 25964

ISO 25964 – löste 2011 (Teil 1) und 2013 (Teil 2) die technisch völlig überholten DIN und ISO Normen aus den 1970er und 1980er Jahren ab • umfangreiche Begriffsdefinitionen

Concept (Begriff) und Term (Bezeichnung) wie in SKOS • relationales Datenmodell zur Repräsentation von Thesauri • zusätzliche Strukturierung mit Hilfe von ThesaurusArrays und

ConceptGroups (Modellierung von Microthesauri) • Interoperabilität zwischen Vokabularen

Page 10

Page 11: Anforderungen an Thesauri im Semantic Web

Verbindung SKOS - ISO 25964

ISO-THES RDF-Vokabular als Ergänzung zu SKOS und SKOS-XL http://www.niso.org/schemas/iso25964/correspondencesSKOS/ • Korrespondenz SKOS-ISO25964, zugleich SKOS Erweiterung • Empfehlung, wie zwischen generischen, partitiven und instanziellen

Unterbegriffen unterschieden werden kann • Empfehlung, wie compound equivalences (Benutze Kombination) in

SKOS definiert werden • Empfehlungen für Thesaurus Arrays, Mikrothesauri u.ä.

Page 11

Page 12: Anforderungen an Thesauri im Semantic Web

Einsatzbereich von SKOS

• primär zur Datenpublikation im Web und zum Datenaustausch • ermöglicht Interoperabilität und erleichtert Mappings zwischen

Vokabularen • zielt nicht darauf, den gesamten Reichtum von Thesauri abdecken • soll nicht automatisches Schlussfolgern (Reasoning) ermöglichen • in der Regel nicht verwendet für die interne Darstellung von Thesauri

in Pflegesystemen • Workflows und Stati (z.B. Kandidat, freigegeben, …) • Changelog (wer hat was wann geändert, und vor allem warum?)

• Indexierung ist für SKOS generell „out of scope“

Page 12

Page 13: Anforderungen an Thesauri im Semantic Web

3. STW als Beispiel eines SKOS-Thesaurus

Page 13

Page 14: Anforderungen an Thesauri im Semantic Web

Page 14

Standard-Thesaurus Wirtschaft

• wurde in den 1990er Jahren unter öffentlicher Förderung von vier wirtschaftswissenschaftlichen Institutionen entwickelt

• wird heute von der ZBW herausgegeben und weiterentwickelt • umfasst ca. 6.000 Deskriptoren mit über 14.000 alternativen

Bezeichnungen in Deutsch und Englisch • bildet feinmaschiges Begriffsnetz • mehr als 13.000 Ober-/Unterbegriffsbeziehungen und 6.500

verwandte Begriffe • zusätzlicher Zugang über Thesaurussystematik

mit rund 500 Stellen

Page 15: Anforderungen an Thesauri im Semantic Web

Page 15

Suche mit Thesaurusunterstützung

Page 16: Anforderungen an Thesauri im Semantic Web

Page 16

STW Begriffsnetz

Page 17: Anforderungen an Thesauri im Semantic Web

Page 17

Systematischer Zugriff

Page 18: Anforderungen an Thesauri im Semantic Web

Page 18

Daten-Einbettung in Webseiten mit RDFa

Page 19: Anforderungen an Thesauri im Semantic Web

<descriptor/19090-6> # http://zbw.eu/stw/descriptor/19090-6 skos:inScheme <../stw> ; # http://zbw.eu/stw a skos:Concept, zbwext:Descriptor ; skos:prefLabel "Environmental reporting"@en, "Umweltbericht"@de ; skos:altLabel "Corporate environmental accounting"@en, ... ; skos:broader <descriptor/12394-0>, <thsys/70383>, <thsys/71033> ; skos:related <descriptor/18183-4>, ... ; skos:exactMatch <http://aims.fao.org/aos/agrovoc/c_9000050>,

<http://d-nb.info/gnd/4202417-1>, <http://lod.gesis.org/thesoz/concept/10039271> ;

skos:closeMatch <http://dbpedia.org/resource/Environmental_economics> ;

skos:relatedMatch <http://d-nb.info/gnd/4299127-4> ; gbv:gvkppn "091395976"^^xsd:string .

Page 19

Page 20: Anforderungen an Thesauri im Semantic Web

4. Mappings / Crosskonkordanzen

Page 20

Page 21: Anforderungen an Thesauri im Semantic Web

Interoperabilität

• Datenbestände werden zunehmend über Portale, Discovery-Systeme oder letztlich das Web miteinander verknüpft

• für die übergreifende Nutzung von Beständen mit gemischter Erschließung sind Mappings notwendig

• strukturelle Ähnlichkeit von SKOS-Vokabularen erlaubt Einsatz von standardisierten Tools

• Standardisierung der Mapping-Properties (skos:exactMatch etc.) macht den Austausch und die Nutzung von einmal erzeugten Mappings in unterschiedlichen Systemen einfach

Page 21

Page 22: Anforderungen an Thesauri im Semantic Web

Erstellen von Mappings

• Optimal wäre eine Kombination und enge Integration von automatischen und intellektuellen Mappingschritten

• Nutzung von Synonymen, Mehrsprachigkeit, Stringähnlichkeit, linguistische Funktionen (z.B. Plural/Singular)

• Unterstützung bei intellektueller Kontrolle von Vorschlägen und beim vollständig intellektuellen Erstellen einzelner Mappings

• klassische Ontology-Matching-Tools sind wenig geeignet für umfangreiche Vokabulare

• Linked-Data-Tools häufig auf Optimierung eines vollautomatischen Matchings ausgerichtet

• Offenes Problem: Pflege bei Änderungen der beteiligten Vokabulare

Page 22

Page 23: Anforderungen an Thesauri im Semantic Web

Tools zum Erstellen von Mappings

• Silk (http://silkframework.org/) – generelles LOD-Mapping • Amalgame (http://semanticweb.cs.vu.nl/amalgame/) – speziell

SKOS-Vokabulare, mehrstufige Workflows, intellektuelle Evaluierung • CultuurLINK (http://cultuurlink.beeldengeluid.nl/) – Nachfolger von

Amalgame • Cocoda (http://coli-conc.gbv.de/) – speziell SKOS-Vokabulare, v.a.

Klassifikationen, intellektuelle Erstellung (mit Autosuggest), bisher Prototyp

Page 23

Page 24: Anforderungen an Thesauri im Semantic Web

Exkurs: Mappings in Wikidata erstellen + pflegen?

• Wikidata = data backbone aller sprachspezifischen Wikipedia-Ausgaben

• für jedes Wikipedia-Seite gibt es ein Wikidata-Datenobjekt (für die GND z.B. Q36578), insgesamt 21 Mio.

• über 2000 Eigenschaften (Geburtsdatum, Geo-Koordinaten, …) • bereits zahlreiche Eigenschaften für Normdaten (z.B. „GND-

Identifier“ P227) • Vorläufer: PND-Projekt Wikipedia/DNB (seit 2009) • Pflege wie in Wikipedia durch jedermann

Page 24

Page 25: Anforderungen an Thesauri im Semantic Web

Use Case: Engl. Bezeichnungen für GND-Berufe

Ziel: Zweisprachige Berufsbezeichnungen für wirtschaftswissenschaftlich

relevante Personen Ausgangspunkt: GND-Bezeichnungen sind ausschließlich deutschsprachig

Page 25

Page 26: Anforderungen an Thesauri im Semantic Web

z.B. „Geograph“ / „Geographin“

• Wikidata-Datenobjekt mit dt. und engl. Bezeichnung existiert (geschlechtsunspezifisch) (https://www.wikidata.org/wiki/Q901402)

• durch Nachtragen der GND-IDs ist die Übersetzung von der GND aus erreichbar

• zugleich werden die deutsche und englische Wikipediaseite von der GND aus erreichbar

• außerdem weitere Normdaten: • ROME-Berufscode • ISCO-Code • Standard Occupational Classification Code • Art&Architecture-Thesaurus-ID, Freebase-ID, NDL-ID, …

Page 26

Page 27: Anforderungen an Thesauri im Semantic Web

User Interface mit Edit-Links in Wikidata

Page 27

Page 28: Anforderungen an Thesauri im Semantic Web

Use Case (2): Mögliches Vorgehen

weitgehend script-bar: für die x häufigsten Berufe • Lookup der GND-ID in Wikidata • falls gefunden: Engl. Bezeichnung entnehmen • andernfalls: Lookup der deutschen Berufsbezeichnung (+

Synonyme) aus der GND in Wikidata • falls gefunden: verifizieren und ggf. GND-ID nachtragen • andernfalls: mit vermuteter engl. Bezeichnung suchen • falls gefunden, deutsche Bezeichnung + GND-ID, ggf. auch

Link zu dt. Wikipedia-Seite in Wikidata nachtragen • andernfalls: neues Wikidata-Datenobjekt anlegen (?)

Page 28

Page 29: Anforderungen an Thesauri im Semantic Web

5. Nutzung von SKOS-Thesauri und Mappings in Applikationen

Page 29

Page 30: Anforderungen an Thesauri im Semantic Web

Unterstützung bei der intellektuellen Indexierung

• Autosuggest-Funktionen (wie in der STW-Webpräsenz) • vor allem für nicht-bibliothekarische Nutzer • Self-Upload in Digital Repositories (z.B. EconStor) • Forschungsdaten-Infrastrukturen (z.B. Sowidatanet, Edavax)

Page 30

Page 31: Anforderungen an Thesauri im Semantic Web

Übernahme von Indexaten

• wenn zu einem Deskriptor in Vokabular A ein mit exactMatch gemappter Deskriptor in Vokabular B existiert

• in beide Richtungen möglich • semiautomatisch (mit intellektueller Kontrolle) • falls automatisch, sollte Unterscheidung von intellektuell

zugeordneten Deskriptoren möglich bleiben

Page 31

Page 32: Anforderungen an Thesauri im Semantic Web

Thesaurus-unterstützte Suche

Page 32 http://econstor.eu

Page 33: Anforderungen an Thesauri im Semantic Web

Thesaurus-unterstützte Suche (2)

Page 33

Page 34: Anforderungen an Thesauri im Semantic Web

Nutzung von Synonymen beim Indexaufbau

Page 34

Im Portal EconBiz werden für STW- wie auch GND-Deskriptoren durch zusätzliche Indexeinträge recherchierbar gemacht:

STW

GND

https://github.com/jneubert/sparql-queries/tree/master/stw#stw-misc

Page 35: Anforderungen an Thesauri im Semantic Web

Perspektive: Publikationen als Knotenpunkte zur Verknüpfung von Personen/Instit. und Themen

Page 35

Page 36: Anforderungen an Thesauri im Semantic Web

6. Tools für SKOS-Thesauri

Page 36

Page 37: Anforderungen an Thesauri im Semantic Web

Tools zur Thesaurusanzeige

• Skosmos (http://skosmos.org/) • TemaTres (http://www.vocabularyserver.com/) • ASKOSI (http://askosi.org/)

Auch Thesauruspflege: • iQvoc (http://iqvoc.net/) • VocBench (http://vocbench.uniroma2.it/) • PoolParty (https://www.poolparty.biz/poolparty-thesaurus-manager/)

Page 37

Page 38: Anforderungen an Thesauri im Semantic Web

Tools zur Qualitätssicherung

In den letzten Jahren mehrere Ansätze, SKOS-Thesauri entsprechend der SKOS-Regeln und z.T. weiterer „best practices“ zu validieren:

• qSKOS (Christian Mader / Poolparty) Validierung streng nach SKOS Reference https://github.com/cmader/qSKOS/

• Skosify (Finnische Nationalbibliothek) Konvertierung nach SKOS, Qualitätsverbesserung, Validierung https://github.com/NatLibFi/Skosify

Paper: http://eprints.cs.univie.ac.at/3707/1/skosquality.pdf

Page 38

Page 39: Anforderungen an Thesauri im Semantic Web

Tools zum Versionsvergleich

Was ist neu? Was hat sich geändert? • skos-history

https://github.com/jneubert/skos-history • Anwendung auf STW:

http://zbw.eu/stw/version/9.0/relaunch/about

Page 39

Page 40: Anforderungen an Thesauri im Semantic Web

Page 40

Page 41: Anforderungen an Thesauri im Semantic Web

7. Anwendung auf die GND

Page 41

Page 42: Anforderungen an Thesauri im Semantic Web

Ein Experiment: GND Sachbegriffe in SKOS

Ausgangspunkt: GND Linked Data Dumps 2015-10-13 Teilmenge: gndo:SubjectHeadingSensoStricto (saz) 134822 Sachbegriffe 484 Sachgruppen SKOS-Version mit ca. 2,3 Mio. Triples verfügbar unter http://zbw.eu/beta/skosmos/swdskos/de

Code: https://github.com/jneubert/sparql-queries/tree/master/gnd

Page 42

Page 43: Anforderungen an Thesauri im Semantic Web

Page 43

http://zbw.eu/beta/skosmos/swdskos

Page 44: Anforderungen an Thesauri im Semantic Web

Daten, die für das Experiment ergänzt wurden

• skos:ConceptScheme • Name • Datum/Version

• skos:inScheme Statements – was gehört dazu, was nicht? • Sachgruppen + deren Notationen • SKOS-Properties: • skos:prefLabel für gndo:preferredNameForTheSubjectHeading • analog skos:altLabel, skos:definition

• generalisierte skos:broader Relation (für generic/instantial/partitive) • fehlende Umkehrrelationen (broader/narrower)

Page 44

Page 45: Anforderungen an Thesauri im Semantic Web

Repräsentation von GND Sachgruppen

• derzeit in einem eigenen skos:ConceptScheme als flache Liste von skos:Concepts modelliert http://d-nb.info/standards/vocab/gnd/gnd-sc

• alternative Möglichkeit: mehrstufige Hierarchie von isothes:ConceptGroups (Subklasse von skos:Collection und daher disjunct mit skos:Concept)

• Verknüpfung der einzelnen GND-Begriffe mit gndo:gndSubjectCategory als Subproperty von skos:member

• in einer Sachsystematik ggf. Ausschluss von „Personen zu …“

Page 45

Page 46: Anforderungen an Thesauri im Semantic Web

Hierarchie GND Sachbegriffe

Original-Relationen: gndSubjectCategory 180583 broaderTermGeneral 92511 broaderTermGeneric 3971 broaderTermInstantial 4255 broaderTermPartitive 152 broaderTermWithMoreThanOneElement 2 Generierte Relationen (skos:broader): 281471

Page 46

Page 47: Anforderungen an Thesauri im Semantic Web

Qualitätsprobleme aufspüren mit qSKOS

This is the quality report of the file(s) rdf/swdskos.ttl, generated by qSKOS on Do, 25 Feb 2016 17:50:55 +0100 * Summary of Quality Issue Occurrences: Overlapping Labels: FAIL (948) Cyclic Hierarchical Relations: FAIL (3) Undefined SKOS Resources: OK (no potential problems found) Relation Clashes: FAIL (151) Mapping Clashes: FAIL (19) Inconsistent Preferred Labels: OK (no potential problems found) Disjoint Labels Violation: FAIL (10) Unidirectionally Related Concepts: OK (no potential problems found) * Detailed coverage of each Quality Issue: --- Overlapping Labels Description: Finds concepts with similar (identical) labels Detailed information: https://github.com/cmader/qSKOS/wiki/Quality-Issues#overlapping-labels count: 948 [http://d-nb.info/gnd/4632973-0 ("Mixing"@de, ALT_LABEL), http://d-nb.info/gnd/1042787395 ("Mixing"@de, ALT_LABEL)] [http://d-nb.info/gnd/4340457-1 ("Flimmern"@de, PREF_LABEL), http://d-nb.info/gnd/4279005-0 ("Flimmern"@de, ALT_LABEL)] ... [http://d-nb.info/standards/vocab/gnd/gnd-sc#3.2-3.6 ("Christentum"@de, PREF_LABEL), http://d-nb.info/gnd/4010074-1 ("Christentum"@de, PREF_L ... [http://d-nb.info/gnd/7507234-8 ("Softwarepiraterie"@de, PREF_LABEL), http://d-nb.info/gnd/7504886-3 ("Softwarepiraterie"@de, PREF_LABEL)] ... [http://d-nb.info/gnd/7501928-0 ("Nervenkrankheit"@de, PREF_LABEL), http://d-nb.info/gnd/1068493003 ("Nervenkrankheit"@de, PREF_LABEL)] ...

Page 47

Page 48: Anforderungen an Thesauri im Semantic Web

Beispiel: (Schein-)Duplette „Nervenkrankheit“

Page 48

Der obige Record wird als Linked Data mit dem Typ gndo:subjectHeadingSensoStricto (saz) ausgegeben

Page 49: Anforderungen an Thesauri im Semantic Web

Beispiel: Zyklische hierarchische Relationen

Christenverfolgung OB Christenfeindlichkeit Christenfeindlichkeit OB Christenverfolgung

Page 49

Page 50: Anforderungen an Thesauri im Semantic Web

Versionsvergleich mit skos-history

Page 50

Zwei Versionen im Version Store: 2015-05-13 und 2015-10-13 Abfragbar mit SPARQL Queries in SPARQL Lab: • Neue Begriffe

http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos-history/contents/sparql/added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versionHistoryGraph=http://zbw.eu/beta/swdskos/version&language=de

• Aufsplitterungen: Zu neuen Begriffen verschobene Benennungen http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos-history/contents/sparql/labels_moved_to_added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versionHistoryGraph=http://zbw.eu/beta/swdskos/version&language=de

• GND-spezifische Queries

Page 51: Anforderungen an Thesauri im Semantic Web

Abfrage: Neue Begriffe nach Sachgruppen

Page 51

Page 52: Anforderungen an Thesauri im Semantic Web

7. Conclusions

Page 52

Page 53: Anforderungen an Thesauri im Semantic Web

Wunschliste für den GND Linked Data Dump

Metadaten zum gesamten Dataset, z.B. mit VoID, DCAT • Name • Version / Datum • Publisher • Lizenz • Umfang • Untermengen (Sachbegriffe, Personen, Institutionen, …) Zugehörigkeit der einzelnen Konzepte zum Datenset explizit

kennzeichnen, z.B. mit dcterms:isPartOf

Page 53

Page 54: Anforderungen an Thesauri im Semantic Web

Wunschliste (Fortsetzung)

Format • utf-8 normalized (nicht in Grundzeichen und Akzent „zerlegt“) • RDF validiert • Datei aufgeteilt in Entitäten

Versionen • alle veröffentlichten Versionen zum Download verfügbar

Struktur • explizite Hierarchie in Sachgruppen-Systematik

Page 54

Page 55: Anforderungen an Thesauri im Semantic Web

Zusammengefasst …

• Semantischen Reichtum der GND erhalten • Kompatibilität zu SKOS-Vokabularen verbessern (einige Früchte hängen sehr niedrig!)

Page 55

Page 56: Anforderungen an Thesauri im Semantic Web

Vielen Dank!

Links: STW: http://zbw.eu/stw

GND Sachbegriffe in Skosmos: http://zbw.eu/beta/skosmos/swdskos/de

SPARQL Endpoints: http://zbw.eu/beta/sparql

GND Beispielqueries: https://github.com/jneubert/sparql-queries/tree/master/gnd

Kontakt: [email protected]

Page 56