Upload
joachim-neubert
View
1.187
Download
0
Embed Size (px)
Citation preview
ZBW is member of the Leibniz Association
Anforderungen an Thesauri im Semantic Web
Joachim Neubert ZBW – Leibniz Informationszentrum Wirtschaft, Kiel/Hamburg Deutsche Nationalbibliothek Leipzig 1.3.2016 Frankfurt a.M. 2.3.2016
Agenda
1. Thesauri im Semantic Web 2. Standards: SKOS, ISO 25964 3. STW als Beispiel eines SKOS-Thesaurus 4. Mappings / Crosskonkordanzen 5. Nutzung von SKOS-Thesauri und Mappings in Applikationen 6. Tools für SKOS-Thesauri 7. Anwendung auf die GND 8. Anforderungen / Wunschliste
Page 2
Page 3
Page 4
Page 5
Boom von Thesauri im Semantic Web
• bartoc.org verzeichnet rund 100 Thesauri im SKOS-Format • Getty: große Umbauten und Öffnung mit Blickrichtung auf Linked
Open Data (AAT, Geographical Names, ULAN Artists) • Reorganisation und tendenzielle Verschmelzung der
agrarwissenschaftlichen Vokabulare (Agrovoc, NAL Thesaurus, z.T. CAB Thesaurus) im GACS (Global Agricultural Concept Scheme)
• Neuentwicklungen wie Getty CONA (Cultural Objects Name Authority)
• Wikidata als „universelle Normdatei“ und Verknüpfungspunkt multilingualer Informationsressourcen
Page 6
2. Thesaurus-Standards
Page 7
Page 8
Strukturierung durch SKOS
• Simple Knowledge Organization System • entwickelt mit dem Ziel, Schlagwortsysteme, Thesauri,
Klassifikationen u.ä. für das Semantic Web nutzbar zu machen • beruht auf eindeutigen Identifiern (URIs) für Begriffe
skos:Concept – „unit of thought“ • erlaubt zu Begriffen Vorzugsbezeichnungen und alternative
Bezeichnungen in beliebig vielen Sprachen • unterstützt die üblichen Thesaurusrelationen (broader, narrower,
related)
Page 9
Strukturierung durch SKOS (2)
• ermöglicht Dokumentation (definition, scopeNote, historyNote, etc.) • ergänzende Gliederung durch skos:Collections • zusätzliche Strukturierungsmöglichkeiten durch SKOS-XL
(z.B. Beziehung zwischen einer Bezeichnung und deren Abkürzung) • unterstützt Mapping verschiedener Thesauri (exactMatch,
closeMatch, broadMatch, narrowMatch, relatedMatch) • erweiterbar durch anwendungsspezifische Klassen und
Eigenschaften • seit August 2009 Recommendation des W3C
http://www.w3.org/2004/02/skos/
Thesaurus Norm ISO 25964
ISO 25964 – löste 2011 (Teil 1) und 2013 (Teil 2) die technisch völlig überholten DIN und ISO Normen aus den 1970er und 1980er Jahren ab • umfangreiche Begriffsdefinitionen
Concept (Begriff) und Term (Bezeichnung) wie in SKOS • relationales Datenmodell zur Repräsentation von Thesauri • zusätzliche Strukturierung mit Hilfe von ThesaurusArrays und
ConceptGroups (Modellierung von Microthesauri) • Interoperabilität zwischen Vokabularen
Page 10
Verbindung SKOS - ISO 25964
ISO-THES RDF-Vokabular als Ergänzung zu SKOS und SKOS-XL http://www.niso.org/schemas/iso25964/correspondencesSKOS/ • Korrespondenz SKOS-ISO25964, zugleich SKOS Erweiterung • Empfehlung, wie zwischen generischen, partitiven und instanziellen
Unterbegriffen unterschieden werden kann • Empfehlung, wie compound equivalences (Benutze Kombination) in
SKOS definiert werden • Empfehlungen für Thesaurus Arrays, Mikrothesauri u.ä.
Page 11
Einsatzbereich von SKOS
• primär zur Datenpublikation im Web und zum Datenaustausch • ermöglicht Interoperabilität und erleichtert Mappings zwischen
Vokabularen • zielt nicht darauf, den gesamten Reichtum von Thesauri abdecken • soll nicht automatisches Schlussfolgern (Reasoning) ermöglichen • in der Regel nicht verwendet für die interne Darstellung von Thesauri
in Pflegesystemen • Workflows und Stati (z.B. Kandidat, freigegeben, …) • Changelog (wer hat was wann geändert, und vor allem warum?)
• Indexierung ist für SKOS generell „out of scope“
Page 12
3. STW als Beispiel eines SKOS-Thesaurus
Page 13
Page 14
Standard-Thesaurus Wirtschaft
• wurde in den 1990er Jahren unter öffentlicher Förderung von vier wirtschaftswissenschaftlichen Institutionen entwickelt
• wird heute von der ZBW herausgegeben und weiterentwickelt • umfasst ca. 6.000 Deskriptoren mit über 14.000 alternativen
Bezeichnungen in Deutsch und Englisch • bildet feinmaschiges Begriffsnetz • mehr als 13.000 Ober-/Unterbegriffsbeziehungen und 6.500
verwandte Begriffe • zusätzlicher Zugang über Thesaurussystematik
mit rund 500 Stellen
Page 15
Suche mit Thesaurusunterstützung
Page 16
STW Begriffsnetz
Page 17
Systematischer Zugriff
Page 18
Daten-Einbettung in Webseiten mit RDFa
<descriptor/19090-6> # http://zbw.eu/stw/descriptor/19090-6 skos:inScheme <../stw> ; # http://zbw.eu/stw a skos:Concept, zbwext:Descriptor ; skos:prefLabel "Environmental reporting"@en, "Umweltbericht"@de ; skos:altLabel "Corporate environmental accounting"@en, ... ; skos:broader <descriptor/12394-0>, <thsys/70383>, <thsys/71033> ; skos:related <descriptor/18183-4>, ... ; skos:exactMatch <http://aims.fao.org/aos/agrovoc/c_9000050>,
<http://d-nb.info/gnd/4202417-1>, <http://lod.gesis.org/thesoz/concept/10039271> ;
skos:closeMatch <http://dbpedia.org/resource/Environmental_economics> ;
skos:relatedMatch <http://d-nb.info/gnd/4299127-4> ; gbv:gvkppn "091395976"^^xsd:string .
Page 19
4. Mappings / Crosskonkordanzen
Page 20
Interoperabilität
• Datenbestände werden zunehmend über Portale, Discovery-Systeme oder letztlich das Web miteinander verknüpft
• für die übergreifende Nutzung von Beständen mit gemischter Erschließung sind Mappings notwendig
• strukturelle Ähnlichkeit von SKOS-Vokabularen erlaubt Einsatz von standardisierten Tools
• Standardisierung der Mapping-Properties (skos:exactMatch etc.) macht den Austausch und die Nutzung von einmal erzeugten Mappings in unterschiedlichen Systemen einfach
Page 21
Erstellen von Mappings
• Optimal wäre eine Kombination und enge Integration von automatischen und intellektuellen Mappingschritten
• Nutzung von Synonymen, Mehrsprachigkeit, Stringähnlichkeit, linguistische Funktionen (z.B. Plural/Singular)
• Unterstützung bei intellektueller Kontrolle von Vorschlägen und beim vollständig intellektuellen Erstellen einzelner Mappings
• klassische Ontology-Matching-Tools sind wenig geeignet für umfangreiche Vokabulare
• Linked-Data-Tools häufig auf Optimierung eines vollautomatischen Matchings ausgerichtet
• Offenes Problem: Pflege bei Änderungen der beteiligten Vokabulare
Page 22
Tools zum Erstellen von Mappings
• Silk (http://silkframework.org/) – generelles LOD-Mapping • Amalgame (http://semanticweb.cs.vu.nl/amalgame/) – speziell
SKOS-Vokabulare, mehrstufige Workflows, intellektuelle Evaluierung • CultuurLINK (http://cultuurlink.beeldengeluid.nl/) – Nachfolger von
Amalgame • Cocoda (http://coli-conc.gbv.de/) – speziell SKOS-Vokabulare, v.a.
Klassifikationen, intellektuelle Erstellung (mit Autosuggest), bisher Prototyp
Page 23
Exkurs: Mappings in Wikidata erstellen + pflegen?
• Wikidata = data backbone aller sprachspezifischen Wikipedia-Ausgaben
• für jedes Wikipedia-Seite gibt es ein Wikidata-Datenobjekt (für die GND z.B. Q36578), insgesamt 21 Mio.
• über 2000 Eigenschaften (Geburtsdatum, Geo-Koordinaten, …) • bereits zahlreiche Eigenschaften für Normdaten (z.B. „GND-
Identifier“ P227) • Vorläufer: PND-Projekt Wikipedia/DNB (seit 2009) • Pflege wie in Wikipedia durch jedermann
Page 24
Use Case: Engl. Bezeichnungen für GND-Berufe
Ziel: Zweisprachige Berufsbezeichnungen für wirtschaftswissenschaftlich
relevante Personen Ausgangspunkt: GND-Bezeichnungen sind ausschließlich deutschsprachig
Page 25
z.B. „Geograph“ / „Geographin“
• Wikidata-Datenobjekt mit dt. und engl. Bezeichnung existiert (geschlechtsunspezifisch) (https://www.wikidata.org/wiki/Q901402)
• durch Nachtragen der GND-IDs ist die Übersetzung von der GND aus erreichbar
• zugleich werden die deutsche und englische Wikipediaseite von der GND aus erreichbar
• außerdem weitere Normdaten: • ROME-Berufscode • ISCO-Code • Standard Occupational Classification Code • Art&Architecture-Thesaurus-ID, Freebase-ID, NDL-ID, …
Page 26
User Interface mit Edit-Links in Wikidata
Page 27
Use Case (2): Mögliches Vorgehen
weitgehend script-bar: für die x häufigsten Berufe • Lookup der GND-ID in Wikidata • falls gefunden: Engl. Bezeichnung entnehmen • andernfalls: Lookup der deutschen Berufsbezeichnung (+
Synonyme) aus der GND in Wikidata • falls gefunden: verifizieren und ggf. GND-ID nachtragen • andernfalls: mit vermuteter engl. Bezeichnung suchen • falls gefunden, deutsche Bezeichnung + GND-ID, ggf. auch
Link zu dt. Wikipedia-Seite in Wikidata nachtragen • andernfalls: neues Wikidata-Datenobjekt anlegen (?)
Page 28
5. Nutzung von SKOS-Thesauri und Mappings in Applikationen
Page 29
Unterstützung bei der intellektuellen Indexierung
• Autosuggest-Funktionen (wie in der STW-Webpräsenz) • vor allem für nicht-bibliothekarische Nutzer • Self-Upload in Digital Repositories (z.B. EconStor) • Forschungsdaten-Infrastrukturen (z.B. Sowidatanet, Edavax)
Page 30
Übernahme von Indexaten
• wenn zu einem Deskriptor in Vokabular A ein mit exactMatch gemappter Deskriptor in Vokabular B existiert
• in beide Richtungen möglich • semiautomatisch (mit intellektueller Kontrolle) • falls automatisch, sollte Unterscheidung von intellektuell
zugeordneten Deskriptoren möglich bleiben
Page 31
Thesaurus-unterstützte Suche
Page 32 http://econstor.eu
Thesaurus-unterstützte Suche (2)
Page 33
Nutzung von Synonymen beim Indexaufbau
Page 34
Im Portal EconBiz werden für STW- wie auch GND-Deskriptoren durch zusätzliche Indexeinträge recherchierbar gemacht:
STW
GND
https://github.com/jneubert/sparql-queries/tree/master/stw#stw-misc
Perspektive: Publikationen als Knotenpunkte zur Verknüpfung von Personen/Instit. und Themen
Page 35
6. Tools für SKOS-Thesauri
Page 36
Tools zur Thesaurusanzeige
• Skosmos (http://skosmos.org/) • TemaTres (http://www.vocabularyserver.com/) • ASKOSI (http://askosi.org/)
Auch Thesauruspflege: • iQvoc (http://iqvoc.net/) • VocBench (http://vocbench.uniroma2.it/) • PoolParty (https://www.poolparty.biz/poolparty-thesaurus-manager/)
Page 37
Tools zur Qualitätssicherung
In den letzten Jahren mehrere Ansätze, SKOS-Thesauri entsprechend der SKOS-Regeln und z.T. weiterer „best practices“ zu validieren:
• qSKOS (Christian Mader / Poolparty) Validierung streng nach SKOS Reference https://github.com/cmader/qSKOS/
• Skosify (Finnische Nationalbibliothek) Konvertierung nach SKOS, Qualitätsverbesserung, Validierung https://github.com/NatLibFi/Skosify
Paper: http://eprints.cs.univie.ac.at/3707/1/skosquality.pdf
Page 38
Tools zum Versionsvergleich
Was ist neu? Was hat sich geändert? • skos-history
https://github.com/jneubert/skos-history • Anwendung auf STW:
http://zbw.eu/stw/version/9.0/relaunch/about
Page 39
Page 40
7. Anwendung auf die GND
Page 41
Ein Experiment: GND Sachbegriffe in SKOS
Ausgangspunkt: GND Linked Data Dumps 2015-10-13 Teilmenge: gndo:SubjectHeadingSensoStricto (saz) 134822 Sachbegriffe 484 Sachgruppen SKOS-Version mit ca. 2,3 Mio. Triples verfügbar unter http://zbw.eu/beta/skosmos/swdskos/de
Code: https://github.com/jneubert/sparql-queries/tree/master/gnd
Page 42
Page 43
http://zbw.eu/beta/skosmos/swdskos
Daten, die für das Experiment ergänzt wurden
• skos:ConceptScheme • Name • Datum/Version
• skos:inScheme Statements – was gehört dazu, was nicht? • Sachgruppen + deren Notationen • SKOS-Properties: • skos:prefLabel für gndo:preferredNameForTheSubjectHeading • analog skos:altLabel, skos:definition
• generalisierte skos:broader Relation (für generic/instantial/partitive) • fehlende Umkehrrelationen (broader/narrower)
Page 44
Repräsentation von GND Sachgruppen
• derzeit in einem eigenen skos:ConceptScheme als flache Liste von skos:Concepts modelliert http://d-nb.info/standards/vocab/gnd/gnd-sc
• alternative Möglichkeit: mehrstufige Hierarchie von isothes:ConceptGroups (Subklasse von skos:Collection und daher disjunct mit skos:Concept)
• Verknüpfung der einzelnen GND-Begriffe mit gndo:gndSubjectCategory als Subproperty von skos:member
• in einer Sachsystematik ggf. Ausschluss von „Personen zu …“
Page 45
Hierarchie GND Sachbegriffe
Original-Relationen: gndSubjectCategory 180583 broaderTermGeneral 92511 broaderTermGeneric 3971 broaderTermInstantial 4255 broaderTermPartitive 152 broaderTermWithMoreThanOneElement 2 Generierte Relationen (skos:broader): 281471
Page 46
Qualitätsprobleme aufspüren mit qSKOS
This is the quality report of the file(s) rdf/swdskos.ttl, generated by qSKOS on Do, 25 Feb 2016 17:50:55 +0100 * Summary of Quality Issue Occurrences: Overlapping Labels: FAIL (948) Cyclic Hierarchical Relations: FAIL (3) Undefined SKOS Resources: OK (no potential problems found) Relation Clashes: FAIL (151) Mapping Clashes: FAIL (19) Inconsistent Preferred Labels: OK (no potential problems found) Disjoint Labels Violation: FAIL (10) Unidirectionally Related Concepts: OK (no potential problems found) * Detailed coverage of each Quality Issue: --- Overlapping Labels Description: Finds concepts with similar (identical) labels Detailed information: https://github.com/cmader/qSKOS/wiki/Quality-Issues#overlapping-labels count: 948 [http://d-nb.info/gnd/4632973-0 ("Mixing"@de, ALT_LABEL), http://d-nb.info/gnd/1042787395 ("Mixing"@de, ALT_LABEL)] [http://d-nb.info/gnd/4340457-1 ("Flimmern"@de, PREF_LABEL), http://d-nb.info/gnd/4279005-0 ("Flimmern"@de, ALT_LABEL)] ... [http://d-nb.info/standards/vocab/gnd/gnd-sc#3.2-3.6 ("Christentum"@de, PREF_LABEL), http://d-nb.info/gnd/4010074-1 ("Christentum"@de, PREF_L ... [http://d-nb.info/gnd/7507234-8 ("Softwarepiraterie"@de, PREF_LABEL), http://d-nb.info/gnd/7504886-3 ("Softwarepiraterie"@de, PREF_LABEL)] ... [http://d-nb.info/gnd/7501928-0 ("Nervenkrankheit"@de, PREF_LABEL), http://d-nb.info/gnd/1068493003 ("Nervenkrankheit"@de, PREF_LABEL)] ...
Page 47
Beispiel: (Schein-)Duplette „Nervenkrankheit“
Page 48
Der obige Record wird als Linked Data mit dem Typ gndo:subjectHeadingSensoStricto (saz) ausgegeben
Beispiel: Zyklische hierarchische Relationen
Christenverfolgung OB Christenfeindlichkeit Christenfeindlichkeit OB Christenverfolgung
Page 49
Versionsvergleich mit skos-history
Page 50
Zwei Versionen im Version Store: 2015-05-13 und 2015-10-13 Abfragbar mit SPARQL Queries in SPARQL Lab: • Neue Begriffe
http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos-history/contents/sparql/added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versionHistoryGraph=http://zbw.eu/beta/swdskos/version&language=de
• Aufsplitterungen: Zu neuen Begriffen verschobene Benennungen http://zbw.eu/beta/sparql-lab/?queryRef=https://api.github.com/repos/jneubert/skos-history/contents/sparql/labels_moved_to_added_concepts.rq&endpoint=http://zbw.eu/beta/sparql/swdskosv/query&versionHistoryGraph=http://zbw.eu/beta/swdskos/version&language=de
• GND-spezifische Queries
Abfrage: Neue Begriffe nach Sachgruppen
Page 51
7. Conclusions
Page 52
Wunschliste für den GND Linked Data Dump
Metadaten zum gesamten Dataset, z.B. mit VoID, DCAT • Name • Version / Datum • Publisher • Lizenz • Umfang • Untermengen (Sachbegriffe, Personen, Institutionen, …) Zugehörigkeit der einzelnen Konzepte zum Datenset explizit
kennzeichnen, z.B. mit dcterms:isPartOf
Page 53
Wunschliste (Fortsetzung)
Format • utf-8 normalized (nicht in Grundzeichen und Akzent „zerlegt“) • RDF validiert • Datei aufgeteilt in Entitäten
Versionen • alle veröffentlichten Versionen zum Download verfügbar
Struktur • explizite Hierarchie in Sachgruppen-Systematik
Page 54
Zusammengefasst …
• Semantischen Reichtum der GND erhalten • Kompatibilität zu SKOS-Vokabularen verbessern (einige Früchte hängen sehr niedrig!)
Page 55
Vielen Dank!
Links: STW: http://zbw.eu/stw
GND Sachbegriffe in Skosmos: http://zbw.eu/beta/skosmos/swdskos/de
SPARQL Endpoints: http://zbw.eu/beta/sparql
GND Beispielqueries: https://github.com/jneubert/sparql-queries/tree/master/gnd
Kontakt: [email protected]
Page 56