Upload
forbes
View
45
Download
0
Embed Size (px)
DESCRIPTION
Participer au Web de données. … en utilisant les technologies du Web sémantique. Architecture du Web. World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) - PowerPoint PPT Presentation
Citation preview
Architecture du Web
• World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)
• Architecture du Web : infrastructure technologique définie par des standards
• Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium)
– Accessibilité aux contenus et aux machines
Comment fonctionne le Web ?Un espace global d’information :réseau de machines reliées entre elles
Un espace global d’information :réseau de machines reliées entre elles
Un protocole qui permet le dialogue entre machines :
Un protocole qui permet le dialogue entre machines :
Un langageuniversel
Un langageuniversel
httphttp
Le principe de l’hypertexte pour relier les ressources
Le principe de l’hypertexte pour relier les ressources
Des identifiants Web, les URI (Uniform resource identifier)
Les URL sont des URI qui identifient les ressources et les localisent sur Internet
Des identifiants Web, les URI (Uniform resource identifier)
Les URL sont des URI qui identifient les ressources et les localisent sur Internet
URIURI
Évolutions du web
• Web 1.0 web de documents– Navigation d’un document à un autre en
utilisant des liens hypertexte• une page HTML = la représentation d’un document• Le navigateur n’interprète pas le contenu du
document
• Web 2.0 web collaboratif
Le Web de documents
Base de données
Données Documents
Base de données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents
• Les données structurées des BDD sont • soit cachées (« web profond »)• Soit présentes mais non interprétables par
des machines
• Seules les pages HTML sont liées entre elles
• Les données de différentes BDD ne sont pas liées entre elles
« Il faut sortir les données des Bases de données pour les mettre dans l’espace global du Web » Tim Berners-Lee
« Il faut sortir les données des Bases de données pour les mettre dans l’espace global du Web » Tim Berners-Lee
Métadonnées et données structurées
• Méta-données : Données « sur » d’autres données– Par exemple une notice en Unimarc : un ensemble de
métadonnées
• Les métadonnées sont des données structurées (interprétables par des machines)– Par exemple une notice en Unimarc est un ensemble
de données structurées• Métadonnées Définition : informations structurées qui
décrivent, expliquent, localisent, facilitent la gestion d’une ressource d’information
Le Web de données ?• Un Web constitué de données accessibles, structurées, dans un format
non-propriétaire, identifiées et liées entre elles sémantiquement
(Définition de Tim Berners-Lee dès 1999)• Web sémantique
– Ensemble de standards et de technologies visant à faire entrer les données structurées dans l’environnement du Web en adoptant les principes, l’architecture et les techniques qui ont permis la construction de cet espace d’interopérabilité globale qu’est la toile aujourd’hui (E Bermès et G Poupeau, 2012)
• Web de données– extension du Web, construite selon les technologies du Web
sémantique, permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes et de les rendre interprétables par les machines
Le Web de données liées
Base de données
Données Documents
Base de données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Liens entre les bases de données
Technologies du Web sémantiquedes identifiants
des identifiants
URIURI
Une grammaireUne grammaire
RDFRDF
Des Vocabulaires(ontologies)
Des Vocabulaires(ontologies)
Exprimés en RDFS ou OWL
Exprimés en RDFS ou OWL
Un langage de requête dédié pour communiquer
Un langage de requête dédié pour communiquer
SPARQLSPARQLDes systèmes d’écriture
Des systèmes d’écriture
RDF/XMLN3, Turtle, N-triplesRDFa
RDF/XMLN3, Turtle, N-triplesRDFa
RDFResource Description FrameworkResource Description Framework
Objectif : assurer l’interopérabilité des données sur le Web
Objectif : assurer l’interopérabilité des données sur le Web
Objectif : permettre aux machines d’interpréter la nature des relations entre deux ressources du Web
Objectif : permettre aux machines d’interpréter la nature des relations entre deux ressources du Web
Triplet RDF
En RDF, toute information doit être exprimée sous la forme d’une phrase simple :
sujet – prédicat – objet
Qu’on appelle triplet
Triplet RDF
En RDF, toute information doit être exprimée sous la forme d’une phrase simple :
sujet – prédicat – objet
Qu’on appelle triplet
prédicatprédicatsujetsujet objetobjet
Ressource
(entité)
URI
Ressource
(entité)
URI
Ressource Nature de la
relation
URI
Ressource Nature de la
relation
URI
Littéral :
Chiffre, date, mot …
Littéral :
Chiffre, date, mot …
Ressource
(entité)
URI
Ressource
(entité)
URI
Charles Darwin A écrit On the origins of species
Charles Darwin A écrit On the origins of species
RDFResource Description FrameworkResource Description Framework
prédicatprédicatsujetsujet objetobjet
Appartient à une classe
Appartient à une classe
Est un type de relation appelé
propriété
Est un type de relation appelé
propriété
Classes et propriétés sont déclarées dans des vocabulaires (ontologies) et sont identifiées par des URI
Classes et propriétés sont déclarées dans des vocabulaires (ontologies) et sont identifiées par des URI
Charles Darwin A écrit On the origins of speciesCharles Darwin A écrit On the origins of species
Charles Darwin est une instance de la classe « personne »
L’objet « On the origins of species » peut être un littéral ou une entité, instance de la classe « œuvres » identifiée par son URI
Charles Darwin est une instance de la classe « personne »
L’objet « On the origins of species » peut être un littéral ou une entité, instance de la classe « œuvres » identifiée par son URI
prédicatprédicatsujetsujet objetobjet
Charles DarwinCharles Darwin Est né àEst né à
Une même ressource peut être sujet, prédicat ou objet dans plusieurs triplets. L’ensemble de ces triplets reliés les uns aux autres par les URI qu’ils ont en commun constitue un graphe
Une même ressource peut être sujet, prédicat ou objet dans plusieurs triplets. L’ensemble de ces triplets reliés les uns aux autres par les URI qu’ils ont en commun constitue un graphe
Le graphe RDFLe graphe RDF
Shrewsbury Shrewsbury
Fait partie deFait partie de
AngleterreAngleterre
Le grand voyage de C. Darwin (film)
Le grand voyage de C. Darwin (film)
Hannes Schuler Hannes Schuler
A pour sujetA pour sujet
A réalisé
A réalisé
Le Web de données aujourd’hui (linking open data cloud)
• Espace global et ouvert d’information, sans cesse grossissant, dans lequel les bases et données sont liées entre elles en RDF
Principe:
Utilisation d’URI accessibles via HTTP
Donner accès aux données utiles via RDF et Sparql
Principe:
Utilisation d’URI accessibles via HTTP
Donner accès aux données utiles via RDF et Sparql
Construction du Web de données
Partage d’un référentiel communModèle « hub and spoke »
SUDOC
BnF
LC
2 modèles
d’interopérabilité2 modèles
d’interopérabilité
Modèles d’interopérabilité du Web de données
Modèle « follow your nose”Interopérabilité basée sur les liens
Quand les géants du Web utilisent les technologies du Web de
données …
Open graph protocol
knowledge graph
Que peut apporter le Web de données aux bibliothèques?
Interopérabilité :Le Web devient une gigantesque base de données liées et ouvertes
Interopérabilité :Le Web devient une gigantesque base de données liées et ouvertes
Ouverture à d’autres communautés d’utilisateurs
Ouverture à d’autres communautés d’utilisateurs
Réutiliser les données des autres : enrichir les catalogues, pousser des contenus
Réutiliser les données des autres : enrichir les catalogues, pousser des contenus
Visibilité par les moteurs de recherche
Visibilité par les moteurs de recherche
Mettre nos données à disposition des autres
Mettre nos données à disposition des autres
Comment y arriver ?Des données structuréesDes données structurées Des vocabulaires normalisésDes vocabulaires normalisés
Des identifiants pérennes : URIpour désigner les ressourcespour exprimer les relations entre les données
Des identifiants pérennes : URIpour désigner les ressourcespour exprimer les relations entre les données
Une syntaxe normalisée : RDF
Une syntaxe normalisée : RDF
000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc
http://catalogue.bnf.fr/ark:/12148/cb12367696d
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
Des URI pour désigner les ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves. - Paris : Delachaux et Niestlé, DL 2005
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb120136648
http://catalogue.bnf.fr/ark:/12148/cb34235813n
Les Guides du naturaliste
Hargreaves, Brian
http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des vocabulaires normalisés
Pour exprimer les relations entre les données
2001 $aGuide des chenilles d'Europe
700 1$312013664$aCarter$bDavid$f1943-.... $4070
200 $a Titre propre
700 $4070 Auteur du texteDC : Creator RDA : Creator
DC : Title ISBD : Title properRDA : Title proper
RDA : Author
Des URI pour exprimer les relations (2)
ISBD : has title proper
DC : Creator
DC : Title
RDA : Authorhttp://rdvocab.info/roles/author
http://purl.org/dc/elements/1.1/title
http://purl.org/dc/elements/1.1/creator
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper http://rdvocab.info/Elements/titleProper
Une syntaxe normalisée
Cette ressource
"Guide des chenilles d'Europe"a pour titre propre
sujet
verbecomplément d’objet
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://iflastandards.info/ns/isbd/elements/P1004
prédicat
objet
sujet
Le sujet est toujours une URI
Le prédicat est toujours une URI
L’objet peut êtreun texte (« littéral »)ou une URI
200 $aGuide des chenilles d'Europe
Sujet
Prédicat
objet
Sujet
Prédicat
objet
Un réseau de relations entre des données
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
"Carter"
"David"
1943
"Les Guides du naturaliste"
http://data.bnf.fr/what-happened/date-1943
http://iflastandards.info/ns/isbd/elements/P1004
A pour titre propre
http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation
Appartient à
http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé
http://xmlns.com/foaf/0.1/familyName A pour patronyme
http://xmlns.com/foaf/0.1/givenName A pour prénom
http://rdvocab.info/ElementsGr2/dateOfBirth
A pour date de naissance
http://rdvocab.info/roles/author
A pour auteur
Des exemples
• Isidore : http://www.rechercheisidore.fr– Plateforme de recherche permettant
l’accès aux données numériques en sciences humaines et sociales
– Données en accès libre (open access)– Moissonnage ciblé des métadonnées – Conversion et enrichissement des
métadonnées en RDF