View
2.361
Download
1
Category
Preview:
Citation preview
theses.fr
un exemple d'ouverture de l'information scientifique
sur le web de données
mediadix :: 12 octobre 2012
Les identifiants, marchepied vers le web de données
• 2011LYO20079 N° national de thèse• http://www.theses.fr/2011LYO20079• http://www.theses.fr/2011LYO20079/document• http://www.theses.fr/2011LYO20079.rdf
• 030807069 Autorité Sudoc (IdRef)• http://www.theses.fr/030807069• http://www.theses.fr/030807069.rdf
Comment faire pour récupérer le RDF de theses.fr
• Moissonnage– OAI-PMH– Sitemaps + RDF
• Dump– Extraction de tout le RDF– Asynchrone (photo au temps t)– Celui qui a récupéré le dump a toute liberté• Ex : monter un serveur SPARQL et une appli dessus
@todo
Adopte un directeur de thèse
Requête fine avec SPARQL :
Je veux un directeur, qui a déjà dirigé une thèse sur la colonisation dans les 5 ans, qui n’encadre pas plus de 4 étudiants, qui est relié à tel vieux prof…
Et encore plus de possibilités, via les liens RDF vers IdRef, Sudoc, Wikipedia…
Fournir d’autres moyens d’exploiter les données
• OAI-PMH (pour thèses élec. Soutenues)• Notices Sudoc (!)
• Web services de recherche :
http://www.theses.fr/?q=colonialisme+allemagne
http://www.theses.fr/?q=colonialisme+allemagne&format=atom
http://www.theses.fr/?q=colonialisme+allemagne&format=solr
Lever le dilemme de l’interopérabilité ?
marcrel:aut dcterms:creator
MARCREL = MARC 21 Relators(codes de fonction)
Dublin Core
« plus fin mais un truc de bib » « tout le monde comprend mais un peu vague »
marcrel:aut rdfs:subPropertyOf dcterms:creator
Ce mécanisme logique lève le dilemme.Sur le papier…
Derrière les données,des workflows, des réseaux, des gens
• STEP – Réseau des thèses en préparation– Ex-FCT (Nanterre)– 80 établissements
• STAR– Réseau des thèses numériques – 80 établissements
• Circulation des données– Saisie en ligne– Imports (partiels ou complets)
• Interconnexion avec IdRef– Utiliser et enrichir le référentiel d’autorités, avec outils IdRef– Automatiser le liage aux autorités ? Mais il faut encore qu’elles existent
POUR SE LIER A D’AUTRES DONNÉES, IL FAUT QU’ELLES SOIENT OUVERTES !
Les technologies sémantiques, c’est pas magique
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Aujourd’hui
owl:sameAs
owl:sameAs
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Demain
owl:sameAs
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Après-demain peut-être ?
owl:sameAs
owl:sameAs
AuteurHAL CCSD
ArticleHAL CCSD
LivreWorldcat
cite
a pourdérivé
owl:sameAs
Donnéesbrutes
+ brevets, projets ANR, etc.
+ CrossRef, revues, indicateurs d’usage, etc.
+ articles, éditions scientifiques, numérisation, etc.
Les services publics de données qui manquent aux thèses à l’IST
• Structures de recherche• Écoles doctorales• Entreprises (SIREN de l’INSEE)• Brevets (?)• Classification des disciplines• Projets de recherche• …
Vers un système d’information de la recherche, mais pas monolithique
Recommended