Upload
guillaume-cabanac
View
115
Download
0
Embed Size (px)
Citation preview
Questionner le texte scientifique pour caractériser la science
et l’innovation
Guillaume [email protected]
9 mars 2017TERRE-ISTEX
http://bit.ly/istexCabanac2017
Thème 2 : Indexation et Recherche d’Informations
Équipe IRIS : Information Retrieval & Information Synthesis
2
Interroger le texte scientifique ?Prélude : programme de recherche
3
Interroger le texte scientifique ?Prélude : programme de recherche
Requêterrecherche d’information
Questionnerscientométrie
4
Prélude : programme de recherche
Dans ma boîte à outils
5
MertonPrice
Tukey
Hartley Hubert Milard
Prélude : programme de recherche
6
Prospection sur textes scientifiques
La matière première
1. Notice bibliographiquea. Nature des collaborationsb. Positions dans le champ
2. Plein texte
3. Site web d’une maison d’édition
4. Plateforme de partage
5. Bibliographie institutionnelle
Questionner le texte scientifique pour caractériser la science et l’innovation
7Cabanac, G., Hubert, G., & Milard, B. (2015). Academic careers in Computer Science: continuance and transience
of lifetime co-authorships. Scientometrics, 102, 1, 135–150.
.
1a — Nature des collaborations scientifiques
8
Source: https://projects.groept.be/~emedia
La population(N = 1 870 054)
L’échantillon des« quinquas »
(N = 209 377)
1a — Nature des collaborations scientifiques
9
Collaborations entretenues versus éphémères 1a — Nature des collaborations scientifiques
10
Renouvellement1a — Nature des collaborations scientifiques
11
Effet Matthieu et homophilie1a — Nature des collaborations scientifiques
12
Positions dans le champ
1b — Positions des élites dans le champ de l’informatique
13
La matière première
1. Notice bibliographique
2. Plein textea. Éponymie et panthéonb. Équilibre travail-loisirsc. Écriture scientifique : collectifs et genre
3. Site web d’une maison d’édition
4. Plateforme de partage
5. Bibliographie institutionnelle
Questionner le texte scientifique pour caractériser la science et l’innovation
Prospection sur textes scientifiques
Uncitedness III : l’importance de ne pas être cité
14
“Eponyms remind us that science and scholarship are the work of dedicated people.” (p. 393)
“mnemonic and commemorative device” (p. 121)Merton, R. K. (1942). Science and technology in a democratic order.Journal of Legal and Political Sociology, 1(1), 115–126.
“the practice of affixing the name of the scientist to all or part of what he has found, as with the Copernican system, Hooke’s law, Planck’s constant, or Halley’s comet” (p. 643)Merton, R. K. (1957). Priorities in scientific discovery: A chapter in the sociology of science. American Sociological Review, 22(6), 635–659.
Cabanac, G. (2014). Extracting and quantifying eponyms in full-text articles. Scientometrics, 98, 3, 1631–1645.
2a — Éponymie et panthéon scientifique
15
Théories The Reward System of Science (Merton, 1942, 1957) Obliteration by Incorporation (Merton, 1988; McCain, 2011, 2012) Non-indexed Eponymal Citedness (Száva-Kováts, 1994)
Extraire et quantifier les éponymes en plein texte Connaître les savants les plus influents d’un champ donné Amender un dictionnaire d’éponymes Identifier les tendances et l’incorporation de méthodes
Appréciation implicite via les éponymes2a — Éponymie et panthéon scientifique
16
Moissonnage d’éponymes en plein texte2a — Éponymie et panthéon scientifique
17
Révélation du panthéon scientifique implicite2a — Éponymie et panthéon scientifique
Work-life Balance
18Cabanac, G., & Hartley, J. (2013). Issues of work-life balance among JASIST
authors and editors. JASIST, 64, 10, 2182–2186.
2b — Équilibre travail-loisirs
Fragrances du Publish or Perish ?
19
2b — Équilibre travail-loisirs
20
Faire parler les « séquelles » de la peer review
Sunday!
2b — Équilibre travail-loisirs
21
Ce que les traces révèlent...
Authors
Editors
2b — Équilibre travail-loisirs
22
Travailler dans sa bulle le week-end ?
[…]
2b — Équilibre travail-loisirs
23
Écriture et genre de l’auteur 1/3
Théorie et observations en psychologie dans les années 1960 Men are more spatially and mathematically oriented than women Women are more verbally oriented than men
http:
//w
ww
.kah
eel7
.com
/eng
/imag
es/s
torie
s/2(
5).jp
g
2c — Écriture scientifique : collectifs et genre
Hartley, J. & Cabanac, G. (2014). Do men and women differ in their use of tables and graphs in academic publications?Scientometrics, 98, 2, 1161-1172.
24
Résultats sur 1 403 articles mono-signés en STM Les hommes emploient 26 % plus de figures que les femmes (p < 0.001) Les hommes emploient 11% plus de tableaux que les femmes (p = 0.102)
… cependant, cette différence se voit-elle en pratique ?
2c — Écriture scientifique : collectifs et genre
Écriture et genre de l’auteur 2/3
25
Hypothèse Il est plus difficile de s’accorder sur du texte que sur des figures/graphes Davantage de figures et graphes dans les article co-signés
2c — Écriture scientifique : collectifs et genre
Cabanac, G., Hubert, G., & Hartley, J. (2014). Solo versus collaborative writing: Discrepancies in the use of tables and graphin academic articles. Journal of the American Society for Information Science and Technology, 65, 4, 812–820.
Écriture et collectifs d’auteurs 3/3
26
Davantage de tableaux dans les articles co-signés vs. mono-signés
2c — Écriture scientifique : collectifs et genre
Écriture et collectifs d’auteurs 1/2
27
Davantage de figures dans les articles co-signés vs. mono-signés
2c — Écriture scientifique : collectifs et genre
Écriture et collectifs d’auteurs 2/2
28
La matière première
1. Notice bibliographique
2. Plein texte
3. Site web d’une maison d’éditiona. Effets d’ordonnancement sur l’évaluation par les pairsb. Panorama d’un champ
4. Plateforme de partage
5. Bibliographie institutionnelle
Questionner le texte scientifique pour caractériser la science et l’innovation
Prospection sur textes scientifiques
29
Différences entre champs disciplinaires : les confs3a — Effets d’ordonnancement sur l’évaluation par les pairs
30
Conférences : et si la date de soumission importait ? Évaluation par les pairs
Cabanac, G., & Preuss, T. (2013). Capitalizing on order effects in the bids of peer-reviewed conferences to securereviews by expert referees. JASIST, 64, 2, 405–415.
3a — Effets d’ordonnancement sur l’évaluation par les pairs
31
3a — Effets d’ordonnancement sur l’évaluation par les pairs
32
Le biais de la date de soumission Données de ConfMaster : 42 conférences en informatique
3a — Effets d’ordonnancement sur l’évaluation par les pairs
33
Biais de la date de soumission Influence sur les enchères (bids)
3a — Effets d’ordonnancement sur l’évaluation par les pairs
34
Faites évaluer par ceux qui le veulent !3a — Effets d’ordonnancement sur l’évaluation par les pairs
35
Les gardiens de l’évaluation par les pairs : gatekeepers
(Braun, 2009)
Cabanac, G. (2012). Shaping the landscape of research in information systems from the perspective of editorial boards:A scientometric study of 77 leading journals. JASIST, 63, 5, 977–996.
3b — Panorama de la recherche en systèmes d’information
36
77 revues « cœur » en IS selon une autorité : le WoS3b — Panorama de la recherche en systèmes d’information
37
Analyse exploratoire des données recueillies 77 revues 2 846 gatekeepers
3b — Panorama de la recherche en systèmes d’information
38
3b — Panorama de la recherche en systèmes d’information
Analyse exploratoire des données recueillies
39
Graphe thématique des 77 revues référencées en SI3b — Panorama de la recherche en systèmes d’information
40
Influence, pouvoir, verrouillage...
(198
4)
3b — Panorama de la recherche en systèmes d’information
41
Un siège à la table des négociations ?3b — Panorama de la recherche en systèmes d’information
42
(Manque de) Diversité géographique et de genre3b — Panorama de la recherche en systèmes d’information
43
La matière première
1. Notice bibliographique
2. Plein texte
3. Site web d’une maison d’édition
4. Plateforme de partagea. Marché noir de l’édition scientifique
5. Bibliographie institutionnelle
Questionner le texte scientifique pour caractériser la science et l’innovation
Prospection sur textes scientifiques
Émergence de l’Open Access gris/clandestin
44
Domaines Science de l’information Sociologie des sciences
Contexte : (non)-accès à l’IST 8 millions de chercheurs + des amateurs (sciences participatives) + grand public 114 millions de documents scientifiques en ligne
mais seulement 24 % accessibles librement
Défi : dévoiler rouages et contenu des bibliothèques clandestines Library Genesis (23M d’articles, 1M d’ouvrages), Sci-Hub, #icanhazpdf, /r/scholar
Contribution : article JASIST accepté en octobre 2014 Alimentation : biblioleaks + crowdsourcing Contenu : distribution des éditeurs, disciplines, langues…
@ric
kypo
Cabanac, G. (2016). Bibliogifts in LibGen? A study of a text-sharing platform driven by biblioleaks and crowdsourcing. Journal of the Association for Information Science and Technology, 67, 4, 874–884.
4a — Le marché noir de l’édition scientifique
Étudier l’Open Access clandestin : les enjeux
45
4a — Le marché noir de l’édition scientifique
46
La matière première
1. Notice bibliographique
2. Plein texte
3. Site web d’une maison d’édition
4. Plateforme de partage
5. Bibliographie institutionnellea. Collaborations et thématiques d’un laboratoire
Questionner le texte scientifique pour caractériser la science et l’innovation
Prospection sur textes scientifiques
Que fait ce labo multi-site de 686 personnes ?
47
5a — Collaborations et thématiques d’un laboratoire
Que fait ce labo de 686 personnes ?
48
http://www.irit.fr/IMG/pdf/ORGANIGRAMME_IRIT_RECHERCHE_MAI_2015.pdf
5a — Collaborations et thématiques d’un laboratoire
Que fait ce labo de 686 personnes ?
49
https://websecu.irit.fr/IMG/pdf/Rapport_Web_HCERES_IRIT.pdf
5a — Collaborations et thématiques d’un laboratoire
Des données publiques…
50
5a — Collaborations et thématiques d’un laboratoire
Analyse scientométrique
Contexte : l’évaluation de l’IRIT (octobre 2014)
Question : qu’apprend-t-on de l’analyse des publications ? Source : le site web de l’IRIT (données publiques)
ex : http://dbweb.irit.fr/publi/recherche.list_crit_avance?theme=0&crit1=2&op1=5&texte1=2009&crit2=2&op2=6&texte2=2014&typpub=5
Critères d’échantillonage Revues et conférences à comité de lecture (RICL, RNCL, CICL et CNCL) Année ≥ 2009 (certaines publications étaient à paraître) Auteurs listés parmi les « membres permanents » des équipes
Statistiques 260 auteurs 3 860 publications dont 82 % en international
Avertissement : étude exploratoire à consolider.
51
5a — Collaborations et thématiques d’un laboratoire
Méthodo : les collaborations inter-thèmes Graphe des collaborations
Un sommet = un membre de l’IRIT Couleur : son thème IRIT Taille : nombre de publications normalisé
S 1/N Modélise un « effort » : effort d’écrire à 2 > effort d’écrire à 10
(en supposant une répartition uniforme du travail)
Une arrête = une collaboration Couleur : mélange des couleurs des sommets reliés Taille : nombre de coauteurs par co-publication normalisé
S 1 / ((N × (N – 1)) / 2) Modélise la force du lien interpersonnel : collaborer à 2 > collaborer à 10
52
5a — Collaborations et thématiques d’un laboratoire
53
T2
T1
T3
T4
T5
T7
T6
Preuve de concept : IRIT
Données :
• 2009-2014
• RICL, RNCL, CICL, CNCL
• 260 auteurs
• 3 860 articles (82 % internat.)
Interprétation :
• Collaboration inter-thèmes
• Force des liens faibles
Attention :
• Variabilité des pratiques de publication selon les domaines : fréquence, travail ± collaboratif…
Réalisé avec Gephi
Caractérisation des collaborations inter-thème5a — Collaborations et thématiques d’un laboratoire
Méthodo : les thématiques Analyse lexicométrique
Un titre de publication = un document Focus sur les RICL et CICL pour ne pas mélanger les langues Élimination des mots non discriminants (stop-list + manuelle)
Deux résultats Classification en 7 classes (paramètres fixé) avec la méthode Reinert Extraction des mots-clés
54
5a — Collaborations et thématiques d’un laboratoire
55Réalisé avec Iramuteq
Caractérisation des thématiques 1/2
5a — Collaborations et thématiques d’un laboratoire
56
Interprétation :
• 4 objets principaux
• Des pétales à explorer
NB : le nombre de mots représentés peut être paramétré pour ajuster le niveau de détail.
Réalisé avec Iramuteq
Caractérisation des thématiques 2/2
5a — Collaborations et thématiques d’un laboratoire
57
Conclusion et perspectives générales
Reconnaître les structures d’opportunités
Question de recherche : - captivante - originale / inattendue - importante
Revue de la littérature : - interdisciplinaire - sur le temps long
Données et méthodes : - données originales en libre accès, de préférence - méthode mixte : quanti + quali
Merci
http://www.irit.fr/~Guillaume.Cabanac
@gcabanac