17
REPRÉSENTATION ET CARACTÉRISATION LEXICALE DES SCIENCES DANS WIKIPÉDIA Céline Poudat , Sylvain Loiseau Publications linguistiques | « Revue française de linguistique appliquée » 2007/2 Vol. XII | pages 29 à 44 ISSN 1386-1204 DOI 10.3917/rfla.122.0029 Article disponible en ligne à l'adresse : -------------------------------------------------------------------------------------------------------------------- https://www.cairn.info/revue-francaise-de-linguistique-appliquee-2007-2-page-29.htm -------------------------------------------------------------------------------------------------------------------- Distribution électronique Cairn.info pour Publications linguistiques. © Publications linguistiques. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit. Powered by TCPDF (www.tcpdf.org) © Publications linguistiques | Téléchargé le 23/06/2022 sur www.cairn.info (IP: 65.21.228.167) © Publications linguistiques | Téléchargé le 23/06/2022 sur www.cairn.info (IP: 65.21.228.167)

Representation et caracterisation lexicale des sciences

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Representation et caracterisation lexicale des sciences

REPRÉSENTATION ET CARACTÉRISATION LEXICALE DES SCIENCESDANS WIKIPÉDIA

Céline Poudat, Sylvain Loiseau

Publications linguistiques | « Revue française de linguistique appliquée »

2007/2 Vol. XII | pages 29 à 44 ISSN 1386-1204DOI 10.3917/rfla.122.0029

Article disponible en ligne à l'adresse :--------------------------------------------------------------------------------------------------------------------https://www.cairn.info/revue-francaise-de-linguistique-appliquee-2007-2-page-29.htm--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour Publications linguistiques.© Publications linguistiques. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans leslimites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de lalicence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit del'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockagedans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 2: Representation et caracterisation lexicale des sciences

Rev. franç. de linguistique appliquée, 2007, XII-2 (29-44)

Représentation et caractérisation lexicale des sciences dans Wikipédia

Céline Poudat & Sylvain Loiseau

ENST / LIMSI-CNRS

Résumé : Largement médiatisée, l’encyclopédie collaborative Wikipédia introduit de nouvelles pratiques d’écriture et de diffusion des connaissances scientifiques. Si son fonctionnement a été décrit du point de vue des connexions entre contributeurs et de sa dynamique temporelle, les propriétés de ses textes ont été beaucoup moins caractérisées. Dans cet article, nous proposons de décrire Wikipédia sur le plan linguistique de son contenu, en nous focalisant sur les sciences et leur représentation. L’étude est fondée sur un ensemble de corpus extraits à partir de l’arborescence des catégories de l’encyclopédie, et observés et contrastés sur les plans lexicaux général et épistémique. Abstract: The free and online encyclopaedia project Wikipedia has become in less than six years one of the most prominent commons-based peer-production example. The way the project works and evolves is now at stake for academics eager to explore auto-organized structures. Although many studies have been led on the connections between contributors, the linguistic properties of Wikipedia productions remain almost unexplored. In this article, we focus on the way sciences are represented within the project and examine the general and epistemic lexical characteristics of the articles thanks to the comparison of a set of corpora extracted from Wikipedia’s category system.

1. Introduction Le projet encyclopédique Wikipédia est devenu l’un des sites les plus visibles et les plus controversés sur Internet. Extraordinaire objet intellectuel pour certains, preuve et exemple des limites de l’auto-organisation pour d’autres, Wikipédia est de plus en plus présent dans les résultats des moteurs de recherche devenant, par les usages, une ressource informationnelle de référence. En autorisant les internautes à participer à l’écriture d’articles à vocation encyclopédique et en mettant en avant des principes d’auto-organisation des participants, le projet Wikipédia s’est toutefois exposé à de nombreuses critiques : anonymat des auteurs, dévalorisation du statut d’expert, entrisme de partis politiques, d’associations prosélytes, d’entreprises commerciales, diffamations, erreurs factuelles, etc.

L’ensemble du projet est fondé sur quatre principes, d’ailleurs partiellement antagonistes. En tant que projet encyclopédique, il affiche l’objectif de couvrir tous les domaines du savoir. Cet universalisme est redoublé par une dimension translinguistique, même si chaque communauté de langue gère une encyclopédie de façon autonome. En tant que projet collaboratif, tous les aspects éditoriaux, de l’écriture des articles à l’organisation de la macrostructure, sont réalisés collectivement, ce qui implique des mécanismes de régulation. En troisième lieu, Wikipédia est adossé à des logiciels et des licences dits « open source » ou libres : tout le contenu de l’encyclopédie est publié sous une licence de la Free Software

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 3: Representation et caracterisation lexicale des sciences

30 Céline Poudat & Sylvain Loiseau

Foundation, l’organisme emblématique du mouvement du logiciel libre1. L’encyclopédie hérite du monde open source un objectif de mise à disposition gratuite des connaissances produites en environnement numérique. Enfin, le contenu des articles proprement dits doit respecter une « neutralité de point de vue » censée tenir lieu d’objectivité2.

Ces quatre vertus cardinales de l'encyclopédie sont détaillées sur les pages de présentation du projet : « Pertinence encyclopédique », « Règles de savoir-vivre », « Contenu libre » et « Neutralité de point de vue »3. Ces principes ressortissent davantage aux nécessités de la régulation du travail en commun qu’à une politique éditoriale. Le mouvement du logiciel libre, sur lequel elle s’appuie, explicite un projet de renouvellement des modes de production du savoir, voire du fonctionnement économique du secteur de l’édition, qui implique de profonds changements culturels et politiques au nom de mutations technologiques4.

Objet encyclopédique auto-régulé, disponible et de grande taille, Wikipédia se développe de manière exponentielle depuis quelques années et intéresse déjà les communautés linguistique et informatique, à la recherche de corpus et de masses de données pour valider hypothèses ou algorithmes.

Décrire Wikipédia apparaît donc comme crucial si l’on considère que de tels objets collaboratifs sont destinés à se répandre massivement dans le web de demain, et dans les études linguistiques futures. La tâche ne va pas de soi, dans la mesure où la nature collaborative du projet bouleverse les genres et les thématiques traditionnelles, et les méthodologies éprouvées qui leur sont associées : le fait que les articles soient co-écrits est ainsi problématique du point de vue linguistique, d’autant que les contributeurs sont souvent nombreux et anonymes5. A un même texte n’est plus rattaché un auteur ou plusieurs auteurs identifiés, ce qui implique de nouvelles élaborations méthodologiques qui doivent combiner coopération et diachronie (suivi d’un contributeur et analyses de ses productions au gré de l’historique de ses éditions dans l’article ou dans l’ensemble du projet, analyse croisée de l’article et de ses fils de discussion, cf. Wattenberg & al. (2004) et Viègas & al. (2007). L’article dans Wikipédia est de surcroît un genre émergent, qui hérite des déterminations des discours encyclopédique et scientifique ; notons que le projet aspire explicitement à la vulgarisation, le discours académique étant perçu comme obscur (en témoigne la catégorie Article à désacadémiser6). Certains sujets étant très complexes, il n’est cependant pas infondé de supposer que de nombreux textes suivent les canons du discours académique et du genre de l’article scientifique.

1 Licence FGPL pour GNU free documentation licence (licence de documentation libre GNU). 2 « Ce que les gens croient, voilà un fait objectif, et nous pouvons présenter cela assez facilement d'un point de vue neutre » (Jimbo Wales, le fondateur de Wikipédia, http://fr.wikipedia.org/wiki /Wikipédia:Neutralité_de_point_de_vue). L’objectivité n’est donc visée qu’au niveau du recensement des ‘opinions’ – pourtant d’inégale valeur sur la même page. 3 « Principes fondateurs » : http://fr.wikipedia.org/wiki/Wikipédia:Principes_fondateurs. 4 Il est notable que le mouvement open source soit un programme politique formulé dans le monde universitaire (particulièrement les départements d’informatique des universités d’Amérique du Nord depuis 30 ans), qui mêle programme politique utopique et vertus scientifiques traditionnelles : objectivité, publicité des débats, ‘révisabilité’ des résultats acquis, etc. Il s’agit donc, dans une certaine mesure, d’un projet de « sécularisation » ou d’extension aux structures sociales du mode de collaboration et de régulation du savoir dans le monde académique. 5 On distingue d’ailleurs au sein du projet les utilisateurs inscrits des anonymes, qui ne sont traçables qu’à partir de leur adresse IP. Cela dit, un auteur, même inscrit, demeure anonyme, les pages utilisateurs n’étant pas normées et contenant globalement peu d’informations. 6 Apposés aux articles devant être vulgarisés pour être entendus. V. discussion sur http://fr.wikipedia.org /wiki/Wikip%C3%A9dia:Le_Bistro/15_juin_2006#.5B.5BImage:Nuvola_apps_edu_miscellaneous.png.7C25px.5D.5D_Appel_aux_jeun.27s_21.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 4: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 31

Si les genres de Wikipédia doivent être caractérisés, il en va de même des domaines et des thèmes couverts par l’encyclopédie, qui demeurent encore mal décrits. A l’instar des taxinomies populaires, ou folksonomies, comme Delicious ou Flickr, les catégories apposées aux pages du projet sont auto-organisées au sein d’un graphe orienté géré par les utilisateurs (décrit par Guégan 2006), qui sert d’outil de référence pour catégoriser les articles. Etant donné que les textes varient d’un domaine à l’autre, une analyse des domaines de Wikipédia (spécification et organisation) nous est apparue comme particulièrement déterminante.

Parmi les grands domaines couverts par le projet, c’est celui des Sciences qui a retenu toute notre attention, parce que d’un point de vue externe, l’encyclopédie s’inscrit dans la problématique du renouvellement des supports de l’édition scientifique, et qu’elle intéresse plus généralement la question de la forme de la diffusion des connaissances scientifiques et de leur vulgarisation7. Il convient donc de s’interroger sur la représentation des sciences et des disciplines scientifiques dans le projet, ce qui constitue un enjeu quant à la visibilité et la perception des sciences par le grand public. Le choix des sciences inscrivant par ailleurs notre étude dans une problématique de caractérisation du discours scientifique, nous avons cherché à déterminer si les articles de Wikipédia partageaient un lexique épistémique commun avec les textes scientifiques académiques.

La démarche est donc contrastive, dans la mesure où c’est par champs de comparaison que nous mènerons nos analyses : contrastes externes entre le domaine des sciences et les autres domaines couverts par l’encyclopédie, et contrastes internes entre les disciplines scientifiques représentées, à partir de deux ensembles de descripteurs : les lemmes des substantifs et des verbes relevés dans les textes et un lexique épistémique de 100 items éprouvé sur des corpus académiques (décrit notamment dans Grossmann et Rinck 2004), qui a fait ses preuves dans diverses études (Poudat et Rinck à paraître ; Rinck 2006), et qui nous permettra d’évaluer la scientificité, ou le caractère académique des textes produits.

Notre article8 s’articule autour de ces deux problématiques ; après avoir présenté le corpus d’étude et les méthodologies de traitement développées (2), nous proposerons une description des grands domaines couverts par Wikipédia (3) avant d’observer de manière plus précise l’arborescence des sciences et les caractéristiques lexicales des domaines scientifiques représentés dans le projet (4). 2. Méthodologie : corpus et traitements 2.1. Sous-corpus Nos analyses se fondent sur la version d’avril 2006 du Wikipédia francophone. A cette date, l’encyclopédie contient 581 563 pages, soit 347 610 articles9. Un sous-ensemble rationnel de ces articles a donc été prélevé : après différents tests sur la base, et la suppression des redirections10, nous avons choisi de ne conserver que les 76 421 articles (environ 20% de la base initiale) ayant au moins une année d’existence, c’est-à-dire une certaine maturité. 7 Le monde académique s’intéresse de près à l’encyclopédie : ainsi la liste Linguistlist diffusait récemment une demande de dons pour financer la rédaction d’articles sur le domaine linguistique pour la version anglaise de l’encyclopédie. 8 Qui s’inscrit dans le cadre du projet Autograph http://overcrowded.anoptique. org/ProjetAutograph. 9 Bien que Wikipédia repose sur un moteur ‘wiki’ qui techniquement possède un type de page ‘wiki’ (éditable, possédant un historique et une page de discussion), l’organisation du projet a entraîné la création d’autres catégories de pages (ou namespaces) selon les usages auxquelles elles sont destinées (e.g. pages Aide, Discussion Utilisateur, Discussion Wikipédia, Discuter, Image, MediaWiki, etc.). 10 96 381 pages, soit 15,9% de l’ensemble des articles du corpus ne sont en fait que des redirections d’articles (http://fr.wikipedia.org/wiki/Aide:Redirection).

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 5: Representation et caracterisation lexicale des sciences

32 Céline Poudat & Sylvain Loiseau

Ce critère de sélection est capital, dans la mesure où il permet d’écarter un grand nombre d’articles abandonnés rapidement après leur création, ou non collaboratifs et souvent rédigés par un contributeur unique (qui peut d’ailleurs être un robot11). Cette exclusion des pages rédigées par un auteur peut sembler infondée, mais différentes études (e.g. Kuznetsov 2006 ; Forte & Bruckman 2005) ont montré que les pratiques rédactionnelles étaient bien différentes dans les textes collaboratifs, dans la mesure où ces pages sont des amorces ou des fragments textuels plutôt que des textes : ainsi, la taille moyenne des articles qui n’ont qu’un jour d’existence dans l’ensemble de la base est de 1284,22 caractères vs. 3797,58 lorsque les textes ont un an d’existence ou plus.

Si l’on examine les deux graphiques qui suivent, on observe une différence de distribution significative entre les deux sous-ensembles : dans le premier cas, la courbe obtenue décroît régulièrement et les textes s’avèrent d’abord produits par un contributeur unique ; 7 706 articles de la base ont par exemple été amorcés par un auteur sans jamais être modifiés par un tiers12. La distribution des articles est tout autre si l’on applique le filtre temporel aux données, et si l’on ne conserve donc que les textes de maturité plus élevée : on observe sur le second graphique un pic à sept contributeurs, chiffre qui représenterait donc le degré moyen de la coopération.

Figure 1. Distribution comparative des articles avec/sans prise en compte du facteur temps13.

Le sous-corpus ne représente que 20% de la base initiale, mais on y relève 60% de l’ensemble des catégories appliquées aux textes de l’encyclopédie, soit 19 496 étiquettes. Le tableau qui suit décrit les caractéristiques de notre corpus d’étude.

Tableau 1. Statistiques comparatives sur l’ensemble de Wikipédia et le sous-corpus d’étude.

Wikipédia Sous-corpus

nombre d’articles 368 933 75 671

taille 2103,17 3869,25

durée (en jours) 219,63 667,8

nombre de contributeurs 6,76 18,3

11 On dénombre 65 robots, ou bots, sur le Wikipédia francophone, dont les destins sont divers (correction orthographique, ajout de liens internes dans les pages, mais également création de pages à partir de bases de données rassemblant tous les noms de communes de France par exemple). 12 e.g. Rhynchotinae, Pulsation (solfège) ou encore Macintosh Performa 6360… 13 Par souci de lisibilité, nous avons regroupé les contributions supérieures à 100 au sein d’une catégorie unique, ce qui explique la remontée finale de la courbe.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 6: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 33

nombre de contributions 12,65 35,1

nombre de catégories 32 364 19 496

nombre moyen de catégories par article 2,06 2,25

nombre maximal de catégories par article 318 30

% textes uni-catégorisés 41,58 38,14 2.2. Traitements 2.2.1. Exploitation de l’arborescence des catégories pour ventiler les articles en sous-corpus Outre la rédaction proprement dite, les contributeurs de l’encyclopédie interviennent sur les articles en leur apposant des étiquettes qui les regroupent en « catégories ». Un article peut recevoir plusieurs étiquettes. Les catégories sont elles-mêmes organisées a posteriori (c’est-à-dire une fois qu’elles ont été créées par apposition sur un article), par un rattachement d’une catégorie à sa catégorie super-ordonnée. Les contributeurs n’ont donc à aucun moment une vue d’ensemble de l’architecture des catégories. Cette dernière n’a pas de critère d’organisa-tion clairement défini qui permettrait de l’assimiler à une taxinomie scientifique14. Les catégories portent aussi bien sur de grands ensembles thématiques (e.g. sciences, sport), que sur des indexations créées pour des besoins d’administration du site et d’organisation du travail en commun (« ébauche », « page à supprimer », etc.). Cette classification est donc proche des folksonomies15, avec la différence qu’une organisation d’ensemble a posteriori est effectuée.

Afin de répartir les articles sur différentes catégories thématiques et d’organiser les textes de l’encyclopédie en axes de variation, nous avons dû développer un ensemble de méthodes permettant de manipuler l’arborescence des catégories.

La figure ci-dessous, qui représente un petit sous-ensemble du graphe des catégories, illustre les problèmes de parcours qui se sont posés : Sciences naturelles n’est ainsi connecté à aucun article. Pour extraire les textes rattachés à ce domaine, il faut donc parcourir le graphe en profondeur, afin de récupérer les articles affiliés à ses catégories filles (Sciences de la vie, Sciences de la terre, etc.). Ce parcours nécessite naturellement l’inclusion d’une limite dans la profondeur de l’arborescence, qui a dû être évaluée et posée au fil des analyses.

Le fait qu’un même article est souvent rattaché à plusieurs catégories complexifie par ailleurs le parcours du graphe et la collecte de sous-corpus d’articles disjoints (sans doublons).

Nous avons construit trois axes de variation du corpus à partir du graphe des catégories : un premier axe permet d’opposer le domaine des sciences aux autres domaines principaux de Wikipédia. Dans cette optique, nous avons évalué l’indépendance des catégories principales du projet en observant les recouvrements catégoriels des textes associés. La spécificité des catégories décroissant fortement à partir d’une profondeur de 3 dans le graphe, la collecte des articles a été limitée à ce seuil, afin de privilégier les textes les plus spécifiques aux grands domaines du projet.

14 Ainsi les catégories rattachées à Philosophie mélangent des religions, des écoles philosophiques comme philosophie analytique, voire des thèmes au statut douteux (expérience de pensée). 15 V. par exemple Golder et Huberman (2006).

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 7: Representation et caracterisation lexicale des sciences

34 Céline Poudat & Sylvain Loiseau

Dans un deuxième temps, nous avons observé l’arborescence des sciences en explorant sa profondeur et en répartissant les textes selon leur distance à Sciences, à un chemin maximal de 15. Quinze sous-corpus ont donc été constitués (en pointillés sur la figure suivante). Précisons que lorsqu’un article est rattaché à plusieurs catégories qui sont à des distances différentes de Sciences, on ne considère que la catégorie qui lui est la plus proche.

Enfin, un troisième axe de contraste ventile les articles rattachés aux sous-catégories filles principales de Sciences, sélectionnées en vertu de leur représentation dans le projet.

Figure 2. Quelques relations de rattachements entre articles et catégories. 2.2.2. Conversion, annotation et analyse du « Wikitexte » Les textes de Wikipédia sont mis en forme au moyen d’une syntaxe particulière, minimale et simple d’utilisation, qui permet aux contributeurs de réaliser eux-mêmes la mise en page. Ces marqueurs de mise en forme permettent d’introduire des tableaux, des listes ou des symboles dans le texte, ou de le structurer en sections et sous-sections dotées d’un titre.

Nous avons donc exploité le format ‘wiki’ pour nettoyer le texte des marques de mise en forme et des éléments textuels (titres, tableaux, listes de noms) que l’on souhaitait soustraire à l’analyse. Une conversion du format ‘wiki’ vers un format XML a été mise en œuvre pour manipuler les données16. Précisons également que seuls les textes d’une longueur supérieure à 50 mots ont été conservés.

Les textes ont ensuite été analysés et lemmatisés par Treetagger17. A l’issue de ces traitements, nous avons pu constituer différentes tables lexicales comprenant le lexique entier (noms, adjectifs et verbes les plus représentés), ou le lexique épistémique, qui contient un ensemble de 100 descripteurs lemmatisés de type hypothèse, méthode servant la mise en scène de la recherche dans ses composantes et ses procédures, et qui, par hypothèse, est transversal aux domaines scientifiques. Ce lexique, essentiellement constitué de noms et de verbes (resp. 62 et 32), a été développé par F. Rinck (2006) et validé sur différents corpus d’écrits scientifiques à partir de critères de fréquence et de répartition. Il contient un ensemble de noms de procès et de prédicats spécifiques à l’activité scientifique (démarche, méthode, examen, description,…/analyser, concevoir, constituer, observer…) ; de noms d’objets

16 Grâce au convertisseur Wiki2Tei (B. Desgraupes et S. Loiseau, disponible en ligne sur http://.sourceforge.net/projects/wiki2tei). 17 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 8: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 35

fondant l’analyse scientifique, tant sur le plan théorique (concept, idée, notion…) que méthodologique (donnée, matériau, phénomène…) ; et de noms d’objets produits par le processus de recherche (classification, résultat, conclusion…), ce qui nous permettra de rapprocher, ou de dissocier le discours de Wikipédia du discours académique.

Ces tables ont ensuite servi d’entrée à différentes analyses statistiques, destinées à contraster les thématiques principales et les disciplines scientifiques couvertes par l’encyclopédie : nous avons mené sur chaque sous-corpus au moyen du logiciel DTM18 une Analyse en Composantes Principales (ACP) associée à une Classification Ascendante Hiérarchique (CAH), à partir des deux ensembles lexicaux adoptés. Ces analyses nous permettront d’apprécier les disparités et les proximités lexicales entre les différents sous-ensembles considérés, afin d’évaluer l’homogénéité lexicale et discursive de l’encyclopédie.

Afin d’interpréter les données de manière plus pertinente, nous avons effectué un Tri Systématique de Signification (TSS) en confrontant l’ensemble des corpus avec une variable nominale supplémentaire, positionnée a posteriori sur les axes principaux au moyen d’une valeur-test exprimant « la signification statistique de la coordonnée de la variable sur l’axe » (Lebart, 2004, 712). Cette méthode nous permettra d’obtenir les spécificités lexicales générales et épistémiques des domaines principaux de Wikipédia, des différentes profondeurs de l’arborescence Sciences et des disciplines scientifiques. 3. Positionnement des sciences dans l’arborescence des catégories : de Principal à Sciences et ses sœurs 3.1. Les thématiques principales de Wikipédia On dénombre seize catégories rattachées à Principal, la racine de l’arborescence Wikipédia : si l’on écarte de la description les catégories fonctionnelles Portail, Liste et Catégorie par thème, de même que les inventaires de type Evénement, Anecdote et Personnalité¸ neuf grands domaines principaux structurent l’encyclopédie : Sciences, Sport, Culture, Organisation sociale, Art, Philosophie, Techniques et sciences appliquées, Vie quotidienne et Croyance, qui reflètent bien par leur diversité l’organisation populaire de la taxonomie.

Sciences est rapidement apparue détenir une position centrale dans le corpus, et par extension dans Wikipédia, dans la mesure où elle s’avère être la catégorie la plus représentée : 97,86% des textes du corpus d’étude s’y rattachent par un chemin de longueur maximale 15 – seuls 1618 articles se trouvent écartés. Etant donné les critères de sélection de notre corpus d’étude, on insistera donc sur la plus grande maturité collaborative des articles rattachés aux Sciences, par opposition aux textes des domaines du sport ou de la croyance par exemple, qui sont globalement peu représentés.

Examinons plus précisément les sœurs thématiques de Sciences, ce qui nous permettra d’obtenir une première description des domaines principaux de l’encyclopédie. Après les avoir décrites en termes de participation, ou de contributions, nous les observerons sur le plan lexical. 3.2. L’arborescence des thématiques exprimée en participation Parmi les catégories les plus représentées dans le corpus, Sciences, Organisations sociales, Techniques et sciences appliquées et Culture ont une arborescence (limitée de 1 à 9 dans le graphique ci-dessous) qui suit un schéma folksonomique : le plus général atteste en effet d’un

18 Disponible sur < http://ses.enst.fr/lebart/>.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 9: Representation et caracterisation lexicale des sciences

36 Céline Poudat & Sylvain Loiseau

degré de participation plus élevé que le plus spécifique (décroissance des nombres de contributeurs et d’éditions, et de la taille des articles), phénomène propre aux objets collaboratifs :

Figure 3. Nombres moyens de contributeurs et d’éditions par texte

selon la distance du texte à sa catégorie-mère. (catégories Sciences, Techniques et sciences appliquées, Organisation sociale et Culture)

Il en va différemment des catégories moins représentées Philosophie et Art, qui ont des courbes de participation très irrégulières ; cette singularité pourrait être due à une organisation taxonomique moins structurée des deux domaines (thématique plutôt que spécifique, ce qui entraînerait une distribution plus erratique des experts), ou à leur caractère en apparence plus accessible qu’un domaine des sciences de la nature – le discours du non expert, voire du grand public paraît en effet davantage autorisé lorsqu’il s’agit d’esthétique que de mécanique ondulatoire. Soulignons enfin que la Philosophie telle qu’elle est appréhendée dans Wikipédia s’avère polysémique, dans la mesure où elle renvoie autant aux domaines philosophique que politique ou religieux. 3.3. Lexique des thématiques Examinons maintenant le lexique de ces thématiques principales ; par souci de comparaison, nous conserverons les catégories Art, Culture, Organisations sociales et Sport, qui nous permettront d’évaluer l’homogénéité lexicale de Wikipédia.

Les spécificités lexicales générales et épistémiques des sept catégories prises en compte peuvent être observées dans le tableau qui suit ; par souci de synthèse, nous n’avons retenu que les caractéristiques les plus significatives de chaque thématique – le nombre de spécificités épistémiques de chaque catégorie préfixe les items19 :

Tableau 2. Spécificités lexicales générales et épistémiques des sept thématiques observées.

Spécificités du lexique général Spécificités du lexique épistémique Catégorie

Positives Négatives Positives Négatives

Art film, peintre, artiste, scène, album, etc.

pouvoir, exister, permettre, cas, etc.

(1) tableau (60) exemple, système, terme, etc.

19 Le nombre de spécificités lexicales variant peu d’une catégorie à l’autre.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 10: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 37

Culture version, document, symbole, lettre, page, réseau, projet, etc.

étudier, naître, an, aller, conséquence, étude, ordinaux, surface, etc.

(8) donnée, systématiser, représenter, etc.

(6) étudier, étude, conséquence, etc.

Organisations sociales

droit, élection, gouvernement, organisation, etc.

énergie, surface, distance, produire, contenir, vitesse, etc.

(17) viser, désigner, terme, travail, etc.

(19) théorie, étudier, matériau, etc.

Philosophie philosophe, philosophie, chose, pensée, esprit, vérité, idée, enseigner, savoir, etc.

surface, température, mètre, sport, équipe, spécialiser, groupe, utilisation, appareil, produit, etc.

(72) idée, savoir, concept, réflexion, question, considérer, expliquer, principe, etc.

(0)

Sciences théorie, nombre, théorème, ensemble, énergie, étudier, mathématique, élément, etc.

naître, an, organiser, style, mort, date, fille, sortir, lieu, chef, venir, ville, faire, tenir, droit, début, main, fin, etc.

(36) théorie, étudier, démontrer, fonction, résultat, propriété, étude, vérifier, observation, etc.

(9) présenter, viser, désigner, concevoir, examen, relever, objectif, choisir, conception

Sciences et techniques

métal, tension, fréquence, permettre, surface, utiliser, vin, sol, mer, bois, etc.

naître, écrire, publier, père, mort, écrivain, élire, monde, refuser, devenir, etc.

(5) matériau, observer, système, traitement, unité

(36) idée, théorie, considérer, question, étudier, concept, etc.

Sport sport, compétition, équipe, joueur, etc.

écrire, décrire, exemple, publier, etc.

(0) (24) décrire, exemple, théorie, étude, etc.

Premier constat, la philosophie, qui est à la fois sœur et fille des Sciences diffère fortement des autres domaines du fait d’un lexique plus abstrait, mais également par une mobilisation forte des termes épistémiques (72 termes vs 36 et 5 pour les catégories Sciences et Sciences et techniques), et plus spécifiquement des lexèmes les plus spéculatifs (idée, savoir, concept, réflexion, question, considérer, etc.). Elle est d’ailleurs nettement isolée sur le plan factoriel qui suit (figure 4).

Second domaine isolé, le domaine des Organisations sociales, moins marqué sur le plan épistémique20, se détache des autres par l’usage massif d’un lexique politique peu, voire non mobilisé par les autres catégories.

Dans la mesure où elles entraînent le regroupement des autres catégories sur le versant positif du premier axe factoriel, ces deux catégories ont été écartées afin d’observer et d’opposer les cinq domaines restants (figure 5).

20 Ou du moins marqué par une utilisation non scientifique des termes du lexique épistémique : ainsi, le lexème travail ne renvoie pas au travail de recherche, mais à l’activité sociale, et les lexèmes rattachés à la démonstration scientifique et la théorisation sont négativement corrélés à la catégorie.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 11: Representation et caracterisation lexicale des sciences

38 Céline Poudat & Sylvain Loiseau

Figure 4. Opposition des grands domaines de Wikipédia sur le plan lexical – ACP.

Figure 5. Opposition des grands domaines de Wikipédia sur le plan lexical – ACP hors Philosophie et Organisations sociales.

Les deux domaines relatifs aux sciences (Sciences et Sciences appliquées) s’opposent ainsi à ce qui relève de la Culture sur le premier axe, et à l’Art et au Sport sur le second axe factoriel. La Culture étant un domaine trop vaste pour être homogène – à Culture sont rattachées les catégories Fiction, Forme de culture, Mouvement culturel, Symbolique, Village du livre, etc. − l’opposition n’est pas étonnante, mais saurait difficilement être précisée de manière claire sur le plan lexical. Les domaines Art et Sport sont en revanche plus observables, car plus homogènes, et on peut dire qu’ils s’opposent résolument au scientifique : ils sont tous deux négativement caractérisés par des termes appartenant au lexique des sciences sur le plan lexical général, et ne peuvent être spécifiés que négativement si on les observe avec le lexique épistémique. Les deux domaines se caractérisent ainsi par une utilisation particulièrement faible de ces termes. Ils ne relèveraient donc pas du discours scientifique, ce qui n’est pas trivial étant donné que leurs objets sont dans les faits et institutionnellement parlant observés sur le plan scientifique.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 12: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 39

Au final, seuls les deux domaines Philosophie et Sciences témoignent d’un usage marqué du lexique épistémique, qui les rattache par hypothèse au discours scientifique, ou académique. Le domaine des Sciences et techniques, lexicalement proche des Sciences, est au contraire peu marqué sur ce plan.

Wikipédia ne semble donc pas discursivement unifié, et régulé par un discours homogène, mais organisé en sous-communautés de discours privilégiant ou mimant un discours déjà existant. 4. Exploration lexicale de l’arborescence des sciences et des domaines scientifiques les plus représentés dans l’encyclopédie 4.1. Profondeur de l’arborescence des sciences Les dix sous-corpus représentant les différentes ‘profondeurs’ ou distances à la catégorie Sciences ne comportent pas tous le même nombre d’articles : seuls 21, 511 et 434 articles ont été collectés aux trois premières distances ; pour les distances plus élevées, où un beaucoup plus grand nombre d’articles sont disponibles, nous en avons tiré aléatoirement 1000.

La première analyse menée porte sur l’ensemble du lexique et on observe que les profondeurs 1 à 4 s’opposent aux profondeurs 6 à 10 sur les deux premiers axes factoriels (v. fig. 6 infra).

Comme le montre le tableau 3 qui suit, les lexèmes spécifiques aux différentes profondeurs permettent de qualifier le rapprochement puis l’éloignement progressif d’un ‘noyau de scientificité’.

La première profondeur (qui ne contient que 21 textes au niveau 1) est caractérisée par un vocabulaire ‘introductif’ et thématisant : science est le terme le plus associé, suivi d’un vocabulaire généraliste du domaine scientifique : découverte, méthode, résultat, connaissance, mesure, théorie, etc. Ce vocabulaire généraliste décroît pour laisser place à un vocabulaire plus spécifique jusqu’à la quatrième profondeur : des noms ou des objets disciplinaires apparaissent à une profondeur de 2 (informatique, énergie, gaz, température, chaleur, machine), aux côtés de termes scientifiques déjà plus précis (comportement, échelle, déterminer, génération). Il est notable que l’informatique soit le premier nom de discipline scientifique à apparaître : c’est une manifestation de la surreprésentation massive de cette discipline dans l’encyclopédie. Les termes informatiques, même généralistes (comme logiciel) sont en effet très représentés.

Tableau 3. Spécificités lexicales générales et épistémiques des sept premiers niveaux de profondeur de l’arborescence des Sciences.

Spécificités du lexique général Spécificités du lexique épistémique Profondeur

Positives Négatives Positives Négatives

UN (25) science, découverte, méthode, résultat, appliquer, connaissance, etc.

(0) (5) expérimentation, investigation, méthode, résultat, démarche

(0)

DEUX (325) théorie, énergie, domaine, science, informatique, etc.

(23) famille, fils, nord, commune, habitant, nom, sud, roi, situer,

(39) théorie, recherche, système, théorique, phénomène, démarche, expérimental, etc.

(0)

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 13: Representation et caracterisation lexicale des sciences

40 Céline Poudat & Sylvain Loiseau

capitale, ville, fille, etc.

expérimental, etc.

TROIS (212) exemple, fonction, définir, exister, notion, permettre, etc.

(115) situer, commune, sud, capitale, nom, tuer, succès, personnage, nord, etc.

(17) exemple, fonction, notion, donnée, concept, phénomène, propriété, méthode, etc.

(0)

QUATRE (85) langue, nombre, cas, mot, intégrer, exemple, contact, etc.

(21) série, diffuser, scène, jouer, style, personnage, etc.

(8) comparaison, exemple, description, critère, constat, etc.

(1) classification

CINQ (151) mort, naître, empereur, juillet, guerre, mourir, etc.

(29) série, donnée, exemple, recherche, quantité, terme, etc.

(0) (7) donnée, recherche, exemple, phénomène, etc.

SIX (37) fruit, plante, port, feuille, région, ville, capitale, sud, combat, statut, etc.

(71) naître, exemple, étudier, théorie, intéresser, résultat, définir, permettre, etc.

(1) unité (13) exemple, théorie, résultat, idée, étude, question, notion, fonction, etc.

SEPT (31) film, sortir, album, naître, carrière, succès, etc.

(97) utiliser, exemple, permettre, pouvoir, définir, exister, etc.

(0) (6) exemple, théorie, donnée, tableau, notion, propriété

Les sciences humaines se manifestent plus tardivement : leur lexique est peut-être plus généraliste, ou il est possible qu’elles soient plus faiblement représentées dans les premiers niveaux de l’arborescence. A partir du troisième niveau de profondeur, on relève par exemple langage ou sens au sein d’un lexique où dominent massivement les sciences dures (atomes, nombre ou calcul). Plus frappante est l’apparition d’un lexique plus conceptuel et plus spéculatif, les deux premiers niveaux, plus marqués par les sciences dures, se situant sur des plans plus théoriques, voire positivistes. L’observation du lexique épistémique fait ainsi apparaître un mouvement de l’expérimental (niveau 1) au conceptuel (niveaux 3 et 4), en passant par le théorique (niveau 2).

Sciences humaines et sciences dures s’équilibrent à une profondeur de 4, et les sciences humaines dominent même à la profondeur 5, avec une représentation massive des termes historiques. A partir de la profondeur 7, le lexique est moins spécifiquement scientifique : les domaines artistique et culturel (film, album, carrière, chanson, théâtre) et politique (élection, parti, candidat) sont les plus représentés. La tendance s’accroît jusqu’à la dernière profondeur observée.

De manière générale, on observe une rupture entre les profondeurs de 1 à 4, et de 5 à 10 sur les deux plans lexicaux général et épistémique. Comme le montre la figure 6, seuls les quatre premiers niveaux de profondeur sont positivement spécifiés sur ce dernier plan, et les

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 14: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 41

distances s’ordonnent presque linéairement sur le premier axe de l’ACP (Analyse en Composantes Principales) :

Les quatre premiers niveaux de profondeur s’opposent de manière nette aux six derniers, ce qui est confirmé par l’analyse de la CAH (Classification Ascendante Hiérarchique) associée, dans laquelle les catégories 6-10 sont regroupées dans la même classe – la première obtenue dans le dendrogramme –, tandis que les articles issus d’autres profondeurs se distribuent entre plusieurs classes, qui apparaissent plus tardivement dans le dendrogramme.

On observe ainsi des variations significatives dans la profondeur de l’arborescence des sciences : les textes les plus proches de la catégorie principale sont d’une part plus généralistes, et d’autre part d’abord rattachés aux sciences dures, les sciences humaines étant représentées dans un deuxième temps.

Figure 6. Opposition des 10 profondeurs de l’arborescence scientifique sur le plan épistémique – ACP.

Sans surprise, le vocabulaire scientifique décroît progressivement et de nouvelles thématiques apparaissent progressivement au fil des niveaux de profondeurs, par le jeu des connexions entre catégories : par exemple, la catégorie cinéma est à une profondeur de 7 des sciences, par le chemin : cinéma audiovisuel multimédia informatique appliquée informatique sc. formelles sciences. 4.2. Sciences et ses filles Sciences a 35 filles, que l’on peut globalement diviser en trois catégories : les outils de la démarche scientifique (Méthodologie en sciences, Théorème, Théorie, Loi, Instrument et Règle scientifiques), son cadre institutionnel (Organisation, Centre et Publication scientifiques, Académie, Laboratoire, Association ou organisme lié aux sciences) et ses grands domaines d’application. Dans ce dernier sous-ensemble, on retrouve la dichotomie sciences humaines / sciences dures : les premières se distribuent dans les catégories Sciences humaines, Histoire des sciences et Philosophie des sciences, les sciences se subdivisent en Sciences naturelles, Sciences formelles et expérimentales. Fait notable, certaines disciplines ou certains objets qui auraient pu être inclus dans ces sous-ensembles se détachent et semblent prévaloir sur les autres : Informatique, Systémique, Régulation, Energie et Nature. On notera que les trois premières catégories ont trait au fonctionnement même de Wikipédia, promu par là même objet scientifique.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 15: Representation et caracterisation lexicale des sciences

42 Céline Poudat & Sylvain Loiseau

Ces observations s’appliquent également aux articles directement rattachés à Sciences, qu’on aurait pu penser généraux, mais qui s’avèrent au contraire très spécifiques. Outre les textes Criticalité auto-organisée et Sociologie des sciences21, qui justifient encore une fois le projet, on relève des articles aussi spécialisés que Domotique, Percolation ou Relativité restreinte.

Etant donné que les disciplines scientifiques sont très inégalement représentées dans Wikipédia22, c’est sur les domaines les plus productifs que nous avons fondé nos analyses : un sous-ensemble de textes affiliés aux disciplines les plus éditées de l’encyclopédie a été collecté, soit huit disciplines de Sciences humaines et sociales (599 textes au total) : économie, histoire, linguistique, philosophie, psychologie, sciences de l’information et des bibliothèques, sociologie et urbanisme ; et onze domaines des Sciences dures (soit 399 textes) : astronomie, biologie, chimie, géologie, hydrologie, logique mathématique, mathématiques, médecine, océanographie, paléontologie, physique. Puisque nous avons observé dans la section précédente une décroissance du lexique scientifique et une augmentation des thématiques très spécifiques au fil de l’arborescence, nous avons extrait les textes directement associés aux catégories disciplinaires. Les sous-corpus extraits sont de taille restreinte : ils oscillent entre 33 et 307 textes.

La première ACP (Analyse en Composantes Principales) sur ces textes, mobilisant l’ensemble du lexique, est marquée par une opposition claire entre les Sciences humaines et les Sciences dures, qui s’opposent sur les trois premiers axes, tandis que les proximités entre les différentes disciplines sont plus contrastées : Philosophie, Psychologie et Sociologie sont les seules disciplines lexicalement associées aux sciences humaines sur les deux premiers axes (fig. 7), alors qu’autour des sciences dures gravite une dizaine de domaines – malgré une représentation initialement équilibrée des disciplines.

Figure 7. Opposition des disciplines et des sciences humaines et dures sur le plan lexical – ACP.

Si l’on examine les deux premiers axes sur le plan lexical, on constate que le premier axe oppose un lexique spéculatif contenant un grand nombre de prédicats – modaux (pouvoir, devoir, falloir), verbes d’actions (e.g. faire, agir) et un lexique articulé autour de la recherche de sens (e.g. comprendre, sens, (re)connaître, savoir, interpréter) – à un ensemble d’objets scientifiques appartenant tant aux Sciences dures qu’aux Sciences humaines et sociales :

21 Seul article portant sur une discipline scientifique d’ailleurs directement reliée à Sciences. 22 A la catégorie Sinologie n’est associé qu’un texte tandis qu’on en relève 281 catégorisés Physique.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 16: Representation et caracterisation lexicale des sciences

Représentation et caractérisation lexicale des sciences dans Wikipédia 43

bande, peuple, molécule, hydrogène, électron, voyelle, fréquence, syllabe, etc. à l’extrémité de l’axe, ce qui explique la position des disciplines linguistique, sciences de l’information, urbanisme, économie et médecine qui seraient moins spéculatives, du moins telles qu’elles sont représentées dans Wikipédia.

Le second axe oppose quant à lui un vocabulaire abstrait et largement philosophique (humanité, action, poser, philosophie, tenter, éthique, essence…) à un lexique plus concret, relatif à ce qui est objectivement mesurable (effectuer, mètre, hauteur, zone, vitesse, quantité, effet, profondeur, heure…) : si l’ensemble des disciplines rattachées aux sciences dures se rattachent à ce dernier versant, l’économie, l’urbanisme, la logique mathématique et les sciences de l’information apparaissent inscrites dans une démarche de quantification, au contraire des autres disciplines.

Figure 8. Opposition des disciplines et des sciences humaines et dures sur le plan épistémique – ACP.

L’examen du lexique épistémique modifie quelque peu cette cartographie des disciplines scientifiques, bien que les oppositions demeurent comparables : le premier axe oppose les lexèmes relevant du spéculatif (comprendre, exemple, voir, considérer, question, etc.) sur le versant négatif de l’axe à un vocabulaire rattaché à l’expérimentation (caractérisation, méthodologique, typologie…) sur son versant positif. On observera que les termes question, étude, travail et théorie relèvent davantage des SHS, les sciences dures préférant investigation, expérimentation et démonstration.

Le second axe oppose enfin deux types de disciplines : celles qui sont unifiées par une méthodologie commune, sur le versant négatif de l’axe (logique mathématique, philosophie, maths, chimie, astronomie), et celles qui nécessitent une élaboration méthodologique (psychologie, histoire, sociologie…). Les lexèmes représenter, définir, vérifier, système, appeler, montrer… s’opposent ainsi à étude, méthodologie, critère, problématique, travail, recherche… sur le second axe. 5. Conclusion

Cette étude nous a ainsi permis d’observer la représentation des sciences et d’évaluer l’homogénéité lexicale de Wikipédia. L’encyclopédie s’avère ainsi fractionnée en différents discours articulés autour de ses thématiques principales. Les Sciences sont bien structurées selon une distinction Sciences dures / Sciences humaines et sociales, les premières étant

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)

Page 17: Representation et caracterisation lexicale des sciences

44 Céline Poudat & Sylvain Loiseau

toutefois privilégiées lorsqu’on explore l’arborescence. L’examen plus précis des disciplines scientifiques nous a enfin permis de mettre au jour différents lieux d’opposition des sciences telles qu’elles sont représentées dans l’encyclopédie, et probablement perçues par le grand public : spéculation vs expérimentation, abstrait vs concret, etc.

Notre étude propose au final une première description thématique et lexicale de cet objet composite que représente Wikipédia, qu’il serait intéressant d’approfondir sur d’autres corpus d’écrits scientifiques académiques, dans une perspective comparative des genres et des discours académiques et vulgarisés. L’encyclopédie se développant de manière exponentielle, il serait également pertinent d’appliquer la méthodologie d’observation développée au Wikipédia actuel, dans un cadre diachronique. Céline Poudat ENST, 46, rue Barrault, 75 634 Paris Cedex 13 [email protected] Sylvain Loiseau LIMSI-CNRS, BP 133, 91 403 Orsay Cedex [email protected] Références Cassin, B. (2006). Google-moi. La deuxième mission de l'Amérique. Paris, Albin Michel. Desgraupes, B. & Loiseau, S. (2007). Wiki2Tei : une conversion de la syntaxe wiki au vocabulaire de la

Text Encoding Intiative. http://sourceforge.net/projects/wiki2tei Forte, A. & Bruckman, A. (2005). Why do People Write for Wikipedia? Incentives to Contribute to Open-

Content Publishing. Proceedings of GROUP 05. Golder, S. & Huberman, B. (2006). The structure of collaborative tagging systems. Journal of

Information Science. 32(2), 198-208. Grossmann, F. & Rinck, F. (2004). La surénonciation comme norme du genre. L’exemple de l’article de

recherche et du dictionnaire en linguistique. Langages 156, 34-50. Guégan, M. (2006). Catégorisation par les contributeurs des articles de Wikipedia.fr. Rapport disponible

sur http://www.limsi.fr/Individu/guegan/guegan_marie_stage_dea.pdf Kuznetsov, S (2006). Motivations of contributors to Wikipedia. ACM SIGCAS Computers and Society. 2

(36), 1-7. Lebart, L. (2004). Validité des visualisations de données textuelles. Actes des 7èmes Journées

internationales d'Analyse statistique des Données Textuelles., Louvain-la-Neuve, 708-715. Poudat, C. & Rinck, F. (à paraître). Genres scientifiques et style d’auteur : des variations stylistiques de

l’article de revue linguistique. 4èmes Journées Internationales de la Linguistique de Corpus. Lorient, 15-17 septembre 2005.

Rinck, F. (20067). L’article de recherche en Sciences du Langage et en Lettres, Figure de l’auteur et approche disciplinaire du genre. Thèse de doctorat, Université de Grenoble.

Viègas, F.B., Wattenberg, M., Kriss, J., Van Ham, F. (2007). Talk Before You Type: Coordination in Wikipedia. Proceedings of HICSS-40.

Wattenberg, M., Viègas, F.B., Dave, K. (2004). Studying Cooperation and Conflict between Authors with history flow Visualizations. Proceeding of the 2004 Conference on Human factors in Computing systems. Vienne, 24-29 April, 575-582.

© P

ublic

atio

ns li

ngui

stiq

ues

| Tél

écha

rgé

le 2

3/06

/202

2 su

r w

ww

.cai

rn.in

fo (

IP: 6

5.21

.228

.167

)© P

ublications linguistiques | Téléchargé le 23/06/2022 sur w

ww

.cairn.info (IP: 65.21.228.167)