18
Fouille textuelle de revues intellectuelles québécoises Iana Atanassova 83 e congrès de l’ACFAS 25 mai 2015, Rimouski, Canada

Fouille textuelle de revues intellectuelles québécoises

  • Upload
    erudit

  • View
    494

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fouille textuelle de revues intellectuelles québécoises

Fouille textuelle de revues intellectuelles québécoises

Iana Atanassova

83e congrès de l’ACFAS 25 mai 2015, Rimouski, Canada

Page 2: Fouille textuelle de revues intellectuelles québécoises

Projet « Champ politique et champ intellectuel : une

analyse logométrique et bibliométrique »

Numérisation et exploitation numérique de la presse écrite québécoise.

Partenaires :

25 mai 2015, Rimouski Iana Atanassova 2

Page 3: Fouille textuelle de revues intellectuelles québécoises

Objectifs

• analyse des revues et journaux intellectuels, publiés dans la période de l’entre-deux-guerres (1917-1939) au Québec ;

• identifier et comprendre les réseaux et les mouvements d’idées ;

• analyse de la notion d’innovation à travers les évolutions dans les usages des concepts ;

• développent d’outils de fouille textuelle pour des bibliothèques numériques.

25 mai 2015, Rimouski Iana Atanassova 3

Page 4: Fouille textuelle de revues intellectuelles québécoises

Corpus de revues intellectuelles

• Presse écrite (1917 – 1939) :

– autour de 65 revues intellectuelles, disponibles en grande partie à la BANQ (papier et/ou microfilm)

• 8 revues déjà numérisées, en format PDF/TIFF par la BANQ

25 mai 2015, Rimouski Iana Atanassova 4

Page 5: Fouille textuelle de revues intellectuelles québécoises

Corpus numérisé

25 mai 2015, Rimouski Iana Atanassova 5

Page 6: Fouille textuelle de revues intellectuelles québécoises

Méthodes

• Numérisation et conversion en formats textuels avec gestion des métadonnées (XML, SQL, …)

• Analyse textuelle (indexation, annotations, etc.)

• Visualisations, extraction de données

• Exploitation pour les bibliothèques numériques : recherche avancée, navigation textuelle

25 mai 2015, Rimouski Iana Atanassova 6

Page 7: Fouille textuelle de revues intellectuelles québécoises

Chaînes de traitement

25 mai 2015, Rimouski Iana Atanassova 7

Page 8: Fouille textuelle de revues intellectuelles québécoises

Conversion de PDF en XML • XML schémas : DocBook, Erudit-XML

• Objectifs : – Préserver les marques d’italique et gras.

– Pouvoir représenter les métadonnées de l’article.

25 mai 2015, Rimouski Iana Atanassova 8

Page 9: Fouille textuelle de revues intellectuelles québécoises

Base de données relationnelle

25 mai 2015, Rimouski Iana Atanassova 9

Page 10: Fouille textuelle de revues intellectuelles québécoises

Génération des métadonnées

• Titre de l’article :

– Position du paragraphe (paragraphe précèdent/suivant)

– Moins de 20 mots, ne contient pas de phrases

– Utilisation de majuscules

• Nom (pseudonyme) de l’auteur :

– Dernier paragraphe du texte

– Comparaisons avec bases de noms/pseudonymes externes

25 mai 2015, Rimouski Iana Atanassova 10

Page 11: Fouille textuelle de revues intellectuelles québécoises

25 mai 2015, Rimouski Iana Atanassova 11

Titre ?

Nom d’auteur ?

Page 12: Fouille textuelle de revues intellectuelles québécoises

25 mai 2015, Rimouski Iana Atanassova 12

Page 13: Fouille textuelle de revues intellectuelles québécoises

Indexation

• Développement d’interfaces interactives pour exploiter les données textuelles

• Moteurs de recherche dédiés : recherche par mots clés, par auteur, titre, etc.

• Outils : Solr Search Server (Lucene), interfaces web, javascript

25 mai 2015, Rimouski Iana Atanassova 13

Page 14: Fouille textuelle de revues intellectuelles québécoises

Visualisations

25 mai 2015, Rimouski Iana Atanassova 14

Page 15: Fouille textuelle de revues intellectuelles québécoises

Visualisations

25 mai 2015, Rimouski Iana Atanassova 15

Page 16: Fouille textuelle de revues intellectuelles québécoises

Visualisations

25 mai 2015, Rimouski Iana Atanassova 16

Page 17: Fouille textuelle de revues intellectuelles québécoises

Perspectives

25 mai 2015, Rimouski Iana Atanassova 17

• Implémentation d’outils avancés pour l’exploitation des revues numérisées : – Recherche avancée

– Affichage des termes en contexte

• Etude de l’évolution dans le temps des usages des concepts dans les corpus, afin de révéler les mouvements d’idées et l’apparition de nouveaux concepts : – Analyses linguistiques : prise en charge des contextes,

n-grams, etc.

– Distributions et analyse quantitative

Page 18: Fouille textuelle de revues intellectuelles québécoises

MERCI !

25 mai 2015, Rimouski Iana Atanassova 18