Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Université de La Rochelle
28 Mars 2018
2
Sommaire
Présentation
Présentation et contexte de l’étude> Gallica> Introduction au CBIR
Les différentes approches> Indexation par le contenu visuel> Indexation par le contenu sémantique> Prétraitement
Outils disponibles / En développement
Conclusion et Perspectives
3
Introduction et contexte de l’étude
Présentation
Contexte
Gallica : > 4 348 725 documents en ligne (livres numérisés, revues, cartes,
enluminures…)Outils d’aide à la consultation d’images > une recherche indexée par des métadonnées textuelles « manuelles »
Présentation5
Fouille d’images par le contenu
Pour une meilleure expérience utilisateur> nécessité d’implémenter de nouveaux outils d’indexation et de fouilles
d’images.
Recherche d’images> Navigation libre dans le corpus> Recherche par mots-clefs> Recherche par le contenu
Etat de l’art coordonné par Valconum> 4 laboratoires partenaires:
– LIPADE, Université Paris Descartes– L3i, Rochelle– CVC, Barcelone– IRISA, Rennes
Présentation6
Recherche d’images similaires
28/03/2018 Présentation8
Navigation dans le corpus
28/03/2018 Présentation9
Schéma général d’un système d’indexation et de moteur de fouille d’images
1 phase d’indexation> Hors ligne> Extraction des vecteurs de caractéristiques> Stockage1 phase de recherche> Extraction de caractéristiques> Comparaison
Présentation10 28/03/2018
Les différentes approches
Présentation28/03/2018
Indexation par le contenu visuel
Objectif :> Extraire un ensemble d’indices visuels qui vont
caractériser une image
3 catégories de caractéristiques> Globale> Spatiale> Locale
Selection, Combinaison de ces caractéristiques
28/03/2018 Présentation12
Indexation par le contenu visuel
28/03/2018 Présentation13
Indexation par le contenu visuel
Approches par descriptionglobale> Caractéristiques Couleur> Caractéristiques Texture> Caractéristiques Forme
28/03/2018 Présentation14
Indexation par le contenu visuel
Approches par descriptionglobale> Caractéristiques Couleur> Caractéristiques Texture> Caractéristiques Forme
Approches par descriptionspatiale> Signature de l’agencement des
composantes d’un document
28/03/2018 Présentation15
Indexation par le contenu visuel
Approches par descriptionglobale> Caractéristiques Couleur> Caractéristiques Texture> Caractéristiques Forme
Approches par descriptionspatiale> Signature de l’agencement des
composantes d’un document
Approches par description locale> Utilisation de descripteurs sur des
zones locales d’intérêt
28/03/2018 Présentation16
Indexation par le contenu sémantique
Détection automatique de concepts> Création d’un index sémantique> Facile à comprendre et à interpréter
Permettre la labellisation> d’une image> de zones dans une image
Ces labels peuvent être inclus dans une ontologie> Permet un raisonnement (inférences)
Présentation17 28/03/2018
Application images naturelles> ImageNet : images annotées à partir de 80 000 concepts
28/03/2018 Présentation18
Indexation par le contenu sémantique
Expérimentation
28/03/2018 Présentation19
Indexation par le contenu sémantique
Identification et localisation d’objets
28/03/2018 Présentation20
Indexation par le contenu sémantique
Identification et localisation d’objets> Application aux visages
28/03/2018 Présentation21
Indexation par le contenu sémantique
Légende automatique
28/03/2018 Présentation22
Indexation par le contenu sémantique
Prétraitement et Segmentation
Necessité d’appliquer un prétraitement
Améliorer le document dans le but d’optimiser son analyse> Suppression de distorsions> Augmentation des contrastes> Suppression de bruits de numérisation
Segmentation> Extraction des régions d’intérêts> Extraction du Layout Physique ou Logique
Présentation23 28/03/2018
Quelques outils
GAFA> Google Vision API> IBM Watson / Cloud Visual Recognition> Amazon Rekognition
Start-Up / Spin-Off Laboratoires> Lamark> NeoVision> Videntifier> OddConcepts
Frameworks et Librairies> Deep Learning : Caffe, TensorFlow> Analyse Traitement Image : OpenCV> Indexation : FLANN, Faiss
Présentation24 28/03/2018
Conclusion de l’étude
Présentation28/03/201825
2 verrous> Corpus très hétérogènes
> Contenu (différentes époques, différents supports, …)> Support Image (qualité de numérisation, compressions, …)
Une multitude d’outils :> Disponibles :
– Mise en place directe mais avec des contraintes (coûts, droits, performance)
> En développement – Collaboration avec les laboratoires– Meilleure Adéquation, spécialisation sur les documents
Différentes hypothèses de travail> A partir des corpus ? Des outils ? Des 2 ?