IV. Indexation « Signal » vs « Sémantique Systèmes …...Gap sémantique (1/2) F é t l tè t f i t Fossé entre ce que le système peut faire et ce que l’utilisateur interprète

IV. Indexation « Signal » vs « Sémantique « Sémantique

Les différents types d’information Les différents types d information Méta-données indépendantes du contenu

Exemples : format auteur date lieu Exemples : format, auteur, date, lieu, … Méta-données en rapport avec le contenu

Méta données dépendantes du contenu Méta-données dépendantes du contenu Contenu brut

Texte : chaînes de caractères Images, Son, Vidéo : extraction de « traits » bas

niveau Méta données décrivant le contenu Méta-données décrivant le contenu

Contenu sémantique Texte : mots -> sens (dictionnaire)

M2PGI 1

Image, Son, Vidéo : objet, contexte -> reconnaissance par apprentissage

Systèmes dédiésSystèmes dédiésPas de sémantique Pas de sémantique

Représentation du contenu à partir d’une té i ti d t itcaractérisation de traits

Voir par exemple : http://biometrie.online.fr Empreintes digitales : qqs dizaines d’octets par

minutie, Authentification : seuil d’acceptation : 10 i i minuties

Visages : graphes yeux, nez, bouche, oreilles, …., qqs 100 t ts im m i s fi bl100 octets par image, moins fiable

Logos, Tissus, …

M2PGI 2

Systèmes non dédiésSystèmes non dédiés Indexation « Signal » Indexation Signal

Le document est vu comme un ensemble de signaux La nature des signaux dépend du media La nature des signaux dépend du media Le processus d’indexation : à partir d’extracteur

« bas niveau »a n au Langage d’indexation : Couleur, Texture, Forme, Position

La requête devrait s’effectuer au même niveauq Système de première génération : Langage d’interrogation:

Couleur, Texture, Forme, Position (ex. QBIC – IBM Flickner et al 1995 )et al , 1995 )

Pas souhaitable : Contrainte, Expertise Utilisateur, … Proposer des modes d’interrogations plus naturels

M2PGI 3

Proposer des modes d interrogations plus naturels Requêtes implicites : Image-clés, mot-clés Requêtes explicites

Systèmes non dédiésSystèmes non dédiés Indexation « Signal » Indexation « Signal »

Modélisation « Système » Descripteurs : Distributions de caractéristiques « bas- Descripteurs : Distributions de caractéristiques « bas

niveau » Fonction d’appariement

l é d b Similarité entre distributions Par exemple pour la caractéristique de couleur : le

sujet voit une plage le système « voit » un sujet voit une plage , le système « voit » un histogramme de couleurs avec beaucoup de pixels dans l’intervalle « orange » et dans l’intervalle

bl « bleue » Évaluation : Performance médiocre (surtout en

précision : on récupère beaucoup de bruit)

M2PGI 4

précision : on récupère beaucoup de bruit) Ambiguïté sur la relation « signal » « sens »

Gap sémantique (1/2)Gap sémantique (1/2)F é t l tè t f i t Fossé entre ce que le système peut faire et ce que l’utilisateur interprète :

é Indexation au niveau « Signal » effectuée par le systèmeI t ét ti é ti d d t Interprétation sémantique des documents par l’utilisateur

M2PGI 5

Gap sémantique (1/2)Gap sémantique (1/2)C t l éd i ? Comment le réduire ? C’est Le challenge Les pistes :

Intégrer des éléments de perception visuelle, cognitifs, comportementaux comportementaux, …

Apprentissage pour passer du niveau « Signal » au niveau « Symbole »

Détection d’objets Labellisation des objets Utilisation de médias complémentaires

Texte Image Texte Image Bande Son Vidéo

Mise en place d’un dialogue efficace entre l’utilisateur et le

M2PGI 6

système

Indexation « Signal » : principes générauxprincipes généraux

Fig. issue de : P. Tirilly , V. Claveau P Gros A reviewClaveau , P. Gros, A review of weighting schemes for bag of visual words image retrieval, Rapport interne

M2PGI 7

IRISA, PI 1927 – Avril 2009.


A p ti du c nt nu A partir du contenu Techniques de base

E i d é i i Extractions de caractéristiques Modélisation des distributions de ces

caractéristiquescaractéristiques Histogramme : approche discrète

Concept simple Paramétrage à fixer:

Nombre d’intervalles et largeur

Appariement Appariement Différence entre distributions (panel de mesures

disponibles)

M2PGI 8

p )


Caractéristiques « bas niveau » Caractéristiques « bas niveau » Principales techniques

1 Caractéristiques globales 1. Caractéristiques globales Histogrammes de couleurs, d’orientations, …

Exemples : transp. suivantP d l l l l Perte de la localisation spatiale

Orientation locale dominante * PoidsOrientation locale dominante

0.01560

90

120

50

100

0.005

0.01

30150

150

200 210 330

180 0

M2PGI 950 100 150 200 250

250 240

270

300

Exemple de distributions chromatiqueschromatiques

M2PGI 10

Similarité « Couleur »Similarité « Couleur » Pas d’interprétation : uniquement des Pas d interprétation : uniquement des

ressemblances sur la composition chromatique des imagesdes images

M2PGI 11

Exemple de distributions d’orientationsd orientations

M2PGI 12

Similarité « Orientations »Similarité « Orientations »

Requête 4 premiers voisins

M2PGI 13


Caractéristiques « bas niveau » Caractéristiques « bas niveau » Principales techniques

2 Caractéristiques locales

Actuellement les plus performantes

2. Caractéristiques locales Détections de points d’intérêt

Caractérisation de chaque points d’intérêt par un vecteur de caractéristiques bas niveaucaractéristiques bas-niveau

Extractions de « mots visuels » par clusterisation dans l’espace des caractéristiques

d l Histogramme : Occurrence des mots visuels Perte de la localisation spatiale … également Approche issue

de la RI “Texte” : Bag of visualBag of visual words

Illustration de Li Fei-Fei,

M2PGI 14

Illustration de Li Fei Fei, http://people.csail.mit.edu/torralba/shortCourseRLOC/

« Bag of Visual Words » : PrincipePrincipe

Technique inspirée de la « RI » texte Technique inspirée de la « RI » texte Une image, ou une vidéo, … est décrite à l’aide d’un

ensemble de « mots visuels » Bag of Visual Words Premiers travaux

Josef Sivic and Andrew Zisserman Video Google: A text Josef Sivic and Andrew Zisserman. Video Google: A text retrieval approach to object matching in videos. ICCV, vol 2, pp. 1470–1477, Nice, France, 2003. (h // b k/ / bli i /h l/i d(http://www.robots.ox.ac.uk/~vgg/publications/html/index.html#tag2003)

Depuis de nombreux développementsD p m pp m Trois types de travaux sur ce modèle

Vision par ordinateur : points d’intérêt et descripteurs

M2PGI 15

p p p « RI » : Schéma de pondération de type TF.IDF Apprentissage pour la catégorisation d’objets et de scènes


Création d’un dictionnaire de « mots visuels » Création d un dictionnaire de « mots visuels » Détections de points d’intérêt

Caractérisation de chaque points d’intérêt par un vecteur de q p pcaractéristiques bas-niveau (cf chap. V)

Extractions de « mots visuels » par clustérisation dans l’espace des caractéristiquesdans l espace des caractéristiques Algorithme des K Moyennes (K plusieurs milliers)

Fig issue de : P Tirilly VFig. issue de : P. Tirilly , V. Claveau , P. Gros, A review of weighting schemes for bag of visual words image

M2PGI 16

retrieval, Rapport interne IRISA, PI 1927 – Avril 2009.


Algorithme des K-Means,

classification i é

Création du dictionnaire

non supervisée

Regroupement Illustration issue de :Yang, J., Jiang, Y., Hauptmann, A. G., and Ngo, C. 2007. Evaluating bag-of-visual-words

des points d’intérêt et

assignation au i l l

bag of visual words representations in scene classification. In Proceedings of the Int. Workshop on Workshop on Multimedia information

mot visuel le plus proche

M2PGI 17

on Multimedia information Retrieval, Augsburg, Germany, Sept. 24 - 29, 2007.

Occurrence des mots visuels


S hé d dé ti Schémas de pondération Cf : P. Tirilly , V. Claveau , P. Gros, A review of weighting

h f b f i l d i t i l R t schemes for bag of visual words image retrieval, Rapport interne IRISA, PI 1927 – Avril 2009. (https://www irisa fr/doccenter) (https://www.irisa.fr/doccenter)

Hypothèse d’indépendance des mots visuels mise en défaut défaut Plusieurs mots visuels pour définir un objet qui est une unité

sémantique forte de la scène Le nombre de mots visuels pour une scène est très lié à la

complexité de la scèneDiffi lté i t t d dèl

M2PGI 18

Difficulté importante du modèle.


S hé d dé ti Schémas de pondération PI-1927.pdfp Grande base d’images

Optimisation difficile des schémas de pondération Optimisation difficile des schémas de pondération car l’impact sur les performances en Rappel Precision est faible.

M2PGI 19

Hybridation texte + imageHybridation texte + image

H thè d lé t ité Hypothèse de complémentarité texte : sens Le texte permet de rendre plus fiable

l’i d ti I image : signal

Où prendre le texte ?

l’indexation « Image »

Où prendre le texte ? Dans les images : détection de zones

llimage

textuelles Dans des documents multimédia etc. Hypothèse :

Plus les mots sont proches de l ’image

M2PGI 20

Plus les mots sont proches de l image, plus ils sont en relation avec l ’image

Vers l’indexation sémantiqueVers l indexation sémantique Indexation sémantique Indexation sémantique

Le contenu du document est interprété : apport de connaissances explicitesapport de connaissances explicites Labellisation d’objets à partir des mots visuels

Segmentation en régions Regroupement en objets Segmentation en régions Regroupement en objets Labellisation

M2PGI 21

Vers l’indexation sémantiqueVers l indexation sémantique Segmentation en objets Segmentation en objets

Regroupement spatial des mots visuels

L Cao and L Fei Fei Spatially coherent latent topic

M2PGI 22

L. Cao and L. Fei-Fei. Spatially coherent latent topic model for concurrent object segmentation and classification . IEEE Intern. Conf. in Computer Vision (ICCV). 2007.

Vers l’indexation sémantiqueVers l indexation sémantique Extraction de concepts visuels Extraction de concepts visuels Définir une liste de concepts

Expériences psychophysiques Expériences psychophysiques État actuel des algorithmes

Approche ascendante Approche ascendante

é i C l i

Base de connaissance, Apprentissage

Représentation par « Objets Vis els »

Représentation par Concepts et RelationsApprentissage

Représentation par Caractéristiques « bas-niveau »

Représentation par « Objets Visuels »

M2PGI 23

Représentation par Caractéristiques « bas-niveau »

Vers l’indexation sémantiqueVers l indexation sémantique Labellisation

Apprentissage d’un classifieur Introduction de la sémantique à l’aide d’une q

hiérarchie de classes (wordnet) M. Marszalek, C. Schmid, « Semantic Hierarchies for Visual Object Recognition» IEEE Conf. on Computer Vision & Pattern RecognitionPattern Recognition -juin 2007

M2PGI 24

Vers l’indexation sémantiqueVers l indexation sémantique Labellisation Labellisation

Apprentissage d’un classifieur Introduction de la sémantique à l’aide d’une Introduction de la sémantique à l aide d une

hiérarchie de classes (wordnet) M. Marszalek, C. Schmid, 2007

M2PGI 25

Vers l’indexation sémantiqueVers l indexation sémantique Évaluation de la pertinence du concept Évaluation de la pertinence du concept

extrait du documentC’ t blè t C’est un problème ouvert : Comment estimer « wij » du concept j dans l’image i Contraste, Surface, Position, Eclatement, … martinet05model.pdf J. Martinet, Y. Chiaramella, P. Mulhem, A Model

for Weighting Image Objects in Home Photographs 14th Int Conf on Information and Photographs, 14th Int. Conf. on Information and Knowledge Management (CIKM'05), Bremen, Germany, pp760-767, 31 Oct. - 5 Nov., 2005

M2PGI 26

Germany, pp760 767, 31 Oct. 5 Nov., 2005

Mots clés visuelsMots clés visuels

E l ExemplesPeople: Face, Figure, Crowd, SkinPeople: Face, Figure, Crowd, Skin

Sky: Clear, Cloudy, Blue

G d Fl S d GGround: Floor, Sand, Grass

Water: Pool, Pond, Water

Foliage: Green, Floral, Branch

Mountain: Far, Rocky, y

Building: Old, City, Far

Interior: Wall Wooden China Fabric Light

M2PGI 27

Interior: Wall, Wooden, China, Fabric, Light

Exemple Exemple Mots clés visuels [Lim Muhlem 01] Mots-clés visuels [Lim, Muhlem,01] Indexation (couleur, textures, apprentissage)

Maj. Ciel

Maj. Montagne

Maj.Eau

M2PGI 28

Composition de l’imageComposition de l imageG h t l Graphe conceptuel Nœuds « concepts » et relation Hiérarchie de concepts Pondération : certitude et importance

Image: #IMG0232 Comp

CompCenter13 TouchTop Center22TouchLeft

Region: #1 Region: #2

OnTop

TouchTop

Touchesg g

Label Label Touches

Touches

M2PGI 29

Sky: #sky1 0.32 1.0 Mountain: #mountain1 0.32 0.5

Documents

IV. Indexation « Signal » vs « Sémantique Systèmes …...Gap sémantique (1/2) F é t l tè t f i t Fossé entre ce que le système peut faire et ce que l’utilisateur interprète