Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
IV. Indexation « Signal » vs « Sémantique « Sémantique
Les différents types d’information Les différents types d information Méta-données indépendantes du contenu
Exemples : format auteur date lieu Exemples : format, auteur, date, lieu, … Méta-données en rapport avec le contenu
Méta données dépendantes du contenu Méta-données dépendantes du contenu Contenu brut
Texte : chaînes de caractères Images, Son, Vidéo : extraction de « traits » bas
niveau Méta données décrivant le contenu Méta-données décrivant le contenu
Contenu sémantique Texte : mots -> sens (dictionnaire)
M2PGI 1
Image, Son, Vidéo : objet, contexte -> reconnaissance par apprentissage
Systèmes dédiésSystèmes dédiésPas de sémantique Pas de sémantique
Représentation du contenu à partir d’une té i ti d t itcaractérisation de traits
Voir par exemple : http://biometrie.online.fr Empreintes digitales : qqs dizaines d’octets par
minutie, Authentification : seuil d’acceptation : 10 i i minuties
Visages : graphes yeux, nez, bouche, oreilles, …., qqs 100 t ts im m i s fi bl100 octets par image, moins fiable
Logos, Tissus, …
M2PGI 2
Systèmes non dédiésSystèmes non dédiés Indexation « Signal » Indexation Signal
Le document est vu comme un ensemble de signaux La nature des signaux dépend du media La nature des signaux dépend du media Le processus d’indexation : à partir d’extracteur
« bas niveau »a n au Langage d’indexation : Couleur, Texture, Forme, Position
La requête devrait s’effectuer au même niveauq Système de première génération : Langage d’interrogation:
Couleur, Texture, Forme, Position (ex. QBIC – IBM Flickner et al 1995 )et al , 1995 )
Pas souhaitable : Contrainte, Expertise Utilisateur, … Proposer des modes d’interrogations plus naturels
M2PGI 3
Proposer des modes d interrogations plus naturels Requêtes implicites : Image-clés, mot-clés Requêtes explicites
Systèmes non dédiésSystèmes non dédiés Indexation « Signal » Indexation « Signal »
Modélisation « Système » Descripteurs : Distributions de caractéristiques « bas- Descripteurs : Distributions de caractéristiques « bas
niveau » Fonction d’appariement
l é d b Similarité entre distributions Par exemple pour la caractéristique de couleur : le
sujet voit une plage le système « voit » un sujet voit une plage , le système « voit » un histogramme de couleurs avec beaucoup de pixels dans l’intervalle « orange » et dans l’intervalle
bl « bleue » Évaluation : Performance médiocre (surtout en
précision : on récupère beaucoup de bruit)
M2PGI 4
précision : on récupère beaucoup de bruit) Ambiguïté sur la relation « signal » « sens »
Gap sémantique (1/2)Gap sémantique (1/2)F é t l tè t f i t Fossé entre ce que le système peut faire et ce que l’utilisateur interprète :
é Indexation au niveau « Signal » effectuée par le systèmeI t ét ti é ti d d t Interprétation sémantique des documents par l’utilisateur
M2PGI 5
Gap sémantique (1/2)Gap sémantique (1/2)C t l éd i ? Comment le réduire ? C’est Le challenge Les pistes :
Intégrer des éléments de perception visuelle, cognitifs, comportementaux comportementaux, …
Apprentissage pour passer du niveau « Signal » au niveau « Symbole »
Détection d’objets Labellisation des objets Utilisation de médias complémentaires
Texte Image Texte Image Bande Son Vidéo
Mise en place d’un dialogue efficace entre l’utilisateur et le
M2PGI 6
système
Indexation « Signal » : principes générauxprincipes généraux
Fig. issue de : P. Tirilly , V. Claveau P Gros A reviewClaveau , P. Gros, A review of weighting schemes for bag of visual words image retrieval, Rapport interne
M2PGI 7
IRISA, PI 1927 – Avril 2009.
Indexation « Signal » : principes générauxprincipes généraux
A p ti du c nt nu A partir du contenu Techniques de base
E i d é i i Extractions de caractéristiques Modélisation des distributions de ces
caractéristiquescaractéristiques Histogramme : approche discrète
Concept simple Paramétrage à fixer:
Nombre d’intervalles et largeur
Appariement Appariement Différence entre distributions (panel de mesures
disponibles)
M2PGI 8
p )
Indexation « Signal » : principes générauxprincipes généraux
Caractéristiques « bas niveau » Caractéristiques « bas niveau » Principales techniques
1 Caractéristiques globales 1. Caractéristiques globales Histogrammes de couleurs, d’orientations, …
Exemples : transp. suivantP d l l l l Perte de la localisation spatiale
Orientation locale dominante * PoidsOrientation locale dominante
0.01560
90
120
50
100
0.005
0.01
30150
150
200 210 330
180 0
M2PGI 950 100 150 200 250
250 240
270
300
Exemple de distributions chromatiqueschromatiques
M2PGI 10
Similarité « Couleur »Similarité « Couleur » Pas d’interprétation : uniquement des Pas d interprétation : uniquement des
ressemblances sur la composition chromatique des imagesdes images
M2PGI 11
Exemple de distributions d’orientationsd orientations
M2PGI 12
Similarité « Orientations »Similarité « Orientations »
Requête 4 premiers voisins
M2PGI 13
Indexation « Signal » : principes générauxprincipes généraux
Caractéristiques « bas niveau » Caractéristiques « bas niveau » Principales techniques
2 Caractéristiques locales
Actuellement les plus performantes
2. Caractéristiques locales Détections de points d’intérêt
Caractérisation de chaque points d’intérêt par un vecteur de caractéristiques bas niveaucaractéristiques bas-niveau
Extractions de « mots visuels » par clusterisation dans l’espace des caractéristiques
d l Histogramme : Occurrence des mots visuels Perte de la localisation spatiale … également Approche issue
de la RI “Texte” : Bag of visualBag of visual words
Illustration de Li Fei-Fei,
M2PGI 14
Illustration de Li Fei Fei, http://people.csail.mit.edu/torralba/shortCourseRLOC/
« Bag of Visual Words » : PrincipePrincipe
Technique inspirée de la « RI » texte Technique inspirée de la « RI » texte Une image, ou une vidéo, … est décrite à l’aide d’un
ensemble de « mots visuels » Bag of Visual Words Premiers travaux
Josef Sivic and Andrew Zisserman Video Google: A text Josef Sivic and Andrew Zisserman. Video Google: A text retrieval approach to object matching in videos. ICCV, vol 2, pp. 1470–1477, Nice, France, 2003. (h // b k/ / bli i /h l/i d(http://www.robots.ox.ac.uk/~vgg/publications/html/index.html#tag2003)
Depuis de nombreux développementsD p m pp m Trois types de travaux sur ce modèle
Vision par ordinateur : points d’intérêt et descripteurs
M2PGI 15
p p p « RI » : Schéma de pondération de type TF.IDF Apprentissage pour la catégorisation d’objets et de scènes
« Bag of Visual Words » : PrincipePrincipe
Création d’un dictionnaire de « mots visuels » Création d un dictionnaire de « mots visuels » Détections de points d’intérêt
Caractérisation de chaque points d’intérêt par un vecteur de q p pcaractéristiques bas-niveau (cf chap. V)
Extractions de « mots visuels » par clustérisation dans l’espace des caractéristiquesdans l espace des caractéristiques Algorithme des K Moyennes (K plusieurs milliers)
Fig issue de : P Tirilly VFig. issue de : P. Tirilly , V. Claveau , P. Gros, A review of weighting schemes for bag of visual words image
M2PGI 16
retrieval, Rapport interne IRISA, PI 1927 – Avril 2009.
« Bag of Visual Words » : PrincipePrincipe
Algorithme des K-Means,
classification i é
Création du dictionnaire
non supervisée
Regroupement Illustration issue de :Yang, J., Jiang, Y., Hauptmann, A. G., and Ngo, C. 2007. Evaluating bag-of-visual-words
des points d’intérêt et
assignation au i l l
bag of visual words representations in scene classification. In Proceedings of the Int. Workshop on Workshop on Multimedia information
mot visuel le plus proche
M2PGI 17
on Multimedia information Retrieval, Augsburg, Germany, Sept. 24 - 29, 2007.
Occurrence des mots visuels
« Bag of Visual Words » : PrincipePrincipe
S hé d dé ti Schémas de pondération Cf : P. Tirilly , V. Claveau , P. Gros, A review of weighting
h f b f i l d i t i l R t schemes for bag of visual words image retrieval, Rapport interne IRISA, PI 1927 – Avril 2009. (https://www irisa fr/doccenter) (https://www.irisa.fr/doccenter)
Hypothèse d’indépendance des mots visuels mise en défaut défaut Plusieurs mots visuels pour définir un objet qui est une unité
sémantique forte de la scène Le nombre de mots visuels pour une scène est très lié à la
complexité de la scèneDiffi lté i t t d dèl
M2PGI 18
Difficulté importante du modèle.
« Bag of Visual Words » : PrincipePrincipe
S hé d dé ti Schémas de pondération PI-1927.pdfp Grande base d’images
Optimisation difficile des schémas de pondération Optimisation difficile des schémas de pondération car l’impact sur les performances en Rappel Precision est faible.
M2PGI 19
Hybridation texte + imageHybridation texte + image
H thè d lé t ité Hypothèse de complémentarité texte : sens Le texte permet de rendre plus fiable
l’i d ti I image : signal
Où prendre le texte ?
l’indexation « Image »
Où prendre le texte ? Dans les images : détection de zones
llimage
textuelles Dans des documents multimédia etc. Hypothèse :
Plus les mots sont proches de l ’image
M2PGI 20
Plus les mots sont proches de l image, plus ils sont en relation avec l ’image
Vers l’indexation sémantiqueVers l indexation sémantique Indexation sémantique Indexation sémantique
Le contenu du document est interprété : apport de connaissances explicitesapport de connaissances explicites Labellisation d’objets à partir des mots visuels
Segmentation en régions Regroupement en objets Segmentation en régions Regroupement en objets Labellisation
M2PGI 21
Vers l’indexation sémantiqueVers l indexation sémantique Segmentation en objets Segmentation en objets
Regroupement spatial des mots visuels
L Cao and L Fei Fei Spatially coherent latent topic
M2PGI 22
L. Cao and L. Fei-Fei. Spatially coherent latent topic model for concurrent object segmentation and classification . IEEE Intern. Conf. in Computer Vision (ICCV). 2007.
Vers l’indexation sémantiqueVers l indexation sémantique Extraction de concepts visuels Extraction de concepts visuels Définir une liste de concepts
Expériences psychophysiques Expériences psychophysiques État actuel des algorithmes
Approche ascendante Approche ascendante
é i C l i
Base de connaissance, Apprentissage
Représentation par « Objets Vis els »
Représentation par Concepts et RelationsApprentissage
Représentation par Caractéristiques « bas-niveau »
Représentation par « Objets Visuels »
M2PGI 23
Représentation par Caractéristiques « bas-niveau »
Vers l’indexation sémantiqueVers l indexation sémantique Labellisation
Apprentissage d’un classifieur Introduction de la sémantique à l’aide d’une q
hiérarchie de classes (wordnet) M. Marszalek, C. Schmid, « Semantic Hierarchies for Visual Object Recognition» IEEE Conf. on Computer Vision & Pattern RecognitionPattern Recognition -juin 2007
M2PGI 24
Vers l’indexation sémantiqueVers l indexation sémantique Labellisation Labellisation
Apprentissage d’un classifieur Introduction de la sémantique à l’aide d’une Introduction de la sémantique à l aide d une
hiérarchie de classes (wordnet) M. Marszalek, C. Schmid, 2007
M2PGI 25
Vers l’indexation sémantiqueVers l indexation sémantique Évaluation de la pertinence du concept Évaluation de la pertinence du concept
extrait du documentC’ t blè t C’est un problème ouvert : Comment estimer « wij » du concept j dans l’image i Contraste, Surface, Position, Eclatement, … martinet05model.pdf J. Martinet, Y. Chiaramella, P. Mulhem, A Model
for Weighting Image Objects in Home Photographs 14th Int Conf on Information and Photographs, 14th Int. Conf. on Information and Knowledge Management (CIKM'05), Bremen, Germany, pp760-767, 31 Oct. - 5 Nov., 2005
M2PGI 26
Germany, pp760 767, 31 Oct. 5 Nov., 2005
Mots clés visuelsMots clés visuels
E l ExemplesPeople: Face, Figure, Crowd, SkinPeople: Face, Figure, Crowd, Skin
Sky: Clear, Cloudy, Blue
G d Fl S d GGround: Floor, Sand, Grass
Water: Pool, Pond, Water
Foliage: Green, Floral, Branch
Mountain: Far, Rocky, y
Building: Old, City, Far
Interior: Wall Wooden China Fabric Light
M2PGI 27
Interior: Wall, Wooden, China, Fabric, Light
Exemple Exemple Mots clés visuels [Lim Muhlem 01] Mots-clés visuels [Lim, Muhlem,01] Indexation (couleur, textures, apprentissage)
Maj. Ciel
Maj. Montagne
Maj.Eau
M2PGI 28
Composition de l’imageComposition de l imageG h t l Graphe conceptuel Nœuds « concepts » et relation Hiérarchie de concepts Pondération : certitude et importance
Image: #IMG0232 Comp
CompCenter13 TouchTop Center22TouchLeft
Region: #1 Region: #2
OnTop
TouchTop
Touchesg g
Label Label Touches
Touches
M2PGI 29
Sky: #sky1 0.32 1.0 Mountain: #mountain1 0.32 0.5