26
1 Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Curso de Doctorado: Procesado Multimedia Universidad Carlos III de Madrid Abril 2003 Indexado de Video 1. Introducción 2. Indexado de Video 3. Navegación sobre vídeo.

Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

1

Indexado y Exploración de Vídeo

Jesús Cid SueiroUniversidad Carlos III de Madrid

Curso de Doctorado: Procesado MultimediaUniversidad Carlos III de Madrid

Abril 2003

Indexado de Video

1. Introducción2. Indexado de Video3. Navegación sobre vídeo.

Page 2: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

2

Análisis por Contenidos de Documentos Multimedia

Motivación“So in only a few years, we will be able to save everything (no information will have to be thrown out) and the typical piece of information will never be looked at by a human being”

Extracción automática del contenido de un documento Multimedia

Indexación: Indispensable para garantizar un acceso y recuperación eficientesGeneración de resúmenes: Indispensable para exploración y navegación

Aplicaciones

ProducciónGestión de archivos audiovisualesVídeo bajo demandaSelección y filtrado para personalizaciónPresentaciones, actas de reunionesVigilancia ...

Page 3: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

3

Tipos de vídeosVideos

Programas de televisiónNoticias, deportes, documentales, coloquios (“talk-shows”)

PelículasDramas, comedias, misterios

Registros de reunionesConferencia, Video-teleconferencia, Trabajo en grupo

OtrosCámaras de vigilanciaGrabaciones personales

Cada tipo de vídeo tiene su propio “lenguaje audiovisual”.

Bases de Datos de Video

Peticiones:De un vídeo específico:

“Muéstrame “Mujeres al borde de un ataque de nervios””

De un segmento de vídeo:“Busca todos los videos en los queJohn Wayne aparece con una pistola” Requiere:

Identificar las películas en la que John Wayne aparece con una pistolaIdentificar los segmentos dentro de esas películas, en los que John Wayne aparece con una pistola

Page 4: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

4

Información en vídeo

ImagenLa interpretación automática de imágenes es una disciplina todavía poco desarrolladaSegmentación y clasificación en imágenes:

Brillo, contrasteTexturaFormas (presencia o ausencia de objetos predefinidos)

Audio Más sencillo que el vídeoA veces es el que determina las escenasVoz: identificación temática

TextoSubtítulos, títulos de crédito, etc

Estructura temporalPuede ser muy informativa del género del vídeo.

Estructura del Video

Estructura temporalCambios de escenaCambios de plano

Cortes, desvanecimientos, transparencias...

Movimiento de cámaraPanorámico, Zoom, cambio de perspectiva.

Movimiento de objetosTraslación, rotación

Estructura de la imagenObjetos

Posiciones absolutasPosiciones relativas

...

Page 5: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

5

Indexado de Video

1. Introducción2. Indexado de Vídeo3. Navegación sobre vídeo.

Indexación

Indexar: añadir metadatos.Metadatos: datos que describen a los datos.

Tipos:Por el actor:

ManualAutomática

Por el tipo de documento:De textoDe vozDe audioDe imágenesDe vídeo

Page 6: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

6

Indexación de video

1. Segmentación (“video parsing”):Por escenas (unidades temáticas): demasiado difícil

Detección de cambios de escena, desvanecimientos

Por planos (unidades con coherencia audiovisual): demasiado fina

Detección de movimientos de cámaraDetección de objetos en movimiento

2. Extracción de contenidos e indexado Alto nivel: demasiado difícilBajo nivel

3. Anotación

...

Segmentación por planos (“Shot Detection, SD”)

Actualmente, las técnicas de segmentación de vídeo suelen limitarse a segmentación por planosAlgoritmos

Locales: comparación entre píxeles o bloquesGlobales: comparación de histogramas

PrestacionesTiempo real sobre PC’s actualesLejos de un 100% de tasa de detección

Page 7: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

7

Cambios de plano

Una clasificación enhttp://www.ee.princeton.edu/~robjoyce/research/transitions/

Ejemplos:

Cambios abruptos

Detección (básica) de cambios abruptos:Medida de diferencia entre planos:

Suma de diferencias píxel a píxel. Diferencia del histograma de color

Debe ser tolerante con el movimiento de objetos

SDi = Σj|Hi(j)-Hi+1(j)|donde i es el número del cuadro y j el nivel de gris

Modificación del histograma de color

SDi = Σj((Hi(j)-Hi+1(j))2 / Hi+1(j))

Test χ 2

Selección de un umbral apropiado: es un aspecto críticoEj: la media de las diferencias cuadro a cuadro + un pequeño valor de tolerancia.

Page 8: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

8

Cambios graduales

Detección de cambios graduales:Tipos:

Desvanecimientos, encadenados, cortinas, …Técnica básica:

Dos umbrales:Tb : umbral de cambio abrupto de planoTs : umbral de cambio de plano gradual (potencial)

Sea d la medida de diferencia entre planos. SiSi d < Ts no hay cambioSi Tb < d cambio abruptoSi Ts < d < Tb acumula diferencias

» Si diferencia acumulada > Tb cambio gradual

También hay técnicas basadas en waveletsLos cambios graduales son muy difíciles de detectar

Falsa detección de planosCambios de iluminación

Normalización de imágenes antes de la detección de planos

1. Normalización: Ri’ = Ri / Sqrt( ΣiRi2 ), Gi’ = …, Bi’ = …

2. Cromaticidad1) ri’ = Ri’ / (Ri’ + Gi’ + Bi’)2) gi’ = Ri’ / (Ri’ + Gi’ + Bi’)

3. Histograma combinado de r y g : CHI (Chromaticity histogram image)

4. Reduce histograma combinado a 16x165. Calcula la 2D DCT6. Selecciona 36 valores significativos de la DCT7. Calcula distancias con esos valores

Page 9: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

9

Otros detectores de planos

Supresión de movimientoIdealmente, la distancia cuadro a cuadro debe ser

Próxima a cero si hay poca variación entre planosMucho más grande cuando hay cambios de plano

Sin embargo, dentro de un plano puede haber:Movimiento de objetos, de cámaras, y otros cambios.Hay que filtrar para eliminar estos efectos

Suelen basarse en detección de bordes

Movimiento de objetos

Detección:1. Conjetura objetos

Mediante segmentación basada en color y textura

2. Examina cambios de píxel cuadro a cuadro3. Clasifica el movimiento

TraslaciónRotaciónCreación o destrucciónExpansión o compresiónFusión o división

Page 10: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

10

Movimientos de cámara

Detección:1. Técnicas de flujo óptico: Análisis global

cuadro a cuadro de cambios en píxeles.2. Clasifica los patrones resultantes

Tendencia central Zoom outDestrucción equilibrada del exterior Zoom inDestrucción selectiva del exterior PanorámicaRotación y traslación acopladas (entre objetos)

Cambio de perspectiva

Estructura de cambios de plano

Detección:1. Crea un histograma de

color para cada imagen2. Segmenta en las

discontinuidades (cortes)3. Agrupa histogramas

representativos de cada plano

Identifica cortes de retorno a un plano anterior

4. Construye un grafo de transiciones temporales etiquetadas entre planos.

P1

P2

P6

P3

P4

P5 P7

Page 11: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

11

SD en vídeo comprimido (I)

Compresión de video

Cuadros I, P y B

Transformada2D

Q

Q-1

TransformadaInversa 2D

CodificadorV(k,l)

U(m,n)

CuantificadorAdaptativo

Predicción

Canal

Compensaciónde Movimiento

I BB B P B BPB II BB B P B BPB I

SD en vídeo comprimido (II)

Trabajan sobre DCT y Vectores de Movimiento (VM)DCT

Imágenes ILos coeficientes DC de la DCT son suficientes

Comparación histogramas CD-DCT eficaz y eficientePoca resolución temporal (dos imágenes I)

VMImágenes P y BExhiben grandes discontinuidades en los cambios de planoMuchos macro bloques I cambio de plano

PrestacionesSimilares a los que trabajan sobre vídeo originalEvitamos la decodificación

Page 12: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

12

Clasificación de planos

La estructura de cambios de plano está correlacionada con el género del vídeo.

Refleja las convenciones editoriales.

Algunas sub-estructuras son informativasCortes publicitarios frecuentes.Cortes periódicos entre los participantes en coloquiosCortes amplio-estrecho en programas deportivos.

Características de refuerzo en imágenes:Cabeza y hombros, tamaño de objetos, etc

Procesado Multi-modal

El video raramente aparece aislado:Pista de sonidoTítulos de créditoSubtítulos

Redundancia, pero también sinergia.Alguna información aparece solamente en una de las modalidades

El análisis de imágenes complementa el análisis de vídeo

Detección de carasReconocimiento de caracteres.

Page 13: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

13

Subtítulos

Diseñados para personas con limitaciones auditivasEstán débilmente sincronizados con el vídeo

Presentación en diferido: Simultaneidad con el videoPresentación en directo: Retardos significativos

Problemas frecuentes:Dos tipos

Texto perdidoErrores significativos

La corrección automática puede producir sinsentidos

Subtítulos

Diseñados para personas con limitaciones auditivasEstán débilmente sincronizados con el vídeo

Presentación en directo: Retardos significativos(No es el caso en diferido)

Problemas frecuentes (directo):Dos tipos

Texto perdidoErrores significativos

La corrección automática puede producirsinsentidos

Page 14: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

14

Alineando subtítulos

Voz y subtítulos son redundantes, pero:Cada uno contiene diferentes tipos de erroresCada uno proporciona información única.

La fusión puede mejorar la recuperación:Comienza con un alineamiento temporal groseroSincroniza en los puntos de coincidencia

El reconocimiento de voz proporciona ajuste temporal exacto

Utiliza las palabras de ambos como base para la recuperación

Aprende cómo ponderarlas a partir de datos de entrenamiento

Títulos de crédito

Los títulos de crédito pueden ser muy útilesNombres de locutoresNombres de eventosTítulos de programas, …

Su extracción puede ser un retoBaja resoluciónFondo variable

Algunos factores juegan a favor:Son absolutamente estables sobre múltiples cuadrosPosiciones y orientaciones estándar

Page 15: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

15

Segmentación de la narración

La segmentación precisa mejora la utilidadDemasiado fina es contra-naturalDemasiado larga pierde efectividad

Hay pistas para la segmentación múltiple(multimodal)

Cambio de género en la estructura plano a planoCambios de vocabulario en los textosAparición de títulos de créditoSintonías

Video OCR

Detección de áreas de textoBusca regiones horizontales, largas y delgadasIntegra regiones detectadas a lo largo de varios cuadros

Realza el texto extraídoMejora de contraste, Interpolación“Thinning”

OCR (Optical Character Recognition)Adaptado a la fuente, si se conoce

Page 16: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

16

Reconocimiento de caras

Segmentación de imágenes basada en la formaCara, hombros y pelo proporcionan pistas fuertes.

Seguimiento por varias imágenesMediante técnicas de flujo óptico

Selecciona la vista frontal más directaBasada en la posición de hombros y mejillas, por ejemplo

Extracción de características“Autocaras”: produce vectores de 16 elementos

Compara similitudes con caras de referencia.

Recuperación basada en la identidad

Reconocimiento de caras e identificación de locutores

Explotan información habitualmente disponible……pero requieren datos de entrenamiento

Los títulos de crédito suelen dar pistas útilesAunque confusas si hay errores OCR o ortografía múltiple

Subtítulos y recuperación de voz también ayudan…

…si se usan heurísticos específicos del géneroPor ej., los locutores suelen presentar previamente a los participantes

Page 17: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

17

Eventos en vídeo

Aparición (de un objeto en la escena)

Desaparición (de un objeto de la escena)

Entrada (de un objeto móvil en la escena)

Salida (de un objeto móvil de la escena)

Deposito (de un objeto inanimado en la escena)

Eliminación (de un objeto inanimado de la escena)

Movimiento (de un objeto que estaba en reposo)

Reposo (de un objeto que estaba en movimiento)

Depositario (un objeto móvil añade un objeto inanimado a la escena)

Supresor (un objeto móvil elimina un objeto inanimado de la escena)

Anotación de objetos de vídeo

Appearance 1. Head of track2. Indegree(V) > 0

1. Head of track2. Indegree(V) = 0

1. Head of track2. Indegree(V) = 1

1. Head of track2. Indegree(V) = 0

Adjacent to V-object with deposit tag

Adjacent from V-object with removal tag

1. Tail of stationary stem2. Head of moving stem1. Tail of moving stem2. Head of stationary stem

Disappearance

Entrance

Exit

Deposit

Removal

(Depositor)

(Remover)

Motion

Rest

1. Tail of track2. Outdegree(V) > 01. Head of track2. Indegree(V) = 01. Tail of track2. Outdegree(V) = 0

1. Tail of track2. Outdegree(V) = 0

1. Tail of track2. Outdegree(V) = 0

1. Tail of track2. Outdegree(V) = 1

Moving Stationary Unknown

V-object motion state

Page 18: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

18

Ejemplo de anotación

F0 F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14

Entrada Entrada

EntradaSalida

Salida

SalidaDepositario/depósito Eliminación/supresor

Movimiento Reposo Aparición Desaparición

Text Detection

Camera Motion

Face Detection

Scene Changes

WordRelevance

Audio Level

Integración de tecnologías

Page 19: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

19

Indexado de Video

1. Introducción2. Indexado de Vídeo3. Navegación sobre vídeo.

Interfaces para selección de video

Cada minuto de video contiene 1,800 cuadrosSe necesita “compactar”

Técnicas de compactaciónExtractos:

selección de cuadros o planos representativos

Resúmenes:de múltiples cuadros

Técnicas de representación:“Storyboard” Exposición de diapositivasPelícula completa...

Page 20: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

20

Extracción de cuadros clave

El primer cuadro de un plano es fácil de seleccionar

…pero puede no ser la mejor elección

Pistas específicas del género pueden ayudarFlujo óptico mínimo: imagen estática

Es un recurso narrativo del director para enfatizar

Detección de caras para entrevistasPresencia de títulos de crédito

Esto puede producir demasiados cuadrosLa agrupación de histogramas de color puede revelar duplicados.

Resumen automático (I)

Page 21: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

21

Resumen de Imágenes Fijas

Mosaico:Imágenes compuestas que capturan varias escenas y expresan un sentido espacial, temporal y/o de movimientoExplota metáforas familiares

Exposición temporal, exposición múltiple...

Resumen automático (III)

Mosaico

Page 22: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

22

Resumen automático (IV)

Micon (Motion Icon)

Representación sencilla de fronteras entre planos.Operaciones:

ExploraciónExtracción de cuadros (“slicing”)Extracción de un “sub-micon”

Storyboards y Diapositivas

Presentación de diapositivas(Dinámico)

1

Imagen 2

Imagen 3,etc.

Cuadro mostrado: 1

1 2 3

5

4

7

109

Storyboard(Estático)

6 8

11 12

Page 23: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

23

Storyboards

Disposición espacial de imágenes fijasLineal: describe la evolución temporal

Representaciones solapadas permiten mayor densidad

Grafos: permiten describir la estructura del videoPero dificulta la captura de relaciones temporales

Es una forma natural de equilibrar la visión panorámica con el detalle

Son fácilmente navegables a cualquier nivel de detalle

Compromiso entre detalle y complejidadLimitación del tamaño y resolución de la imagen

Story board

20 minutos de vídeo en 6 segundos...Enlaza todos los planos al mismo tiempoEl usuario puede centrarse (y seleccionar) planos de interés.

Page 24: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

24

Resumen estático

Previsualización en el navegador

Page 25: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

25

Diapositivas

Repaso a través de imágenes fijasA la tasa seleccionada por el usuario

Conserva espacio en pantallaPero es difícil procesar varios videos simultáneamente

Posibles variacionesTiempos de vida sensibles al contextoTransiciones entre cuadros alternativas (cortes, transparencias, …)

Estático vs. dinámico

Page 26: Indexado y Exploración de Vídeotsc.uc3m.es/~fdiaz/docencia/ProcesadoMultimedia/... · Indexado y Exploración de Vídeo Jesús Cid Sueiro Universidad Carlos III de Madrid Cursode

26

Extracción de fragmentoscompletos

Planos, unidos por cortes: “trailers” Es la técnica utilizada en promocionespublicitarias

Es difícil construir un extracto coherenteConstrucción a mano

Bases de Datos

Bases de videos:Digital Video Retrieval

http://www.itl.nist.gov/iaui/894.02/projects/dvColección de vídeos digitales

The Open Video Projecthttp://www.open-video.org/Repositorio de 1644 segmentos de vídeos digitales

Internet Moving Images Archive

http://www.archive.org/moviesColección de 956 vídeos MPEG-2

Bases de imágenesThe USC-SIPI Image Database

http://sipi.usc.edu/services/database/Database.htmlBase de Imágenes TIFF

Content based Image Retrieval

http://www.cs.washington.edu/research/imagedatabase/groundtruthImágenes jpg.

Computer Vision Laboratoryhttp:www.ien.it/iengf/is/vislib.htmlImágenes en formato .dat (?)

• La mayoría son de libre acceso