Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Percepción, Atención y Memoria.
1
TEMA 3. PROCESAMIENTO DE LA ESTRUCTURA ESPACIAL DE LA IMAGEN
1. Objetivos
2. Método de trabajo
3. Introducción
4. Análisis de la frecuencia espacial
4.1. Estímulos para estudiar la frecuencia espacial
4.2. Función de sensibilidad al contraste
4.3. Teorema de Fourier y procesamiento espacial de la imagen
4.4. Estudios empíricos en torno al papel de la FE y el teorema de Fourier
4.5. Codificación neural de la Frecuencia Espacial
5. El esbozo primario en bruto
5.1. Nivel computacional
5.2. Nivel algorítmico
5.3. Nivel de implementación
6. El esbozo primario completo
7. Bibliografía recomendada
8. Actividades
1. OBJETIVOS
Los objetivos del presente módulo de aprendizaje son los siguientes:
1) Comprender a qué hacemos referencia con la noción de procesamiento de la estructura
espacial de la imagen visual.
2) Entender el conjunto de términos asociados al análisis de la frecuencia espacial, así
como el papel que este parámetro de la luz tiene de cara a que el sistema visual adquiera
información sobre la disposición espacial de la luz en la imagen.
3) Analizar las implicaciones que tiene la Función de Sensibilidad al Contraste de cara a
conocer y predecir la respuesta del sistema visual a los cambios de intensidad luminosa del
entorno.
4) Conocer los mecanismos neurales implicados en la codificación de la estructura espacial
de la imagen.
5) Comprender y saber desarrollar los distintos aspectos contemplados por la teoría sobre
la visión de David Marr sobre las capacidades del sistema visual para determinar la estructura y
Percepción, Atención y Memoria.
2
composición de nuestro entorno a partir de los efectos que éste produce en términos de imágenes
visuales.
2. MÉTODO DE TRABAJO
El presente módulo de aprendizaje tiene un notable carácter teórico. Por ello, se
recomienda una primera lectura "on-line" especialmente pausada que permita captar la estructura
del módulo y la relación entre los distintos conceptos abordados (a este respecto, también se
considera muy oportuno la elaboración de un glosario de términos). Posteriormente, debe
realizarse un análisis detallado de una versión impresa del módulo repartida equitativamente (en
términos de tiempo de dedicación) entre las partes correspondientes al análisis de la frecuencia
espacial y la teoría de David Marr sobre el esbozo primario en bruto. No obstante, la preparación
de este apartado requiere indefectiblemente una comprensión completa del apartado anterior. Ello
se debe, básicamente a dos razones: por una parte, porque esta propuesta puede considerarse
una formalización teórica basada en muchos de los conceptos relacionados con el análisis de la
frecuencia espacial. De otra parte, porque debido a su formalización matemática, la teoría de D.
Marr puede constituir una de las partes de la asignatura más complejas, especialmente para
aquellos alumnos no excesivamente familiarizados con las matemáticas. Por ello, para la
preparación de esta parte se hace especialmente recomendable la consulta de otras fuentes
bibliográficas.
3. INTRODUCCIÓN
En general, los trabajos de Hubel y Wiesel (1965) sobre la selectividad de respuesta
celular de las neuronas de V1 (véase el apartado "La corteza visual estriada o primaria") pueden
considerarse el punto de partida de una serie de planteamientos teóricos sobre la percepción
visual basados en el análisis de características particulares del estímulo, un enfoque radicalmente
opuesto al de posiciones como, por ejemplo, la Gestalt (véase el apartado "Gestalt"). No obstante,
esta perspectiva y los hallazgos de los que partían no estaba exenta de críticas. Así, para algunos
autores la idea de que las células simples actúan como detectores de bordes o barras es
demasiado simplista. Asimismo, numerosos estudios han puesto de manifiesto que estas células
se activan ante una amplia variedad de estímulos, por lo que su respuesta no puede servir para
indicar inequivocamente la existencia de un determinado rasgo o característica en el estímulo.
Por ello, se desarrollaron otras perspectivas alternativas al planteamiento del análisis de
características que, si bien mantenían una postura analítica a la hora de entender el
procesamiento visual (basado en elementos componentes), propusieron que los campos
Percepción, Atención y Memoria.
3
receptivos de las células de V1están especializados en el análisis de una característica básica de
la luz y común a cualquier tipo de estímulo visual, independientemente de su complejidad: la
frecuencia espacial del contraste, un parámetro que especifica la “rapidez” con la que cambia la
iluminación en el estímulo.
4. ANALISIS DE LA FRECUENCIA ESPACIAL 4.1 Estímulos para estudiar la frecuencia espacial
La frecuencia espacial del contraste se ha estudiado mediante estímulos luminosos
simples denominados enrejados (del término inglés, “gratings”), consistentes en estímulos cuya
intensidad luminosa cambia de forma periódica a lo largo de toda su extensión (normalmente
medida en grados de ángulo visual). Los enrejados pueden ser enrejados sinusoidales, en los
cuales los cambios de intensidad tienen lugar de forma progresiva. Los enrejados sinusoidales se
definen fundamentalmente por cuatro aspectos: su frecuencia espacial (número de ciclos de
cambios de luminancia a lo largo del enrejado), la orientación de las distintas áreas luminosas con
respecto a la vertical del campo visual, la amplitud (diferencia entre los puntos más y menos
luminosos del estímulo) y la fase, es decir, la posición de cada punto luminoso con respecto a un
punto de referencia arbitrario, siendo los 0º el punto de inicio del patrón sinusoidal (ver figura 1).
Por su parte, en los enrejados de onda cuadrada, los cambios de intensidad luminosa están
perfectamente definidos (ver figura 2 y figura 3).
Percepción, Atención y Memoria.
4
4.2 Función de sensibilidad al contraste
La detección del contraste está relacionada especialmente con la frecuencia espacial. Así,
la relación psicofísica entre ambos aspectos se refleja en lo que se conoce como función de sensibilidad al contraste (FSC). Esta función indica cuál es el contraste necesario para detectar
un estímulo cuya frecuencia espacial varía periódicamente en cada especie animal (ver figura 4) y
en cada momento evolutivo (ver figura 5). En definitiva, la FSC describe la capacidad del sistema
Percepción, Atención y Memoria.
5
visual y permite predecir la sensibilidad de éste a un estímulo determinado (ver figura 6). La FSC
también permite conocer los motivos por los que se producen determinados efectos perceptivos.
Percepción, Atención y Memoria.
6
4.3 Teorema de Fourier y procesamiento espacial de la imagen
Los distintos modelos interesados en el papel que tiene el análisis inicial de los distintos
valores de intensidad luminosa en la imagen visual dependen estrechamente de los estudios
realizados por el físico y matemático francés J. B. Fourier (1768-1830). Este autor demostró que
Percepción, Atención y Memoria.
7
toda función puede expresarse como la suma de una serie de funciones sinusoidales con unas
determinadas características de amplitud, frecuencia, fase, etc. Concretamente, en el caso de
funciones periódicas, existe un componente con una frecuencia fundamental (primer armónico) y
una serie de componentes -armónicos - cuya frecuencia se corresponde con la de sus múltiplos
enteros impares (tercer, quinto armónico...) (ver figura 7).
La transformación de Fourier permite tanto determinar las características de cada función
sinusoidal como sintetizar la función original a partir de sus componentes sinusoidales. Una de las
aplicaciones más útiles de esta transformación es que permite considerar cualquier enrejado
cuadrado (un patrón de cambio luminoso periódico) como la suma de una onda sinusoidal
fundamental y un número infinito de armónicos. Es más, la aplicación de las ideas de Fourier al
análisis de la imagen visual bidimensional permite considerar que ésta se puede descomponer en
la suma de un conjunto de patrones de bandas sinusoidales que difieren en frecuencia espacial,
orientación, amplitud y fase (ver figura 8 y figura 9).
Percepción, Atención y Memoria.
8
De estos planteamientos se deriva la hipótesis de que el análisis visual tiene lugar por
elementos receptores que responden específicamente a los valores concretos de dichos
parámetros luminosos sinusoidales. Es decir, que las distintas unidades que forman el sistema
visual podrían responder de manera específica a los diversos componentes sinusoidales que son
en sí la imagen visual (modelos multicanal). Alternativamente, otros planteamientos consideran
que el sistema visual humano actúa como un único sistema cuyo funcionamiento se describe
básicamente mediante la FSC (modelos unicanal). De acuerdo con esta perspectiva, la imagen
visual es una versión borrosa de la imagen original en la que los objetos de tamaño medio resultan
menos “distorsionados” que los grandes o los pequeños
4.4 Estudios empíricos en torno al papel de la FE y el teorema de Fourier
Campbell y sus colaboradores fueron los primeros defensores del modelo multicanal,
fundamentalmente sobre la base de los resultados obtenidos en trabajos de adaptación selectiva a la frecuencia espacial. Así, Campbell y Robson (1969) hallaron que la presentación de
estímulos enrejados sinusoidales con una determinada frecuencia espacial durante intervalos
temporales en torno a los dos minutos disminuía específicamente la sensibilidad a estímulos con
una frecuencia espacial próxima a la del estímulo expuesto previamente. Resultados similares en
torno al papel de la frecuencia espacial también se han obtenido en estudios de enmascaramiento (un estímulo de una determinada frecuencia espacial afecta al umbral de
Percepción, Atención y Memoria.
9
contraste de un estímulo de prueba presentado anterior, posterior o simultáneamente), así como
en estudios de suma sub-umbral, donde se halla que la presentación de un estímulo por debajo
del umbral afecta al umbral de contraste de otro estímulo presentado superpuesto espacialmente.
Una de las pruebas más sólidas de que el sistema visual procesa selectivamente los
diferentes valores de frecuencia espacial del estímulo es el trabajo de Campbell y Robson (1968).
Estos autores hallaron que los participantes de su estudio eran incapaces de diferenciar un
estímulo enrejado sinusoidal de otro cuadrado cuando la frecuencia fundamental de éste era
elevada (por ejemplo, 28 c/g.a.v. - véase figura 10). Sin embargo, cuando la frecuencia
fundamental era baja (por ejemplo, 2º c/ g.a.v.), sí podían discriminar entre ambos enrejados.
Según estos resultados, los observadores no son sensibles a ninguno de los armónicos del
estímulo enrejado cuadrado de frecuencia espacial elevada, por lo cual lo percibían igual que el
enrejado sinusoidal con una frecuencia fundamental idéntica. Sin embargo, la discriminación sí fue
posible en el caso de enrejados cuadrados de menor frecuencia.
Los estudios de detección y discriminación de estímulos enrejados sinusoidales vs
cuadrados realizados por Graham y Nachmias (1971) arrojaron resultados similares a los de
Campbell y Robson (1968) y, por tanto, acordes con la propuesta del análisis visual basado en la
frecuencia espacial (modelos multicanal). Graham y Nachmias (1971) evaluaron esta idea
presentando a los sujetos pares de estímulos enrejados cuyos componentes eran idénticos en
Percepción, Atención y Memoria.
10
términos de frecuencia espacial pero en un caso, ambos componentes estaban desfasados (el
desfase entre dos componentes sinusoidales se traduce en una reducción de la amplitud del
estímulo resultante equivalente a la diferencia en la amplitud entre ambos - véase figura 11 y
figura 12). Sin embargo, los sujetos detectaban igualmente ambos estímulos complejos, lo cual
demuestra que el sistema visual responde selectivamente a los componentes específicos de
frecuencia espacial del estímulo. No obstante, este resultado es válido sólo cuando se emplean
estímulos enrejados elaborados con componentes sinusoidales a nivel de umbral de contraste. En
otras palabras, cuando el contraste está bien por encima del nivel umbral (son perfectamente
detectables los cambios de intensidad luminosa), la fase de los enrejados influye en la detección
y, por tanto, los dos enrejados complejos presentados a los observadores se perciben distintos.
Percepción, Atención y Memoria.
11
4.5 Codificación neural de la Frecuencia Espacial
La respuesta selectiva a la frecuencia espacial parece estar basada en diferentes
mecanismos neuronales. Inicialmente, la estructura concéntrica de los campos receptivos de las
células ganglionares y, en concreto, aspectos como su tamaño, podrían ser características
capaces de explicar la respuesta selectiva del sistema visual a las frecuencias espaciales. Así, es
de esperar que una célula ganglionar de centro “on” se active enérgicamente si esta parte del
campo receptivo coincide con la parte clara de un enrejado (ver figura 13). Sin embargo, estas
células no son sensibles a la orientación, por lo que no parece que puedan codificar la estructura
espacial de la imagen retiniana.
La codificación selectiva de diferentes frecuencias espaciales con una determinada
orientación espacial parece relacionada principalmente con la actividad de las células de V1. Así,
de Valois, Albrecht y Thorell (1982) demostraron la existencia de células simples y complejas en
V1 que responden selectivamente a frecuencias espaciales altas, mientras que otras células están
“afinadas” específicamente a frecuencias espaciales bajas. Estos autores también hallaron que la
respuesta de estas células depende también del grado específico de orientación de los estímulos
enrejados. Es más, la respuesta de estas células depende conjuntamente de los valores de
frecuencia espacial y de orientación del enrejado, lo cual es acorde con la demostración
psicofísica de que la respuesta a la frecuencia espacial tiene lugar en un rango limitado de
orientaciones.
Percepción, Atención y Memoria.
12
De acuerdo con numerosos investigadores, la actividad de las células simples se puede
comparar con la de canales o filtros localizados que responden selectivamente en función de la
frecuencia espacial y la orientación (véase el apartado "Macroestructura celular de V1"). De
acuerdo con esta propuesta, el sistema visual obtiene información en cada localización acerca de
los aspectos espaciales de la imagen. Más concretamente, las neuronas selectivas a frecuencias
espaciales bajas detectarán la estructura general, mientras que las que responden a frecuencias
espaciales elevadas codificarán la estructura fina (detalles). Por tanto, es posible pensar que este
tipo de células estaría implicado en los primeros niveles de análisis espacial del estimulo y, por
tanto, en los procesos encaminados al procesamiento de la forma.
5. EL ESBOZO PRIMARIO EN BRUTO
De acuerdo con D. Marr, el procesamiento visual comienza con el análisis de la intensidad
y composición espectral de la luz reflejada por los objetos y superficies de la escena visual que
dan lugar a la imagen retiniana. El objetivo de ello es elaborar una descripción de la escena visual
que represente las estructuras y superficies de la misma, así como su orientación y distancia del
observador (estructura de la imagen). La elaboración de esta representación se basa
estrechamente en el hecho de que las discontinuidades en los objetos y/o en las superficies
(contornos) se reflejan en cambios de la intensidad y composición espectral de la luz en la imagen
retiniana. No obstante, en la imagen retiniana también hay cambios luminosos debidos la diferente
Percepción, Atención y Memoria.
13
textura de los objetos observados, a su orientación con respecto a la fuente luminosa, etc. Por
ello, Marr considera que la identificación de la estructura espacial de las escenas naturales a partir
de la imagen retiniana implica dos fases:
- en la primera, se forma una representación de los cambios significativos de intensidad
luminosa en la imagen retiniana, denominada esbozo primario bruto (del inglés, “raw primal
sketch” - ver la figura 14).
- la segunda fase, el esbozo primario completo (del inglés, “full primal sketch”) se apoya en
la información incluida en el esbozo primario bruto para especificar los bordes y las
discontinuidades en las superficies, sus orientaciones, localizaciones, contraste, etc.
5.1 Nivel computacional
El esbozo primario bruto especifica dónde tienen lugar los cambios significativos de
intensidad en la imagen, es decir, los producidos por objetos, superficies y sus propiedades (como
la textura o los límites entre objetos), sin incluir los cambios de intensidad luminosa irrelevantes
(e.g. los debidos a fluctuaciones momentáneas de la luz reflejada por los objetos - ver figura 14).
Un modo de lograr este objetivo consiste en reducir el rango de valores de intensidad
luminosa de la imagen con el fin de atenuar las diferencias de intensidad luminosa irrelevantes
con respecto a las correspondientes a características prominentes de la imagen.
Percepción, Atención y Memoria.
14
Esta atenuación, equivalente a un filtrado de las frecuencias espaciales altas (eliminación
de los pequeños cambios de intensidad luminosa), se puede llevar a cabo, por ejemplo,
sustituyendo el valor de intensidad luminosa de cada punto de la imagen por el valor promedio de
un conjunto de puntos cercanos.
Sin embargo, dado que en la escena visual se producen cambios de intensidad luminosa a
diferentes escalas (es decir, de distinta magnitud) para poder reflejar todos los cambios de
intensidad relevantes en la escena, la elaboración del esbozo primario bruto implica el
procesamiento en paralelo de varias representaciones de la imagen con diferentes niveles de
filtrado de frecuencia espacial.
5.2 nivel algoritmico
Percepción, Atención y Memoria.
15
Percepción, Atención y Memoria.
16
5.3 nivel de implementación
Percepción, Atención y Memoria.
17
6. EL ESBOZO PRIMARIO COMPLETO
Tras la especificación de las diferentes primitivas en el esbozo primario bruto (segmentos
de borde, terminaciones, barras y manchas), extraídas a partir de los diferentes niveles de
intensidad luminosa existentes en la imagen retiniana, el sistema visual organiza estas primitivas
en conjuntos de mayor envergadura que ofrezcan información acerca de estructuras globales,
estructuras internas y texturas de la superficie. Esta información conformará el esbozo primario
completo, y su elaboración está íntimamente relacionada con lo que se denomina organización
perceptiva.
7. BIBLIOGRAFÍA RECOMENDADA
Para la preparación del presente módulo de aprendizaje se recomiendan las siguientes
referencias blibliográficas:
Aznar, J. A. (1999). Percepción del contraste: procesamiento de bajo nivel. En E. Munar, J.
Roselló y A. Sánchez-Cabaco (Eds.) Atención y Percepción (pp. 267-300). Madrid: Alianza.
Ballesteros, S. (1997). Psicología general. Un enfoque cognitivo. (2º Ed.).Madrid:
Universitas. Capítulo 14.
Bruce, V., Green, P., y Georgeson, M. A. (1997). Visual perception: Physiology, psychology
and ecology. (3ª Ed.). Hove: Psychology Press. (Capítulos 4 y 5).
Lillo Jover, J. (1993). Psicología de la percepción. Madrid: Debate. Capítulo 5
Matlin, M. W., y Foley, H. J. (1996). Sensación y percepción (3ª Ed.). Mexico: Prentice-Hall.
Capítulo 5.
Monserrat, J. (1998). La percepción visual: La arquitectura del psiquismo desde el enfoque
de la percepción visual. Madrid: Biblioteca Nueva. Capítulo V.
Palmer, S. E. (1999). Vision science: Photons to phenomenology. MA: MIT Press. Capítulo
4.
Sierra-Vazquez, V. (1992). Procesamiento visual inicial: aspectos biológicos, psicofísicos y
computacionales del análisis espacial de imágenes por el sistema visual humano. En J. Mayor y J.
L. Pinillos (Eds.) Tratado de Psicología General. Vol. 3. Atención y Percepción. (pp. 163-322).
Madrid. Alhambra Longman.
Tudela, P. (1988). Psicología Experimental. Madrid: U.N.E.D. Capítulo VIII.