Fonética, percepción de las vocales y consonantes

FONÉTICA Y FONOLOGÍA DE LA LENGUA ESPAÑOLA

FFOONNÉÉTTIICCAA PPEERRCCEEPPTTIIVVAA -- AADDDDEENNDDAA

Victoria Marrero

Dpto. Lengua Española y Lingüística GeneralFacultad de Filología

Universidad Nacional de Educación a Distancia

2

FONÉTICA PERCEPTIVA – ADDENDA

Quedan rigurosamente prohibidas, sin la autorización escritade los titulares del “Copyright”, bajo las sanciones establecidas en las leyes,la reproducción total o parcial de esta obra por cualquier medio o procedimiento,comprendidos la reprografía y el tratamiento informático, y la distribuciónde ejemplares de ella mediante alquiler o préstamo públicos

Victoria MarreroUNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIADepósito legal: M- -2001

3

FONÉTICA Y FONOLOGÍA DE LA LENGUA ESPAÑOLA

FONÉTICA PERCEPTIVA – ADDENDA

Índice

TEMA 1. INTRODUCCIÓN................................................................................. 41.1. La descodificación del habla .................................................................. 41.2. Tareas y etapas en la descodificación lingüística .................................... 51.3. Las características del habla y la descodificación ................................... 61.4. Relaciones entre percepción y producción.............................................. 14

TEMA 2. LA AUDICIÓN ................................................................................... 162.1. Introducción .......................................................................................... 162.2. Anatomía y fisiología del sistema auditivo............................................. 162.3. Psicoacústica ......................................................................................... 28

TEMA 3. PERCEPCIÓN Y COMPRENSIÓN ...................................................... 333.1. Introducción.......................................................................................... 333.2. Modelos de percepción del habla ........................................................... 363.3. Comprensión ......................................................................................... 39

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIÓN........... 444.1. Introducción .......................................................................................... 444.2. La percepción de las vocales.................................................................. 474.3. La percepción de las consonantes........................................................... 494.4. La sílaba como unidad perceptiva .......................................................... 504.5. La percepción del acento ....................................................................... 524.6. La percepción de la entonación .............................................................. 53

BIBLIOGRAFÍA................................................................................................... 55

TEMA 1. INTRODUCCIÓN_____________________________________________________

4

TEMA 1. INTRODUCCIÓN

1.1. LA DESCODIFICACIÓN DEL HABLA

La esencia de la comunicación verbal es la transmisión de una información (o una intencióncomunicativa) desde el cerebro del hablante al cerebro del oyente por medio de la señal hablada.Para ello, como sabemos, es necesaria la participación de numerosos elementos. La fonéticaarticulatoria se ocupa de algunos de los que intervienen en la formación de los sonidos1; la fonéticaacústica analiza su transmisión por medio de la onda sonora; la fonética perceptiva2 tiene comometa estudiar cómo la señal que entra en el oído del receptor se convierte en un mensaje lingüístico.

En general, la percepción se define como la experiencia producida a partir de una estimulación delos sentidos (Goldstein, 1992); nos centraremos aquí en lo que ocurre cuando el sentido estimuladoes el oído, y el estímulo es el habla.

Especialmente influyentes en la investigación sobre percepción del habla han sido los estudios sobre lavisión, un sistema sensorial paralelo, desarrollados por David Marr3.

El paradigma actual que posiblemente más incide en las relaciones entre visión y descodificaciónauditiva es el Modelo de Percepción de Lógica Difusa (Fuzzy Logical Model of Perception), desarrollado alo largo de los últimos años por Dominic Massaro (Massaro, 1998). Su base metodológica es la percepciónbimodal (también llamada “efecto McGurk”, en honor a uno de sus descubridores), en la cual visualmentese nos presenta un estímulo, y auditivamente otro. Por ejemplo, sobre una cinta de video en la que se ve auna persona emitiendo /pa-pa/, se sustituye la banda sonora por /na-na/. Los sujetos perciben /ma-ma/,tomando rasgos del estímulo auditivo (la nasalidad) y rasgos del estímulo visual (el lugar de articulación).El autor interpreta este tipo de resultados como prueba de que la percepción del habla es una forma más dereconocimiento de modelos, cuyos principios de funcionamiento actúan de la misma forma sea cual sea elestímulo, y el sistema sensorial estimulado. Se trataría de un principio universal, según el cual los sereshumanos integramos la información desde todas las fuentes disponibles (visual , auditiva, olfativa, táctil...),para construir algoritmos óptimos que nos permitan construir y percibir categorías. Si una de las fuentes deinformación nos ofrece datos ambiguos, la otra tomará un papel preponderante para nuestra decisión sobrela naturaleza del estímulo. En la obra citada se recogen datos de niños, comparados con jóvenes y ancianos,hablantes de distintas lenguas, y ante diferentes tareas: en todos los casos, se considera que varía lacapacidad para obtener información, pero no su procesamiento.

Sin embargo, el mismo “efecto McGurk” ha sido interpretado en sentido contrario por Liberman y Mattingly: sería unaprueba más de la existencia de un módulo específicamente lingüístico (y no auditivo), y por tanto compatible concualquier sentido desde donde pueda llegar la información.

La descodificación del mensaje puede parecernos un proceso muy sencillo: oímos los sonidos talcomo se pronuncian; hay una relación directa entre el estímulo y la percepción, de modo queasignamos directamente la información semántica a la señal acústica. Sin embargo, ciertasexperiencias de nuestra vida cotidiana pueden hacernos ver algunas de las dificultades inherentes aesa operación: ante una lengua desconocida y lejana ¿dónde se establecen las fronteras entre

1 Aunque no suele aludir al proceso cognitivo previo que subyace o antecede a los movimientos articulatorios.2 También denominada auditiva. En cuanto a la terminología, preferimos el calificativo anterior, porque es más amplio(la audición es un mecanismo más específico que la percepción); pero, como se verá más adelante, necesitamos untérmino aún más comprehensivo, que englobe los procesos de audición, percepción y comprensión: la descodificación.3 Sobre las influencias de Marr en los estudios sobre el habla y la audición puede consultarse el primer capítulo deCooke, 1993.


5

palabras? ¿Qué nos indican las pausas? ¿Qué características de ese continuo que llega a nuestrosoídos son particulares del locutor, y cuáles son generales? ¿Cuáles están ligadas a ese hechoconcreto de habla, y cambiarían ante un ritmo más lento, o ante una situación diferente?

Realmente, no estamos ante una simple traslación, sino ante una actividad compleja, tanto desde elpunto de vista fisiológico (la onda sonora ha de pasar del aire a un medio líquido, para luegoconvertirse en estimulación eléctrica) como cognitivo (implica la toma de decisiones, lacomparación entre una señal entrante y otras almacenadas en la memoria).

El receptor, al que tradicionalmente se asignaba un papel pasivo -tan acorde con ese término- tieneque participar activamente en el proceso, extrayendo unidades de un continuo fónico. Para lograrlo,dispone de datos provenientes de la señal, tanto de sus características intrínsecas como delcontexto, al que tiene que atender, puesto que el significado de la señal varía según los valores deelementos vecinos. Pero también utiliza información previa, independiente de la señal, almacenadaen su memoria, de carácter lingüístico, y también enciclopédico (su conocimiento del mundo).Todo ello le permite generar expectativas sobre el mensaje, anticiparse a él, completarlo,compensar los ruidos -en un sentido amplio- que puedan haberla distorsionado.

En su origen, en los años 50, las investigaciones en percepción del habla tomaron como punto departida la hipótesis de la relación directa entre señal acústica y fonema. Los estudios iniciados enlos laboratorios Bell y en los laboratorios Haskins (en ambos casos con fines aplicados) teníancomo meta identificar los rasgos invariables que caracterizaban a cada uno de los fonemas. Paraconseguirlo, Delattre, Liberman y Cooper utilizaron como metodología el habla sintética,comenzando por secuencias oclusiva-vocal. Pronto se dieron cuenta de que la tarea no sería nadafácil: no había nada en el espectro de /p/ que claramente lo diferenciara de /t/ o /k/4; para colmo, elmismo estímulo (una banda de ruido) podía ser identificado como unidades diferentes según lavocal que le siguiera ([pi], [ka], [pu]); los efectos del contexto y la coarticulación, dieron lugar a lateoría del locus (Quilis, 1999: 208-211). Esa “inmensa diferencia entre la señal física acústica, porun lado, y el mundo perceptivo-cognitivo, por otro” (Handel, 1993: 265) llevó a Liberman aconsiderar invariable no la onda sonora, sino los movimientos articulatorios que la generaron: deahí surgió la teoría motora de la percepción del habla. Otros buscaron la invariabilidad en losniveles superiores de procesamiento de la señal: en el cerebro. Volveremos más adelante sobre ello.

1.2. TAREAS Y ETAPAS EN LA DESCODIFICACIÓN LINGÜÍSTICA

El oyente que intenta comprender un mensaje lingüístico ha de realizar, fundamentalmente, trestipos de tareas: en primer lugar, la segmentación, dividir el continuo sonoro en unidades discretas.Para conseguirlo parece imprescindible acumular una serie de conocimientos sobre la organizaciónsegmental y suprasegmental de la propia lengua, algo que en el niño sucede a lo largo del primeraño de vida5, a pesar de que el habla dirigida a él apenas contiene un 20% de emisiones aisladas.

Más aún: el niño ha de almacenar un patrón de sonidos que le permita reconocer las unidades endiferentes contextos, admitiendo al mismo tiempo el grado de variabilidad necesario para seguiridentificando la unidad a pesar de ser emitida por diferentes hablantes, a diferentes velocidades, ocon distintas entonaciones: es la normalización

4 Experimentos posteriores matizaron esta interpretación; cfr. 4.3.5 Entre los 6 y 7 meses de edad parece que los bebés ya son capaces de reconocer una palabra que han aprendido deforma aislada si la encuentra en discurso continuado (Jusczyk, 1997: 99). Las estrategias que siguen para segmentarpalabras son dependientes de la lengua: en inglés, como el acento es fijo, la aparición de sílaba tónica es indicio decomienzo de palabra (estrategia de segmentación métrica); a partir de ahí consiguen extraer regularidades fonotácticasy alofónicas que se convertirán, a partir de los 10 –11 meses, en una nueva fuente de conocimiento.


6

E igualmente importante es llegar a agrupar esos elementos aislados (que no coinciden con elfonema del adulto, sino que son unidades más amplias) en sintagmas y oraciones: la agrupación.

Todo ello sucede en tres etapas sucesivas. La primera fase de la descodificación es la conversión dela onda sonora del habla en modelos de activación de las fibras del nervio auditivo: se trata de unmecanismo pasivo y automático (no interviene en él la voluntad del sujeto), bastante conocido en laactualidad, que nos permite discriminar sonidos: la audición.

En un segundo momento, esas representaciones neurológicas son convertidas en unidadeslingüísticas, son segmentadas, clasificadas y categorizadas por el sistema nervioso central delsujeto, que toma un papel activo: es la percepción. Los mecanismos mediante los cuales se llevan acabo estas operaciones se conocen mucho menos: desde un punto de vista psicolingüístico se hablade procesos (Belinchón, Rivière e Igoa, 1992; Berko y Bernstein, 1999); desde un punto de vistaneuropsicolingüístico se habla de activación de áreas cerebrales (Caplan, Manning...).

El último paso concierne a la interpretación de los mensajes, a la asignación de contenidogramatical, semántico y conceptual: se trata de la comprensión6 que tiene lugar, según una visiónclásica, en el eje “vertical”: flujo de-abajo-a-arriba (los que parten de la señal, y van extrayendo yabstrayendo información que se transmite hacia niveles superiores) o de-arriba-abajo (restriccionesgramaticales y de significado, estrategias de anticipación, de reposición de la señal, etc., muyligadas a procesos atencionales, cuyo fin es optimizar la descodificación de la señal). En propuestasmás recientes, como los modelos conexionistas, se concibe la comprensión como un fenómenomúltiple, en el que los distintos niveles interactúan simultáneamente en varias direcciones.

La mayoría de los autores aúnan los procesos de comprensión y los de percepción bajo la etiquetaúnica de percepción, empleada con frecuencia como “archilexema”, en referencia al conjunto deprocesos que intervienen en la descodificación.

El mecanismo que nos permite determinar si dos estímulos son iguales o diferentes es puramenteauditivo. El proceso mediante el cual identificamos esos estímulos como la vocal [i] o la vocal [e]es perceptivo. La diferencia entre uno y otro es considerable: en el primero priman lascaracterísticas físicas de la señal; en el segundo es necesario el concurso de unos modelos mentalesde /i/ y de /e/ que nos permitan tomar una decisión. Bebés con pocos meses de vida son capaces delo primero, pero tardan uno o dos años en acceder a lo segundo: nacemos, al parecer, con unacapacidad general para el lenguaje que nos proporciona los medios necesarios para discriminar losposibles contrastes fonéticos en cualquiera de las lenguas del mundo; desde el nacimiento -inclusoantes, durante el periodo prenatal- la experiencia va reduciendo esas posibilidades para limitarlas alas más frecuentes en el entorno del niño, en su lengua materna. De esta manera, a los 8 o 10 mesesel bebé pierde sensibilidad para contrastes que detectaba con semanas de vida, pero eran ajenos a lalengua de su entorno, y se van modificando los límites iniciales entre las categorías, para ajustarlosa los estímulos que el niño oye con frecuencia (Jusczyk, 1997): se están construyendo losmecanismos de percepción - que posteriormente darán lugar a los de comprensión- a los que se iránsupeditando los de audición.

1.3. LAS CARACTERÍSTICAS DEL HABLA Y LA DESCODIFICACIÓN

El mensaje hablado presenta propiedades que dificultan su descodificación, y otras que la facilitan.Las principales dificultades se relacionan con el concepto de variabilidad: la falta de

6 Aunque aquí la presentemos de forma tan simplificada, la noción de comprensión es polisémica, y alude a procesosmuy distintos: comprender palabras es comparar y asociar estímulos externos con patrones internos, es un procesoparadigmático; comprender oraciones es combinar elementos, pertenece al eje sintagmático. Cfr. Belinchón, Rivière eIgoa, 1992: 363-370.


7

correspondencia entre unidades lingüísticas y rasgos físicos de la onda sonora. Sin embargo, otrascaracterísticas, como la redundancia, contribuyen a allanar las tareas que el oyente ha de llevar acabo para desentrañar el mensaje: segmentación, normalización, etc.

1.3.1. La variabilidadHay muchos factores que inciden en la falta de correspondencia unívoca entre señal física y unidadlingüística. Algunos de los más importantes son los efectos del contexto, las características dellocutor, y el ritmo o tasa de habla.

1.3.1.1. Coarticulación y otros efectos del contexto.

En el continuo sonoro del habla, las influencias de unos sonidos sobre los adyacentes pueden irdesde un enmascaramiento total hasta leves variaciones de timbre. Los manuales de fonética yfonología están llenos de ejemplos. Algunos son sistemáticos:

• la nasalización de vocales entre dos consonantes nasales, o entre pausa y nasal;• la aparición de los alófonos oclusivos de /p, t, k/ tras pausa o nasal (o /l/, en el caso de [d]).• las diferentes realizaciones de /N/ y /l/, que se asimilan al lugar de articulación de las

consonantes siguientes.Otras constituyen fenómenos dialectales:

• Labialización de [e] en [we] (Quilis, 1999: 173)• Asimilaciones y disimilaciones en diptongos (Quilis, 1999: 189)• Alteración del timbre vocálico como consecuencia del debilitamiento de /s/ (Quilis, 1999: 280)• Consonantización de [u] ante /l, r/ (Quilis, 1999: 192)• Palatalización de [n] y [l] seguidas de [ ] (Quilis, 1999: 242-243 y 325), etc.La conciencia que los hablantes tenemos sobre estas modificaciones en la articulación de lossonidos (y en la onda sonora resultante) puede ser nula -especialmente en el caso de las alteracionessistemáticas; en las dialectales, sólo solemos ser conscientes en la medida en que el dialecto nos esajeno, o conocemos otros modelos-. Y, sin embargo, los cambios físicos son enormes: elsonograma correspondiente a una [b] oclusiva y el que obtenemos de [$] son radicalmentedistintos:

SONOGRAMA 1.

Estas imágenes7 nos muestran cómo la señal sonora correspondiente a [b] y [d] se asemejaríamucho más a [p] o [t] que a [$] o [*]. Sin embargo, los hablantes de español establecemos desdelos primeros meses de edad unas fronteras perceptivas que resaltan ciertos detalles de la señal yatenúan otras de sus características.

SONOGRAMA 2

7 Adaptadas del Curso práctico de fonética y fonología por ordenador (Marrero, Quilis, Santos y Pérez, 1993)


8

De hecho, se ha comprobado que “sobrecompensamos” en nuestros procesos de percepción: losbajos formantes de [u], por ejemplo, inducen un descenso en las frecuencias de fricación de una [s]siguiente; en español, eso no tendría más consecuencias que las dialectales (la realización predorsalse percibiría como apical), pero en inglés puede marcar la diferencia entre /s/ y /•/. Los hablantesadaptan sus expectativas sobre las características acústicas de los sonidos, en función del contexto:si antecede una vocal grave, será previsible que la fricación también disminuya sus frecuencias.Incluso hasta el punto de que la corrección perceptiva llega a doblar el cambio que realmente se daen la señal (Handel, 1993: 297).

A pesar de todo lo dicho hasta aquí, el contexto aporta otros elementos a la descodificación quecompensan las dificultades derivadas de la coarticulación: la ayuda en niveles superiores al fonema,como la sílaba, una unidad de procesamiento que contribuye a facilitar la segmentación (y cuyostiempos de reacción son inferiores a los del fonema); las reglas fonosintácticas de la lengua; lasclaves gramaticales, toda la información semántica y el resto de los elementos que comentaremos alhablar de la redundancia. Como consecuencia, “[algunos experimentos han mostrado que] laspalabras son más inteligibles cuando se escuchan en el contexto de una oración gramatical quecuando se presentan como ítems de una lista de palabras inconexas” (Goldstein, 1992: 437).

1.3.1.2. La variación ligada al hablante. Las tareas de normalización.

El habla de cada uno de nosotros es, muy probablemente, única en el mundo8. A ello contribuyen,en primer lugar, las dimensiones de nuestro aparato fonador: la longitud y la masa de las cuerdasvocales, y la longitud de las cavidades supraglóticas tienen una gran repercusión sobre lascaracterísticas acústicas del habla: las cuerdas vocales largas, con mayor masa, se asocian a un F0bajo (más bajo en los hombres que en las mujeres, y más en éstas que en los niños). Pero tambiénrepercute la implantación de los dientes (o su ausencia), la flexibilidad de la lengua, el estado denuestras cuerdas vocales, asociado a menudo a hábitos como fumar o beber, y a profesiones comola docente; en resumen, nuestra voz es el resultado de la interrelación de múltiples factores, a losque se suman los que caracterizan nuestra habla, como el dialecto y el estrato social al quepertenecemos.

Sin embargo, al mismo tiempo, todos tenemos un amplio margen de variabilidad en nuestrasemisiones: según la situación en la que nos encontremos, el ámbito de uso, el ritmo queimprimamos al mensaje, la actitud que adoptemos, y otras muchas variables: el habla susurrada, porejemplo, es una muestra de alejamiento completo de los parámetros que los manuales nos enseñansobre fonética. Incluso el habla dirigida a los niños presenta alteraciones importantes en factorescomo la frecuencia fundamental, las duraciones, las pausas, etc. (Anula, 1998: 36).

El resultado de todo ello es que un mismo mensaje emitido por dos hablantes distintos puede variarenormemente; y sin embargo, distintos mensajes de distintos oyentes pueden asemejarse.

Cuando nos situamos en el papel de receptores, una de las tareas más importantes para descodificarel mensaje es normalizar todas las diferencias no significativas; de este modo identificaremos, enprimer lugar, el mensaje, y en segundo lugar a nuestro interlocutor9.

8 Existe toda una disciplina que se basa en esta hipótesis: la acústica forense, cuyo fin es identificar a los hablantes confines jurídicos. El papel de un lingüista, como perito judicial, iría más allá del estricto análisis acústico, puesto quetambién los rasgos dialectales y sociolectales contribuyen a individualizarnos (Quilis, 2000). Puede encontrarseinformación al respecto en la página web de la Sociedad Española de Acústica Forense (http://www.seaf.es).9 “La normalización perceptiva parece estar presente en un punto muy temprano de la infancia” (Jusczyk, 1997: 68)Este autor refiere los resultados de una investigación con niños de 1-4 meses a los que se presentaban vocales emitidas


9

Los mecanismos mediante los cuales compensamos las diferencias entre hablantes no se conocenen su totalidad. Se han dado varias explicaciones al fenómeno de la normalización:- Por una parte, se ha propuesto la existencia de un mecanismo de ‘escalado’, mediante el cualsomos capaces de decidir a qué unidad corresponde un estímulo teniendo en cuenta sus diferenciasrelativas con otros estímulos de la misma procedencia, emitidos por el mismo sujeto (aunque la [a]de un niño pueda tener el F2 más cercano a la zona habitual de [e] la identificamos como [a] por sudiferencia con las demás vocales de ese mismo niño).

En el caso de las vocales, las mayores distancias pueden encontrarse entre los niños y loshombres: los primeros suelen presentar unas frecuencias formánticas -no sólo la fundamental- un50% más altas que las de los segundos, aunque esas diferencias no son homogéneas para todas lasvocales en todos los contextos. Tradicionalmente se ha creído que los oyentes establecíamos un“campo máximo de dispersión”, el mayor rango posible de variación en las vocales, a partir de losvalores de las unidades situadas en los extremos del triángulo vocálico: /i, a, u/. Sin embargo,algunos experimentos (Shankweiler, Strange y Verbrugge, o Parker y Diehl, citados por Handel,1993: 299) han mostrado que entrenar a los oyentes con estas vocales extremas no mejoraba lastasas de identificación, y que, por otra parte, se lograba identificar estímulos donde se habíasuprimido la vocal, dejando sólo las transiciones. Consecuentemente, se ha sugerido que la clavepuede estar precisamente en las transiciones de los formantes vocálicos cuando cambian hacia lasconsonantes del entorno: serían ellas las que nos permiten crear un “mapa” con las resonanciasprevisibles para el tracto vocal de cada hablante.

En cuanto a las consonantes, Mann y Repp (1980) combinaron un ruidosintético, que podría corresponder a una fricativa, con vocales naturales de locutores masculinos yfemeninos. Los jueces interpretaron la fricativa en función de la vocal, y asignaron diferentesetiquetas al mismo estímulo según se combinara con vocales de hombre o de mujeres.

- Por otra parte, ciertos detalles del sistema auditivo parecen estar encaminados a amortiguar estetipo de diferencias individuales, al menos las que tienen lugar en frecuencias superiores a 1000 Hz,donde el sistema auditivo presenta escasa resolución frecuencial, pero una mejor resolucióntemporal (lo cual implica mayor capacidad para captar modificaciones de la duración, pero menorsensibilidad para diferencias en frecuencias).

En definitiva, parece claro que conseguimos mantener, desde edades sorprendentementetempranas10, una constancia perceptiva para los sonidos del lenguaje sin la cual no podríamos llevara cabo con éxito la identificación de los significados de las palabras.

1.3.1.3. El ritmo de habla.

La velocidad de elocución -conocida como tasa de habla, una traducción directa del inglés speechrate- suele medirse en el número de sonidos emitidos por unidad de tiempo. Existen grandesdiferencias al respecto entre lenguas, entre dialectos y entre hablantes. Se calcula que la media esde 10-12 unidades por segundo, aunque la máxima podría alcanzar los 40-50 (O’Shaughnessy,1990).

Las variaciones de ritmo afectan especialmente a las oposiciones basadas en la duración, comoocurre con la distinción sordo / sonoro en inglés, que depende, como decíamos, de una medidatemporal: el periodo que tardan las cuerdas vocales en comenzar a vibrar para la vocal siguiente, apartir de la barra de explosión (el VOT o Tiempo de Inicio de Sonoridad): cuanto menor es ese

por distintos hablantes; los bebés fueron capaces de ignorar las diferencias entre ellos, y responder -mediante el métododel giro de cabeza operativo- a las distintas vocales.10 Aunque los seres humanos no somos los únicos en conseguirlo: los perros también normalizan las diferencias entrehablantes, para obedecer la misma orden de distintos emisores.


10

tiempo, más sorda se percibe la consonante. Sin embargo, estas medidas temporales no sonabsolutas, sino relativas a la duración total de la emisión, y a la duración de la sílaba en la que esaconsonante se encuentra inserta: una misma transición de 40 msg puede interpretarse como lenta (locual da lugar a la percepción de [wa]) o como rápida ([ba]), según la duración total de la sílaba(Miller y Liberman11). Por otra parte, sus efectos no son lineales, y un aumento en la tasa de hablano siempre acorta los sonidos del continuo fónico: las oclusiones de las africadas, por ejemplo, hande aumentar su duración en habla rápida (O’Shaughnessy, 1990)12.

Las diferencias estilísticas que distinguen, por ejemplo, el habla de laboratorio y nuestrasemisiones espontáneas también generan cambios considerables en los sonidos del lenguaje:Harmegnies y Poch (1992), en un estudio sobre el sistema vocálico español (consideradohabitualmente como prototipo de sistema estable) encuentran que el estilo espontáneo genera unatendencia hacia la neutralización (menor espacio entre el primer y el segundo formantes), y mayorvariabilidad en las realizaciones, algo calificado por los autores como “desorganización del sistemafonético F1/F2”, y que atribuyen a la tendencia a la hipoarticulación13 propia del nuestras emisioneshabituales.

Convertirse en un perceptor fluido de una lengua particular requiere la capacidad para manejartodas estas fuentes de variación en la señal, de modo que no interfieran en los procesos deidentificación de los signos lingüísticos que les corresponden.

1.3.2. Factores que facilitan la descodificación.En el habla, como decíamos anteriormente, existen muchos elementos que nos ayudan adescodificar los mensajes.

Empezaremos por el nivel mínimo de análisis, el de las claves acústicas que identifican cada rasgodistintivo, cada segmento o cada suprasegmento. El acento, por ejemplo, reside en la accióncombinada de tres elementos: frecuencia fundamental, duración e intensidad. En español (segúnEnríquez, Casado y Santos, 1988), la clave más importante es la primera, los movimientos del F0.Sin embargo, cuando éstos se hallan comprometidos por otras funciones (como las entonativas) esla duración la que toma el papel predominante; y si ninguna de las anteriores está disponible, loshablantes -oyentes- españoles recurriremos a la intensidad para detectar la sílaba tónica.Necesitamos integrar esas tres fuentes de información para identificar el mensaje, incluso en loscasos en que puedan entrar en conflicto, generando un elemento ambiguo: en un enunciado como“¿Cántaras?” es posible que la frecuencia fundamental sea más alta en la [a] átona final que en la[á] inicial; sin embargo, distinguiremos esa pregunta de otra como “¿Cantarás?” gracias a unaduración anormalmente larga de aquella primera [a]: un rasgo –la frecuencia fundamental- ha sidocompensado por el otro –la duración-, con el fin de mantener el percepto original; es lo que seconoce como intercambio de claves. El valor de cada clave depende del valor de las demás, y todashan sido producidas simultáneamente; a menudo pertenecen a clases fónicas distintas (temporales y

11 “Some effects of later-occurring information on the perception of stop consonant and semivowel” Perception andPsychophisics, 25, 457-465.12 En español, un ejemplo de las variaciones de ritmo (o tempo) es el que caracteriza algunas hablas: “el discurso de lamujer grancanaria se caracteriza: a) por el empleo de un tempo más rápido que el hombre; b) por ser más acusada ladiferencia en la duración de las sílabas entre los fragmentos de enunciados de tempo rápido y lento” (Quilis, 1997:487). La influencia de la duración en la percepción de las consonantes líquidas ha sido tratada por García Jurado,Guirao y Rosso (1991).13 La diferencia entre el habla “hiperarticulada” (muy cuidada) y el habla “hipoarticulada” (relajada) se debe aLindblom, que ha elaborado toda una teoría al respecto. Alamón (1999) también la toma como punto de partida, en uninteresante trabajo sobre la percepción de palabras y pseudopalabras en condiciones de baja intensidad.


11

espectrales, como en el ejemplo anterior), pero se colocan en la misma escala perceptiva: seintegran (Handel, 1993).

Durante un tiempo, las relaciones de intercambio se creyeron específicas del habla; así lo indicabanlos resultados de un experimento realizado en 1981 por Best, Morrongiello y Robson. Crearon unosestímulos consistentes en tonos puros con dos claves contrastadas; a unos sujetos se les dijo que setrataba de sonidos de habla, y a otros que eran estímulos artificiales. Las relaciones de intercambio(e integración de ambas claves) sólo se dieron en los sujetos que creían encontrarse ante estímulosverbales; los del otro grupo no integraban las dos claves, y atendían sólo a una o a la otra. Noobstante, en experimentos posteriores se han encontrado muestras de intercambio de claves anteestímulos no lingüísticos, lo cual quizá indique que se trata de un fenómeno perceptivo general,dependiente de principios psicoacústicos.

Sin embargo, desde una perspectiva más general, es la redundancia la gran simplificadora de lastareas de descodificación:

“La redundancia es una propiedad de las lenguas, de los códigos y de los sistemas de signosque se origina por una serie de reglas superfluas, que contribuyen a facilitar lacomunicación, a pesar de todos los factores de inseguridad que puedan surgir.” Quilis, 1999:14

La comunicación está sujeta a multitud de imponderables que pueden poner en peligro latransmisión correcta de la información. Esos elementos que dificultan la comunicación sedenominan ruidos, y pueden ser de tipos muy diversos:

- peculiaridades articulatorias en el emisor, tanto dialectales, como sociolectales o individuales (porejemplo, cualquier tipo de trastorno lingüístico de producción), que influyan en la codificación delmensaje;

- el receptor puede estar condicionado por factores puntuales (distracción, cansancio) o continuos(como las deficiencias auditivas) que le dificulten la descodificación;

- el propio código presenta en ocasiones ambigüedades: te espero en el banco, ¿se trata desentarnos o de realizar una operación financiera?

- el canal a través del cual se transmite el mensaje puede también presentar ruidos, en este casoruidos en su sentido más habitual (borrones, si el canal es el papel, interferencias si es el teléfono, osimplemente ruido ambiente).

Desde la década de los 50, el estudio de los efectos del ruido sobre la descodificación del mensaje (lainteligibilidad) ha estado muy relacionado con el concepto de Índice de Articulación, creado por PaulFletcher para cuantificar la importancia de cada banda de frecuencias en la inteligibilidad global de unsonido, una secuencia de sonidos o una lengua. El espectro del habla se divide en siete bandas, cada una delas cuales tiene un peso determinado en la inteligibilidad total de una lengua:

Centro de la banda (Hz) 125 250 500 1000 2000 4000 8000

Inglés 3% 15% 29% 28% 17% 8% 0

Húngaro 2% 13% 18% 22% 22% 20% 3%

Inteligibilidad parcial en octavas sin ruido ambiente; adaptado de Tarnóczy, 1986: 262

El ruido puede afectar de diferente manera a unas lenguas y a otras, en función de las variaciones quepueden verse en la tabla anterior: el porcentaje medio de inteligibilidad del húngaro es del 54,7%, frente aldel inglés, que sería del 51,4% (Tarnóczy, 1986: 262).

Es muy interesante, en este sentido, el modo en que el ruido nos afecta según el estímulo sea en nuestralengua materna o en una segunda lengua: el procesamiento de la señal verbal se ve mucho más afectada por


12

el ruido si intentamos descifrar un código que no es nuestra primera lengua (incluso en el caso de sujetoscon buen dominio de la segunda, como los bilingües tardíos) (Mayo, Florentine y Buus, 1997).

Los efectos de las pérdidas auditivas (en un experimento en el que se simularon mediante manipulación delespectro) también parecen afectar más a la inteligibilidad del habla cuando se encuentra en entorno ruidosoque cuando se presenta en silencio (Baer y Moore, 1993).

DePaolis, Janota y Franck (1996) estudiaron la influencia de las bandas críticas en la inteligibilidad de trestipos de estímulos: palabras, frases y discurso continuado. Según sus resultados, en inglés es la banda de2000 Hz la que más contribuye a la descodificación del mensaje. Pero casi más interesante que ese datoconcreto fue la confirmación de que la redundancia afecta al peso relativo de cada una de esas bandas: endiscurso continuado, cuando la redundancia es mayor, las diferencias entre ellas se amortiguan.

La defensa de la lengua contra todas esas agresiones que puede sufrir es la redundancia:

el mensaje presenta más información de la estrictamente necesaria para su decodificación

Ahora bien, para calcular cuánta información transmite un mensaje es necesario tomar enconsideración el concepto de probabilidad, dependiente del número de alternativas posibles::

ELEFAN♥E

¿Cuántos elementos pueden ocupar el "vacío"? ¿Cuántas alternativas existen para ese elemento?Sólo una (“t”): su probabilidad de aparición es del 100%, y la información que transmite es igual acero; si esa t desaparece, el mensaje no sufre ninguna merma: su nivel de redundancia es total.

Muy distinto sería el caso de SO♥A. El número de elecciones posibles es mucho mayor: lainformación que transmitía el elemento perdido crece proporcionalmente, y en la misma medidadisminuyen su probabilidad y su nivel de redundancia14:

:alternativas Ô - probabilidad

: información Ô - redundancia

Todo lo anterior podría llevarnos a considerar la redundancia como un elemento 'parásito'de los sistemas de comunicación. Sin embargo, es un mecanismo de defensa, como veíamos alprincipio, absolutamente imprescindible:

"En los contextos lingüísticos, redundante no significa en modo alguno "superfluo" y laredundancia no implica que algo pueda ser desatendido. Todo lo contrario, en la modernateoría de la comunicación, la redundancia es un concepto muy importante, y los fenómenosredundantes son extremadamente relevantes." Malmberg, 1974: 172

"Las necesidades prácticas de la comunicación exigen que la forma lingüística seaampliamente redundante, constantemente y en todos los planos." Martinet, 1978: 224.

"Algún grado de redundancia es de hecho deseable en cualquier sistema de comunicación.La razón se debe a que, cualquiera que sea el medio empleado para transmitir información,está sujeto a diversas perturbaciones físicas imprevisibles que destruyen o distorsionan partedel mensaje, y así inducen a la pérdida de información. Si el sistema estuviera libre deredundancia, la información perdida sería irrecuperable" Lyons, 1971: 71.

14 Algunos datos técnicos: “el contenido informativo de una señal fonética es aproximadamente de 5 – 5.5 bits. Puestoque el ritmo de habla es de unas 10-12 señales por segundo, la capacidad informativa del habla es de 50-60 bit/sg. Elcontenido informativo de una frase corta alcanza los 500 bits. Si nuestro cerebro funcionara como un ordenador, elcerebro del receptor y el del emisor deberían tomar al menos 2500 = 10150 decisiones durante ese tiempo para codificar ydescodificar la información, respectivamente. Estos datos indican cuánto más rápido realiza el cerebro su trabajo deevaluación y cuánto más eficazmente que un ordenador.” Tarnóczy, 1986: 256.


13

El exceso de información se extiende a todos los niveles del lenguaje15, desde el fonético,donde se ha calculado que si preservamos sólo el 1-2% de la amplitud del habla se puede reconocerentre el 80 y el 90% de las palabras, o que si eliminamos todas las frecuencias por encima y pordebajo de 1800 Hz se identifica el 67% de las sílabas (O’Shaughnessy, 1990),

al fonológico: im♥rescindible

o el morfosintáctico: uno♥ niñ♥♥ salt♥♥ content♥♥

y hasta el semántico - pragmático: no por mucho ♥♥♥, amanece ♥♥♥ ♥♥♥

La redundancia es una característica del código, pero existe una capacidad en los receptoresque la complementa: lo que en audiología se ha conocido tradicionalmente como suplencia mental,y en psicolingüística como restauración de fonemas (Warren, 197016). El sistema de ladescodificación humana es capaz de restituir unidades que no han sido percibidas (bien porque nollegaron a emitirse, bien porque han sido víctimas del ruido durante su transmisión, tanto porcausas naturales como experimentales), hasta el punto de que el oyente está completamenteconvencido de haberlas percibido. Siguiendo con nuestros ejemplos anteriores, si eliminamos la [p]de imprescindible (o segmentos mucho más largos, hasta de 120 msg, como una [s], e inclusogrupos enteros de sonidos), y hacemos oír el estímulo resultante a un grupo de sujetos, todos lahabrán “oído”; incluso desvelándoles la manipulación, continuarán oyéndola. Si esa palabraestuviera inserta en una frase, al pedirles que localicen el segmento cortado, es probable que lositúen en una de las fronteras de esa palabra, pero no en su interior. Es más, si el corte lointroducimos en so♥a, nuestros sujetos adecuarán el mecanismo de restauración hasta encontrar enel contexto oracional siguiente una o varias palabras que les ayuden a decidir entre las distintasalternativas para el elemento desaparecido (cfr. Bond y Garnes, 1980: cuando la señal acústica esambigua, los oyentes recurren a toda la información semántica y gramatical que el entorno puedaproporcionar para identificar el mensaje).

Al experimento inicial de Warren17 siguieron otros en los que la tarea de los sujetos erajustamente detectar errores de pronunciación. Un segmento se sustituía por otro, dando lugar asecuencias fonotácticamente permitidas en la lengua, pero sin significado. El estímulo se insertabaen una narración breve, y se pedía a los oyentes que pulsaran un botón en cuanto percibieran unerror. Los resultados son muy interesantes: los cambios en oclusivas se detectaban mejor que enfricativas, las sustituciones de lugar de articulación también resultaban más evidentes que las desonoridad, y en comienzo de palabra los errores se detectaban tres veces mejor que al final18.

En este proceso de detección de los errores se observó que, con frecuencia, los sujetos repetían elestímulo auditivo en voz alta, a la mayor brevedad posible, y corrigiendo el error. Esta tarea deseguimiento mostraba los efectos de la restauración no sólo a nivel fonológico, sino tambiénsintáctico y semántico, en frases como “la secretaria introdujo el papel en la máquina y se dispuso aescribir la hacia”, cuya última palabra era sustituida por carta (Belinchón, Igoa y Rivière, 1992:347, aunque la traducción al español hace que la similitud entre esos dos estímulos sea muypequeña).

15 Factores extralingüísticos, como nuestro conocimiento del mundo, del hablante, del tema de conversación, etc. tambiéncontribuyen a hacer redundante ciertas partes del mensaje.

16 “Perceptual restoration of missing speech sounds” Science, 167, 392-395.17 En él, este autor eliminó la [s] de la palabra legislature en la frase Los gobernadores del estado se reunieron con susrespectivas legi*laturas antes de la convocatoria del pleno del congreso (en inglés en el experimento).

18 Berko y Bernstein, 1999: 154, citando trabajos de Cole (1980).


14

Todos estos resultados ponen en evidencia la intervención en la descodificación deinformación lingüística de orden superior, no presente en el estímulo que llega al sistema auditivodel receptor, sino procedente de su cerebro, de las unidades allí almacenadas (procesos de arribaabajo). Esta información impone restricciones automáticas e inconscientes en la identificación delmensaje entrante, de tal manera que optimiza enormemente su comprensión.

1.4. RELACIONES ENTRE PERCEPCIÓN Y PRODUCCIÓN

Las tareas de seguimiento que mencionábamos en el párrafo anterior nos dan pie paraintroducir uno de los temas más apasionantes en el campo de la fonética perceptiva: las relacionesentre los mecanismos que nos permiten emitir mensajes y las que nos permiten comprenderlos.

Por una parte, se trata de dos sistemas periféricos evolutivamente muy distintos, conorganizaciones diferentes, que han podido desarrollarse de forma más o menos independiente, eincluso sujetos a presiones contrapuestas: el sistema articulatorio tiende, por la ley del mínimoesfuerzo, hacia la mayor neutralización posible, a generar todos los sonidos del modo más próximoy similar (como correspondería a la máxima pronunciabilidad). Sin embargo, se ve frenado en esatendencia por la necesidad de máxima discriminabilidad que imprime el sistema perceptivo, para elcual lo ideal sería que los sonidos se diferenciaran lo más posible. Las lenguas naturales son uncompromiso entre ambos extremos, hasta llegar a lo que se considera “contraste suficiente”(Lindblom, 1992).

El que la señal de entrada de uno sea la señal de salida del otro los condena a sercompatibles. Las relaciones entre ambos sistemas son evidentes19: desde los primeros meses devida, las características de las producciones balbuceantes reproducen rasgos de la lengua que elniño percibe de sus cuidadores20, y la capacidad para percibir contrastes ajenos a los estímulos querecibe se va perdiendo a medida que transcurren esos meses (Jusczyk, 1997). De hecho, segúnalgunas propuestas, sería precisamente la necesidad de coordinar ambos sistemas, interrelacionandolas unidades de percepción y las de producción, la que obligaría a estos “aprendices de hablantes” acrear representaciones abstractas, generalizando los rasgos más relevantes de ambas: el fonema21,una unidad más global que el sonido, y la fonología, un nivel de análisis capaz de reunir elementosprovenientes de la percepción con otros generados durante la producción. En una primera etapa, elbebé trataría simplemente de casar los sonidos producto de su “juego vocal” con los que escucha asu alrededor. La asignación de significado a esos modelos de sonidos constituiría la segunda etapade este lazo entre percepción y producción. El deseo de ser entendidos nos empuja a buscar esacoordinación entre ambos sistemas.

Puesto que las unidades de producción son mejor conocidas que las de percepción, se hanutilizado en muchos experimentos sobre identificación de sonidos (de hecho, esta es la base de casi

19 Algunas de las teorías sobre la percepción que veremos más adelante han tomado como punto de partida esta relaciónentre lo que percibimos y lo que producimos: la teoría motora, por ejemplo, mantiene que no somos capaces dedescodificar un sonido hasta que no creamos una representación de los movimientos articulatorios que lecorresponderían (cfr. cap. 3, apartado.20 En la historia de los estudios sobre adquisición del lenguaje ha habido una larga polémica a este respecto, iniciadacon las propuestas de Jakobson sobre la discontinuidad entre el balbuceo y las primeras palabras del niño. Para ellingüista praguense, se trataría de dos etapas sin relación entre sí, la primera obedecería a leyes universales, comunes atodas las lenguas, mientras que la segunda ya sufriría las restricciones particulares de cada lengua. Esta concepción seha ido rebatiendo con el tiempo, y hoy en día parece probado que el balbuceo presenta características propias en cadalengua, y que se trata de un entrenamiento imprescindible para emisiones posteriores con significado, sin rupturas entrela etapa prelingüística y la lingüística, precisamente creando lazos entre producción y percepción (Fry, 1966).21 Esta idea fue defendida por Bever en el modelo de Principios y Parámetros generativista, aunque otros investigadoresla han retomado desde diferentes perspectivas.


15

todos los estudios sobre fonética perceptiva). Los rasgos que más se han tenido en cuenta son, en eldominio frecuencial,

- la distribución de la energía a lo largo del espectro (sobre todo los formantes confrecuencias comprendidas entre 200 y 5600 Hz, que es donde reside el mayor pesoinformativo del habla);- la frecuencia fundamental,- los armónicos más intensos.

En el dominio temporal se ha prestado especial atención a los efectos de la coarticulación (trabajosde House, 1963, Klatt, 1973, Stevens, 1980, etc.). La intensidad, por último, ha sido tomada enconsideración desde los años 50 por autores como Lehiste y Peterson.

Los rasgos distintivos, por ejemplo, a pesar de haber sido establecidos sobre basesarticulatorias o acústicas, correlacionan bastante bien con las confusiones de fonemas, resultado deprocesos perceptivos. Sin embargo, no hay ninguna evidencia de que se preserven en el caminodesde el oído hasta el cerebro.

También los formantes de las vocales se han debatido mucho en estudios sobre percepción.La razón es clara: los formantes resultan un medio adecuado para describir la distribución espectralde los sonidos (y su modificación produce variaciones perceptivas inmediatas; basta subir el F1para percibir una vocal como más abierta, y si bajamos el F2 notaremos que retrasa su lugar dearticulación). Esta información sobre frecuencias sí se ha demostrado que resulta preservada por elsistema auditivo, hasta llegar al cerebro (como veremos más adelante), por lo que la informaciónformántica podría participar en las representaciones mentales que originan los fonemas. Sinembargo, hay elementos contrarios a esta posibilidad: la variabilidad entre formantes de una mismavocal de un mismo sujeto, por ejemplo, incompatible con la idea de una representación abstractacomún para todas ellas. Volveremos sobre esta cuestión al hablar de la percepción de las vocales.

En conclusión, es posible que los procesos de comprensión y producción hayanevolucionado de forma paralela en el ser humano, de modo que sólo han sobrevivido los mejoreselementos desde ambas perspectivas: sonidos que se producen fácilmente y además se perciben conun esfuerzo mínimo, diferenciándose de forma consistente de los demás sonidos de la lengua, yasemejándose suficientemente entre distintas emisiones o distintos hablantes. En definitiva, unaselección natural que reduce a 35-40 elementos distintivos la infinidad de sonidos articulables porel aparato fonador humano: el sistema perceptivo habría actuado como factor dominante en laevolución del lenguaje (O’ Shaughnessy, 1990).

TEMA 2. LA AUDICIÓN_____________________________________________________

16

TEMA 2. LA AUDICIÓN

2.1. INTRODUCCIÓN

Terminábamos el tema anterior con una reflexión acerca de la relación entre los procesos depercepción y los de producción; podemos comenzar éste, dedicado al funcionamiento del sistemaauditivo, de forma análoga: “la producción verbal y los mecanismos auditivos probablemente hanevolucionado de forma paralela, aprovechándose cada sistema de las propiedades del otro. El oídoresponde especialmente a aquellas frecuencias de la señal de habla que contienen la mayor parte dela información relevante para la comunicación (las que están en un rango aproximado de 200- 5600Hz)” O’Shaughnessy, 1990: 128.

La génesis del sistema auditivo ha sido debatida durante años por los biólogos. Al principiose creía que su origen podía estar en una especie de células ciliadas22 presentes en las branquias delos peces, que les permiten detectar el movimiento del agua. Posteriormente se ha atribuido sudesarrollo al crecimiento del sistema vestibular, responsable del sentido del equilibrio, y residenteen los canales semicirculares del oído medio.

En cualquier caso, se trata del último de sistema sensorial desarrollado por los animales.Caracteriza a los vertebrados, que viven en tierra. Es posible que su función primera fuera la deayudar a localizar presas, descubrir predadores o encontrar pareja; poco a poco fueespecializándose hasta convertirse en un detector especialmente sensible para identificar y localizarsonidos producidos por otros animales, cuyas características son la brevedad y la variabilidad. Silos sonidos más importantes para nuestra supervivencia se distinguieran por ser estables yduraderos, posiblemente nuestro sistema auditivo consistiría en unos grandes pabellones auditivos,con capacidad para orientarse hasta la fuente sonora. Pero como sucede al contrario, necesitamosun órgano que detecte las variaciones de intensidad a altas frecuencias (para hacer frente a lavariabilidad de la señal) y que resuelva eficazmente las superposiciones de sonidos (un efecto de larapidez en las emisiones) (Handel, 1993).

Hay dos perspectivas desde las que abordar el estudio del sistema auditivo: el punto de vistafisiológico, que se centra en el estudio del funcionamiento de los órganos de la percepción; y elpunto de vista psicofísico, o psicoacústico, cuyo fin es establecer las relaciones existentes entre losestímulos y los perceptos, o elementos percibidos. Les dedicaremos el segundo y tercer apartado,respectivamente, de este tema.

2.2. ANATOMÍA Y FISIOLOGÍA DEL SISTEMA AUDITIVO

Este punto, la intersección entre la fonética y un área de la anatomofisiología, podríadesarrollarse en un nivel de detalle muy superior al que aquí presentaremos. Hemos seleccionadosólo sus aspectos más relevantes para el desarrollo de los temas posteriores. No obstante,recomendamos a los lectores interesado la consulta a la bibliografía complementaria23. 22 Dentro de poco veremos qué es una célula ciliada; por ahora es suficiente con saber que se llaman así porquecontienen un conjunto de bastoncillos diminutos (los cilios).23 Un libro excelente, divertido y muy didáctico es la obra de W. H. Perkins y R.D. Kent Functional Anatomy ofSpeech, Language and Hearing (publicado por Allyn and Bacon, y con varias ediciones; la mitad se dedica a la

TEMA 2. LA AUDICIÓN_____________________________________________________

17

El sonido, como todos sabemos, consiste en una serie de cambios en la presión del aire.Pero ¿de qué manera puede nuestro cerebro utilizar estas ondas? Será necesario “traducirlas” a otrotipo de energía que el sistema nervioso sí consiga aprovechar: la energía eléctrica. Por eso laaudición es un mecanismo muy variado. Comienza como un proceso acústico, con la llegada de laonda sonora al oído externo; se convierte después en un proceso mecánico, cuando esa onda setransforma en movimiento de los huesecillos en el oído medio; luego se transmuta en un procesohidráulico, en la cóclea, cuyo medio acuoso cambia los movimientos anteriores en olas; por fin, ensu etapa más compleja, lo encontramos en forma de impulso nervioso, electroquímico, a su pasodesde el órgano de Corti por el nervio auditivo hasta el cortex cerebral. Los órganos que intervienenen toda esta transformación, altamente especializados, tienen la función de potenciar y proteger laseñal que llega a ellos para que la cadena funcione de modo óptimo: que no se pierda ningunainformación, pero que tampoco se envíen señales innecesarias.

Suelen establecerse tres áreas en el estudio del sistema auditivo:1. El oído, dividido en externo, interno y medio, es el encargado de esa transformación, cuyo

fin último es codificar adecuadamente los cambios en frecuencia, intensidad y tiempo de laseñal sonora.

2. Las vías auditivas convierten lo que en la cóclea eran activaciones individuales de lascélulas en patrones de actividad neuronal. En los distintos núcleos que conforman estasvías, encargadas de llevar la señal auditiva hasta la corteza del cerebro, se produce unenorme cantidad de interconexiones neuronales. Esto permitiría la formación de detectoresmás complejos, capaces de descubrir y transportar propiedades abstractas de lo que hastaahora eran sonidos (pero empezarían a convertirse así en fonemas).

3. El cortex o corteza auditiva, el estadio más profundo y complejo de procesamiento. Suestudio se centra en la localización de funciones para cada hemisferio, y la posibilidad deespecialización (una zona especializada en el procesamiento de la música, frente a otradedicada al lenguaje, semántica frente a sintaxis, ritmo frente a armonía); esta visiónmodular, defensora de la existencia de dominios diferentes y relativamente autónomos en elcerebro, se enfrenta a otras propuestas según las cuales el cerebro se organizaría en procesoshorizontales (recordar, juzgar, comparar...), que actuarían sobre todo tipo derepresentaciones (lingüísticas, musicales, visuales, olfativas...).

2.2.1. El oído

El primer órgano del aparato auditivo es la oreja, el pabellón auditivo (pinna, en latín). Suforma peculiar, llena de huecos y protuberancias no es un capricho de la naturaleza: a pesar de queen el hombre no posee la movilidad de algunos animales, mantiene una leve función amplificadora(en frecuencias medias-altas) y, sobre todo, ayuda a la localización de los sonidos; en unexperimento24 se rellenaron esos huecos, y se descubrió que a medida que la oreja era alisada, sereducía la capacidad para identificar la fuente sonora. Así pues, la oreja permite una localización enel eje lateral (izquierda / derecha), según las diferencias temporales y de intensidad entre las señales

fisiología del aparato fonador (con un capítulo sobre acústica), y la otra mitad a la del auditivo. Sólo sobre fisiologíaauditiva, es un clásico la obra de J.O. Pickles: An Introduction to the Physiology of Hearing, publicado por primera vezen 1988 por Academic Press (aunque puede resultar más inaccesible que el anterior para un principiante). En francéscumple un papel similar Audition, de Pierre Buser y Michel Imbert (París, Hermann, 1987). En español contamos contraducciones, adaptaciones, y con algunos capítulos originales en manuales médicos, como el de Gil Loyzaga y PochBroto “Fisiología del sistema auditivo periférico”, en C. Suárez (Coord): Tratado de Otorrinolaringología y Cirugía deCabeza y Cuello, Madrid, Proyectos Médicos, 2000. O el de V. Palomar, “Fisiología del oído externo y medio”, enAbelló y Traserra (Eds.): Otorrinolaringología, Barcelona, Doyma, 1992.24 Gardner y Gardner, 1973 (citado por Goldstein, 1992).

TEMA 2. LA AUDICIÓN_____________________________________________________

18

que provienen de un oído u otro (sus irregularidades generan patrones de ecos, que caracterizancada distancia y dirección); y también una localización en el eje central (delante / detrás; arriba /abajo), por un efecto de sombra sobre los sonidos que se encuentran detrás de la cabeza. “Enesencia, podemos afirmar que el pabellón auditivo se comporta como un colector de ondas sonoras”Gil Lyzaga y Poch Broto, 2000: 765.

El oído externo se completa con el conducto (o canal) auditivo externo (meatus), un tuboirregular y no rígido, de unos 25-30 mm de largo y 7 mm. de diámetro, que concluye en el tímpano.Las funciones de este canal son varias: protege la entrada al oído medio, gracias a la cera quecontiene, y mantiene el tímpano y las estructuras del oído medio a una temperatura estable. Peroademás, funciona como un resonador, amplificando las ondas que coinciden con sus frecuencias deresonancia, y amortiguando las restantes. Dadas sus dimensiones, resuena mejor alrededor de 3.500Hz, pero como es un pasillo ancho, su rango se amplía desde 2000 a 5000 Hz. La presión sonora enestas frecuencias puede llegar a multiplicarse por cuatro o seis (12 – 15 dB) desde el exterior hastasu llegada al tímpano.

FIG. 1.

Con la llegada de la onda al tímpano comenzamos la descripción del oído medio, unapequeña cavidad llena de aire, que bate varios “récords óseos”: está inserta en el hueso más durodel cuerpo (el hueso temporal) y contiene los tres huesos más pequeños del mismo: martillo,yunque y estribo.En él, las ondas sonoras, unos simples cambios en la presión del aire, se convierten en unavibración mecánica. Esta conversión tiene lugar en la membrana timpánica, que se mueve'empujada' por los cambios de presión que llegan desde el conducto auditivo25. Dicho movimientose transmite a la cadena de huesecillos que compone el oído medio. El martillo, el yunque y elestribo aumentarán esas vibraciones. Pero para conseguirlo es muy importante que la presión delaire dentro del oído medio sea igual a la presión atmosférica26; lo conseguiremos por medio de latrompa de Eustaquio, que lo provee de aire procedente de la rinofaringe27.Las funciones del oído medio son tres:1) Aumentar la presión recibida del tímpano. ¿Y por qué es esto necesario? Pues porque el destino

final de esa vibración mecánica es la cóclea, y la cóclea está rellena de líquido, no de aire. Ladensidad y la compresibilidad del líquido coclear es casi 4000 veces menor que la del aire. Sino dispusiéramos de algún mecanismo para aumentar la presión, sólo llegaría al interior de la

25 En la membrana timpánica tiene lugar la primera y más básica separación de frecuencias del oído: si la onda es grave, eltímpano vibra como un todo, pero en altas frecuencias, distintas partes de la membrana responden a distintas frecuencias.Por otra parte, también hay un control de la intensidad: si la onda que llega es demasiado amplia el tímpano se tensa,vibrando menos, y el estribo se separa de la ventana oval, impidiendo un daño en la cóclea (cfr, párrafo siguiente).

26 Aunque debe tratarse también de una cavidad aislada del exterior, porque de lo contrario, la vibración procedente delconducto auditivo externo, "tropezaría" con la del oído medio, y la primera podría ser cancelada, y no se transmitiría al oídointerno. 27 La trompa de Eustaquio normalmente está cerrada en el extremo nasal, y desciende del oído a la nariz, para evitar elpaso de mucosidad al oído; sin embargo, es frecuente que esto suceda en los niños, porque tienen la trompa más corta yrecta (en cuyo caso se generan infecciones conocidas como otitis media). Determinadas contracciones de los músculosvelofaríngeos, como las que tienen lugar al bostezar o tragar, hacen que se abra el conducto y se nivele la presión.

TEMA 2. LA AUDICIÓN_____________________________________________________

19

cóclea un 0,1% de la presión timpánica. El oído medio cuenta con varios elementos paraconseguir compensar esa diferencia de impedancia28 entre el medio aéreo y el líquido:

a) El más importante es la diferencia de tamaño entre la membrana timpánica y la “puerta”de entrada a la cóclea (la ventana oval): la primera mide unos 55 mm2, y la segundaapenas 3,2; esa diferencia de área (de 17 a 1) incrementa la presión unas 35 veces.

b) En segundo lugar, la cadena de huesecillos produce una acción elevadora que aumentatambién la presión sobre la ventana oval. Su disposición en forma de palanca (y no enlínea recta) refuerza este efecto, duplicando la intensidad.

La combinación de todos estos recursos multiplica notablemente la intensidad que llegabadel tímpano29.

2) Proteger las delicadas estructuras del oído interno de ruidos excesivamente fuertes. El estriboestá colocado en su sitio por un músculo, llamado estapedial (del latín stapedus, ‘estribo’), quetiene la gracia de contraerse de forma refleja cuando llega un sonido inferior a 1-2 KHz y conintensidad superior a 85-90 dB: es el reflejo acústico, algo parecido a la contracción de la pupilaante luces muy intensas. Ese reflejo produce que la acción elevadora que mencionábamos en elapartado b) se convierta en una acción rotatoria, lo cual disminuye la presión unos 20 dB. Sinembargo, no tiene capacidad de acción ante ruidos súbitos, porque es un poco lento.Curiosamente, cuando hablamos podemos desencadenar en nuestro propio oído el reflejoacústico, quizá para evitar una carga excesiva del mecanismo auditivo mientras emitimos elmensaje (necesitamos focalizar nuestra atención en la producción30: O’Shaughnessy, 1990).

3) Filtro de paso bajo: los músculos del oído medio, al reducir la transmisión de los sonidos debajas frecuencias, disminuyen el enmascaramiento que éstos producirían sobre frecuencias másaltas, imprescindibles para la descodificación; concretamente, se ha calculado que atenúanaproximadamente 15 dB por octava, en la zona de 1000 Hz.

Y llegamos así, con la intensidad multiplicada, aunque algo menos para las frecuencias bajas, alpunto en que el estribo conecta con la ventana oval: la entrada a la cóclea y al oído interno.

En el oído interno o 'laberinto' encontramos, por un lado, los canales semicirculares,encargados de controlar el equilibrio, pero, sobre todo, la cóclea (cuya forma ha dado lugar a quetambién se le llame 'caracol'), el órgano de la audición por excelencia, que comienza, como hemosdicho, en la ventana oval, y termina, justo debajo, en la ventana redonda (aunque su salida no esésa, sino unas fibras nerviosas de las que hablaremos largo y tendido).

Se trata de un tubo rígido, de unos 32-35 mm de largo y un grosor que va de 4 mm2 en labase a 1 mm2 en la punta o ápice. Está enrollado sobre sí mismo dos veces y media, y lleno de unlíquido similar al fluido extracelular, la perilinfa, cuyo potencial eléctrico es negativo31.

En la cóclea encontramos una subestructura flexible y hueca, la partición coclear, que ladivide en dos rampas o escalas, la vestibular y la timpánica32. La partición coclear no es plana, sinohueca, tiene un “techo” (la membrana de Reissner), y un “suelo”, por el lado de la rampa timpánica,la membrana basilar. Su interior está relleno de un líquido viscoso como la gelatina, semejante al

28 La impedancia es la resistencia al paso de las vibraciones; si las impedancias de dos materiales son iguales, lasvibraciones pasarán fácilmente de uno a otro. Si son diferentes (como es el caso que comentamos), se produce undesajuste de impedancias, y las vibraciones tienen dificultad para transmitirse: las que no lo consiguen son reflejadas yempiezan a viajar en dirección contraria, chocando con las que venían detrás (Pickles, 1988:5).29 Las personas con lesiones en el oído medio necesitan incrementar la presión acústica entre 10 y 50 veces para lograrla misma capacidad auditiva de los normooyentes.30 Otra muestra más, en este caso fisiológica, de la relaciones entre percepción y producción.31 Su composición es similar a la del fluido cerebroespinal, o a la del plasma sanguíneo, muy abundantes en el cuerpo.32Ambas rampas se unen en el extremo del caracol o helicotrema, puesto que la partición coclear acaba un poco antes.

TEMA 2. LA AUDICIÓN_____________________________________________________

20

fluido que puebla el interior de las células, y con un alto potencial eléctrico (muy positivo): laendolinfa33

FIG. 2.

La membrana basilar es el soporte del órgano de Corti, el elemento más importante de lacóclea, verdadero transductor auditivo, una diminuta central eléctrica encargada de convertir elmovimiento en descargas que activen las fibras nerviosas. El órgano de Corti contiene entre 15.000y 30.000 receptores del nervio auditivo: las llamadas células ciliadas, de las cuales salen los hacesde fibras que componen el nervio auditivo o coclear. Se llaman ciliadas porque cada una tiene unaserie (entre 40 y 140) de “pelitos” o (estereo)cilios, con capacidad para producir pequeñasdescargas eléctricas al rozar la membrana superior (tectorial), como veremos enseguida.

Nuestro objetivo ha sido descubrir las diminutas células ciliadas. Para ello ha sido necesarioun “zoom” progresivo, que nos llevó, en primer lugar, a observar la división interna de la cóclea;luego, a “ampliar” esa división para observar mejor el “suelo” de la misma, la membrana basilar; y,en una última ampliación, inserto en esta membrana, localizar el órgano de Corti, alojamiento delas células ciliadas.

La membrana basilar tiene una base (pegada a la ventana oval) muy fina y dura, mientrasque su ápice (en la circunvolución más alta) es cuatro veces más ancho, y cien veces más flexible.En la medida en que varían su forma y su ductilidad lo hace también su respuesta a las frecuenciasdel sonido: la parte estrecha y rígida está especializada en detectar sonidos agudos, mientras que lagruesa y elástica se reserva para los graves.

El funcionamiento de la cóclea comienza como un proceso hidráulico: los impulsosmecánicos transmitidos por el estribo a la ventana oval se transforman, en el medio acuoso coclear,en olas (la onda viajera o desplazante): como las paredes exteriores de la cóclea son de hueso, y lasparticiones internas son flexibles, el movimiento genera una ola interior que se traslada a velocidaddecreciente desde la base de la cóclea hasta la punta (o ápice), y va aumentando lentamente suamplitud, hasta llegar a un punto en el que se alcanza el máximo desplazamiento de la membrana,una región específica para cada frecuencia: se denomina frecuencia característica, la que lo hacevibrar al máximo. Alcanzada ésta, disminuye bruscamente.

FIG.3 y 3b

En realidad, lo importante de esta onda desplazante -que avanza desde la base yrecorre esas dos circunvoluciones y media- no es que llegue al ápice de la cóclea, sino que empujesobre la partición coclear, tirando de ella arriba y abajo. Este movimiento se extiende al órgano deCorti, y en la subida hace que los cilios rocen la membrana tectorial34: con cada una de esas 33 La endolinfa es un líquido muy “especial”; el único punto del organismo donde puede encontrarse en el exterior delas células es la cóclea. Su alto potencial eléctrico –generado por el bombeo de iones en la estría vascular- le permitefuncionar como “la batería que conduce el proceso de transducción” Pickles, 1988: 55.34 Que es, recordemos el dibujo anterior, la cubierta superior del órgano de Corti.

TEMA 2. LA AUDICIÓN_____________________________________________________

21

mínimas flexiones –del orden de una trillonésima de metro-, se genera un potencial eléctrico que sepropagará a lo largo del nervio auditivo35.

Como adelantábamos líneas atrás, la base de la membrana basilar, fina y rígida, responde alas frecuencias más agudas, mientras que el ápice, más grueso y móvil, responde a tonos graves, debajas frecuencias36: esta especialización de una zona para cada frecuencia es lo que se llamaorganización tonotópica, y la encontraremos no sólo en la cóclea37, sino también en todos losniveles de la vía auditiva, hasta la corteza cerebral. Su resultado es conocido como selectividadfrecuencial38, la capacidad del sistema auditivo para responder de modo selectivo según lafrecuencia del estímulo, para filtrar un estímulo frente a otros simultáneos sobre la base de sufrecuencia.

A partir de estos datos se han dibujado “mapas de la cóclea”, con sus diferentes frecuenciascaracterísticas, desde 20.000 a 60 Hz:

FIG. 4

Es interesante recordar, en este punto, otra representación que nos resulta más familiar, y cuyo objetivo estambién reproducir, en cierto modo, el comportamiento del sistema auditivo (por eso se usa en ellos la escalalogarítmica): la carta de formantes, que “refleja una compensación tal, que los intervalos sonoros iguales que llegan anuestro oído se representan por distancias iguales” (Quilis, 1981, 154).

Hemos adaptado el mapa de la cóclea de la imagen anterior, representándolo sobre una línea recta; acontinuación hemos calculado las proporciones de espacio auditivo que asignan a cada banda de frecuencias tanto lacarta de formantes (en la primera columna), como el mapa de la cóclea (en la segunda):

Hz Carta de Formantes Mapa de la cóclea200 – 500 5,5% 6%500 – 1000 4% 19,6%1000 – 2000 31,3% 26,4%2000 – 4000 49,2% 40,6%

FIGURAS 5-6

Como vemos, grosso modo ambas representaciones coinciden, excepto en una banda de frecuencias: la que vade 500 a 1000 Herzios, que resulta muy minimizada en la carta de formantes, si la comparamos con el espacio que

35 La flexión de los cilios abre y cierra canales iónicos: como el líquido endococlear es positivo y el intracelular esnegativo, se producen unos cambios de potencial que se acaban transmitiendo a las fibras del nervio. Para un análisisdetallado del comportamiento electroquímico de los estereocilios, cfr, Gil Loyzaga y Poch Broto, 2000.36 Sólo los que tienen menos de 20 Hz no consiguen mover la cóclea.37 Hay varias teorías que explican el funcionamiento de la cóclea: las más importantes son la de Helmholtz,denominada “de la resonancia” y la de von Békésy, teoría del lugar o de la onda viajera (que le valió el Nobel en 1961).Entre ambas se postularon la de Rutherford sobre la frecuencia y el principio de andanada de Weber. No entraremos enlas diferencias entre ellas (cfr. Goldstein, 1992). Actualmente, se acepta la explicación de von Békésy como mecanismopasivo de la cóclea, un primer filtro, que ha de completarse con los mecanismos activos, residentes en las célulasciliadas externas (cfr. más adelante).38 Sobre las características, causas y consecuencias de la selectividad de frecuencias en la cóclea y el nervio auditivopuede consultarse Moore (1986); especialmente interesantes son los capítulos 5 (sobre sonía, entonación y duración), y7 (escrito por Rosen y Fourcin), que se dedica a la percepción del habla.

TEMA 2. LA AUDICIÓN_____________________________________________________

22

ocupa en la organización tonotópica de la cóclea; el 15% de espacio suplementario que le correspondería se asigna en lacarta de formantes a la banda 2000-4000 (10%) y a 1000-2000 (5%). En la representación del triángulo vocálico (quees la utilidad más importante de la carta de formantes) esta diferencia afectaría sobre todo a los segundos formantes de/o/, /u/ y al primer formante de /a/.

Llegados a este punto, retomamos el funcionamiento mecánico de la cóclea: la ondagenerada por los impulsos del estribo se va desplazando a lo largo de la membrana basilar, ycuando llega a su punto de máxima amplitud provoca la flexión de los cilios, y salta la “chispa”eléctrica. En ese momento es muy importante tener en cuenta la existencia de dos tipos distintos decélulas ciliadas: las internas y las externas. La gran mayoría -alrededor del 80%- son externas,pero apenas reciben inervación: son las 3.000 – 5.000 células ciliadas internas las que reciben el95% de las fibras del nervio auditivo. Este desequilibrio mantuvo perplejos a los investigadoresdurante un tiempo: ¿cómo era posible tamaño despilfarro? ¿Para qué servía esa enorme cantidad decélulas ciliadas externas, si sólo las internas enviaban mensajes hacia el cerebro? La respuesta –lanaturaleza raramente desperdicia sus recursos- se ha calificado como “segundo filtro” o “mecánicaactiva de la cóclea”: aunque son las internas las encargadas de la transmisión al nervio auditivo, lascélulas ciliadas externas determinan en gran medida qué es lo que se ha de transmitir, puesto queincrementan y afinan la selectividad de frecuencias39, generando un “pico” de respuesta mucho másfino e intenso (con ganancias de hasta 70 dB sobre la vibración de la membrana basilar). Esto esespecialmente importante cuando el estímulo tiene una intensidad baja o media.

FIG. 7

Así pues, una lesión de las células ciliadas internas supone una pérdida moderada de laselectividad de frecuencias, mientras que una lesión en las células ciliadas externas “supone ladesaparición total de dicha propiedad del receptor auditivo [...] Por todo ello se postula que lascélulas ciliadas externas participan como mecanismo activo en la selectividad frecuencial delreceptor auditivo” (Gil Loyzaga y Poch Broto, 2000: 769)40.

Ya que hablamos de pérdida auditiva, haremos una breve mención a los tipos de hipoacusia más frecuentes: sitienen lugar por una lesión en el oído medio (como ocurre en los casos de otoesclerosis, en los que la unión delestribo con la ventana oval se calcifica) se denominan pérdidas conductivas, y se caracterizan por undecremento de la intensidad, pero sin alteraciones en frecuencias. Sin embargo, si el órgano dañado es lacóclea se habla de hipoacusia neurosensorial: es lo que ocurre en el caso de ingestión de productos ototóxicos,como algunos antibióticos, en los casos de trauma acústico, por exposición a ruidos altísimos, o por otrasrazones, como las genéticas. En estas situaciones, se pueden encontrar desde lesiones que afecten sólo a loscilios, hasta daños más profundos, con destrucción de células ciliadas enteras en zonas más o menos amplias.Las alteraciones producidas son más complejas que en las pérdidas conductivas, puesto que afectan no sólo alas intensidades (con una extensión del fenómeno del “reclutamiento”), sino también a las frecuencias eincluso a la integración temporal. Su solución quirúrgica también es mucho más difícil, si no pasa por lainserción de unos electrodos que estimulen eléctricamente la cóclea (los implantes cocleares).

39 Por medio de un juego de contracciones rápidas y lentas que facilitan o bloquean la transferencia del estímulo hastalas células ciliadas internas (cfr. Gil Loyzaga y Poch Broto, 2000: 771).40 En las células ciliadas externas se generan los “microfónicos cocleares”, unos patrones eléctricos que se puedenregistrar colocando electrodos en la cóclea; son un reflejo tan fiel de la onda sonora que les dio origen que, cuando seamplifican a través de un altavoz, son indistinguibles del sonido original (Perkins y Kent, 1986: 282).

TEMA 2. LA AUDICIÓN_____________________________________________________

23

La mecánica coclear –activa y pasiva- explica satisfactoriamente la codificación de lainformación sobre frecuencias altas (es la teoría de la localización). Para los sonidos graves, elcamino hacia el cerebro parece pasar por un mecanismo de codificación complementario que tienelugar en el nervio auditivo: las diferencias temporales entre los intervalos de activación de las fibrasnerviosas. Lo explica la teoría de la andanada, o del tiempo, que veremos a continuación.

2.2.2. El nervio auditivoEl nervio auditivo es el octavo par craneal; se llama así porque está dividido en canales, que

extraen información en paralelo sobre intensidad (número de fibras estimuladas), temporalidad(módulo de descarga de cada fibra) y espectro (tasa de descarga). De la suma de las respuestas detodas las fibras se obtiene un neurograma con características comunes al espectro del sonido deprocedencia.

Como en la etapa anterior, y en las siguientes, las fibras del nervio auditivo son mássensibles a una determinada frecuencia, ante la cual se activan a intensidades menores41: estafrecuencia característica es la misma que la de la célula ciliada correspondiente en la cóclea;incluso la selectividad de frecuencias parece más fina en este nivel eléctrico que en la mecánicapasiva coclear.

Pero además de responder a las mismas frecuencias, algunas fibras nerviosas se sintonizanen fase con la onda de la membrana basilar: sólo se activan cuando la onda alcanza un determinadopunto en su semiciclo (ocurre en frecuencias bajas). De esta manera se consigue un el segundomecanismo al que antes aludíamos para codificar la información sobre frecuencias.

FIG. 8

Por otra parte, la sincronización temporal permite un control automático de la intensidad:los estímulos fuertes y suaves se traducen en activaciones a intervalos de tiempo similares(O’Shaughnessy, 1990). Y así –creemos- se transmite también información sobre intensidad delestímulo. Las fibras del nervio auditivo se saturan42 a intensidades relativamente bajas: a 60 dBpara tonos puros y 80 dB para sonidos complejos43. A partir de entonces, la respuesta del nervio sedeteriora, porque se activan muchas fibras a la vez (fenómeno conocido como reclutamiento). Sinembargo, somos capaces de procesar sin problemas sonidos mucho más intensos, de más de 100dB. ¿Cómo es posible? La respuesta parece estar en ese factor tiempo, en la sincronización en fasecon la onda viajera que recorre la cóclea: los patrones temporales generados resisten bien las altasintensidades.

41 La relación entre el umbral de intensidad y la frecuencia del sonido es la famosa “curva de sintonización”, en formade V, de la fibra nerviosa.42 El rango de activación de estas fibras va desde 10-50 veces por segundo (que es la tasa de activación aleatoria, enausencia de estímulo; correspondería al estado inicial) hasta 300 activaciones/sg, a partir de entonces ya se producesaturación por exceso de intensidad sonora.43 Esa diferencia de 20 dB indica cómo el sistema auditivo está orientado hacia los sonidos naturales, que son siemprecomplejos.

TEMA 2. LA AUDICIÓN_____________________________________________________

24

Intensidades bajas Intensidades altas

Frecuencias bajas Tasas de activación/selectividad f. Patrones temporales de activación

Frecuencias altas Tasas de activación/selectividad frecuencial en la cóclea y el nervio auditivo

Así pues, para las frecuencias bajas, en las que la mecánica coclear es menos eficaz, elnervio auditivo dispone de dos mecanismos que se complementan mutuamente: la proporción defibras que se activan ante un determinado estímulo (si la intensidad es inferior a 60-80 dB), o losintervalos de activación entre ellas, que camino del cerebro se traducen en información sobrefrecuencias44.

Hay varios fenómenos que afectan al funcionamiento de las fibras en el nervio auditivo:1. La adaptación: cuando un estímulo es muy persistente, la fibra se “cansa”45, y reduce a la mitad

su tasa de activación (sobre todo al transcurrir 15-20 msg desde el comienzo, y a intensidadesaltas). Si el estímulo tiene un inicio gradual, con incrementos paulatinos de la intensidad –comoocurre con las fricativas- la adaptación tarda más en producirse, pero si empieza abruptamente–el caso de las oclusivas o las africadas- se llega enseguida al descenso de la actividad. Por esose piensa que este mecanismo puede servir para enfatizar las transiciones de los sonidos (cfr.Quilis, 1999, 6.5.), y ciertas diferencias entre ellos, como los cambios súbitos de intensidad: enel caso de [ma], por ejemplo, tanto [m] como [a] tienen muchos componentes en bajasfrecuencias; sin embargo, [a] tiene energía a frecuencias altas que no tiene [m]; las fibras defrecuencia característica baja comienzan a activarse para [m], y cuando llega la [a], aunquetenga más intensidad, están en fase de descenso de su actividad: es la hora de las fibras confrecuencia característica más alta (lo cual resalta las diferencias entre ambos sonidos).

2. El enmascaramiento y la supresión de dos tonos: un tono simple produce sólo excitación, perodos o más tonos pueden interferir entre sí, y generar también inhibición de la respuestaanterior46, o un tono diferente a los dos estímulos iniciales (son los llamados “productos dedistorsión”). En el caso de que un estímulo provoque mayores tasas de activación que otro de suentorno, el primero actúa como “máscara” que oculta los efectos del segundo; suelen ser lostonos bajos los que “se apropien” de la fibra, a expensas de los agudos. Puede afectar tanto altiempo como a las frecuencias, y producirse de forma progresiva (de un sonido anterior sobreotro posterior) o regresiva (a la inversa).

Estos fenómenos son muestra de no linealidad en la audición ante sonidos complejos, insertos en uncontexto: la percepción de los sonidos del habla no es la simple suma de sus componentes; ni lasintensidades ni las frecuencias que encontramos a su salida son iguales a las que había a la entrada,por el camino han desaparecido algunos componentes y se han creado otros (cfr. 2.3.2)47.

44 Greenberg (1988) nos ofrece una distribución más detallada del esquema anterior:- Sonidos de baja intensidad y señales aperiódicas en frecuencias altas (oclusivas y fricativas) -> tasa de activación- Sonidos de baja intensidad y baja relación señal/ruido en altas frecuencias -> tasa de activación + sincronización- Sonidos sonoros (especialmente vocales), intensidades moderadas o altas, y baja relación señal/ruido en bajasfrecuencias -> sincronización.45 Parece que, en realidad, se agota el transmisor químico de la célula ciliada asociada a la fibra.46 Es un fenómeno derivado del comportamiento no lineal de la cóclea47 Aunque esta respuesta no lineal pueda parecer un obstáculo para la percepción, en realidad tiene el papel contrario: elenmascaramiento produce una mayor selectividad frecuencial, afinan la curva de sintonización de la fibra nerviosa, alinhibir las respuestas que no coinciden con su frecuencia característica. La supresión de dos tonos permite incrementarel contraste entre estímulos complejos, puesto que los picos de activación producidos por las frecuencias dominantes sedestacan respecto al entorno (Pickles, 1988: 266 y 103).

TEMA 2. LA AUDICIÓN_____________________________________________________

25

2.2.3. Las vías auditivasNos ponemos así en ruta hacia el cerebro: "una vez que el camino auditivo de cada oído

alcanza el cerebro, se organiza como dos sistemas de vías férreas paralelos circulando entre lasmismas ciudades, aunque cada uno tiene sus propias terminales de pasajeros. El tráfico neuralpuede circular por una línea y otra a muchas terminales" (Perkins y Kent, 1986: 283): son las víasaferentes o centrípetas (las que suben) y eferentes o centrífugas (las que bajan).

Continuando con la metáfora, ese sistema de circulación tiene dos raíles en cada sentido:uno a la derecha del eje central del cráneo y otro a su izquierda. La información preferente es la queproviene del oído contrario, la información contralateral, pero en muchas ocasiones se cruza y seintegra con la ipsilateral (procedente del oído que se encuentra en el mismo lado de la cabeza).

En definitiva, nos encontramos con el conjunto de interconexiones más complicado de todoel sistema sensorial: el 70% de las vías son contralaterales, cruzan desde un oído a la cortezacerebral del lado contrario; el resto son ipsilaterales. Hay vías nerviosas que atraviesan todas lasestaciones intermedias hasta llegar al cortex, mientras que otras se saltan algunos núcleos.

oídoØnervio auditivoØnúcleo coclearØoliva superiorØcolígulo inferiorØcuerpo geniculado medioØ cortex auditivo � � � �

¿Y por qué toda esta complicación? En comparación con el sistema visual, el auditivo esmucho más pobre en sus primeros estadios: la retina tiene 130 millones de receptores fotosensibles,mientras que la cóclea sólo cuenta con unos 15.000; el nervio visual está formado por un millón defibras, frente al nervio auditivo, que se limita a otros 15.000. Sin embargo, al llegar al cerebro,ambos sistemas se equilibran: encontramos unos cien millones de neuronas, tanto en el cortexvisual como en el auditivo. Esto es posible gracias a las vías auditivas, y su sinuoso y complejocamino hacia la corteza cerebral: en cada una de las estaciones intermedias se multiplica el númerode neuronas, compensando así la pobreza inicial (Handel, 1993).

Las vías auditivas mantienen la organización tonotópica de la cóclea y del nervio auditivo:cada neurona tiene una frecuencia característica, en la cual la intensidad necesaria para activarla48

es menor, tiene el umbral más bajo. Por otra parte, a medida que avanzamos hacia la cortezacerebral, las neuronas tienden a responder mejor a las partes dinámicas del habla (transiciones,movimientos de los formantes, inicios, finales: puntos de cambio espectral).

El núcleo coclear parece especialista en el tratamiento de la información sobre frecuencias,con especial sensibilidad, como decíamos, a tonos que varíen en intensidad y timbre; además susneuronas presentan mecanismos inhibitorios que permiten separar la señal del ruido e integrar lainformación sobre frecuencias transmitida tanto a través de las tasas de activación como de lospatrones temporales de sincronización (Greenberg, 1988).

En cambio, el complejo olivar (la oliva superior) se dedica a analizar preferentemente lalocalización de los sonidos, su dirección en el espacio.

Ambas informaciones llegan entrecruzadas (ipsi y contralateralmente) al colígulo inferior,que juega un papel importante en muchos reflejos auditivos. Y, por fin, en el tálamo auditivo, elcuerpo geniculado medial envía todos estos datos multiplicados hasta la corteza cerebral (Handel,1993; Pickles, 1988).

Pero hasta aquí sólo hemos mencionado las vías aferentes, el camino del oído al cerebro: el98% de la circulación se produce en este sentido. Sin embargo, unas 500 fibras nerviosas llevanimpulsos neuronales desde el cerebro hasta el oído; su finalidad sería la de controlar elfuncionamiento del oído: en parte se dirigen al músculo estapedial para producir el reflejo queprotege la cóclea de ruidos fuertes (cfr.2.2.1., oído medio), pero en parte van a las células ciliadasexternas de la cóclea, posiblemente con la finalidad de inhibir su respuesta a ruidos irrelevantes del 48 Por encima de su tasa de activación aleatoria, que se produce en ausencia de estímulo.

TEMA 2. LA AUDICIÓN_____________________________________________________

26

entorno, dirigiendo la atención hacia los sonidos importantes (Perkins y Kent, 1996: 285), ytambién contribuyendo a aumentar su selectividad frecuencial (cfr. 2.2.1. mecanismos activos de lacóclea).

2.2.4. La corteza cerebral

El cortex auditivo se compone de un “núcleo” 49 (calificado como primario, y organizadotonotópicamente), al que rodea un “cinturón” (el área auditiva de asociación). Las neuronas que loconstituyen se caracterizan por presentar unas respuestas muy complejas, tanto temporal comofrecuencialmente; algunas parecen especialmente sensibles a determinadas características de losestímulos complejos; otras sólo responden a un determinado tipo de ellos.Las investigaciones sobre su funcionamiento son escasas, y prácticamente todas proceden deexperimentos con animales50. Pero éstas son las hipótesis más importantes (Pickles, 1988). Lacorteza auditiva es necesaria para:

- el análisis de sonidos complejos,- tareas auditivas que impliquen dificultad,- la localización del sonido (en el lado contralateral de la cabeza, fundamentalmente), y laatención selectiva en función de esa posición- la discriminación de patrones temporales,- la memoria a corto plazo, cuando un estímulo ha de ser relacionado con otro posterior.Una de las funciones (hipotéticas) más interesantes de la corteza auditiva es la propuesta

por Whitfield respecto a su papel en la “formación de conceptos auditivos” (los fonemas, enterminología lingüística) Pickles, 1988: 231.

En definitiva, parece que aquí, en lo más profundo del cerebro, ha llegado el momento de laintegración: toda la información que en las fases anteriores hubo que separar, célula a célula, fibra afibra, neurona a neurona, es necesario volverla a unir, superponerla, con el fin de generar patronescomplejos, en los que los datos de frecuencias, duraciones e intensidades converjan en un modelocon el que comparar estímulos posteriores: “cuanto mayor sea el grado de complejidad de laestimulación sonora y la información en ella contenida, mayor será el grado esperable deimplicación del cortex en su procesamiento” Durrant y Lovrinic, 1977: 134.

Como decíamos en la introducción a este apartado, existen dos concepciones contrapuestassobre la organización y el funcionamiento del sistema cognitivo: ¿en módulos autónomos,independientes y específicos para cada función? ¿O existe una unidad en la mente humana, demodo que todos los procesos se interrelacionan, y actúan conjuntamente para diferentes tareas,como sistemas distribuidos, o redes de células? No entraremos en ese debate aquí51. Bástenosseñalar que, en lo concerniente al habla, parece existir un consenso acerca de que su percepción yprocesamiento se realizan en el área de Wernicke52 del hemisferio dominante, aunque amboshemisferios se encuentran activos durante el procesamiento lingüístico (especialmente en lasmujeres, que parecen tener conexiones interhemisféricas más extensas que los hombres a través delcuerpo calloso (Berko y Bernstein, 1999: 100)). En todo caso, el cortex puede reorganizarse, y si es 49 Situado, concretamente, en la circunvolución de Heschl.50 Dada la metodología de esos experimentos, no es extraño que escaseen: se entrena a un gato (porque tienen unsistema auditivo parecido al nuestro) en la realización de determinada tarea. Luego le extraen esa parte del cerebro, y,cuando vuelve en sí, se observa si el animal es capaz de seguir haciendo la tarea en cuestión.51 El paradigma del primer modelo es la obra de The modularity of mind, de Fodor (1983). Como estandarte de lasegunda, Sopena y Sebastián proponen la obra de Anderson The Architecture of Cognition, publicada en el mismo año.Los lectores interesados en lo concerniente al sistema auditivo pueden consultar el apartado 12.5 de Handel, 1993.52 Situada en la parte posterior del lóbulo temporal.

TEMA 2. LA AUDICIÓN_____________________________________________________

27

necesario (ante una lesión cerebral, por ejemplo), otras áreas pueden desempeñar funcionescorrespondientes a las dañadas. Quizá se trate de localizaciones “preferidas”, pero que pueden sercompensadas53.

Sin embargo, la descodificación de un mensaje va más allá de la recepción de la señal:requiere también su identificación. Y lo que nos permite descubrir el mensaje es la capacidad parareconocer modelos en esa información que llega al cerebro, segmentando el continuo fónico enunidades discretas. Nos encontramos ante una tarea compleja, en la que parecen intervenircapacidades innatas, junto a procesos de aprendizaje derivados del tiempo de exposición a unalengua54.

2.2.5. La memoria y la descodificación del habla.

Con la llegada a la corteza auditiva acaba el recorrido del estímulo auditivo, desde el aireexterior hasta el cerebro. Y termina también la neurofisiología del sistema auditivo55. Pero elmensaje no se puede interpretar hasta que no se compare la representación resultante de todo eseproceso con otras unidades significativas, almacenadas previamente en nuestra memoria: sólocuando el resultado de la comparación es positivo, podremos asignar significado al patrón sonoro.

En la descodificación del mensaje intervienen dos tipos de memoria:a) La memoria de corto plazo, inmediata, ecoica o auditiva, (que todas esas denominaciones

recibe): dura 2-3 segundos, por lo que sólo admite unidades breves, como las sílabas. Se utilizapara poder aprovechar el contexto en caso de ambigüedad; es posible que la información sealmacene resumida, en forma de rasgos que la descodifiquen parcialmente56. Esta informaciónacústica transitoria ha de grabarse en una forma fonética más completa, en la memoria de largoplazo, para que no se pierda (O’Shaughnessy, 1990).

b) La memoria de largo plazo, tardía o fonética: admite hasta siete sílabas, porque tiene la funciónde alojar los patrones de sonidos hasta que, en el proceso de comparación, se les asigne unacategoría, una etiqueta, y pasen al almacén léxico (almacenamiento acústico precategorial).

c) La memoria semántica, por último, es la permanente, el lugar donde residen las unidadesléxicas, con todos sus rasgos aparejados, hasta el fin de nuestros días (si no sufrimos antesningún deterioro cognitivo asociado al envejecimiento).

Como vemos, el fonema no tiene un papel claro como unidad de almacenamiento. De hecho,hay indicios de que la identificación de palabras no necesita normalmente una segmentaciónfonológica: tardamos más en identificar fonemas que palabras, y si se inserta un ruido en el interior

53 Los estudios sobre las posibles funciones de los dos hemisferios son apasionantes: desde los casos más dramáticos dehemisferectomía (extracción de un hemisferio), empleada como tratamiento contra la epilepsia en los años 20, pasandopor experimentos mucho menos agresivos en los años 50 con anestesia de un hemisferio (test de Wada), o por técnicasingeniosas y nada invasivas, como la escucha dicótica, hasta llegar a medidas actuales, como el electroencefalograma,los potenciales evocados, la tomografía por emisión de positrones, o la resonancia magnética funcional, que permiteobtener imágenes bastante precisas del flujo sanguíneo en el cerebro durante el habla (o cualquier otra actividad). Lesrecomendamos el resumen de Dingwall en Berko y Bernstein, 1991, cap. 2.54 Greenberg, S.: "The ear as a speech analyzer" Journal of Phonetics, 16, 139-149 ,1988. Moore, B.C.J.: FrequencySelectivity in Hearing. New York, Academic Press, ,1986.55 Para los lectores con interés o formación computacional resultará muy interesante el modelo artificial de sistemaauditivo presentado por Cooke (1993).56 Se considera que también es necesaria algún tipo de memoria a corto plazo en el procesamiento sintáctico. De ser así,su intervención como salida del almacén léxico y entrada del analizador sintáctico requeriría la inclusión de rasgossemánticos (Sopena y Sebastián, 1991: 513-514). Sus características, en todo caso, parecen diferentes de la memoriaecoica o auditiva (Wingfield y Titone, en Berko y Bernstein, 1999: 283-285).

TEMA 2. LA AUDICIÓN_____________________________________________________

28

de una palabra, tendemos mucho a “desplazarlo” mentalmente hacia su inicio o su final (cfr.1.3.2.Factores que facilitan la descodificación.).

En cambio, la sílaba parece perfilarse como una unidad importante en el procesamiento auditivo(cfr 4.4.)

Los bebés, por otra parte, parecen almacenar en la memoria de largo plazo característicasrítmicas del habla: en un experimento llevado a cabo por DeCasper y Spence, varias madres en lasúltimas 6 semanas del embarazo leyeron en voz alta un texto, dos veces al día. Al poco de nacer, seleyó a los bebés ese texto, y otro desconocido. Los niños presentaron una preferencia significativapor el primero57.

En cualquier caso, a partir de la señal espectral se activan las representaciones almacenadas enla memoria (unidades de significado) más similares a la de la señal que llega. Informaciones de másamplio alcance, como el contexto, la función gramatical, el significado de los elementos anteriores,etc., decantarán la selección. Pero eso ya pertenece al próximo capítulo: no es audición, sinopercepción y comprensión.

2.3. PSICOACÚSTICA

El estudio de audición a través de las respuestas subjetivas a los estímulos acústicos,especialmente en tareas de detección y discriminación, es el objetivo de la psicoacústica, tambiénllamada psicofísica auditiva58. Esta disciplina es un puente en el vacío que existe entre el estudio dela actividad neuronal, que hemos visto hasta ahora, y las investigaciones sobre identificación deunidades que se presentarán en el próximo tema. En efecto, como hemos visto en el apartadoanterior, la señal de habla que aparece en un sonograma no es idéntica a la que llega a la cortezaauditiva; entre ambas, el sistema auditivo ha podido suprimir algunos elementos o reforzar otros.Lo importante es descubrir cómo la señal percibida nos permite recuperar la señal emitida.

La detección implica notar la presencia o ausencia de un estímulo, pero sin llegar aidentificarlo; podemos detectar estímulos en función de su duración, su intensidad y su frecuencia.

En la discriminación, lo que hacemos es comparar y buscar diferencias entre estímulospróximos.

Siguiendo esta escala de complejidad creciente, el último estadio es la identificación, querequiere relacionar el estímulo que se nos presenta con una representación que tenemos en lamemoria, a la cual corresponde una etiqueta determinada59. Las tareas de identificación conciernena la percepción, no a la audición.

2.3.1. UmbralesEl oído presenta unos límites en su capacidad, tanto respecto a frecuencias como a

intensidades.En cuanto a frecuencias, podemos oír, por lo general, los sonidos entre 20 y 20.000 Hz. Por

fuera de estos márgenes tenemos los infrasonidos y los ultrasonidos.

57 Que se demuestra, en este tipo de experimentos, por un cambio en el ritmo de succión del chupete (que lleva unsensor instalado), o por lo que se llama “giro operativo de cabeza”: se vuelven hacia lo que llama su atención (Jusczyk,1997).58 Si los estímulos utilizados para ello son lingüísticos, y las categorías para el etiquetado también (por ejemplo, losfonemas, o las sílabas), se habla de psicolingüística auditiva.59 Por ejemplo, a 100 Hz podemos diferenciar sonidos que sólo distan 1 Hz entre sí. Pero seríamos incapaces de señalarcuál es el tono 106 Hz, 102 Hz, o 108 Hz. Otra muestra de la diferencia entre detectar e identificar se da en los casos deenmascaramiento: ante dos sonidos que interfieren entre sí, reconocer una señal verbal requiere 10 o 12 dB más deintensidad que los necesarios para simplemente detectarla. Hay un solo caso en el que no se cumple la ley de quedetectamos más de lo que etiquetamos: la percepción categorial, que se verá en 3.1.1.

TEMA 2. LA AUDICIÓN_____________________________________________________

29

En cuanto a intensidades, de nuevo nos movemos entre dos extremos: el umbral de laaudición o umbral absoluto (la intensidad mínima necesaria para distinguir un sonido delsilencio) y el umbral del dolor. Por debajo del primero no oímos, y por encima del segundo laseñal nos molesta. Cuando hablamos de comenzar a distinguir sonidos, nos referimos al umbral diferencial,la menor diferencia que puede se detectada entre dos estímulos60 (véase, más abajo, el concepto dediferencia mínima perceptible).

El umbral de la audición varía en función de las frecuencias: las muy bajas requieren másintensidad, las zonas más sensibles van de 700 a 7000 Hz –nos bastan de 0 a 3 dB-, y a partir de los8000 Hz se vuelven a requerir mayores intensidades61. Cruzando todos estos datos, obtenemos loque se ha denominado el campo de audición, o área de respuesta auditiva:

FIG. 9.

Como vemos en él, dos intensidades muy diferentes pueden producirnos la mismasensación subjetiva de “fuerza”: oiremos muy bajito, próximo al umbral de audición, un tono de 30Hz sólo cuando alcance los 65 dB; sin embargo, si el tono es de 1000 Hz, con apenas 0-2 dBtendremos la misma sensación (en cambio, los 65 dB anteriores nos situarán a esta frecuencia enplena zona conversacional, un intensidad muy cómoda). Esto nos permite elaborar curvas deisofonía, o contornos equisonoros (cfr, un poco más abajo, sonía):

FIG. 10

Si relacionamos estos datos con los correspondientes a la distribución frecuencial denuestros sonidos, podemos comprobar cómo la mayoría de las señales del habla se sitúan en la zonade más sensibilidad auditiva. De hecho, en experimentos sobre inteligibilidad de habla filtrada y enentorno ruidoso, usando medidas como el Índice de Articulación (cfr. 1.3.2. página 9) se hadescubierto que el rango de frecuencias que va de 200 a 5600 Hz es el que más contribuye a lapercepción del habla: esa coincidencia con las regiones de mayor sensibilidad auditiva no parececasual, sino una muestra de la selección natural a que son sometidos –también- los sonidos dellenguaje (como decíamos en 1.4.).

60 Según la ley de Weber (que lo descubrió en 1830), hay una relación directa entre esa cantidad y la intensidad delestímulo: el tamaño del umbral diferencial es una fracción constante del tamaño del estímulo. En estudios másrecientes, la teoría de detección de señales matiza que los criterios de respuesta influyen en la detección de estospequeños cambios. Siguiendo con los principios clásicos, Fechner descubrió, además, que la sensación crece de formalogarítmica respecto al estímulo: la magnitud percibida es igual al logaritmo de la intensidad, multiplicado por una cifraconstante (P = k log I). Dicho de otro modo, la sensación crece en progresión aritmética cuando la excitación crece elprogresión geométrica.61 Como hemos visto en el apartado anterior, la razón de estas diferencias empieza en el filtrado del oído externo ymedio, y continúa con la estructura de la cóclea, que tiene gran cantidad de células ciliadas sensibles a estasfrecuencias.

TEMA 2. LA AUDICIÓN_____________________________________________________

30

No hemos mencionado hasta el momento la intervención de la duración: tambiénhay una relación entre tiempo e intensidad, puesto que los sonidos inferiores a 0,3 sg requieren másenergía para ser percibidos (O’Shaughnessy, 1990).

Nuestros umbrales varían a lo largo de la vida: en la vejez, es muy frecuente la pérdida decapacidad auditiva (la presbiacusia), mientras que “la bibliografía evolutiva indica que los niñostienen un umbral de audición más alto que los adultos (hasta 15-25 dB), tanto para tonos puros [...]como para el habla [...]. Algunas investigaciones han sugerido que los bebés de 6 a 8 mesestambién necesitan una relación señal/ruido más alta que los adultos para detectar el habla [...] y parahacer distinciones fonéticas” Jusczyk, 1997: 121.

2.3.2. Diferencias Mínimas Perceptibles

Las diferencias mínimas perceptibles (DMP, traducción de Just Noticeable Differences, JND)son unidades utilizadas desde Weber y Fechner para medir los umbrales de la audición. Resultanimportantes en estudios de percepción (porque miden la capacidad de resolución del oído y loslímites de la audición) e ingeniería lingüística (porque definen con cuánta precisión debencuantificarse los parámetros del habla para la transmisión de datos).

Los procedimientos más habituales para detectar las Diferencias Mínimas Perceptibles son dos:- el procedimiento AX (el más frecuente), en el que al sujeto se le pregunta: ¿el estímulo X y elestímulo A son iguales o diferentes? La respuesta “diferentes” se incrementa en el momento en quela diferencia entre A y X empieza a ser perceptivamente relevante.- el procedimiento ABX; la pregunta ahora es ¿X es igual a A o igual a B? El número deidentificaciones correctas aumenta a medida que A y X se distancian.En ambos casos, cuando se llega a un 75% de respuestas correctas se considera alcanzada la DMP, oumbral diferencial. Sin embargo, el segundo método es más difícil que el primero: se han deestablecer dos comparaciones, y no sólo una, lo cual ocupa más la memoria auditiva62.

Veamos cuáles son las diferencias mínimas perceptibles, ya sea en intensidad, ya sea enfrecuencia, ya sea en duración; en definitiva, la resolución del sistema auditivo:• En frecuencias, somos capaces de percibir diferencias mínimas que van de 0,5 a 2 Hz, aunque

se considera que por debajo de 1000 Hz, las DMP son de 1-3 Hz.El sistema auditivo actúa como un conjunto de filtros superpuestos; estos filtros son más

estrechos en frecuencias graves y más anchos en frecuencias agudas: son las llamadas bandascríticas (cfr. pg. 10 y siguiente).

− Hasta 500 Hz, el ancho de cada banda es de unos 100 Hz; esto nos permite manejararmónicos individuales, aunque a costa del tiempo: la respuesta es más lenta (comoocurre en los sonogramas de banda estrecha).

− A 4000 Hz, el ancho asciende a 700 Hz, y se incrementa logarítmicamente cada KHz;entonces, los armónicos se superponen y se suma toda la energía en el interior de labanda (de una forma similar a la transformada propia de los sonogramas de bandaancha).

En total, tenemos 24 filtros de bandas críticas. Existe una medida perceptiva, que se llamaescala de bark (1 bark = 1 banda crítica) o proporción de banda crítica que relaciona lasfrecuencias acústicas y las frecuencias perceptivas.

62 Y esto, como veremos en el tema 3, favorece la aparición de la percepción categorial.

TEMA 2. LA AUDICIÓN_____________________________________________________

31

Los oyentes podemos variar el uso de las bandas, para adecuarlo a la tarea que nospropongamos (Espinoza-Varas, 1987, citado por Handel, 1993): si se trata de decidir sobre eltimbre de un sonido, que afecta a un amplio rango de frecuencias, utilizaremos numerosasbandas críticas; si tenemos que decidir sobre un rasgo determinado, activaríamos menos bandas;e incluso, en juicios sobre propiedades auditivas específicas, se supone que podemos reducirnuestra atención a una sola banda crítica. El oyente varía el grado de integración, efectuando un“zoom” que puede llegar a los mínimos detalles.

• En cuanto a intensidad, en el campo de audición, de 0 a 110 dB, una persona que oiganormalmente puede detectar más de 100 escalones. Desde que empezamos a oír un sonido,hasta que su intensidad nos hace daño, habremos incrementado su amplitud en un factor de 10millones.

La sonía o intensidad subjetiva parece depender de la actividad total del nervio auditivo.Puede obtenerse de forma bastante aproximada por medio de las bandas críticas: sumamos lascontribuciones de las 24 bandas y los elevamos a 0.23 63.Se trata de una medida relativa, que se expresa en relación a otra, bien sea el umbral deaudición, bien sea a partir de la frecuencia 1000 Hz: cuánta intensidad necesita un tono de 1000Hz para oírse a la misma intensidad que el estímulo.Como se habrá deducido de lo anterior (y ponen en evidencia las curvas de isofonía que vimosmás arriba), la relación entre dB (medida de la intensidad física) y sonía (medida de laintensidad subjetiva) no es lineal: en intensidades fuertes, grandes incrementos físicos sóloproducen moderados incrementos psíquicos.

• Respecto a las duraciones, la resolución temporal del oído se ha demostrado especialmentebuena para estímulos de entre 10 y 100 msg, y de banda ancha, como son los característicos delhabla. 20 msg es el tiempo característico de integración en el procesamiento auditivo; segúnvarios datos, el sistema auditivo posee una mayor sensibilidad natural para el rango que va de40 a 60 msg64. Sin embargo, somos capaces de percibir en el habla diferencias más breves, entre10 y 40 msg, en función de:

− la duración total del segmento (siguiendo la ley de Weber que exponíamos en la notaanterior, hay una relación directa entre ambas medidas);

− la posición de la sílaba dentro de la palabra (somos capaces de distinciones más finas ensílabas iniciales que en finales)

− la posición de la palabra dentro de la frase (O’Shaughnessy, 1990).También influyen otros factores, como la presencia de las transiciones, que acortan lostiempos de detección para las vocales. O la tarea a la que nos enfrentemos: identificar elorden en que se presentan los estímulos requiere tiempos superiores a los 200 msg.

Si combinamos los tres datos anteriores, la cifra de sonidos potencialmente discriminables por eloído humano es astronómica65. Sin embargo, ninguna lengua natural presenta más de 90 fonemas.Una de las razones es la diferencia entre discriminar e identificar66: podemos detectar pequeñísimasdiferencias entre estímulos, pero nuestra capacidad para almacenarlas en la memoria y etiquetarlascomo unidades es mucho más limitada.

63 0.23 es un factor de compresión que aparece también en otros fenómenos de percepción sonora (O’Shaughnessy,1990).64 “Esa sería la razón por la que distintas lenguas tenderían a contrastar categorías fonológicas apoyándose en lainformación acústica contenida en cambios frecuenciales con duraciones en torno a los 50 ms” López Bascuas, 1997:12.65 Denes y Pinson estimaron, en 1963, que podemos diferenciar entre 300.000 y 400.000 tonos, teniendo en cuenta sólointensidad y frecuencia.66 Otras causas tienen relación con restricciones articulatorias (cfr. 1.4.).

TEMA 2. LA AUDICIÓN_____________________________________________________

32

Un último concepto psicoacústico importante para comprender la audición de los sonidosdel lenguaje es el de enmascaramiento, que presentábamos en 2.2.2.: cuando la presencia de unestímulo interfiere con la percepción de otro, decimos que el primero está enmascarando alsegundo. Hay varios tipos:a) Según el orden de presentación de los estímulos, se habla de enmascaramiento simultáneo (los

dos a la vez, la energía de la máscara se superpone a la del modelo); progresivo o regresivo (lamáscara interfiere con el procesamiento del modelo: intercepta la memoria, crea un referenteincorrecto, le añade información...)67.

b) Según el tipo de estímulo utilizado: la máscara y el modelo pueden ser la misma clase de sonido(tono sobre tono68) o diferentes (por ejemplo, ruido / tono).

c) También puede variar la tarea a la que nos enfrentemos: sólo señalar cuándo se ha presentado elestímulo69, o llegar a identificarlo (cfr. nota 59).

Muchos componentes de los sonidos lingüísticos pueden actuar como máscara: la explosión de lasoclusivas, las transiciones, incluso los formantes estables (cfr. más detalles en Pickles, 1988: 103-106).

67 El enmascaramiento progresivo produce curvas de sintonización psicofísicas muy similares a las fisiológicas (encambio, el simultáneo genera curvas demasiado anchas, especialmente en frecuencias altas). Por eso se considera que“las técnicas de enmascaramiento no simultáneo pueden proporcionar una medida razonable de la representaciónneuronal del estímulo auditivo” Pickles, 1988: 268.68 Cuando la máscara y el modelo entran en la misma banda crítica (porque sus frecuencias son muy similares) el queposee más energía domina la percepción.69 En estos casos, se habla de umbral de enmascaramiento, en referencia a la cantidad de energía que necesita elmodelo para distinguirse de la máscara. En cambio, la cantidad de energía que necesita la máscara para interferir con elmodelo nos sirve para obtener las curvas de sintonización psicofísica, que se consideran un reflejo de las curvas desintonización neuronales, y por lo tanto, indican la selectividad de frecuencias del sistema auditivo.

TEMA 3. PERCEPCIÓN Y COMPRENSIÓN_____________________________________________________

33

TEMA 3. PERCEPCIÓN Y COMPRENSIÓN

3.1. INTRODUCCIÓN

La descodificación del mensaje verbal requiere muchas etapas de análisis. Hasta ahora hemospresentado la auditiva: el sonido se ha convertido en un patrón de excitación neuronal, y seencuentra en el cerebro. Pero aún estamos lejos de haberlo convertido en unidades lingüísticas(fónicas, gramaticales o significativas), y de haberle asignado significado (lingüístico ypragmático). El análisis auditivo ha de complementarse con el fonético, el fonológico, el léxico,sintáctico, semántico y pragmático.

Aunque para su exposición resulte más cómodo considerarlo un proceso serial, en el que lasetapas se suceden progresivamente, proporcionando una representación de la señal cada vez másrefinada, la realidad parece orientarnos más hacia un procesamiento con momentos de análisis enparalelo, con retrocesos a niveles anteriores, si resulta necesario recuperar información,mantenimiento en suspenso de otras etapas, a la espera de deshacer ambigüedades... En definitiva,con la posibilidad de utilizar no sólo la información que proviene de la señal, en su caminoascendente del oído al cerebro (procesos de abajo a arriba), sino también todos los modelos que seencontraban previamente almacenados en nuestra mente, y que nos permiten convertir ladescodificación en un mecanismo más rápido y eficaz: los procesos de arriba abajo, en los queinterviene el significado, la estructura fónica de la lengua, etc. simplificando la tarea de ladescodificación.

Hay un fenómeno que ha marcado el desarrollo de hipótesis para explicar la descodificacióndel lenguaje: la percepción categorial, opuesta a la percepción continua.

3.1.1 Percepción continua y percepción categorial

Como veíamos en el tema anterior, al hablar de las diferencias mínimas perceptibles, losseres humanos somos capaces de percibir una cantidad impresionante de diferencias entreestímulos; pero nos vemos mucho más limitados a la hora de etiquetarlos. Sin embargo, enocasiones muy determinadas, nuestra capacidad para discriminar se acerca mucho a nuestracapacidad para identificar: es lo que ocurre en un modo muy concreto de percepción, que se hacalificado como categorial, pero también como fonética o psicolingüística, por oposición al modomás común de percepción, que sería el continuo, auditivo o sensorial.

En general, categorizar significa colocar y ordenar objetos y eventos diferentes en unconjunto limitado de tipos o categorías; los elementos incluidos en cada una de ella se caracterizanpor compartir una propiedad (que puede ser un rasgo físico evidente, o puede ser una distinciónmuy sutil, o el resultado de una convención), aunque difieran entre sí en propiedades que, a efectosde esta clasificación, resultan irrelevantes.

Cuando se aplica al campo de la percepción, el adjetivo categorial alude al fenómeno por elcual grandes cambios físicos en un rango determinado (de tiempos, de frecuencias) no producendiferencias perceptivas (todos los estímulos se incluyen en la misma categoría, y esas diferencias


34

son inexistentes para el oyente), mientras que unas diferencias muy pequeñas en otro rangoprovocan un cambio drástico en la percepción: se identifica el estímulo como una unidad nueva70.

Veámoslo con algunos ejemplos. En las notas musicales, los tonos puros o algunoselementos del lenguaje como la entonación o las vocales, a medida que cambia el estímulo vamosvariando nuestra percepción sobre él: en el paso de [a] a [i] podemos detectar elementosintermedios, con un timbre que comparte características de ambas vocales.

Sin embargo, hay otro tipo de estímulos (consonantes, fundamentalmente) cuyasdiferencias, aunque físicamente sean graduales, se perciben de forma abrupta, sólo tras alcanzar unpunto crítico. Podemos manipular -mediante síntesis de voz- las transiciones que dan lugar a lapercepción de [b] o [d], variándolas paulatinamente. Esas modificaciones progresivas no producenningún efecto en el oyente mientras no se alcanza un punto crítico; a partir de él dejaremosbruscamente de identificar el estímulo como [b] y comenzaremos a identificarlo como [d], sin pasosintermedios entre ambos estadios (es el “efecto de frontera fonológica”): sólo percibimos dosunidades (las mismas que podemos etiquetar, identificar), pero no toda la secuencia de maticesintermedios, que “desaparecen”, por irrelevantes, de nuestra conciencia. Las diferencias físicasentre los distintos subtipos de [b] o [d] pueden ser mayores que las que nos llevan a saltar de unacategoría a otra, pero sin embargo, no producen efecto hasta que no alcanzan ese determinadopunto al que somos más sensibles71: la discriminación se basa en etiquetas de los sonidos, encategorías funcionales, no en propiedades acústicas de los sonidos, que resultan difíciles derecuperar conscientemente.

Estos dos modos de percepción a menudo se han relacionado con la doble dirección deprocesamiento en el lenguaje: en el de-abajo-a-arriba, basado en las características físicas de laseñal, la percepción sería continua; en el de-arriba-abajo la señal se interpreta en función decategorías pre-existentes, y la percepción se convierte en categorial.

¿Es la percepción categorial una forma “empobrecida” de descodificar? Aunque a primeravista pudiera parecerlo -es una forma simplificada de percibir, en el sentido de que desechacaracterísticas de la señal que se consideran sutiles-, sin embargo, se trata más bien de una forma deaumentar la eficiencia y velocidad del procesamiento del habla, conservando sólo los contrastes quenos ayudan a identificar unidades, y minimizando incontables diferencias no pertinentes. Es unmecanismo de optimización: nos permite distinciones muy rápidas, que son las más útiles en eldiscurso continuado. Sin ella, la conversación normal no existiría (Handel, 1993: 285).

La percepción categorial se consideró, durante los años 60 y 70, característica de lossonidos lingüísticos, frente al modo de percepción más general, que sería el continuo. Comoexplicación unos recurrían, como veremos al hablar de la teoría motora (2.1.1.), a la génesis de esoselementos (consonantes, como hemos dicho, que se articulan de modo discontinuo). Otros (Pisoni)consideraban que los rasgos acústicos que diferenciaban esos estímulos, pertenecientes a unamisma categoría, se perdían en el momento en el que la información se convertía en representación 70 Ésta es una forma algo imprecisa pero comprensible de definir la percepción categorial . “Formulado de un modomás preciso, la percepción categórica [categorial] exige que: a) las funciones de identificación tengan una pendientepronunciada (el punto de máxima pendiente corresponde a las fronteras entre categorías), b) las funciones dediscriminación han de tener un máximo global en el punto correspondiente a la frontera entre categorías, c) ladiscriminación correspondiente a estímulos pertenecientes a una misma categoría debe estar en torno al nivel de azar yd) las funciones de discriminación deben poder predecirse a partir de las probabilidades de identificación (cfr. Repp,1984)” López Bascuas, 1994a: 38.71 Se han hecho muchos experimentos sobre percepción categorial utilizando como medida el Voice Onset Time (VOT),o Tiempo de Inicio de Sonoridad: el intervalo que transcurre, en la emisión de las oclusivas, desde que se libera el airefonador, provisionalmente interrumpido, hasta que comienzan a vibrar las cuerdas vocales. Los tiempos largos seperciben como consonantes sonoras, y los cortos, como consonantes sordas. Pero, en la frontera entre unos y otros,bastan 10 milisegundos para modificar el percepto. En español, pueden consultarse los trabajos de A. López Bascuas(1998a y 1998b).


35

fonética (lo cual se veía reforzado por experimentos en los que un mismo estímulo se percibía deforma continua cuando no se consideraba lingüístico, y de forma categorial cuando el sujeto erainformado de que se trataba de habla sintética72). Al mismo tiempo, los experimentos con bebés deEimas y sus colaboradores mostraban que desde los primeros meses de vida, los niños percibíanesas sutiles diferencias.

Todo ello llevaba a la conclusión de que se trataba de una dotación innata en el hombre, que lepredisponía hacia el lenguaje desde antes de nacer, por medio de un “detector de rasgos distintivos”presente en el sistema auditivo.

Sin embargo, desde entonces han ido apareciendo datos contrarios a estas hipótesis:− Ha habido muestras de percepción categorial en animales, como chinchillas, codornices o

monos; aunque es cierto que han necesitado un periodo de entrenamiento, y presentancapacidades más limitadas que las de los bebés (Jusczyk, 1997: 57).

− También se han encontrado casos de percepción categorial en sonidos musicales, en tonospuros o en vocales (Handel, 1993: 275). Un experimento con sujetos españoles puede leerseen López Bascuas et al. (1998b).

− El tipo de tarea al que nos enfrentemos también influye: el método ABX (cfr. 2.3.2.), que hasido el más empleado, requiere un almacenamiento mayor en la memoria a corto plazo, quetiene unas limitaciones de espacio importantes, y quizá sea esto, y no el tipo de estímulo, loque imponga la necesidad de simplificar la representación (O’Shaughnessy, 1990).

− Por último, cada rasgo distintivo puede depender de múltiples claves acústicas73, y variarsegún los contextos. Todo ello introduciría una variedad de detectores muy costosa eimprobable.

A la vista de lo anterior, se ha puesto de relieve, como alternativa, el papel de lasdiscontinuidades auditivas para explicar la percepción categorial: las propiedades temporales delsistema neuronal auditivo generan una cierta sensibilidad natural hacia determinados cambios enpuntos temporales o frecuenciales; serían precisamente esas “fronteras perceptivas innatas” las queutilizaran los recién nacidos para categorizar contrastes lingüísticos, sin equivalencia con categoríasfonológicas de ningún sistema lingüístico concreto: los contrastes que en alguna lengua coincidancon esos límites serán bien percibidas por los bebés, mientras que los más alejados requerirán unreajuste de fronteras que se haría durante la adquisición del lenguaje: “los niños poseen ciertacapacidad innata para discriminar muchas clases diferentes de contrastes verbales. En realidad, estaclase de descubrimientos nos lleva a considerar que los niños nacen con la capacidad de discriminarcontrastes que puedan aparecer potencialmente en cualquiera de las lenguas del mundo [...]. Sinembargo, los resultados también indican que la experiencia contribuye a la fijación de fronterasperceptivas para los hablantes fluidos de una lengua” (Jusczyk, 1997: 56).

Como vemos en la cita anterior, la explicación puramente biologicista también encuentrabastantes argumentos contrarios: si las discontinuidades auditivas son iguales para todos los sereshumanos, ¿cómo se explica que los hablantes de ciertas lenguas puedan percibir continuadamentesonidos que para otros sólo se identifican de modo categorial? Un caso especialmente significativoen este sentido es el de los sujetos multilingües: parece probado que son capaces de variar lasfronteras perceptivas según el código que estén empleando (lo cual sería imposible si esos límitesfueran impuestos por el sistema nervioso).

72 También los experimentos de “percepción doble” se consideraron pruebas favorables a la existencia de un modo deprocesamiento específico para el habla: Liberman et al (1981) presentaron a una serie de sujetos unas sílabas en las quela transición del tercer formante se emitía por un oído, y el resto de los componentes por el otro. Los sujetos oyeron dosperceptos: la sílaba (percibida como habla) y un tono (percibido como no habla). La misma información acústica seríatratada por dos módulos distintos: el lingüístico, que manifiesta rasgos como la percepción categorial; y el general (o deno-habla), insensible a esos efectos. Puede verse una revisión en López Bascuas, 1994b.73 Por ejemplo, la diferencia entre sonidos sordos y sonoros puede estar en la presencia/ausencia de vibración glotal,pero también en la velocidad de las transiciones, o en el tiempo de inicio de sonoridad, como vimos en la nota 71.


36

En definitiva, parece que más que hablar de sonidos categoriales / sonidos continuos, podemosconsiderar que las fronteras entre unos y otros no son rígidas, sino un continuo en el que seríaadecuado considerar que algunos, como las vocales, son “débilmente” categoriales, y otros, comolas oclusivas, son “fuertemente” categoriales74.

Así pues, la percepción categorial puede ser entendida como el resultado de un complejoconjunto de procesos perceptivos, en parte innatos, unidos a una disposición adquirida durante eldesarrollo del lenguaje (en la cual la atención también jugaría un papel importante: Handel,1993;Jusczyk, 1997); una respuesta adaptativa a un mundo perceptivo cambiante e impredecible, en elque muchas veces no es necesario afinar en ciertas percepciones, si no tienen correlatossignificativos. Quizá la relación entre sonidos lingüísticos y percepción categorial pueda entenderseen el sentido inverso: no es que ésta haya sido desarrollada en función de aquéllos, sino que lossonidos favorecidos a lo largo de la historia del lenguaje hayan sido los que mejor aprovechaban lascaracterísticas del sistema nervioso auditivo, lo cual les dotaba de mayor perceptibilidad75.

3.2. MODELOS DE PERCEPCIÓN DEL HABLA

Tenemos que retomar aquí el concepto de variabilidad -que presentábamos en el tema 1-porque es el eje sobre el que giran las diferencias entre las principales teorías sobre la percepcióndel habla: los autores que conceden poca importancia a las diversas fuentes de variación sobre laseñal, proponen modelos directos, en los que el estímulo sonoro proporciona toda la informaciónnecesaria para su identificación; se centran en la búsqueda de invariantes acústicos: son losllamados modelos pasivos. En cambio, para los investigadores que consideran muy condicionantela variabilidad, resulta imprescindible la existencia de mecanismos intermedios que compensenesas distorsiones: es el caso de los modelos activos de la percepción del lenguaje. En ocasiones,esos mecanismos se consideran articulatorios (es el caso de la teoría motora); en otras, se atribuyena las características del sistema auditivo.

En relación con lo anterior, si la señal acústica contiene suficiente información para identificaruna unidad, sea lingüística, sea musical, es innecesario postular la existencia de un descodificadorespecial para el lenguaje. Pero si partimos de que el oyente tiene que actuar sobre esa señal, parahomogeneizarla y poderla comparar con los modelos almacenados, el paso siguiente es definir elmecanismo capaz de hacerlo, y dotarlo de especificidad para una función: el análisis del lenguaje.Así pues, los modelos activos se suelen caracterizar por considerar que el ser humano dispone demecanismos especializados para analizar los sonidos del habla, mientras que los modelos pasivossostienen que utiliza con ese fin capacidades generales para el procesamiento de estímulos sonoroscomplejos.

3.2.1. Modelos activos3.2.1.1. La teoría motora

En esta propuesta, formulada inicialmente por Liberman76, y reformulada por Liberman yMattingly (1985) mantiene que todo hablante/oyente de una lengua dispone de unos patronesarticulatorios que utiliza tanto para la producción de los sonidos como para su percepción. Hay un 74 Esta visión de fronteras difusas o borrosas entre categorías conecta con modelos lingüísticos recientes, como laspropuestas de la lingüística cognitiva, y algunas de sus aplicaciones en fonología (Martínez Celdrán, 2001).75 Puede consultarse López Bascuas, 1994a, para una explicación contraria; considera la percepción categorial comomuestra de “la presencia de un módulo encargado de tratar las señales de habla, con conocimiento general innato, capazde seleccionar los parámetros relevantes para un idioma concreto en el transcurso de un tiempo muy limitado”. En todocaso, su recorrido por los diversos experimentos y contraexperimentos al respecto es muy interesante.76 Es un clásico el artículo de 1967 “Perception of Speech Code”, publicado con otros tres firmantes en la revistaPsychological Review. Uno de esos cofirmantes era Cooper, investigador como Liberman de los Laboratorios Haskins.A ellos se sumó Delattre para elaborar los trabajos que dieron lugar a la teoría del locus (cfr. Quilis, 1999: 207-211)


37

acoplamiento (mapping, cartografiado) entre fonemas y gestos articulatorios: para identificarperceptivamente un estímulo tendríamos que identificarlo antes articulatoriamente. Los gestosarticulatorios se convierten así en las unidades mínimas de procesamiento, y se consideranabstracciones obtenidas a partir de los rasgos invariables77 que se necesitan para la articulación deun sonido. Si esos gestos articulatorios se pierden durante la comunicación (por coarticulación,solapamiento, etc), los oyentes los reponemos, a un nivel cognitivo más elevado, gracias a laintervención de un módulo innato y especializado: el “descodificador fonético”, cuya entrada es laseñal hablada, y cuya salida es el conjunto de gestos articulatorios que idealmente lo originaron:

“Tanto la producción del habla como la percepción del habla son inherentemente motoras.[...] Los gestos motores [...] son, en sí mismos, las unidades fonéticas esenciales” Liberman,1996: 260.La percepción categorial se considera también una prueba de la existencia de ese módulo, y

de las relaciones entre percepción y producción: como la articulación de las consonantes esdiscontinua (no se pasa gradualmente de [b] a [d]; la intervención de articuladores diferentes –en uncaso los labios y en otro la lengua- permite el paso rápido de uno a otro) su percepción también esdiscontinua.

La teoría motora es la que mejor explica fenómenos como el intercambio de sonidos o lacoarticulación (la superposición de rasgos correspondientes a sonidos sucesivos). Sin embargo,desde muy pronto fue criticada en uno de sus presupuestos básicos: los análisis electromiográficosde los órganos fonadores (indicadores de su actividad muscular) indicaban que las contraccionesarticulatorias también variaban en función del contexto en el que apareciera un sonido: lainvarianza de las órdenes motoras quedaba en entredicho78.

3.2.1.2. La teoría del análisis por síntesisEn la propuesta de Halle y Stevens, el oyente produce inconscientemente una “versión

sintética79” de la señal, basado en un análisis basto, poco detallado, de la misma. Si ese modelosimplificado coincide con alguno previamente almacenado, se da por finalizado el proceso deidentificación. Si no es así, se realiza un análisis más fino, más pormenorizado: los detalles de laseñal sólo se tienen en cuenta si resulta imprescindible.

La teoría del análisis por síntesis se ha esforzado en explicar las diferencias inter eintraindividuales. Sin embargo, como hemos visto, la descomposición que el sistema auditivorealiza sobre la señal dista mucho de ser simple e imprecisa: este modelo no da cuenta de muchosde los fenómenos documentados sobre procesamiento auditivo.

3.2.1.3. Las teorías auditivasUno de los primeros investigadores que atribuyó al sistema auditivo (concretamente al

funcionamiento coclear) la capacidad para obtener correlatos auditivos invariantes de los rasgosdistintivos acústicos fue Gunnar Fant. Modelos más recientes, como el de Rosner y Pickering80,

77 Puesto que la señal física está sujeta a tantas fuentes de variación, los autores buscaron en la articulación el origen dela invarianza: los gestos articulatorios necesarios para emitir una [p] son independientes de que vaya seguida de [a] o de[u]. Sin embargo, como veremos más adelante, no es cierto que la articulación esté exenta de variabilidad; piénsese, porejemplo, en los alófonos de /N/.78 Existe otra propuesta que otorga un papel primordial a los gestos articulatorios en la percepción del habla (y que porello ha recibido también estas mismas críticas): es la llamada “teoría realista directa”, formulada por Fowler en 1986,siguiendo el modelo ecológico de Gibson. No vamos a entrar en ella, porque sus propuestas parecen haber sidosuperadas en años posteriores, y no haber alcanzado la misma repercusión que los demás modelos incluidos. Puedeverse una síntesis en López Bascuas, 1995**.79 En el sentido de la ingeniería lingüística: la versión que haría un sintetizador de voz.80 O el de Kingston y Diehl (1995), basado en la hipótesis de que las propiedades acústicas se codifican comopropiedades perceptivas intermedias, integrando rasgos acústicos generados por diferentes articuladores.


38

retoman esta propuesta, y la desarrollan con más detalle: el análisis de la señal conllevaría cincofases (López Bascuas, 1997: 15):

a) análisis frecuencial;b) procesamiento por medio de los filtros auditivos para la obtención de un patrón auditivo

de excitación;c) incorporación de los efectos de supresiónd) transformación de la intensidad en sonía

Al final de esta cuarta etapa, se obtendría un “patrón auditivo de densidad sonora”. El quinto paso,específico para señales de habla, modificaría el funcionamiento de los filtros auditivos para facilitarla localización de los formantes, generando un “patrón fonético de densidad sonora”.

Lo más interesante de este modelo (que no es tan conocido como los anteriores) es queintegra dos elementos que se suelen considerar contrapuestos: el procesamiento auditivo y elprocesamiento específico para el habla.

3.2.2. Modelos pasivos: Lexical Access from Spectra (LAFS)Klatt, el autor de esta propuesta, mantiene que el oyente no segmenta la señal en fonemas

para descodificarla, sino que genera directamente, desde el espectro sonoro, un “candidato” apalabra, realiza hipótesis léxicas partiendo de la información espectral (de ahí la denominación dela teoría).

Las unidades más pequeñas de las que disponemos en nuestro almacén mental son losdifonemas, constituidos por secuencias vocal-consonante(s) o consonante(s)-vocal (con latransición en su interior)81. Durante sus primeros años de vida, el niño aprende todas lascombinaciones difonémicas de su lengua, y las almacena en su mente como una inmensa red deunos 4000 estados y 6000 combinaciones posibles (incluyendo fenómenos inestables como lacoarticulación, la adición o supresión de segmentos, etc.).

Cuando el oyente descodifica la señal de habla, busca el camino que mejor corresponde alespectro recibido, ponderando ciertos factores significativos, como la variación de la frecuenciafundamental según el hablante, las diferencias entre los estados estables y los variables(transiciones), etc. El sistema, aun sin modificar su estructura, se adapta a cada hablante, a cadaentorno, a cada acto comunicativo, por lo que no es necesario buscar rasgos invariables en la señal.

Se ha criticado a esta propuesta por su alto coste de procesamiento, y la dificultad paraprobarlo experimentalmente. Sin embargo, los hallazgos recientes de modelos conexionistas paraexplicar la adquisición del lenguaje (cfr. Aguirre y Mariscal, 2001) podrían proporcionar algunosapoyos a este tipo de hipótesis82.

3.2.3. El modelo WRAPSA (Word Recognition and Phonetics Structure Acquisition),o cómo los niños aprenden a entender.

Es la más reciente de todas las explicaciones sobre la percepción (fue presentada porprimera vez en 1989, aunque su formulación actual es de 1997), y se encuentra muy ligada a losestudios sobre las sorprendentes capacidades tempranas para percibir el lenguaje desde elnacimiento. Su autor es Peter W. Jusczyk. Su sistema se compone de cuatro etapas: 81 La secuencia /kánsa/, por ejemplo, estaría constituida por los siguientes difonemas: /ka/ /an/ /sa/; /tras/ sería la sumade /tra/ y /as/.82 No podemos extendernos aquí sobre las características de tales modelos; sólo indicaremos que se trata de redesneuronales (cuyo mecanismo de funcionamiento tiene las mismas bases que la de la propuesta de Klatt: son circuitos deordenador), sometidas a un proceso de “aprendizaje” similar al que recibe el niño durante su infancia. Condeterminadas restricciones de memoria, y la inclusión de un mecanismo de ponderación y corrección de errores, lamáquina pasa por las mismas etapas que los niños y llega a dominar el rasgo que se probaba (eso sí, siempre se hananalizado fenómenos aislados). Más adelante, en 3.3.1., volveremos sobre los modelos conexionistas. El llamadoTRACE también se ha aplicado a la percepción del habla.


39

1) Análisis auditivo: proporciona una descripción de los rasgos espectrales y temporales de laseñal de entrada (sea o no sea habla, los analizadores son los mismos); los rasgos extraídosreflejan la organización inherente del sistema auditivo humano y son independientes de lalengua: se trata de elementos innatos. Los analizadores están sintonizados por frecuencias, yextraen información sobre la presencia de ruido en esa banda, y su clase, duración e intensidad,así como sus cambios temporales; las unidades temporales son de tipo silábico (aunque puedanno coincidir exactamente con la sílaba del modelo); sin embargo, esta información desaparecerápidamente si no se graba; y en la selección de lo que tiene que grabarse sí puede influir lalengua materna del niño.

2) Calibrado (weighting): dirige la atención del niño hacia los rasgos identificados por losanalizadores que son necesarios para procesar los contrastes entre palabras en una lenguaparticular. Se trata, en cierta forma, de una distorsión del espacio perceptivo, estrechando oensanchando las distancias entre sonidos para ajustarlas a las características fonológicas de lalengua materna (propiedades, frecuencia y distribución de las unidades). El desarrollo de estesistema de calibrado83 permite al niño empezar a almacenar patrones de sonidos, y tambiénproporciona el marco para percibir categorialmente el habla fluida

3) El principal componente del modelo tiene que ver con el proceso de extracción de patronesdesde la señal, que tiene lugar en la salida del esquema de calibrado. Este proceso refina ladescripción de la señal e intenta la segmentación en unidades del tamaño de una palabra (lo cualdepende de cada lengua). El resultado es una descripción que agrupa los rasgos prominentes enunidades silábicas marcadas prosódicamente (pero sin descender a segmentos fonéticos).

4) Comparación y almacenamiento de la representación. Las representaciones anteriores(consideradas una prueba para la construcción del lexicón) se comparan con otras, previas, depalabras conocidas; si se obtiene un parecido grande entre la prueba y un subconjunto de rasgosalmacenados correspondientes a una palabra del lexicón, entonces la prueba se clasifica comoesa unidad; si no, es necesario un reprocesamiento.

Estos dos últimos modelos abordan aspectos relacionados con el acceso al lexicón, y laasignación de significado, que nos sirven de puente para introducir el próximo apartado, dedicado alas etapas posteriores a la segmentación fónica.

3.3. COMPRENSIÓN

Hemos dejado los patrones sonoros en la corteza auditiva. Pero estamos lejos de terminar ladescodificación del mensaje; de hecho, no hemos hecho más que comenzar, no hemos traspasado elnivel periférico del procesamiento; aún quedan por delante los niveles intermedios (procesosléxicos, sintácticos y semánticos) y el nivel central (interpretación pragmática e integracióndiscursiva) (Belinchón, Rivière e Igoa, 1992: 314).

El análisis detallado de todos ellos constituye un extenso e interesante campo deinvestigación psicolingüística, cuyo conocimiento recomendamos a los lectores interesados84. Sinembargo, nosotros apenas entraremos en él: este es un material didáctico dirigido a alumnos defonética y fonología, y el análisis de otros niveles lingüísticos desborda completamente nuestros

83 Que se desencadena cuando el niño ha almacenado una cantidad suficiente de ejemplares individuales, tantos que yale resulte más rentable cognitivamente ordenarlos y extraer modelos, que seguir almacenándolos de uno en uno.84 Una lectura especialmente recomendable para iniciarse en este campo de investigación es El abecé de lapsicolingüística, publicado por Alberto Anula en la editorial Arco-Libros (1998): sus 94 páginas presentan conamenidad y rigor los principales logros de la psicolingüística actual. Con la ventaja adicional –para nosotros- de estarescrito por un lingüista.


40

objetivos. A pesar de lo dicho, nos parece importante perfilar, siquiera en sus trazos más gruesos, elcamino que parecen seguir esos patrones sonoros, como colofón de los apartados anteriores, y paradarle a este tema el “final feliz” que le suele corresponder cuando descodificamos los mensajeslingüísticos.

Dividiremos ese recorrido en tres etapas, relacionadas con tres unidades: la palabra, laoración y el discurso.

3.3.1. Reconocimiento y comprensión de palabras

Para asignar significado a los primeros patrones sonoros, podemos utilizar tres fuentes deinformación: la que proviene del estímulo (el propio patrón sonoro), la que proviene del contexto(para lo cual entra en juego la memoria inmediata), y la que tenemos almacenada previamente ennuestro cerebro (en este caso, la información léxica).

En cuanto pensamos en ese almacén léxico, tendemos a imaginar una especie de“diccionario” mental, en el que a cada entrada tendrían que corresponderle un conjunto de rasgos:fonológicos (y ortográficos, si consideramos la lectura), morfológicos, de significado, etc. Veamosalgunos de los interrogantes planteados para cada uno de ellos (Belinchón, Rivière e Igoa, 1992;Berko y Bernstein, 1999; Martín y Siguán, 1991):a) Información fonológica: ¿Es realmente necesaria? En algunos modelos de procesamiento, como

el LAFS, que ya hemos visto, o los de acceso directo al léxico, que presentaremos más adelante,se considera una etapa innecesaria. Sin embargo, la mayor parte de las propuestas la considerancomo primera fase del procesamiento lingüístico. Ahora bien, ¿cuáles serían las unidadespertinentes en este nivel? ¿El fonema? ¿La sílaba inicial? ¿La sílaba acentuada? La respuestaparece depender de las características de cada lengua: en casos como el del español, la sílaba,combinada con el acento, parece el mejor candidato (cfr. 4.4. LA SÍLABA COMO UNIDADPERCEPTIVA); en lenguas como el inglés, de acento fijo, la unidad más rentable puede estarrelacionada con la distribución acentual. Sin embargo, también existen propuestas en las que elpaso por esta etapa no requiere unidades lingüísticas, sino simples medidas temporales (150msg en el modelo de la cohorte, que se verá enseguida).

b) Información morfológica: ¿almacenamos formas o lemas, tenemos una entrada para niñ-, a laque luego se unen los sufijos (hipótesis del listado parcial), o almacenamos niño, niña, niños,niñas (hipótesis del listado exhaustivo)? Los resultados de experimentos sobre tiempos deprocesamiento para estímulos monomorfémicos / plurimorfémicos, en palabras ypseudopalabras indican que posiblemente optamos por soluciones mixtas, en función de lascaracterísticas de cada elemento: las palabras con morfología compleja se almacenarían comoraíces, a las que luego se añadirían los afijos; éstos, y las formas más simples y frecuentes(como las palabras función: preposiciones, artículos, pronombres, etc.) se almacenaríancompletos, sin descomponer; la morfología flexiva (singular/plural; variaciones de número,tiempo y persona) se realizaría añadiendo morfemas a las raíces, pero los resultados de lamorfología derivativa se almacenarían como unidades independientes. En definitiva, unasolución de compromiso entre la economía del procesamiento y la economía delalmacenamiento, cuyas fórmulas concretas estarán en función de las característicasmorfológicas de cada lengua.

c) Información semántica: ¿qué es el significado léxico? Para unos, la suma de una serie de rasgosmínimos (semántica componencial o estructural); para otros, la construcción de prototipos a loscuales las unidades se asemejan más o menos (semántica cognitiva). ¿Y cómo se representa lainformación semántica? Posiblemente como una red de elementos interconectados (Collins).


41

3.3.1.1. Los modelos de acceso al léxicoLa gran cuestión que enfrenta a las diferentes propuestas que abordan el reconocimiento de

palabras es si el estímulo fónico se va comparando con las entradas léxicas de forma secuencial,ordenada, una por una, o si, por el contrario, ante la llegada del patrón sonoro se activarían almismo tiempo varios candidatos, que se irían desechando a medida que avanza la descodificación,hasta reducirse a uno. La primera propuesta (el modelo de búsqueda autónoma) se califica comoserial, mientras que las segundas (que son tres) se consideran de acceso directo, paralelo ointeractivo.• Propuestas seriales: en el modelo de búsqueda serial o autónoma (creado por Forster, en 1976),

hay tres vías para acceder al léxico: la fonológica (a partir de un estímulo sonoro), la ortográfica(si se trata de lectura85), y la semántica (a partir de su significado), utilizada para la producciónde palabras. En el primer caso, cuando llega el estímulo, se busca en un archivo periférico(fonológico, en nuestro caso), cuyas entradas están ordenadas según su frecuencia de apariciónen la lengua. En una fase posterior, una vez recuperada la forma de la palabra, se enlaza con unarchivo principal, que ya contiene toda la información semántica y sintáctica correspondiente.Este modelo explica, naturalmente, el efecto de la frecuencia y longitud de las palabras en suidentificación, también los retrasos en la detección de las pseudopalabras (porque requeriríanactivar todas las entradas del archivo), pero no es fácilmente aplicable al discurso continuado.

• Propuestas paralelas: la primera fue el modelo del logogén (Morton, finales de los 60): cadaentrada léxica corresponde a un detector metafórico, el logogén: “los logogenes sonmecanismos contadores que se incrementan cada vez que se produce una entrada sensorial quecoincide con alguna parte de la información que en ellos se encuentra representada (y que puedeser de tipo ortográfico, fonológico o semántico” (Sopena y Sebastián, 1991: 499). Cuando llegauna entrada, se ponen en marcha todos los logogenes compatibles con ella, y el que antesalcance su umbral de activación (porque ha recogido suficientes evidencias sobre laequivalencia entre el estímulo y la palabra) envía la señal correspondiente al resto del sistemacognitivo86. Herederos de Morton son los modelos conexionistas actuales, entre los que destacael de activación interactiva de Rumelhart y McClelland (también llamado TRACE): losprocesos cognitivos se simulan por medio de redes neuronales, con nodos de entrada, nodos desalida, y nodos ocultos, donde tiene lugar el procesamiento. Un nodo de entrada activamúltiples nodos ocultos, que atienden a distintas características del estímulo (hay un nivel derasgos, otro fonológico y otro léxico), en un juego de excitación e inhibición copiado delfuncionamiento neuronal: cuanto mayor es la frecuencia de un estímulo, más reforzadasresultan las conexiones que permiten identificarlo.

• El modelo de cohorte (Marslen-Wilson, años 80) se ha calificado como “mixto”, porquepropone dos etapas, una en paralelo y otra en serie. En nuestro caso resulta especialmenteinteresante, porque fue creado específicamente para el reconocimiento auditivo de las palabras.Los primeros segmentos del patrón sonoro activan, a su llegada a la zona de procesamientoléxico, un conjunto de palabras candidatas, en función de su coincidencia fónica; la informacióncontextual o los segmentos posteriores de la palabra van reduciendo esa lista, de forma serial,hasta que llega un “punto de unicidad”, en el que se produce la identificación de unívoca.Alcanzar ese punto requiere más o menos tiempo según las circunstancias: en palabras aisladas,por ejemplo, habrá que esperar más que en discurso continuado, porque no contamos con la

85 El acceso al léxico en la lectura es un tema que ha despertado bastante interés en las últimas décadas; se hainvestigado mucho –también en España- sobre la posibilidad de que en este caso el código de acceso sea ortográfico,sin necesidad de conversión fonológica. La respuesta parece estar condicionada por la mayor o menor transparenciaortográfica de las lenguas (que facilitarían el recurso al nivel fonológico), y el nivel de lectura del sujeto (los buenoslectores dependerían más del acceso fonológico) Sopena y Sebastián, 1991 y García Albea, 1991.86 Así se explican los efectos de la facilitación contextual: ante una palabra ambigua, decidimos más rápidamente susignificado si en el contexto hay datos que nos inclinan hacia uno de ellos.


42

ayuda del contexto; las palabras poco redundantes requerirían también más tiempo que las muyredundantes.

En resumen, el patrón sonoro ha conseguido convertirse en una unidad léxica. A continuaciónveremos cómo esa cadena de piezas léxicas se transforma en una estructura conceptual derelaciones entre elementos.

3.3.2. La comprensión de oraciones

Descifrar una oración, obviamente, no equivale a sumar sus componentes, sino que requieredescubrir el modo en que éstos se relacionan, su estructura interna. Para ello, algunos modelospsicolingüísticos87 consideran innecesario este estadio sintáctico: el significado de las piezasléxicas, unidas a estrategias generales de procesamiento de la información, más nuestroconocimiento del mundo, serían suficientes para utilizar el lenguaje para su fin comunicativoprimordial: son las propuestas funcionalistas (representadas, entre otros, por Bates y MacWhinney).Por contraste, las corrientes que sí consideran imprescindible un procesador sintáctico, calificadascomo formalistas88, proponen las siguientes operaciones (Belinchón, Rivière e Igoa, 1992):− segmentación: la oración (o cláusula) ha demostrado ser una unidad cognitiva consistente, como

prueban técnicas como la inserción de clics (que los oyentes desplazamos a los márgenesinterclausales) o el recuerdo.

− Asignación de funciones a cada sintagma− Establecimiento de las dependencias entre ellos− Relaciones entre funciones sintácticas y funciones semánticas− Incorporación de la información indirecta, inferencial o pragmática.

Las dos grandes versiones del procesador gramatical humano han sido comparadas (porAitchinson), con la hormiga y la liebre: para los primeros (como el modelo de satisfacción derestricciones) funcionamos de modo laborioso, meticuloso y lento: durante el procesamientosintáctico de una oración vamos generando todos sus posibles análisis simultáneamente89, ydemoramos la toma de decisiones hasta disponer de toda la información. Los segundos, en cambio(como el modelo del sendero de jardín90, mejor traducido como modelo de vía muerta), se decantanpor un sistema más rápido y económico, que selecciona una sola interpretación durante ladescodificación (siempre la más sencilla); sólo cuando encontramos evidencias de error en elcontexto reconsideramos ese análisis, y volvemos atrás (cfr. Igoa, 1995; Anula, 1998, ap. 3.2.3.).

87 Según Igoa (1995) el estudio del componente gramatical del lenguaje se puede hacer desde tres perspectivascomplementarias: la lingüística, o gramatical, se ocuparía del estudio de la competencia: los principios teóricos querigen la construcción de enunciados lingüísticos; la psicolingüística se encarga de la actuación: las actividades mentales(procesos y representaciones) necesarios para construir cada enunciado real; la neurolingüística se encargará deestablecer su representación en la estructura del cerebro.88 Los formalistas se suelen asociar a las propuestas modularistas (cfr. 2.2.4.), mientras que los funcionalistas seconsideran más interactivos en su concepción sobre el funcionamiento del cerebro. Sin embargo, las fronteras entreunos y otros cada vez son menos rígidas, gracias a la aparición de nuevas propuestas, que, desde un enfoquefuncionalista, sí consideran necesaria la existencia de un componente gramatical (es el caso del la Gramática del Papely la Referencia, o la Gramática Funcional de Dik, entre otras (cfr. Marrero 2001).89 Los modelos psicolingüísticos de procesamiento sintáctico han trabajado mucho con el análisis de oracionesambiguas90 Traducción directa del inglés garden path, que hace referencia a un tipo de oraciones sintácticamente ambiguas, enlas que la interpretación más fácil lleva a un callejón sin salida que obliga a los oyente a reinterpretar la frase: el ladróndisparó al policía con los prismáticos (ejemplo de Igoa, 1995: 380).


43

3.3.3. Comprensión pragmática e integración en el discurso

Y llegamos así a los procesos centrales en la descodificación. La asignación de sentidopragmático, a la que hemos aludido como última etapa, supone manejar los significados noliterales, las inferencias, las relaciones entre lo tácito y lo explícito. La asignación de significado alas unidades oracionales y supraoracionales va más allá de la estructuración de sus contenidos. Enmuchas ocasiones es necesario “añadir” elementos que no eran manifiestos en el mensaje original;es lo que Belinchón, Rivière e Igoa califican como aspectos constructivos de la interpretación deenunciados (1992: 457-459). Según estos autores, en la comprensión del mensaje verbal, en primerlugar se realiza una reconstrucción del significado literal del mensaje. Si éste resulta inadecuado alcontexto, el oyente realiza un segundo tipo de procesamiento, más lento y consciente(“cognitivamente controlado”) en el que busca el sentido figurado.

En cuanto a la incorporación de las diferentes oraciones en una unidad comunicativa mayor,el discurso, uno de los modelos psicolingüísticos más conocidos, el de Walter Kintsch y Teun vanDijk, considera que los textos no se almacenan en la memoria como tales, en su forma literal, sinotraducidos a ideas, que toman la forma de proposiciones91: la unión de un predicado con uno ovarios argumentos. Según el tipo de relación que esos argumentos mantengan con el predicado, seles asigna un caso: agente, paciente, instrumento, objeto... Las proposiciones se almacenan de modoordenado, según una jerarquía basada en una regla de repetición: primero se establece laproposición principal (o macroproposición), y a ella se subordinan todas las que contienenargumentos repetidos de la primera. Se obtiene así un grafo de coherencia, en función de losvínculos referenciales que contenga el texto: cuantos más vínculos aparezcan, más rico será elgrafo. Los elementos más básicos, situados en su parte superior, son los mejor recordados; segúnalgunos experimentos, las proposiciones principales, de nivel 1, eran recordadas en el 90% de loscasos, mientras que las del último nivel (el quinto) sólo se recordaban en el 60% de ellos (Berko yBernstein, 1999: 286-287; Belinchón, Rivière e Igoa, 1992: 481-489).

Concluimos aquí este recorrido por las últimas etapas en el procesamiento del lenguaje, yaconvertido en un conjunto de ideas abstractas, y muy alejado de aquellas primeras codificacionesneurológicas de frecuencias, intensidades y tiempos. En el próximo tema, dedicado a los sonidosdel lenguaje, volveremos a los niveles puramente fónicos.

91 “Tanto los conceptos como las proposiciones son unidades abstractas de significado. Sin embargo, a diferencia de losconceptos, las proposiciones poseen valor de verdad, toda vez que entrañan un acto de predicación. Por esa razón sedice que mientras que las palabras representan conceptos, las oraciones representan proposiciones. Por otra parte,gracias a su carácter abstracto, las proposiciones representan el significado de manera amodal, esto es, conindependencia del medio por el que se expresan e interpretan, sea éste un enunciado lingüístico, una fórmulamatemática o una imagen. Estas dos propiedades de las proposiciones, el valor de verdad y el carácter amodal, hacen deellas un vehículo extremadamente útil para representar nuestras creencias y pensamientos. Por ello [se] han adoptado[...] como formato universal de representación del conocimiento humano, como una suerte de lenguaje de la mente”.Igoa, 1995: 374

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIÓN____________________________________________________________

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIÓN

4.1. INTRODUCCIÓN

Los sonidos del lenguaje son acústicamente muy complejos: están constituidos por una grancantidad de ondas de frecuencias y amplitudes muy diversas, y sujetos a unos cambios temporalesde grandes consecuencias para su funcionamiento. Como consecuencia, el estudio de losmecanismos que intervienen en su descodificación es más difícil que el análisis de la respuesta atonos simples. Sin embargo, y mientras no se demuestre lo contrario92, contamos con los mismosprincipios de funcionamiento en un caso y en otro:

- comienzo y tasa media de activación neuronal, en función de las frecuencias características: setrataría de un mecanismo especialmente implicado en la percepción a intensidades bajas y ensonidos agudos, como las consonantes fricativas- el grado de sincronización en fase (con la onda de la membrana basilar) de las activacionesneuronales: este patrón temporal intervendría de forma destacada ante sonidos graves o conmuchos componentes acústicos, como las vocales.Respecto al tiempo, se consideran muy importantes los inicios de los estímulos, puesto que en

esos primeros milisegundos las fibras del nervio auditivo no han alcanzado los fenómenos desaturación y adaptación que alteran su capacidad de respuesta, afectada también por otrosmecanismos, como el enmascaramiento, y la supresión de dos tonos.

Como ocurre ante cualquier fenómeno inexplorado, las investigaciones sobre percepción dellenguaje han partido de lo conocido, para relacionarlo con lo nuevo. Así pues, se han buscadocorrespondencias entre los mecanismos de descodificación y las características mejor establecidasdel habla: los rasgos distintivos.

En ocasiones, se han tomado como referencia las tradicionales clasificaciones articulatorias:lugar y modo de articulación, sonoridad/sordez93 y oralidad/nasalidad. Experimentos conmanipulación del habla (suprimiendo o enmascarando determinadas bandas de frecuencia) hanmostrado resultados como los siguientes (O’Shaughnessy, 1990, apartado 2.2):ü La manipulación de frecuencias inferiores a 1000 Hz se traduce en confusiones en el rasgo

de sonoridad94. A partir de esa frecuencia, en cambio, se ven afectados los lugares dearticulación que oponen, por ejemplo, labiales y dentales95.

92 Algunos investigadores son un tanto pesimistas en este sentido, y consideran que quizá nuestra representaciónacústica del habla (basada en la distribución de formantes y bandas de energía) es incorrecta y no permite elaboraresquemas consistentes de procesamiento del habla (Handel, 1993: 521). En todo caso, el fracaso de algunos trabajos hademostrado que las medidas espectrales automáticas, basadas en promedios globales de largos enunciados, no explicanla percepción subjetiva del habla, cuyas claves habría que buscar en la relación entre las variaciones temporales delhabla y la estructura lingüística del texto al que corresponden (Boves, 1984)93 Este contraste en concreto es el utilizado por Kingston y Diehl (1995) para exponer su teoría sobre la existencia de unnivel intermedio en la integración perceptiva de las propiedades acústicas.94 Recordemos que el componente más grave del habla es la vibración glotal, producida en las cuerdas vocales yresponsable del contraste entre sonidos sordos y sonoros.

TEMA 4. LOS SONIDOS DEL LENGUAJE Y SU DESCODIFICACIÓN_____________________________________________________

45

ü La superposición de ruido de banda ancha afecta también a la identificación de los lugaresde articulación (por su incidencia en la región del segundo y tercer formantes), pero apenasconlleva errores de sonoridad. A este respecto, la reverberación del sonido96 (eco de 800milisegundos) también actúa como ruido enmascarante, dificultando la percepción de loslugares de articulación.

Conclusiones:a) Los rasgos más robustos, más resistentes son, por orden decreciente, modo, sonoridad y

lugar.b) Los rasgos de modo residen en bajas frecuencias; los de lugar se encuentran

fundamentalmente por encima de los 1000 Hz, y especialmente en la región de los segundosformantes.

c) La sonoridad se percibe a través de la estructura de los armónicos97, que es más fuerte enfrecuencias bajas, pero se mantiene hasta los 3000 Hz.

Como vemos, es muy difícil encontrar explicaciones partiendo sólo de datos articulatorios: ladistancia entre la clasificación articulatoria y la percepción es demasiado grande. Por eso nosparecen más interesantes los experimentos que toman como base los rasgos distintivos acústicos.

La relación entre los rasgos distintivos acústicos y las bandas críticas de frecuencias (cfr. 2.3.2)fue establecida en un interesante trabajo de 1988, por Duggirala y sus colaboradores. Según susresultados, las “frecuencias críticas” para cada rasgo98 eran las siguientes:

Nasalidad: 472 Hz Densidad: 1618 HzSonoridad: 758 Hz Continuidad: 1800 Hz

Gravedad: 1290 Hz Estridencia: 2521 Hz.

Estos datos han sido confirmados en experimentos sobre el español con oídos patológicos:cuando un sujeto tiene afectada su capacidad para percibir sonidos agudos, las oposiciones peoridentificadas son ‘continuo/interrupto’ y ‘estridente/mate’ (Marrero, Santos y Cárdenas, 1993;Marrero y Martín, 2001).

Terminaremos esta introducción retomando el apartado 2.3.2: las Diferencias MínimasPerceptibles, aplicadas esta vez a los sonidos del lenguaje, la psicoacústica del habla (O’Shaughnessy, 1990: 157-159):

1) Frecuencias: en vocales sintéticas, se ha comprobado que nuestra mayor capacidad dediscriminación se produce ante vocales estables, en las cuales podemos percibir variaciones de un3-5% en los valores de frecuencia formántica. Sin embargo, en condiciones más similares a las delhabla natural (contextos de Consonante-Vocal-Consonante, con los correspondientes movimientos 95 Es razonable pensar en una relación entre estos datos y los locus correspondientes a cada lugar de articulación: paralas oclusivas labiales está en 700 Hz, y para las dentales en 1800. Sin embargo, el locus de las oclusivas está muchomás alto (a 3000 Hz) (cfr. Quilis, 1999: 210)96 En un espacio abierto, el sonido viaja en línea recta desde la fuente hasta el oído. Pero en espacios cerrados, una partede las ondas rebotará contra las paredes, el techo, el suelo y los muebles, antes de llegar, de forma indirecta, al oído. Lacantidad de sonido indirecto de un habitáculo depende de la capacidad para absorber el sonido de los materiales que locomponen; se mide en tiempo de reverberación, el necesario para que el sonidos decrezca hasta una centésima parte desu intensidad original. Si ese tiempo es muy largo (hay mucha reverberación) las ondas provenientes de distintos puntosse solaparán a su llegada al oído, produciendo ese efecto enmascarante que mencionamos.97 Recordemos que los armónicos son ondas simples, componentes frecuenciales menores que los formantes: cadaformante está constituido por un conjunto de armónicos que ha sido reforzado a su paso por la cavidad oral.98 Tomando como estímulos un test construido con pares mínimos opuestos por un rasgo distintivo, aplicaron el Índicede Articulación para determinar la importancia relativa de las diferentes partes del espectro auditivo en ladiscriminación de los rasgos distintivos acústicos. (Duggirala et al., 1988).


46

de los formantes) es necesario mover entre 9 y 14% el centro del formante99 para poder percibiralguna variación.

Si nos centramos en la frecuencia fundamental o F0, la sensibilidad se mutiplica (no en vanomuchas funciones lingüísticas primordiales residen en los movimientos de este primer armónico):basta un cambio de 0,3-0,5%, ¡incluso menos de un Herzio en vocales abiertas100 de laboratorio!Sin embargo, en habla más natural los cambios del F0 inferiores a 5 Hz, y 50 msg, son promediadosdurante la percepción101. También se ha indicado que percibimos con mayor exactitud las subidasdel F0 que sus descensos.

En un interesante trabajo sobre umbrales tonales en español peninsular, Fernández Planas llegaa la conclusión de que, aunque la diferencia mínima perceptible para los cambios frecuenciales enentonación es de 1 semitono, en su uso lingüístico “ceñirse al mínimo perceptible no debe serfuncionalmente rentable”, necesitamos un poco más de redundancia, para evitar que cualquierdistorsión de la señal haga irrecuperable el mensaje. Por eso introduce el concepto de “umbralfuncional”, estableciéndolo en 1,5 semitonos, “la unidad mínima potencialmente relevante desde elpunto de vista prosódico” (Fernández Planas, 2001)

2) Intensidades: Las diferencias mínimas perceptibles más habituales son:- para el primer formante, el más intenso y prominente perceptivamente, 1,5 dB;- para el F2, de unos 3 dB.

Pequeños cambios de amplitud en frecuencias muy bajas (en la zona del primer y el segundoarmónico) conllevan grandes diferencias perceptivas entre vocales próximasLas regiones entre formantes, en cambio, requieren alteraciones mucho mayores, de hasta 13 dB102.

3) Duraciones: los umbrales temporales para los sonidos del lenguaje son bastante breves,aunque varían de unos rasgos a otros: 10 msg de señal bastan para percibir, en vocales aisladas, uncambio en el lugar de articulación; sin embargo, el rasgo tenso/laxo requiere al menos 30 msg. Lapercepción de la sonoridad puede requerir también entre 20 y 30 msg. Y somos más sensibles a lasdiferencias de duración en vocales que en consonantes.

Por otra parte, medidas temporales muy finas, como la sincronización en fase de losarmónicos parece importante para percibir la calidad del habla, puesto que su manipulaciónimprime ronquera o aspereza a los sonidos afectados. Sin embargo, las diferencias mínimasperceptibles para las transiciones103 (comienzos/finales de los sonidos) son de un 25-30% de losvalores de referencia. Eso hace pensar que quizá sólo manejemos dos categorías de transiciones:larga / breve.

La duración parece una clave de enorme importancia para los niños con Trastorno Específico de Desarrollo delLenguaje, una alteración que les impide desarrollar el lenguaje normalmente, a pesar de no tener ninguna otra patologíaasociada (su inteligencia y audición son normales): duplicando el tiempo de las transiciones, y haciendo más lentos losintervalos entre sílabas (en estímulos sintéticos), estos niños consiguieron mejorar espectacularmente su discriminaciónde pares mínimos, según los resultados de Tallal y sus colaboradores, desde 1976.

99 Somos más sensibles a las frecuencias centrales que a los anchos de banda: sólo notamos las modificaciones deanchos de banda si superan el 20-40%, y si afectan a la intensidad (amplitud). Su variación temporal afectafundamentalmente a los fonemas nasales.100 Como [a]; en las vocales abiertas el primer formante no interfiere con la frecuencia fundamental.101 “Diferencias en el F0 de menos de un cuarto de octava es improbable que sean útiles en la comunicaciónlingüística” Op. cit. Pg. 158102 Los “picos” espectrales correspondientes al centro del formante tienen mucha mayor repercusión, a todos losefectos, que los “valles” de armónicos entre ellos, que pueden ser suprimidos o enmascarados sin grandesconsecuencias.103 Definidas como el tiempo que se tarda en pasar del 10 al 90% de la intensidad. Su valor medio en el habla oscila de10 a 150 msg.


47

Aunque a lo largo de estas páginas hemos ido adelantando algunas informaciones relativasa los principales tipos de sonidos, recopilaremos la información más importante sobre ellos en losapartados siguientes.

4.2. LA PERCEPCIÓN DE LAS VOCALES

La percepción de las vocales se basa en su disposición formántica: la situación de los dosprimeros formantes es suficiente para permitirnos identificar el timbre de cualquier vocal; para losdiptongos parece importante el punto final del estado estable.

Los formantes superiores se han considerado tradicionalmente los responsables de lascaracterísticas individuales del habla, y de su naturalidad. Sin embargo, el F3 también puederesultar imprescindible para algunas vocales de lenguas como el inglés, con muchas más unidadesque el español. Por otra parte, las vocales que tienen muy cercanos el F1 y el F2 se puedenidentificar bien con un solo formante ancho en esa zona

En los experimentos sobre percepción de vocales se suelen utilizar sintetizadores de voz, en loscuales los sujetos pueden manipular la situación de uno o dos formantes, para conseguir que lavocal sintética se asemeje lo más posible a un modelo determinado. El F1 siempre se sitúa en lazona adecuada, correspondiente al primer formante del modelo. El F2, sin embargo, en ocasiones setiende a colocar en la frecuencia a la que el modelo presenta su tercer formante (aunque es ciertoque se suele tratar de vocales y hablantes del inglés). Esto ha dado pie a pensar que la localizaciónexacta del F2 puede ser el resultado de una operación en la que intervienen los formantes segundo,tercero y cuarto, según la resolución en bandas críticas del oído.

Cuando sólo se les permite mover un formante, los sujetos lo colocan entre los dos primerosformantes, siempre que en el modelo no estén separados por más de 3,5 bandas críticas. Si se tratade vocales anteriores y cerradas (F1 y F2 muy separados), lo colocan cerca de uno de los dosformantes.

Ahora bien ¿qué función tienen en las vocales las transiciones, y cuál es el papel de los periodosestables? En experimentos con voz natural (como los realizados por Jenkins, Strange y Edman en1983), se ha intentado responder a esta pregunta segmentando estímulos Consonante-Vocal-Consonante (CVC) en tres trozos:

a) la transición en CV; b) la vocal estable; c) la transición en VC.Curiosamente, y en contra de lo que parecen indicar las Diferencias Mínimas Perceptibles104, se

identificaban mejor los segmentos a) y c), las vocales durante las transiciones que en su momentoestable (b) (O’Shaughnessy, 1990; Yeni Komshian en Berko y Bernstein, 1999: 135).

Dos hipótesis se combinan para explicar el modo en el que esta información sobre frecuenciasse transmite hasta el cerebro:

- la tasa de activación neuronal. El modelo más simple propone que las frecuencias de losformantes se codifican gracias a la selectividad frecuencial del sistema auditivo; las fibras cuyasfrecuencias características coinciden con las de los formantes son activadas, y las demáspermanecen inactivas; a medida que se incrementa la intensidad del estímulo, aumentarían lasproporciones de excitación. Y así ocurre a intensidades bajas. Sin embargo, cuando sobrepasamoslos 20-30 dB desde el umbral de audición, la tasa de activación de todas las células se va igualando,sea cual sea su frecuencia característica. Las razones hay que buscarlas, fundamentalmente, en su 104 La solución de esta aparente contradicción posiblemente resida en la diferencia entre detectar e identificar (cfr. 1.2.

TAREAS Y ETAPAS EN LA DESCODIFICACIÓN LINGÜÍSTICA), además de en la oposición entre hablasintética y voz natural.


48

facilidad para la saturación (cfr. el concepto de adaptación, en 2.2.2. El nervio auditivo).También puede influir la supresión de dos tonos (expuesta también en 2.2.): la gran energía delprimer formante puede actuar como inhibidora sobre las fibras encargadas de codificar lainformación del F2

105.

- la sincronización temporal en fase. La “teoría de la descarga” sostiene que las frecuencias delos formantes se extraen en el cerebro a partir de un patrón temporal: el obtenido de los intervalosentre picos de activación. Cada fibra estaría en fase con un armónico, y sólo se activaría cuando esearmónico llegara al mismo punto de su semiciclo. Como resultado, las amplitudes de esas ondassimples se transformarían en índices de sincronización. El incremento de la intensidad no afectaríae estos índices106, ni tampoco la presencia de ruido, por lo que algunos investigadores lo consideranel mecanismo más robusto para la codificación neuronal de las frecuencias. Sin embargo, tienelimitaciones temporales y frecuenciales: al principio de la sílaba las fibras se sincronizan con lasfrecuencias de cada formante, pero al cabo de 30 msg todas resultan dominadas por un componentefrecuencial cercano a uno de los dos primeros formantes. Y por encima de 3-4 KHz tropezamos conel periodo de refracción de la descarga neuronal (Handel, 1993: 514).

Quizá la explicación global esté en el uso integrado de ambas fuentes de información.

4.2.1. La normalización en la identificación de vocalesComo ya hemos visto (1.3.1.2. La variación ligada al hablante. Las tareas de

normalización.), cada tracto vocal origina modelos espectrales y distribuciones formánticasdiferentes; el oyente ha de realizar un proceso de normalización que le permita identificar como lasmismas unidades sonidos que pueden diferir mucho entre sí.

Uno de los mecanismos que posiblemente utilicemos para conseguirlo es la relación entre lafrecuencia fundamental y los formantes: el habla de un niño, o el de una mujer, tienen un F0

elevado, que inconscientemente asociamos a formantes más altos que los que corresponderían a unF0 masculino.

También el área de dispersión vocálica, el espacio delimitado por las vocales extremas deltriángulo (en nuestra lengua /i, a, u/) proporcionarían una zona de referencia para situar las vocalesintermedias107.

El tercer formante, por último, al ser relativamente estable para cada sujeto, tambiénproporcionaría una referencia sobre la que valorar la situación del F1 y el F2.

4.2.2. Los efectos de la coarticulaciónYa que hemos dejado atrás la voz artificial, en situaciones naturales de habla, lo más

frecuente es que las vocales sufran los efectos del contexto: los formantes no suelen ser segmentosestáticos, sino que están en continuo movimiento desde los sonidos anteriores a los siguientes, convelocidades y direcciones dependientes de los lugares de articulación de éstos.

En los experimentos sobre coarticulación es habitual manipular fragmentos de hablanatural: en secuencias CV, por ejemplo, se suprime la vocal, y se presenta a los oyentes sólo laconsonante, para comprobar si en ella permanece algún indicio de la vocal; o viceversa. Losresultados indican que los segmentos que tienden a la coarticulación son aquellos para cuya

105 Sin embargo, hay que tener en cuenta que no todas las fibras nerviosas tienen la misma “propensión” a activarse:hay fibras con bajas tasas de activación, que quizá jueguen un papel importante a intensidades altas.106 Incluso los reforzaría, porque a altas intensidades se suprime la sincronización de los armónicos entre formantes, yse mantiene sólo la información formántica.107 Aunque, como hemos visto más atrás, el conocer esta área no mejoró, en algunos experimentos, la proporción deidentificación de vocales.


49

emisión los órganos fonadores se mantienen en posiciones similares: las vocales anteriores soncoarticuladas con consonantes anteriores, pero no con las posteriores, porque la lengua ha derealizar movimientos diferentes en el paso de una a otra.

En definitiva, todo indica que la percepción de vocales humanas en discurso continuadodepende de un análisis auditivo complejo, que tiene en cuenta los movimientos de los formantes enunidades posiblemente superiores al fonema (quizá la sílaba).

4.3. LA PERCEPCIÓN DE LAS CONSONANTES

La percepción de las consonantes es siempre más difícil que la de las vocales. Es probableque la razón para ello resida en la mayor riqueza en componentes armónicos de éstas, así como ensu mayor intensidad (6,6 dB en español, según Albalá y Marrero, 1995), y, en ocasiones, superiorduración108.

Los estudios sobre percepción de consonantes han prestado mucha atención, desde susinicios, a las oclusivas. Las razones son claras: el espectro de una oclusiva sorda es, en principio, lomás simple que uno pueda imaginar como sonido lingüístico: un silencio absoluto, seguido de unaexplosión de ruido. Sin embargo, su identificación resultó, desde el primer momento, una caja desorpresas: desde principios de los 60, Delattre, Liberman y Cooper sacaron a la luz unosexperimentos donde mostraban que ni el silencio ni la explosión permitían distinguir entre sí /p, t,k/, sólo los movimientos de los formantes vocálicos circundantes.

Investigaciones posteriores, con estímulos más semejantes a la voz natural que losrudimentarios métodos de voz sintética empleado en aquel entonces en los Laboratorios Haskins,pusieron de manifiesto que el ruido turbulento correspondiente al momento en que el aire salebruscamente al exterior, tras el cierre oclusivo (conocido como barra de explosión), también puedejugar un papel. Las transiciones son esenciales para percibir la consonante cuando son muy lentas,y alejan la barra de explosión del centro del formante; sin embargo, cuando las transiciones sonbreves, como la explosión está más cerca del pico espectral correspondiente al núcleo vocálico,contribuye también de manera determinante a la identificación de la consonante.

Por último, también se ha defendido la intervención del factor tiempo: los primeros 10-20milisegundos de una consonante oclusiva pueden proporcionar rasgos invariantes que permitendeducir su lugar de articulación.

En el fondo, subyacen siempre los mismos recursos neuronales, encargados de codificarduraciones, frecuencias e intensidades. Si consideramos los cuatro componentes sucesivos de unasecuencia oclusiva-vocal, éstos serían los mecanismos implicados en su percepción:

- la oclusión es descodificada gracias a la capacidad para discriminar entre duraciones109,unas medidas relativas a la longitud y las características de los sonidos del entorno;- la barra de explosión se analiza por medio de la integración de la energía, la resolucióntemporal y las bandas críticas en las que se sitúe el ruido, aunque también se verá afectadapor las características del entorno;- las transiciones formánticas, su duración y su dirección, vienen determinadas, además depor los tres elementos generales citados anteriormente (resolución temporal, integración y

108 Los experimentos con percepción bimodal del habla (cfr. 1.1.) también muestran que la información visual noinfluye tanto en la identificación de las vocales como en la de las consonantes (Massaro, 1998; cap. 6).109 También la percepción de las líquidas cuenta con el factor tiempo como un elemento importante. García Jurado,Guirao y Rosso (1991) indican que para su identificación es suficiente una cuarta parte de su duración habitual, aunqueésta varía mucho entre /r/ (más breve) y /l/, en función de las posiciones silábicas.


50

bandas críticas), por el enmascaramiento simultáneo que sus componentes de frecuenciasbajas efectúan sobre los de frecuencias altas.- la vocal estable, codificada en función de duraciones y frecuencias, como ya hemos visto,puede tener un papel doble en el contexto silábico: por una parte, puede funcionar como“ancla” perceptiva y ayudar a discriminar otras partes del estímulo; pero su propia riquezade componentes armónicos puede enmascarar las transiciones, sobre todo si son cortas(Handel, 1993: 317-318).

En cuanto a otro tipo de consonantes, las investigaciones sobre fricativas dibujan unpanorama marcado por la diferencia entre la presencia de componentes en frecuencias altas, y suausencia en frecuencias bajas. Como además no suelen ser sonidos muy intensos (a excepción de/s/), encajan bien en un modelo de percepción basado en la selectividad frecuencial del sistemaauditivo (o tasa media de descarga neuronal), que, recordemos, funcionaba mejor bajo esas doscondiciones. Si se diera, el problema de la saturación por exceso de intensidad se solventaríagracias a los patrones de activación correspondientes al inicio de estas fricativas, cuyascaracterísticas permiten diferenciarlas entre sí (Handel, 1993: 515). Por último, como se trata desonidos sordos, el problema de la supresión de dos tonos que podría introducir la presencia de labarra de sonoridad, no tiene lugar. En cambio, el contexto sí condiciona la percepción de lasfricativas: las vocales graves provocan un descenso en el ruido de la fricación; cuando oímos una[o], o una [u] a las que sigue una fricativa, esperamos un descenso en la frecuencia de la turbulenciacorrespondiente (O’Shaughnessy, 1990: 185).

La nasalidad se traduce en un resonador suplementario en frecuencias bajas (250 Hz), quese extiende, por coarticulación, a los sonidos sonoros adyacentes durante unos 50 msg. y eldebilitamiento de las frecuencias altas. Otra de sus consecuencias es un ensanchamiento de losformantes, sobre todo del F1. La percepción de la nasalidad está ligada a la lengua: los sistemascomo el español, en los que no hay oposición entre vocales basada en el rasgo oral/nasal, noscondicionan para percibir categorialmente las consonantes nasales, pero de forma continuada lasvocales nasalizadas. Sin embargo, los hablantes de lenguas que disponen de fonemas vocálicosnasales (como el francés), perciben de forma categorial tanto las vocales como las consonantes(según experimentos con el hindi y el inglés) (O’Shaughnessy, 1990).

Las capacidades de discriminación de los bebés respecto a las consonantes son tan sorprendentescomo para el resto de los sonidos: desde los dos meses captan diferencias de lugar de articulacióncomo las que oponen [ba] y [ga], aunque las mismas diferencias acústicas en sonidos nolingüísticos no producen en ellos ninguna reacción.El contraste oral/nasal ([ba]-[ma]) también se distingue entre los 2 y los 4 meses, con detección dematices intermedios indicativos de una percepción continua y no categorial. La oposición entrelaterales y vibrantes ([ra]-[la]), tan temprana como la anterior, en cambio sí parece categorial desdeel principio.Los resultados sobre fricativas, en cambio, han sido más contradictorios, lo cual se interpreta comoindicio de que las capacidades de los niños para distinguir este orden de fonemas es más débil quepara otros (Jusczyk, 1997)

4.4. LA SÍLABA COMO UNIDAD PERCEPTIVA

La sílaba es una unidad ("la menor unidad posible de habla real", según Gili Gaya) decarácter tanto articulatorio (un solo impulso de energía muscular), como acústico (mayor intensidady sonoridad), como auditivo (mayor perceptibilidad) y psicológico (tal es la conciencia quetenemos de ella que niños preescolares, personas analfabetas e incluso lesionados cerebrales son


51

capaces de silabear). Su papel en la percepción del habla natural se ha puesto de manifiesto enmuchas ocasiones.

Psicoacústicamente, los cambios en la duración de las sílabas son más perceptibles que loscambios en la duración de los fonemas, si la sílaba se mantiene constante. Además, si una pseudo-palabra presenta agrupaciones silábicas no permitidas por la combinatoria de la lengua, tardamosmuy poco en identificarla como no-palabra.

Fonéticamente, muchos de los fenómenos coarticulatorios tienen lugar en su interior, por lo quepuede resultar una referencia más fiable para la segmentación que el fonema.Desde la perspectiva neurofisiológica, fenómenos como la adaptación cambian la respuestaneuronal a estímulos verbales en el periodo de tiempo correspondiente a una sílaba, disminuyendolos contrastes que se producen en su interior e incrementando los que tienen lugar en el paso de unasílaba a la otra.

Y desde el punto de vista evolutivo, incluso en los procesos de adquisición del lenguaje,“las sílabas son unidades importantes para la codificación de la información lingüística por losniños” (Jusczyk, 1997: 127).

Un equipo de investigación formado por el francés Jacques Mehler, el español Juan Seguí yotros colaboradores, ha realizado una amplia tarea de investigación sobre el papel de la sílaba en elprocesamiento del habla. Partiendo de que los primeros segmentos de una palabra son decisivospara su identificación, seleccionaron estímulos en los que los tres primeros fonemas eran iguales,pero las estructuras silábicas diferían: palacio / palmera. Se pedía a los sujetos que detectaran, enambos tipos, /pa/ y /pal/: los tiempos de respuesta de /pa/ eran mucho menores en palacio que enpalmera; y a la inversa, /pal/ se detectaba mucho antes en palmera que en palacio. Incluso conpseudopalabras, se tardaba menos en detectar una sílaba que su primer fonema. Y ya cuando lafrontera silábica y léxica coincidían (el estímulo consistía en una palabra monosilábica), lostiempos de respuesta eran los menores de toda la serie de experimentos. “Todos estos resultadosparecen, por tanto, confirmar que, al menos en el reconocimiento auditivo de palabras, la primerasílaba constituye un serio candidato a la hora de establecer el código de acceso al léxico” GarcíaAlbea, 1991: 477.

Sin embargo, es necesario señalar que la estructura silábica es un rasgo muy ligado a lascaracterísticas de cada lengua110. El francés, lengua con la que se realizaron estas pruebas, tiene unaestructura silábica más homogénea y transparente que otras como el inglés. ¿Y qué ocurre enespañol? En las réplicas de estos experimentos en nuestro país (por el mismo equipo, al que se unióNuria Sebastián) se comprobó la influencia del tipo de estímulo (en pseudopalabras no influía lasegmentación silábica) y de la tarea: tareas fáciles, de simple detección, con respuestas rápidas, nopresentaban ese efecto facilitador de la sílaba; pero si la tarea se complicaba, requiriendo acceder alsignificado de los estímulos, sí aparecía el “efecto de congruencia silábica”, lo cual ha sidointerpretado (Vigil-Colet, Pérez Ollé y García-Albea, 1998) como consecuencia de que la sílabarepresenta su papel después del acceso al léxico.

“La tarea de segmentación de la palabra parece depender directamente de las propiedadesfonológicas de cada lengua. así, una lengua como el francés [o el español], que dispone de unaestructura silábica regular, facilita que el proceso de segmentación descanse sobre la sílaba. Por elcontrario, una lengua como el inglés, con una estructura silábica irregular o más ambigua, lleva acabo procesos de segmentación ignorando la sílaba como unidad de segmentación.” Anula (1998),51.

110 Existe una tendencia universal a la sílaba abierta, de tipo Consonante-Vocal, que determina uno de los procesosfonológicos de simplificación del habla más habituales en la adquisición del lenguaje y en los trastornos afásicos: lasimplificación de grupos consonánticos.


52

Hemos colocado entre corchetes la referencia a nuestra lengua en la cita anterior porqueformulaciones recientes de la propia Sebastián (Sebastián-Gallés, 1996) proponen el uso de“unidades subsilábicas” para la segmentación del continuo fónico en español, concediendo especialimportancia al acento, ya que la sílaba tónica funcionaría como “ancla perceptiva” para segmentarel continuo fónico111 y desencadenar el acceso al léxico. Lo cual nos viene muy bien para enlazarcon el siguiente apartado.

4.5. LA PERCEPCIÓN DEL ACENTO

Tres claves acústicas se reparten la tarea de marcar el acento en las lenguas: movimientosdel F0, duraciones e intensidad. Según predomine uno u otro se suele hablar de loscorrespondientes tres tipos de acento: el de tono, el de duración y el de intensidad:

"a) Acento de intensidad, de sonoridad, dinámico o espiratorio. [...] Se obtiene produciendoun aumento de la intensidad -de la fuerza espiratoria- en la unidad acentuada, lo que semanifiesta acústicamente como un aumento de la amplitud de la onda.b) Acento tónico, musical, de altura, cromático o melódico. Se logra introduciendo unavariación (generalmente un aumento) en el tono de la unidad que lo recibe.c) Acento de cantidad o cuantitativo. Supone una mayor duración relativa de la sílabaacentuada frente a las no acentuadas.Esta división, durante mucho tiempo insalvable, resulta hoy inexacta, por cuanto las

investigaciones más recientes han demostrado que el acento se materializa en muchas ocasionesmediante la combinación de dos o tres de los parámetros indicados. Unas veces prevalecerá uno deellos; otras, en cambio, será el propio efecto de la combinación el que nos hará sentir que la sílabaestá acentuada." Gil Fernández, 1990, p. 130

Efectivamente, más que tres tipos de acentos, podemos hablar de un único rasgosuprasegmental que recurre a cada una de estas claves en función, en primer lugar, de laspreferencias de la lengua, pero también de otros factores, como la entonación (que puedecomprometer la frecuencia fundamental para otras tareas), o la tasa de habla (que modifica lasduraciones), etc. Esto ha sido comprobado por el método de las “claves en conflicto”: se creanestímulos artificiales, sintéticos, en los que, por ejemplo, la vocal más intensa tiene la frecuenciafundamental más baja. Si los oyentes identifican esa sílaba como tónica, el factor responsable delacento ha sido la intensidad. Enríquez, Casado y Santos (1988) demostraron de este modo que enespañol el acento reside, primariamente, en la frecuencia fundamental; si ésta no se encuentradisponible, recurrimos a la duración112; sólo en los casos en que ni F0 ni duración pueden darinformación se recurre a la intensidad.

111 Esta idea se enmarca en el contexto general de la llamada “hipótesis de la transparencia acústica”: las lenguas conuna estructura fónica más simple (como es el caso del español, que tiene sólo cinco vocales, y pocas estructurassilábicas) se guían por una estrategia acústica para segmentar el habla (como prueba que los tiempos de respuesta paradetectar sonidos en palabras o pseudopalabras sean similares). En cambio, las lenguas con poca transparencia acústicanecesitarían el recurso a estrategias lingüísticas para identificar elementos en el continuo fónico (en estos casos, sedetectan antes los sonidos en palabras que en pseudopalabras). El grado de transparencia acústica parece estarrelacionado con el número de vocales y de estructuras silábicas que admite una lengua, pero éste es un punto querequeriría especificaciones mucho más detalladas (que no se encuentran en el artículo de referencia, Sebastián-Gallés,1996).112 En inglés, que también recurre a los movimientos del fundamental para marcar el acento, las vocales tónicas admitenun rango de variación temporal (hasta 40 msg) superior a la media de los fonemas (10 msg), sin que los oyentesdetecten algo anormal.


53

La importancia de estos tres parámetros puede variar en sujetos con alteraciones del lenguaje: recientemente,un equipo de investigación de la Universidad de Granada113 ha analizado el acento en la inteligibilidad delhabla de niños deficientes auditivos. Según sus resultados, la duración no interviene en absoluto para laproducción del rasgo acentual en estos sujetos, porque el habla de los niños sordos es más lenta en general,tanto para vocales tónicas como átonas. Sí consideran que la altura de la frecuencia fundamental es el factorprioritario, mientras que la intensidad tendría un papel secundario.

4.6. LA PERCEPCIÓN DE LA ENTONACIÓN

La entonación tiene tres funciones básicas en el lenguaje: segmentar, resaltar y darcontinuidad prosódica al discurso114.- Lingüísticamente, a) distingue enunciados (lo sabía frente a )lo sabía? o ¡lo sabía!);

b) integra las palabras en enunciados y c) delimita enunciados ('tres, por dos más uno' [= 9] frente a 'tres por dos,

más uno' [=7]).- Socialmente, a) transmite informaciones sobre el individuo, como

edad, sexo, etc.b) comunica características sobre el grupo al que pertenece: dialecto, nivelsociocultural...

- Individualmente, es el vehículo esencial para la dimensión afectiva del lenguaje: énfasis, cortesía,mandato, confirmación, exclamación, y una casi infinita gama de emociones115.

La diferencia entre las funciones lingüísticas y afectivas de la entonación parecen tener un correlatoneurológico: Pell y Baum (1997) estudiaron la capacidad para discriminar diferencias de entonación con funciónlingüística (declarativas / imperativas / interrogativas) y con función afectiva (enfado / tristeza / alegría) en un grupo de29 sujetos: 10 con lesiones en el hemisferio izquierdo (afásicos o apráxicos); 9 con lesiones en el hemisferio derecho(hemipléjicos o hemiparésicos) y 10 de control. Según sus resultados, la discriminación de la prosodia emocional de lossujetos con lesión cerebral no difería significativamente de la del grupo de control116. Sin embargo, en la prosodialingüística se observó un comportamiento mucho peor en el caso de las lesiones de hemisferio izquierdo (LHI): “lacomprensión de rasgos suprasegmentales en sujetos con LHI está afectada por la función comunicativa de estos índicesen el habla [...] Los pacientes con LHI son sensibles a la carga lingüística del estímulo cuando procesan índicessuprasegmentales” (pg. 97).

El habla dirigida a los niños, por otra parte, se caracteriza, entre otras cosas, por una exageración de los rasgosprosódicos, lo cual seguramente facilita al niño las tareas de segmentación e identificación de componentes sintácticosen el enunciado (Jusczyk, 1997: 144).

Como en el caso del acento, la frecuencia fundamental –sus movimientos y su rango devariación117- es la principal responsable de la variaciones entonativas, aunque la duración y la

113 Sánchez, A.; Carballo, G.; Mendoza, E. y Cruz, A.: “El acento en la inteligibilidad del habla en niños condeficiencia auditiva”. Comunicación presentada en el VIII International Congress for the Study of Child Language. SanSebastián, 12-16 julio, 1999.114 Esta continuidad prosódica es la que nos permite seguir una voz en contextos ruidosos.115 Incrementos en el rango de movimientos del F0, por ejemplo, provocan que una voz cualquiera suene “benevolente”(al menos en inglés: O’Saughnessy, 1990). Aunque para interpretar emociones en situaciones reales parece muyimportante la integración de la información visual (la cara de nuestro interlocutor) con la auditiva (su voz): cuandoambos estímulos presentan informaciones contradictorias, nuestra capacidad para identificar la emoción es más bajaque si se nos presenta la cara sola o la voz sola (Massaro, 1998, cap. 8).116 Los autores mencionan que este resultado no coincide con trabajos previos; achacan la diferencia a la selección desujetos: los de este estudio tener una lesión menos extensa, pero en casos de lesiones más graves del hemisferio derechosí se ve afectada la discriminación de la prosodia emocional.117 En un estudio sobre la relación entre variables acústicas y evaluación perceptiva del habla, Boves señala que lavariación del F0 sólo se percibe como agradable, expresiva o melodiosa cuando permanece dentro de un determinadorango, no muy amplio, y que más que con grandes cambios en la frecuencia fundamental, estas apreciaciones se


54

intensidad pueden coadyuvar como claves secundarias. De hecho, la entonación ascendente esmejor percibida que la descendente en estímulos de larga duración; y las variaciones del F0 setienen en cuenta en los fragmentos de mayor intensidad sonora, como suelen ser las vocales; loscambios en consonantes tienden a no ser tenidos en cuenta.

El funcionamiento de la entonación se expone detalladamente en Quilis (1999), y ya en laintroducción a este tema se han indicado las diferencias mínimas perceptibles desde el punto devista prosódico, por lo que no incidiremos más en ellas. Bástenos indicar, como conclusión a esteapartado, que sus funciones gramaticales son un fuerte punto de enlace entre fonología y sintaxis:en muchísimas lenguas los grupos entonativos tienden a coincidir con grupos sintácticos, aunquepara marcar estas fronteras se aúnan con rasgos como la duración silábica y las pausas (Jusczyk,1997:140-142).

correlacionan con la manera en que pequeñas variaciones se distribuyen en el texto, y lo apropiadas que resulten a laestructura sintáctica y al significado semántico y pragmático del mismo (Boves, 1984: 149 y 159).

BIBLIOGRAFÍA_____________________________________________________

55

BIBLIOGRAFÍA

Alamón, F. (1999): Aproximación fonética a los procesos de integración perceptiva de señales dehabla de baja intensidad. Tesis doctoral. Universidad Autónoma de Barcelona.

Albalá, M.J. y V. Marrero (1995): “La intensidad de los sonidos del español” Revista de FilologíaEspañola, LXXV, 105-132.

Anula, A. (1998): El abecé de la psicolingüística. Madrid, Arco Libros.

Baer, T. y B.C.J. Moore (1993): “Effects of spectral smearing on the intelligibility of sentences innoise”. Journal of the Acoustical Society of America, 94 (3), 1229-1241.

Bond, Z.S. y S. Garnes (1980): “Misperceptions of Fluent Speech” En Cole (Ed.): Perception andProduction of Fluent Speech. Hillsdale, Nueva Jersey, Lawrence Erlbaum. Pp. 115-132.

Boves, L. (1984): The Phonetic Basis of Perceptual Ratings of Running Speech, Utrecht, ForisPublications.

Cooke, M. (1993): Modelling auditory processing and organization. Cambridge, CambridgeUniversity Press.

DePaolis, R.A., C.P. Janota y T. Franck (1996): “Frequency Importance Functions for Words,Sentences and Continuous Discourse”. Journal of Speech and Hearing Research, 39, 714-723.

Duggirala, V. et al. (1988): “Frequency Importance Functions For A Feature Recognition TestMaterial”, Journal of Acoustical Society of America, 83 (6), 2372-2382.

Enríquez, E.V.; C. Casado y A. Santos (1988): “La percepción del acento en español”. LingüísticaEspañola Actual, XI, 241-269.

Fernández Planas, A.M. (2001): “Umbrales tonales en el español peninsular”. Comunicaciónpresentada en el II Congreso de Fonética Experimental. Sevilla, marzo 2001.

García Jurado, M.A.; M Guirao y E. Rosso (1991): “La influencia de la duración en laidentificación de las líquidas” En Hernández et al. (Eds): El español de América. Actas delIII Congreso Internacional de El español de América. Valladolid, Junta de Castilla y León,pp. 393-403.

Gil Fernández, J. (1990): Los sonidos del español. Madrid, Síntesis.

Goldstein, B.E. (1992): Sensación y percepción. Madrid, Debate.

Greenberg, S. (1988): “The ear as a speech analyzer”. Journal of Phonetics, 16, 139-149.

Handel, S. (1993): Listening. An Introduction to the Perception of Auditory Events. Cambridge,Massachusets, The MIT Press.

Harmegnies, B. y D. Poch-Olivé (1992): “A study of style-induced vowel variability: laboratoryversus spontaneous speech in Spanish”. Speech Communication, 11, 429-437.

BIBLIOGRAFÍA_____________________________________________________

56

Igoa, J.M. (1995): “”El procesamiento sintáctico en la comprensión y la producción del lenguaje”.En M. Fernández Lagunilla y A. Anula Rebollo: Sintaxis y cognición. Introducción alconocimiento, el procesamiento y los déficits sintácticos. Madrid, Síntesis, pp. 353-408.

Jusczyk, P.W. (1997): The discovery of spoken language. Cambridge, Massachusets, The MITPress.

Kingston, J. y R.L. Diehl (1995): “Intermediate properties in the perception of distinctive featuresvalues”. En B. Connell y A. Arvaniti (Eds.): Phonology and Phonetic Evidence. Papers inLaboratory Phonology IV. Cambridge, Cambridge University Press, pp. 7- 27.

Liberman, A.M. (1996): Speech: a Special Code. Cambridge, MIT Press.

Liberman, A.M. e I.G. Mattingly (1985): “The motor theory of speech perception revised”.Cognition, 21, 1-36.

Lindblom, B. (1992): “Phonological units as adaptative emergents of lexical development”. EnFerguson, C.A., L. Menn y C. Stoel-Gammon (Eds): Phonological development: Models,reseach, implications. Timonium, Md. York Press.

López Bascuas, L.E. (1994a): “Procesamiento auditivo general y procesamiento específico en lapercepción del habla (I): efectos derivados de la asignación de fronteras perceptivas”.Estudios de Psicología, 52, 37-53.

López Bascuas, L.E. (1994b): “Procesamiento auditivo general y procesamiento específico en lapercepción del habla (II): efectos de integración perceptiva”. Estudios de Psicología, 52, 55-66.

López Bascuas, L.E. (1995**): “Las teorías de la percepción del habla: un análisis crítico”.Estudios de Psicología, 19**, 45-57.

López Bascuas, L.E. (1997): “La percepción del habla: problemas y restricciones computacionales”Anuario de Psicología, 72, 3-19.

López Bascuas, L.E.; R.P. Fahey; J.E. García Albea y B.S: Rosner (1998a): “Identificación delorden temporal en sonidos de habla y de no-habla”. Estudios de Psicología ***, 195-209

López Bascuas, L.E.; R.P. Fahey; J.E. García Albea y B.S: Rosner (1998b): “Percepción categórica-y discriminación del orden temporal en sonidos de habla y de no-habla”. Estudios dePsicología ***, 211-226

Lyons, J.(1971): Introducción en la lingüística moderna. Barcelona, Teide.

Malmberg, B. (1974): Lingüística estructural y comunicación humana. Madrid, Gredos.

Marrero V. y Y. Martín (2001): “Discriminación auditivas de los rasgos distintivos acústicos enpalabras aisladas: oídos normales y patológicos”. Comunicación presentada en el II CongresoInternacional de Fonética Experimental. Sevilla, ***

Marrero, V. (2001): “La Gramática del Papel y la Referencia” En Aguirre, C. y S. Mariscal: Cómoadquieren los niños la gramática de su lengua. Perspectivas teóricas. Madrid, UNED. Ap.2.1.

Marrero, V.; Santos, A. y Cárdenas, M.R. (1993): “Feature Discrimination And Pure ToneAudiometry”. En Aulanko, R. Y Korpijaakko-Huuhka (Eds): Proceedings of the ThirdCongress Of The International Clinical Phonetics And Linguistics Association, 9-11 August1993, Helsinki. University of Helsinki, Pp 121-128.

Martinet, A.(1978): Elementos de lingüística general. Madrid, Gredos.

BIBLIOGRAFÍA_____________________________________________________

57

Massaro, D. (1998): Perceiving Talking Faces: From Speech Perception to a Behavioral Principle.Cambridge, MIT Press.

Mayo, L.H.; Florentine, M. y S. Buus (1997): “Age of Second Language Acquisition and Perceptionof Speech in Noise”. Journal of Speech, Language and Hearing Research, 40, 686-693.

Moore, B.C.J. (1986): Frequency Selectivity in Hearing. Londres, Academic Press.

O’Saughnessy, D. (1990, 1ª ed. 1987): Speech Communication: Human and Machine. Reading,Massachusetts, Addison Wesley Pub. Comp.

Pell, M.D. y R.S. Baum (1997): “The ability to preceive and comprehend intonation in linguistic andaffective context by brain-damaged adults.” Brain and Language, 52, 411-436.

Perkins, W.H. y R.D. Kent (1990): Functional Anatomy of Speech, Language and Hearing. Boston,Allyn y Bacon (1ª ed. 1986).

Pickles, J.O. (1988): An Introduction to the Phisiology of Hearing. Londres, Academic Press.

Sebastián-Gallés, N. (1996): “The role of accent in speech perception”. En Otake, T. Y A. Cutler(Eds.): Phonological Structure and Language Processing. Cross-Linguistic Studies. Berlín,Mouton de Gruyter, pp. 171- 182.

Tarnóczy, T. (1986): “Noise Interference with Oral Communications” En Lara Sáenz y R.W.B.Stephens: Noise Pollution. John Wiley and Sons Ltd. Pp. 249-263.

Vigil-Colet, A.; Pérez-Ollé, J. y García-Albea, J.E. (1998): “El papel de la sílaba en la percepción delcastellano”. Psicothema, 10 (3), pp. 583- 595.

Documents

Fonética, percepción de las vocales y consonantes