PontiﬁciaUniversidadJaveriana. FacultaddeCiencias

Pontificia Universidad Javeriana.

Facultad de Ciencias.

Departamento de Matemáticas.

Diseño de una Red Modular Auto-organizada con aplicación enreconocimiento de fonemas

Juan David Rodríguez Correa

Director: Pedro Raúl Vizcaya Guarín

Bogotá - Colombia

Agosto de 2010

Índice general

1. Introducción 4

2. Objetivos 6

2.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3. Formulación del problema 7

4. Marco Teórico 8

4.1. Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.2. Redes AutoOrganizadas de Kohonen . . . . . . . . . . . . . . . . . . . . . 9

4.3. Regla de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.4. Red mnSOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.5. Coeficientes Cepstrales Reales . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.6. Distancia de Itakura-Saito . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5. Materiales y Métodos 19

5.1. Diseño del mapa mnSOM de vocales . . . . . . . . . . . . . . . . . . . . . 19

5.2. Tratamiento de las señales . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6. Resultados y Discusión 25

6.1. mnSOM de Funciones Cúbicas en MatLab . . . . . . . . . . . . . . . . . . 25

6.2. mnSOM de Vocales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2

6.2.1. Espectros de frecuencia de los sistemas . . . . . . . . . . . . . . . . 28

6.2.2. Mapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7. Conclusiones 36

8. Recomendaciones 38

9. Anexo 1. Pruebas de clasificación 39

10.Anexo 2. Algunos Conceptos de Audio Digital 50

10.1. Señal Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

10.2. La Frecuencia Nyquist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

10.3. Pre-énfasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

10.4. Análisis Cepstral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

10.5. Medidas de distorción espectral . . . . . . . . . . . . . . . . . . . . . . . . 55

10.5.1. Distancia Log-espectral . . . . . . . . . . . . . . . . . . . . . . . . . 55

10.5.2. Distancia de Itakura-Saito . . . . . . . . . . . . . . . . . . . . . . . 56

11.Anexo 3. Redes neuronales 58

11.1. Redes de alimentación hacia adelante . . . . . . . . . . . . . . . . . . . . . 58

11.2. El Algoritmo de Propagación hacia atrás . . . . . . . . . . . . . . . . . . . 59

3

Capítulo 1

Introducción

Las redes neuronales auto-organizadas (Self-Organizing Maps (SOM)) de Kohonen

proveen una herramienta poderosa para el análisis de datos, clasificación y visualización

en muchos campos de aplicación, tales como, reconocimiento de patrones, robótica, con-

trol de procesos, procesamiento de información semántica, entre otros [7] [5].

A pesar de esto, sólo pueden manipular datos representados en vectores, aunque muchas

expansiones han sido propuestas para varios casos de tipos de datos. Entre ellas se encuen-

tra la red modular auto-organizada (Modular Network SOM (mnSOM)), la cual permite

al diseñador tratar con clases de datos generales en una manera consistente, debido a que

las unidades de información son funciones en vez de vectores [4].

Con el fin de implementar una red mnSOM se desarrolla el primer ejemplo del artículo

Modular Network SOM (mnSOM): From Vector Space to Function Space, en el cual se

genera un mapa mnSOM de funciones cúbicas [4].

Luego se diseña una red mnSOM de señales de audio, en donde los sistemas representan

las vocales. La aplicación de tal red es clasificar fonemas, para que pueda ser empleada

en el reconocimiento del habla (speech recognition) (utilizado generalmente en el dictado

4

de textos por computador y control de comandos por voz) [2] [10].

En primer lugar se mencionan los tipos de redes neuronales junto con sus reglas aprendiza-

je [5]. Se describe la auto-organización en una red SOM de Kohonen [7] [5]. Se explican el

algoritmo y las variables de una red mnSOM, la cual al igual que la red SOM se adapta

através de vecindarios [4]. Se muestra la regla de Kohonen [7] [5], la cual se utilizó como

regla de aprendizaje en cada módulo de la red mnSOM de vocales diseñada. Se describe

el diseño de la red mnSOM de vocales seguido del tratamiento que debe hacerse a las

señales de audio para procesar correctamente su información [2]. Por último se exponen

los mapas generados, tanto de la red mnSOM de funciones cúbicas como de la de vocales,

junto con los resultados de las pruebas.

5

Capítulo 2

Objetivos

2.1. Objetivo General

Diseñar e implementar una red modular auto-organizada (mnSOM) con una aplicación

2.2. Objetivos Específicos

1. Corroborar el funcionamiento de la red mnSOM através de un ejemplo documentado

2. Desarrollar un modelo que pueda ser utilizado en clasificación de fonemas, através

de una red mnSOM

3. Probar la aplicación del mapa mnSOM creado

6

Capítulo 3

Formulación del problema

¿Es posible tratar el problema de clasificación de fonemas de una manera lineal através

de los coeficientes ceptrales reales mediante interpolación, desarrollando un mapa mn-

SOM?

7

Capítulo 4

Marco Teórico

4.1. Redes neuronales

Las redes neuronales son particularmente usadas en reconocimiento/clasificación de

patrones. Existen diversas arquitecturas y algoritmos flexibles al diseñador del sistema.

Sus parámetros (o neuronas) son modificados através de reglas de aprendizaje, las cuales

tienen como propósito entrenar la red neuronal para desempeñar alguna labor [5].

Entre las arquitecturas de redes neuronales se encuentran dos categorías: Las redes de

alimentación hacia adelante (feedforward networks), las cuales tienen un tipo de apren-

dizaje supervisado, en el cual la red es prevista de un conjunto de muestras (conjunto de

entrenamiento (training set)) del comportamiento deseado [5]. En otra categoría, las neu-

ronas de la red compiten interactuando en vecindarios, desarrollando adaptabilidad. Ésta

es denominada auto-organizada (self-organizing), que es de aprendizaje no-supervisado

[7].

La red de alimentación hacia adelante también es denominada perceptrón multicapa y

es ampliamente utilizada como aproximador de funciones [5] [3].

8

4.2. Redes AutoOrganizadas de Kohonen

Las redes SOM de Kohonen proveen una herramienta poderosa para el análisis de

datos, clasificación y visualización en muchos campos de aplicación [7].

Éstas redes se adaptan de la siguiente manera. Se ingresa a la red un conjunto aleatorio de

vectores de Rn (vectores entrada), generalmente distribuidos en algún tipo de superficie.

La red también está compuesta de vectores de Rn, interconectados (tales conexiones se

denominan topología de la red [5] [3] [7]).

Ésta red se organiza sin supervisión iterando de la siguiente manera: Se determina entre la

red el vector ganador para cada vector entrada a la red, el cuál es el más cercano a dicha

entrada con respecto a la distancia euclidiana. Todos los vectores dentro de un vencin-

dario adecuado del vector ganador (basándose en sus interconexiones) son actualizadas

usando la regla de Kohonen (Ver Sección 4.3.), acercándose a tal vector entrada en una

determinada proporción [5] [7]. Tal vecindario decrece a medida que se va entrenando

la red, generalmente mediante una ecuación gaussiana como en las redes mnSOM (Ver

Sección 4.4).

Veamos una red SOM de 2-dimensiones con topología de grilla 5 × 6 bi-dimensional,

la cual se muestra en la Figura 4.1.

Figura 4.1: Mapa SOM de 5-por-6

9

Primero se crean varios datos de entrada aleatorios. En la Figura 4.2. están graficados

100 datos de entrada.

Figura 4.2: 100 vectores de entrada aleatorios en el intervalo [0, 1]× [0, 1]

La Figura 4.3. muestra los vectores iniciamente para tal red SOM.

Figura 4.3: Inicialización aleatoria de los vectores de la red SOM

En la Figura 4.4. se visualiza la red luego de la tercera iteración; se muestra la direc-

ción en la que se deben mover los vectores del vecindario del vector ganador cuando un

vector entrada es presentado. Éste procedimiento se realiza con los 100 vectores entrada

en cada iteración de la red. En la figura el vencidario es de radio 2 usando como criterio

la distancia de Manhattan.

La Figura 4.5 ilustra los vectores luego de 4, 25 y 85 iteraciones.

10

Figura 4.4: Vecindario de radio 2 del vector ganador mediante la distancia de Manhattan

Figura 4.5: Auto-organización

Una Red SOM de Kohonen es no-supervisada en el sentido de que no utiliza informa-

ción externa - tomando datos de entrada únicamente -, auto-organizando la información

con base en los patrones de entrada.

Si los vectores de la red pertenecen a espacios de alta dimensión, se pueden organizar

sobre un plano (p.e.), y así poder ver las conexiones en la topología de la red [7].

11

4.3. Regla de Kohonen

Sea x(T ) un vector de Rn que depende del tiempo o la iteración T ε N. Esta regla de

aprendizaje hace que x(T ) se acerque a un vector p ε Rn en una proporción α(T ), en la

siguiente iteración o periodo de tiempo [7] [5]:

x(T ) = x(T − 1) + α(T )(p− x(T − 1))

0 ≤ α(T ) ≤ 1. Si α(T ) = 1, x = p.

- Es utilizada como regla de aprendizaje en cada módulo de la red mnSOM de vocales

diseñada (Ver Sección 5.1.) -

4.4. Red mnSOM

La Arquitectura de la red mnSOM es ilustrada en la Figura 4.5. Básicamente la ar-

quitectura es tal, que cada vector nodal unidad de la familia SOM convencional, es reem-

plazado por un módulo funcional, tales como un perceptrón multicapa como aproximador

de funciones. Los módulos son organizados en grilla con coordenada fija. Cada módulo de

una red mnSOM tiene entradas y salidas, a diferencia de una red SOM convencional.

12

Figura 4.6: The Architecture of mnSOM [4]

Supongamos que hayM sistemas representados por funciones. Se interpola entre éstas

generando un mapa auto-organizado, donde se visualiza la distancia mutua en el espacio

de funciones.

Supongamos que sólo disponemos de L muestras de la función para cada sistema. En-

tonces el total de muestras es M × L. Sea Di = {(xij,yij)} (1 ≤ j ≤ L) el conjunto de

parejas de vectores entrada-salida de la i-ésima función, denotada por fi, así yij = fi(xij)

(1 ≤ i ≤M).

Una iteración de la red mnSOM consiste en:

Cada sistema, busca el módulo con función más semejante (Best Matching Module (BMM)).

Sea E(k)i el error cuadrático medio del k-ésimo módulo para el conjunto de datos del i-

ésimo sistema:

13

E(k)i =

1

L

L∑j=1

‖gk(T )(xij)− fi(xij)‖2

donde gk es la función respuesta del k-ésimo módulo.

Llamamos k∗i = argk_min{E(k)i } el número de módulo del BMM para el i-ésimo sis-

tema. Éste módulo recibe un alto coeficiente de aprendizaje al igual que sus vecinos, los

demás módulos reciben reciben un aprendizaje muy bajo o nulo dependiendo de su dis-

tancia al BMM de dicho sistema.

Denotemos como ψ(k)i (T ) la tasa de aprendizaje del k-ésimo módulo para el i-ésimo sis-

tema en la iteración T , definida por las siguientes ecuaciones.

ψ(k)i (T ) =

h(l(k, k∗i );T )∑Mi′=1 h(l(k, k

∗i′);T )

h(l;T ) = exp[− l2

2σ2(T )]

l(k, k∗i ) expresa la distancia (de Manhattan) entre las coordenadas del k-ésimo módulo

y las del BMM del i-ésimo sistema. h(l;T ) es la función de vecindario, la cual se estrecha

con el incremento de T .

Luego cada módulo es entrenado por cada sistema (mediante el algoritmo de propagación

hacia atrás (Anexo 3)), con tasa de aprendizaje ηψ(k)i y conjunto de entrenamiento Di.

Así, las funciones del vecindario de cada BMM se asemejan a su respectivo sistema en tal

iteración.

Cuando la red converje los BMM de la última iteración son una copia leal de su con-

cerniente sistema, y quedan distibuidos a lo largo de la red según su naturaleza.

14

En la Figura 4.7. se muestran los sistemas y en la Figura 4.8. un mapa mnSOM de

seis funciones cúbicas. La curva graficada en cada caja, representa la función adquirida

por el correspondiente módulo, luego del entrenamiento. Las cajas numeradas representan

los BMMs, para el conjunto de entrenamiento de cada función [4].

Figura 4.7: The Cubic Functions [4]

Figura 4.8: Feature Map of the Cubic Function Family generated by mnSOM [4]

15

Es importante notar que por la forma en la que está diseñada la función ψ toma

valores entre 0 y 1 y la suma de los M coeficientes para un k fijo es igual a 1:

M∑i=1

ψ(k0)i (T ) = 1

La red mnSOM es supervisada pues las muestras de los sistemas es el conjunto de entre-

namiento, aunque la auto-organización se genera sin supervisión.

La función respuesta de cada uno de los módulos cuando la red ha convergido correc-

tamente se puede interpretar como una combinación lineal en el espacio de funciones

como lo muestra la ecuación (8) en [4].

- Para crear el mapa mnSOM donde los sistemas representan vocales, no es posible hacer

una comparación certera entre las señales de audio como función de amplitud vs. tiempo,

pues contiene la información de fase y no es explícita la de frecuencia -

4.5. Coeficientes Cepstrales Reales

Para evaluar las propiedades de una señal de voz, los coeficientes cepstrales (cepstrum)

son suficientes para obtener la información necesaria, pues conservan la información espec-

tral de la señal. En clasificación de fonemas es muy usado el cepstrum real (real cepstrum),

el cual descarta la información de fase. Sea s(n) una señal digital de voz, el cepstrum real

rc es definido como

rcs(n) = F−1{log|F{s(n)}|}

en el cual F{·} denota la Transformada Discreta de Fourier [2] [9]. La computación

del cepstrum real es mostrada en el diagrama de bloque formado en la Figura 4.8.

16

Figura 4.9: Computation of the real cepstrum [2]

El índice de los coeficientes cepstrales reales (que en realidad es un eje de tiempo dis-

creto) es llamado eje cuefrencia (quefrency axis).

Los primeros coeficientes ceptrales contienen la información del envolvente acústico del

fonema [2].

4.6. Distancia de Itakura-Saito

Para medir la diferencia entre patrones de voz es matemática y computacionalmente

razonable hacerlo mediante la distorción espectral. El espectro descarta la información de

fase pues está en términos de la frecuencia. La medida utilizada en procesamiento de voz

es la distancia de Itakura-Saito, la cual se puede obtener apartir del espectro de poder [10].

La distancia espectral de Itakura-Saito entre los espectros de potencia pf1 y pf2, es

el promedio (o la integral para espectro continuo) en frecuencia de:

pf1/pf2− log(pf1/pf2)− 1

La distancia de Itakura-Saito es asimétrica, pues pf1 > pf2 contribuye más que

la distancia con pf2 > pf1. La versión simétrica es el promedio: (distIS(pf1, pf2) +

distIS(pf2, pf1))/2 [10].

17

Ver en Anexo 2 Análisis Cepstral y Medidas de distorción espectral.

- Mediante un algoritmo se puede calcular el espectro de potencia apartir de los coe-

ficientes ceptrales (Ver CepSpec.m en CD anexo) -

18

Capítulo 5

Materiales y Métodos

5.1. Diseño del mapa mnSOM de vocales

Son 5 sistemas que significan las vocales, representadas por el vector de coeficientes

ceptrales reales de una grabación de cada una, y cada módulo es un arreglo de la misma

longitud que el número de coeficientes de los sistemas (L = 4000).

El vector gk(T ) corresponde a la función respuesta del k-ésimo módulo, fi el vector de

coeficientes cepstrales del i-ésimo sistema y ψ(k)i (T ) la tasa de aprendizaje del k-ésimo

módulo para el i-ésimo sistema. 1 ≤ k ≤ N = 121, 1 ≤ i ≤M = 5. xi, yi son escalares.

Figura 5.1: Gráfico del i-ésimo sistema

19

f1 corresponde a los coeficientes cepstrales reales de una grabación de la vocal a, ...,

f5 de la u.

Los módulos son distribuidos en arquitectura de grilla cuadrada. Cada vector gk(0) se

inicializa aleatoriamente.

En cada iteración T , para la elección de los BMM de cada sistema, usamos la mínima

distancia de Itakura-Saito, entre cada uno de los 5 vectores cepstral real fi con cada uno

de los módulos gk(T ); tales vectores gk(T ) se van modificando a lo largo del entrenamiento

através de la regla de Kohonen:

gk(T ) = gk(T − 1) + ηψ(k)i (T )(fi − gk(T − 1))

De ésta manera, cada módulo gk(T ) se acerca en proporción ηψ(k)i (T ) al i-ésimo sis-

tema, en cada iteración.

En cada módulo se encuentra únicamente una función, representada por un vector que

se modifica interpolando entre los sistemas, y la regla de aprendizaje en cada módulo es

la regla de Kohonen, -no un perceptrón multicapa con algoritmo de propagación hacia

atrás-, ya que éste intentaría aproximar la función en todo el eje cuefrencia y el dominio

de nuestras funciones es los 4000 datos correspondientes a los índices de los vectores.

Se utiliza como criterio la distancia de Itakura-Saito en lugar del error cuadrático medio

[4] para la elección de los BMM, pues éste último se basa en la distancia euclidiana la

cual no es la más apropiada en procesamiento de voz. [2]

Cuando la red converge, es decir, cuando se repiten los 5 BMM en dos iteraciones seguidas,

finaliza el entrenamiento.

20

Así, el mapa creado es del tipo de la Figura 5.2.

Figura 5.2: Visualización de un mapa mnSOM de coeficientes cepstrales de vocales. Se

muestran los primeros 20 coeficientes

Las variables del estudio son: M el número de sistemas, N el número de módulos,

L el número de muestras, ψ(T ) la tasa de aprendizaje de cada módulo que determina

el vecindario de cada BMM, σ2(T ) establece el alcance de ψ(T ), η determina cuanto se

21

modifica la red en cada iteración.

El procedimiento a seguir es encontrar una función σ2(T ) apropiada, observando los coefi-

cientes ψ (los cuales establecen los vecindarios) en diversas pruebas, a su vez modificando

la variable η, hasta obtener la solución de un mapa visualmente correcto.

Clasificación

La clasificación de vocales se realiza calculando la distancia de Itakura-Saito del vec-

tor respuesta de cada módulo con los coeficientes cepstrales reales de la grabación a cla-

sisificar. El módulo ganador es el que tenga menor distancia de Itakura-Saito con dicho

vocablo. Entonces, podemos calcular el grado de pertenencia que tiene de cada vocal, con

la distancia de Manhatan entre el módulo ganador y los BMM de cada sistema.

Tales algoritmos son implementados en MatLab (Ver CD anexo).

5.2. Tratamiento de las señales

La señal de audio es grabada en el Software Audacity, muestreada a 44100Hz con un

formato de calidad de 16− bits y exportada en un archivo .WAV.

Con el fin de acentuar las frecuecias se aplica preénfasis (Ver Anexo 2) a la señal, mediante

un algoritmo en MatLab (Ver CD anexo).

Luego la señal pasa através de un Filtro pasa-bajos [9] [2] en MatLab Simulink, con fre-

cuencia de corte entre 5000 y 5500 Hz. La respuesta de tal filtro es mostrada en la Figura

5.4.

22

Figura 5.3: Filtro pasa-bajos en ventana Simulink, MatLab

Figura 5.4: Respuesta del Filtro pasa-bajos, con frecuencia de corte entre 5000 y 5500 Hz

Esto con el fin, de retirar las frecuencias altas que no nos interesan pues éstas con-

tienen el ruido y la voz humana no alcanza tal frecuencia de corte [1], además de poder

reducir la frecuencia de muestreo a 11025Hz (sin perder calidad, gracias a la ecuación de

Nyquist) (Anexo 2) para que la cantidad de datos no sea tan elevada.

23

La reducción de la frecuencia de muestreo es realizada importando el archivo .WAV a

Audacity.

Figura 5.5: Tratamiento realizado a las señales de audio para obtener las funciones del

mapa creado

Se tomó una ventana de 4000 muestras de cada señal, a 11025 Hz, equivale a 362, 81

miliSegundos, por cada grabación.

24

Capítulo 6

Resultados y Discusión

6.1. mnSOM de Funciones Cúbicas en MatLab

En cada módulo se crea una red perceptrón multicapa 1-5-1 entrenada con el algoritmo

Levenberg-Marquardt, debido a que el de propapagación hacia atrás no en todos los casos

llega a la solución exacta [5], y no se logró el mapa deseado utilizando tal algoritmo en

los módulos.

Cuando se entrena un perceptrón con el algoritmo Levenberg-Marquardt, la función es

aproximada correctamente en el 100 % de los casos para las funciones cúbicas, y tal solu-

ción se obtiene en muy pocas iteraciones (alrededor de 3). El parametro a modificar (que

haría el papel de tasa de aprendizaje) es un coeficiente denominado µ [3], el cual cuando

es muy bajo el entrenamiento es óptimo, pero cuando µ es muy alto el entrenamiento es

inapreciable; ésto sólo para 1 o 2 iteraciones, pues el coeficiente µ se adapta a lo largo del

entrenamiento [5]. Por lo tanto se usa una función de transferencia entre ηψ(k)i y µ.

La siguiente variable a considerar es σ2. Por lo general, esa notación es usada para la

varianza. Haciendo la simulación con σ2(T ) = 2/T , y calculando el promedio de los E(k)i ,

∀i = 1, ...,M y ∀k = 1, ..., N , en la primera iteración (T = 1) éste valor es cercano a 2,5,

25

y en las siguientes iteraciones está alrededor de 1, pero no de manera estable; como la

función de vecindario h se estrecha con el incremento de T, σ2 debe ser decreciente; si

decrece muy rápido, la red no converge a una solución óptima pues toma mínimos locales

y en algunos casos 2 o más sistemas seleccionan el mismo BMM, lo cual no es deseado.

La función σ2 empleada se muestra en la Figura 6.1.

Figura 6.1: σ2(T ) = 50/(T + 9)

Cuando σ2 toma los valores más altos, cada sistema tiene influencia en todos los módu-

los. El fin de las primeras iteraciones aproximadamente, es separar los BMM, sobre todo

los que aproximan a funciones opuestas entre si. Así, los BMM se van tornando hacia el

exterior del mapa, pues los módulos del centro reciben aprendizaje de más funciones que

los de los límites externos. Cuando el vecindario de cada BMM va siendo más pequeño,

todo el sistema se empieza a estabilizar, es decir los BMM de cada sistema van quedando

en el mismo módulo de la iteración anterior, éste es el punto donde el mapa mnSOM ya

es generado.

Ver los coeficientes de aprendizaje de la simulación en cada iteración y el código MatLab

del algoritmo en CD anexo.

El mapa mnSOM creado es mostrado en la Figura 6.2. Las cajas marcadas indican el

26

módulo BMM de cada sistema al finalizar toda la simulación, los cuales aproximan exac-

tamente su función correspondiente.

Figura 6.2: Mapa mnSOM de funciones cúbicas generado

27

6.2. mnSOM de Vocales

6.2.1. Espectros de frecuencia de los sistemas

Figura 6.3: Espectro de frecuencia de una vocal antes de filtrarla

Figura 6.4: Espectro de frecuencia de la vocal aplicándole el filtro pasa-bajos

Figura 6.5: Espectro de frecuencia de la vocal luego de aplicarle preénfasis y después el

filtro pasabajos

28

6.2.2. Mapa

Se partió del modelo de σ2 del mapa mnSOM de funciones cúbicas para definir tal

variable, através de pruebas observando que los coeficientes de aprendizaje definieran cor-

rectamente el vecindario, o sea que en las primeras iteraciones todos los módulos fueran

afectados por todos los sistemas y a partir de allí se fueran cerrando los vecindarios.

Para observar el resultado obtenido, tomamos los primeros 20 coeficientes, nos devolve-

mos al dominio de la frecuencia, es decir, les aplicamos transformada discreta de Fourier

y graficamos el mapa. En la Figura 6.6 se puede apreciar tal visualización del mapa gen-

erado, junto con los BMM.

Podemos ver que los BMM de la solución no convergen hacia los extremos, debido a

que las funciones no son opuestas como en el ejemplo de las cúbicas. Se observan los

cambios graduales entre los módulos.

29

Figura 6.6: Visualización de un mapa mnSOM generado donde los sistemas representan

las vocales

Clasificación de vocales

Se prueba la aplicación con dos mapas, uno con una voz de un hombre y otro con

una de mujer. Luego de que los mapas han sido generados correctamente, se prueban con

grabaciones de vocales de la misma persona.

Con la primera voz, comparando directamente la vocal a clasificar con los sistemas (através

30

de la distancia Itakura-Saito) se obtuvo el resultado correcto en el 100% de los casos, y

por consiguiente en el mapa mnSOM se corroboró el resultado, obteniendo siempre el

grado de pertenencia más alto de la vocal correcta (Anexo 1).

Con la segunda voz, en 5 de las 25 pruebas dio incorrecto el resultado comparando di-

rectamente con los sistemas, pero comparándolas con los módulos del mapa se obtiene el

grado de pertenencia mayor de la vocal correcta, como se muestra a continuación

Vocal: A

Entre los cincos sistemas, se clasifica con sys =

2

modulo =

18

Según el mapa mnSOM:

Es 0.297022 grados de pertenencia de A

Es 0.297022 grados de pertenencia de E

Es 0.106079 grados de pertenencia de I

Es 0.185639 grados de pertenencia de O

Es 0.114239 grados de pertenencia de U

31

Figura 6.7

Vocal: I


5

modulo =

115






32


Figura 6.8

Vocal: I


5

modulo =

115




33




Ver Figura 6.8.

Vocal: O


5

modulo =

115







Ver Figura 6.8.

Vocal: O


5

modulo =

85






34


Figura 6.9

35

Capítulo 7

Conclusiones

Objetivo 1. Corroborar el funcionamiento de la red mnSOM através de un ejemplo

documentado

Se generó un mapa mnSOM donde los sistemas son las seis funciones cúbicas del Ejem-

plo No. 1 del artículo Modular Network SOM (mnSOM): From Vector Space to Function

Space; através del cuál se observa la similitud entre las funciones respuesta de los módulos

vecinos, y la distribución de los BMM según la naturaleza de los sistemas, al igual que en

el mapa mostrado en el ejemplo documentado.

El fin de este procedimiento era indagar el comportamiento de las variables através de

diferentes entrenamientos de la red. Se observó que si la función σ2 decrece muy rápido,

cada BMM deja de tener influencia en los módulos más lejanos, haciendo que cada mó-

dulo reciba entrenamiento del BMM más cercano únicamente, lo que no es deseado en

la generación correcta del mapa, donde inicialmente los módulos reciben aprendizaje de

varios BMM. Cuando la variable η es muy alta, en cada iteración los módulos se van a

acercar en una proporción muy alta al sistema con coeficiente ψ mayor, lo que hace que

en las últimas iteraciones se marquen los vecindarios, perdiendo la forma de las funciones

que se ha ganado durante el entrenamiento de la red.

36

Objetivo 2. Desarrollar un modelo que pueda ser utilizado en clasificación de fonemas,

através de una red mnSOM

Se generaron mapas visualmente similares al de las funciones cúbicas pero para el ca-

so de los espectros de las vocales.

La diferencia principal entre una red SOM y una mnSOM es que las unidades son fun-

ciones en vez de vectores. A pesar de que el cepstrum real es una función en el dominio

cuefrencia, se puede expresar como un vector lo que en teoría podría implementarse en

una red SOM. En una red mnSOM los módulos están fijos en una grilla de dos dimen-

siones y sus coordenadas no es lo que se organiza, lo importante es la función que se está

generando en cada módulo y así verlas, y además observar la similitud de las funciones

vecinas en la topología de red, que para nuestro caso representan espectros de vocales.

Objetivo 3. Probar la aplicación del mapa mnSOM creado

Se lograron resultados excelentes al clasificar vocales entre la misma voz con el mapa

mnSOM creado. Todavía no puede ser empleado en reconocimiento del habla pues no

contiene una base de datos amplia en timbres de voz.

37

Capítulo 8

Recomendaciones

Para desarrollar un mapa mnSOM que pueda ser empleado en reconocimiento del

habla, podríamos generar un mapa como el creado, por cada vocal (o fonema); en cada

uno, los sistemas serían grabaciones de diferentes personas de la misma vocal. Éstos ma-

pas son los sistemas del mapa mnSOM, y cada módulo es una grilla cuadrada compuesta

de vectores.

El problema para calcular los coeficientes de aprendizaje está en que en cada mapa sis-

tema no necesariamente quedarían organizados de la misma manera los timbres de voz.

Se podría realizar un procedimiento estocástico para determinar cual sería la organización

adecuada de los timbres y así forzar ésta organización en la generación de los mapas sis-

tema, haciendo que la elección de los subBMM se restrinja a vecindarios (con centro en

el lugar donde debe estar el determinado timbre) que se estrechan en el tiempo hasta el

singleton.

38

Capítulo 9

Anexo 1. Pruebas de clasificación

Voz 1

Vocal: A


1

modulo =

1







——————————————————-

Vocal: E


2

modulo =

28







——————————————————-

Vocal: I


3

modulo =

52







——————————————————-

39

Vocal: O


4

modulo =

111







——————————————————-

Vocal: U


5

modulo =

73


Es 0 grados de pertenencia de A

Es 0 grados de pertenencia de E

Es 0 grados de pertenencia de I

Es 0 grados de pertenencia de O

Es 1 grado de pertenencia de U

——————————————————-

Vocal: A


1

modulo =

58







——————————————————-

Vocal: E


2

modulo =

28







——————————————————-

Vocal: I


3

modulo =

33






40


——————————————————-

Vocal: O


4

modulo =

112







——————————————————-

Vocal: U


5

modulo =

73







——————————————————-

Vocal: A


1

modulo =

13







——————————————————-

Vocal: E


2

modulo =

28







——————————————————-

Vocal: I


3

modulo =

42




41

Es 1 grado de pertenencia de I


Es 0 grados de pertenencia de U

——————————————————-

Vocal: O


4

modulo =

111







——————————————————-

Vocal: U


5

modulo =

87







——————————————————-

Vocal: A


1

modulo =

68







——————————————————-

Vocal: E


2

modulo =

28







——————————————————-

Vocal: I


3

modulo =

40


42






——————————————————-

Vocal: O


4

modulo =

80







——————————————————-

Vocal: U


5

modulo =

73







——————————————————-

Vocal: A


1

modulo =

24


Es 1 grado de pertenencia de A




Es 0 grados de pertenencia de U

——————————————————-

Vocal: E


2

modulo =

28







——————————————————-

Vocal: I


3

modulo =

43

39







——————————————————-

Vocal: O


4

modulo =

80







——————————————————-

Vocal: U


5

modulo =

73







Voz 2

Vocal: A


2

modulo =

18







——————————————————-

Vocal: E


2

modulo =

1







——————————————————-

44

Vocal: I


3

modulo =

111







——————————————————-

Vocal: O


4

modulo =

115







——————————————————-

Vocal: U


5

modulo =

108







——————————————————-

Vocal: A


1

modulo =

54







——————————————————-

Vocal: E


2

modulo =

34






45


——————————————————-

Vocal: I


5

modulo =

115







——————————————————-

Vocal: O


4

modulo =

52







——————————————————-

Vocal: U


5

modulo =

108







——————————————————-

Vocal: A


1

modulo =

30







——————————————————-

Vocal: E


2

modulo =

36




46




——————————————————-

Vocal: I


5

modulo =

115







——————————————————-

Vocal: O


5

modulo =

115







——————————————————-

Vocal: U


5

modulo =

108







——————————————————-

Vocal: A


1

modulo =

19







——————————————————-

Vocal: E


2

modulo =

45


47






——————————————————-

Vocal: I


3

modulo =

102







——————————————————-

Vocal: O


5

modulo =

85







——————————————————-

Vocal: U


5

modulo =

108







——————————————————-

Vocal: A


1

modulo =

19







——————————————————-

Vocal: E


2

modulo =

48

28







——————————————————-

Vocal: I


3

modulo =

103







——————————————————-

Vocal: O


4

modulo =

40







——————————————————-

Vocal: U


5

modulo =

108







49

Capítulo 10

Anexo 2. Algunos Conceptos de Audio

Digital

10.1. Señal Digital

Sea x(n) una señal discreta en el tiempo (o digital), con n entero. x(n) representa

muestras de una onda análoga xa(t), con un periodo de muestreo T ,

x(n) = xa(nT ) = xa(t)|t=nT

Se define así el tiempo normalizado t′:

t′ =t

T

De esta manera las muestras de la señal son tomadas en intervalos de tiempo de igual

magnitud, como lo muestra la Figura 10.1. [2]

10.2. La Frecuencia Nyquist

El teorema de muestreo formula que una señal continua de banda limitada puede ser

reemplazada por una sucesión de muestras sin ninguna pérdida de información, y describe

50

Figura 10.1: Segment of a speech waveform used to illustrate the concept of "normalized

time"[2]

como la señal continua original puede ser reconstruida por las muestras. Además el teo-

rema especifica que la frecuencia de muestreo (F = 1/T Hertz) debe ser como mínimo

el doble de la frecuencia mas alta de la señal. Más específicamente, una señal de audio

que contenga frecuencias entre 0 y F/2 Hz puede ser representada exactamente, con F

muestras por segundo de la señal continua original.

Cuando el teorema de muestreo es aplicado a una señal de audio, ésta pasa por un fil-

tro pasa-bajos, limitando la banda de frecuencias a que no exceda la frecuencia Nyquist

(F/2). Idealmente, el filtro pasa-bajos es diseñado para que únicamente sean removidas de

la señal las frecuencias altas, que caen por encima del límite audible por el humano (20000

Hz). La respuesta en dominio de frecuencia de una señal análoga filtrada pasa-bajos es

mostrada en la Figura 11.2.

51

Figura 10.2: Lowpass filter characteristics. A An ideal lowpass filter has flat passband

response and instantaneous cut-off. B In practice, filters exhibit ripple in the stopband

and passband, and sloping cutoff [9]

La señal ahora puede ser muestreada para definir valores instantáneos de amplitud. En

el sistema de salida, la señal es reconstruida sin pérdida de información, como es ilustrado

en la Figura 11.3. [9]

Figura 10.3: With discrete time sampling, a bandlimited signal can be sampled and

reconstructed without loss because of sampling [9]

Por ejemplo, una señal de audio compuesta de frecuencias entre 0 y 20 kHz, teórica-

mente requiere una frecuencia de muestreo mínima de 40 kHz; una de las razones por la

cual una señal de audio es generalmente muestreada a 44100 Hz.

52

10.3. Pre-énfasis

El pre-énfasis permite acentuar las frecuencias altas de la señal de voz. Este filtro

obedece a la ecuación en diferencia

x(n) = v(n)− a · x(n− 1)

y cuya función de transferencia asociada es la ecuación

H(z) = 1− a · z−1

donde v(n) es la señal de voz de entrada y x(n) la señal filtrada.

10.4. Análisis Cepstral

La eliminación de una de dos señales combinadas es, en general, un problema difí-

cil. Sin embargo, existe una buena solución a éste tipo de problema cuando las señales

son combinadas linealmente. Además hay herramientas poderosas para analizar señales

compuestas de adiciones (y multiplicadas por escalar). Ciertamente, nuestra noción de

”dominio de frecuencia” es basada en una operación lineal (Transformada de Fourier) de

señales, formada de piezas combinadas linealmente. Suponga, por ejemplo, que una señal

de baja-frecuencia, x1(n), es corrupta por la adición de ruido de alta-frecuencia, w(n):

x(n) = x1(n) + w(n)

Debido a que la transformada de Fourier es un operador lineal, sabemos que un sim-

ple espectro de magnitud de x(n) nos permitiría examinar la sucesión de componentes

individualmente, porque ellas ocurren en diferentes partes del espectro de frecuencias. El

espectro, es la representación de la señal con la cual podemos valorar su ”separación” en

partes compuestas. Más aun, la representación de las señales compuestas son combinadas

linealmente en el espectro.

53

Si se quiere remover el ruido de una señal, muy seguramente un filtro pasa-bajos re-

moverá las indeseables componentes de frecuencias altas, y luego transformarlo de vuelta

al dominio de tiempo. Cada operación en un filtro pasa-bajos es lineal (Ver [2]), es decir

que toda la operación es lineal (llamémosla .(ג Sólo porque x1(n) y w(n) son combinados

linealmente podemos evaluar x(n) así,

{x(n)}ג = x1(n)}ג + w(n)} = +{x1(n)}ג {w(n)}ג ≈ x1(n)

obteniendo x1(n).

Si las componentes son combinadas de otra forma (p.e., convolución), no es claro el efecto

del filtro en x(n).

{x(n)}ג = x1(n)}ג ∗ w(n)} = }ג∞∑

m=−∞

x1(m) · w(m− n)} = efecto en x1(n), w(n)?

Ésta situación es el caso en el que se encuentra la voz, y la que motiva el análisis

”Cepstral”, para problemas centrados en el habla. El habla es compuesta de una com-

binación convolucionada de la secuencia de exitación, con la respuesta del impulso del

sistema vocal.

v(n) = e(n) ∗ θ(n)

Así como el espectro, el cepstrum representa una transformación de la señal de habla

con dos propiedades importantes:

1. Las representaciones de las componentes de la señal son separadas en el cepstrum.

2. Las representaciones de las componentes de la señal son combinadas linealmente en

el cepstrum.

54

Si el propósito es evaluar algunas propiedades de las componentes de la señal, el cep-

strum es suficiente para obtener la información necesaria. [2]

Las bajas componentes cepstrales corresponden a variaciones lentas de las componentes

espectrales y por tanto contienen información de la envolvente del espectro, la cual se

relaciona con la respuesta en frecuencia del filtro que modela el tracto vocal.

El análisis cepstral es un caso especial entre una clase general de métodos colectivos

conocidos como procesamiento de señal "homomórfico". El cepstrum derivado del proce-

samiento homomórfico es llamado el cepstrum complejo (complex cepstrum (CC)). En la

práctica es muy usado el cepstrum real (real cepstrum (RC)), el cual corresponde a la

parte real del CC. La diferencia básica entre RC y CC, es que RC descarta la información

de fase, mientras que CC retiene esta información. [2]

10.5. Medidas de distorción espectral

10.5.1. Distancia Log-espectral

Considere dos densidades espectrales [10] S(ω) y S ′(ω), donde ω es la frecuencia nor-

malizada entre −π y π. La diferencia entre los dos espectros en magnitud logarítmica vs.

escala de frecuencia es definida por

V (ω) = log(S(ω))− log(S ′(ω)) = logS(ω)

S ′(ω)

Una elección natural para una medida de distancia o distorción entre S y S ′ es el

conjunto de normas Lp definido por

d(S, S ′)p = (dp)p =

∫ π

−π|V (ω)|pdω

2π

Para p = 1, define la distorción log-espectral media absoluta. Para p = 2, define la dis-

55

torción log-espectral cuadrática media, que tiene aplicación en muchos sistemas de proce-

samiento de voz. Debido a que la percepción del volumen de una señal es aproximadamente

logarítmica, la familia de distancias log-espectrales parece estar estrechamente ligada a la

valoración subjetiva de diferencias del sonido, por lo tanto ésta es una medida de distor-

ción con relevancia perceptual.

La Figura 11.4.A. muestra dos espectros de potencia de dos vocales en escala logarít-

mica y la Figura 11.4.B. la magnitud de la diferencia log-espectral |V (ω)| como función

de la frecuencia normalizada. [10]

Figura 10.4: A Espectros de potencia en escala logarítmica de dos vocales y B su

diferencia de magnitud |V (ω)| [10]

10.5.2. Distancia de Itakura-Saito

La diferencia log-espectral V (ω) es la base de muchas medidas de distorción. La medida

de distorción originalmente propuesta por Itakura y Saito es [10]

56

dIS(S, S′) =

∫ π

−π[eV (ω) − V (ω)− 1]

dω

2π

Tenemos que

eV − V − 1 =V 2

2!+V 3

3!+ . . .

' V 2

2!

para |V | � 1

se observa que

dIS(S, S′) ' 1

2d2

2(S, S′)

para distorciones pequeñas.

La asimetría se debe a que una diferencia espectral positiva V (ω) contribuye mucho más

que una negativa porque

eV − V − 1 ' eV

para V � 1

eV − V − 1 ' −V

para V � 1

57

Capítulo 11

Anexo 3. Redes neuronales

11.1. Redes de alimentación hacia adelante

El modelo de redes de alimentación hacia adelante es mostrado en la Figura .1. Éste

modelo es conocido como perceptrón multicapa.

Figura 11.1: Modelo perceptrón multicapa de M capas, R entradas y SM salidas

El vector p es la entrada a la red, la salida de la red es aM donde M es el número

de capas. La m-ésima capa de la red contiene una matriz de pesos Wm donde cada

fila iwm representa el vector de pesos de la i-ésima neurona de la capa, una función de

transferencia fm (vectorial) y un vector bm denominado sesgo (bias). La salida viene dada

por la siguiente ecuación:

58

aM = WMfM(...f2(W2f1(W1p + b1) + b2)) + bM

El número de entradas y salidas de la red, son definidas por las especificaciones externas

del problema (al igual que las funciones de transferencia); pero no nos dice directamente

cuantas neuronas son requeridas en las capas ocultas, ni cuantas capas son necesarias.

Este problema se sigue investigando en la actualidad.

11.2. El Algoritmo de Propagación hacia atrás

Es un tipo de aprendizaje supervizado, el cual es previsto por un conjunto de muestras

del comportamiento deseado:

{p1, t1}, {p2, t2}, ..., {pQ, tQ}

donde pq es un vector entrada a la red y tq es su correspondiente vector salida correcto

(target). Cuando la entrada es aplicada a la red, la salida es comparada con las correctas.

Entonces, la regla de aprendizaje es usada para ajustar los pesos y sesgos con el fin de

que las salidas de la red converjan a las correctas.

Tal algoritmo usa como índice de desempeño el error cuadrático medio (mean square

error). El algoritmo ajusta los parámetros de la red con el fin de minimizar el error

cuadrático medio:

E(eT (k)e(k)) = E((t− a(k))T (t− a(k)))

donde a(k) es la salida de la red en la iteración k y t su correspondiente salida correcta

para algún vector entrada a la red p.

La regla para modificar las neuronas de la red es:

wmi,j(k + 1) = wmi,j(k)− α∂E

∂wmi,j

59

bmi (k + 1) = bmi (k)− α ∂E∂bmi

donde α es la tasa de aprendizaje (learning rate), 0 < α ≤ 1 . A mayor α más

aprendizaje por iteración, pero puede no converger adecuadamente con un coeficiente

cercano a 1.

Existen variaciones de éste algoritmo, tales como el algoritmo Levenberg-Marquard, el

cual es mucho más rápido y potente que el de propagación hacia atrás simple.

Éstas redes son ampliamente usadas como aproximadoras de funciones teniendo disponible

muestras de la función a aproximar, ajustando los parámetros de la red mediante propa-

gación hacia atrás, hacia obtener la salida deseada para una entrada dada (valor de la

función a aproximar en dicha entrada), pero no solamente en el conjunto de muestras sino

para todo el dominio continuo. Un ejemplo es la red 1-2-1 mostrada en la Figura en la

cual se muestran las funciones de transferencia usadas en este tipo de red.

Figura 11.2: Example Function Approximation Network

[3] [5]

60

Bibliografía

[1] Carríon A. Diseño Acústico de Espacios Arquitectónicos, Alfaomega, 2001. Page 32.

[2] Deller, J., Proakis J., Hansen J. Discrete-Time Processing of Speech Signals, Prentice-

Hall, Inc, 1987. Chapters 1, 5, 6, 11.

[3] Demuth H., Beale M., Hagan M. MatLab, Neural Network ToolboxTM 6 User’s Guide,

The MathWorks, Inc, 1992-2008. Chapters 2, 5, 9.9 - 9.19 .

[4] Furukawa T., Tokunaga K., Morishita K., Yasui S. Modular Network SOM (mnSOM):

From Vector Space to Function Space. Department of Brain Science and Engineering,

Kyushu Institute of Technology, Japan. Proceedings of International Joint Conference

on Neural Networks, Montreal, Canada, July 31 - August 4, 2005.

[5] Hagan M., Demuth H., Beale M. Neural Network Design, PHS Publishing Company,

Boston, 1996. Chapters 1, 2, 4.1, 11, 12, 13.15, 14.12 - 14.16 .

[6] Imperial College London, Department of Electrical and Electronic Engineering,

Voicebox, 2003. <http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/doc/voicebox>

[7] Kohonen T. The Self-Organizing Map, IEEE, Vol. 78, No. 9, 1990.

[8] MatLab Central, Nonparametric Power Spectrum Estimation With Threshold-

ed Cepstrum, 2006. <http://www.mathworks.es/matlabcentral/fileexchange/12996-

nonparametric-power-spectrum-estimation-with-thresholded-cepstrum>

61

[9] Pohlmann K. Principles of Digital Audio, Fourth Edition, McGraw-Hill Video/audio

Professional, United States, 2000. Chapter 2.

[10] Rabiner L., Juang B., Fundamentals of Speech Recognition, Prentice Hall Interna-

tional, Inc, United States, 1993. Chapter 4.

[11] Vaseghi S. Advanced Digital Signal Processing and Noise Reduction, Second Edition,

John Wiley and Sons, Ltd., New York, 2000.

62

Documents

PontiﬁciaUniversidadJaveriana. FacultaddeCiencias