Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Pontificia Universidad Javeriana.
Facultad de Ciencias.
Departamento de Matemáticas.
Diseño de una Red Modular Auto-organizada con aplicación enreconocimiento de fonemas
Juan David Rodríguez Correa
Director: Pedro Raúl Vizcaya Guarín
Bogotá - Colombia
Agosto de 2010
Índice general
1. Introducción 4
2. Objetivos 6
2.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3. Formulación del problema 7
4. Marco Teórico 8
4.1. Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2. Redes AutoOrganizadas de Kohonen . . . . . . . . . . . . . . . . . . . . . 9
4.3. Regla de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.4. Red mnSOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.5. Coeficientes Cepstrales Reales . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.6. Distancia de Itakura-Saito . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5. Materiales y Métodos 19
5.1. Diseño del mapa mnSOM de vocales . . . . . . . . . . . . . . . . . . . . . 19
5.2. Tratamiento de las señales . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6. Resultados y Discusión 25
6.1. mnSOM de Funciones Cúbicas en MatLab . . . . . . . . . . . . . . . . . . 25
6.2. mnSOM de Vocales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2
6.2.1. Espectros de frecuencia de los sistemas . . . . . . . . . . . . . . . . 28
6.2.2. Mapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7. Conclusiones 36
8. Recomendaciones 38
9. Anexo 1. Pruebas de clasificación 39
10.Anexo 2. Algunos Conceptos de Audio Digital 50
10.1. Señal Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
10.2. La Frecuencia Nyquist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
10.3. Pre-énfasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.4. Análisis Cepstral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.5. Medidas de distorción espectral . . . . . . . . . . . . . . . . . . . . . . . . 55
10.5.1. Distancia Log-espectral . . . . . . . . . . . . . . . . . . . . . . . . . 55
10.5.2. Distancia de Itakura-Saito . . . . . . . . . . . . . . . . . . . . . . . 56
11.Anexo 3. Redes neuronales 58
11.1. Redes de alimentación hacia adelante . . . . . . . . . . . . . . . . . . . . . 58
11.2. El Algoritmo de Propagación hacia atrás . . . . . . . . . . . . . . . . . . . 59
3
Capítulo 1
Introducción
Las redes neuronales auto-organizadas (Self-Organizing Maps (SOM)) de Kohonen
proveen una herramienta poderosa para el análisis de datos, clasificación y visualización
en muchos campos de aplicación, tales como, reconocimiento de patrones, robótica, con-
trol de procesos, procesamiento de información semántica, entre otros [7] [5].
A pesar de esto, sólo pueden manipular datos representados en vectores, aunque muchas
expansiones han sido propuestas para varios casos de tipos de datos. Entre ellas se encuen-
tra la red modular auto-organizada (Modular Network SOM (mnSOM)), la cual permite
al diseñador tratar con clases de datos generales en una manera consistente, debido a que
las unidades de información son funciones en vez de vectores [4].
Con el fin de implementar una red mnSOM se desarrolla el primer ejemplo del artículo
Modular Network SOM (mnSOM): From Vector Space to Function Space, en el cual se
genera un mapa mnSOM de funciones cúbicas [4].
Luego se diseña una red mnSOM de señales de audio, en donde los sistemas representan
las vocales. La aplicación de tal red es clasificar fonemas, para que pueda ser empleada
en el reconocimiento del habla (speech recognition) (utilizado generalmente en el dictado
4
de textos por computador y control de comandos por voz) [2] [10].
En primer lugar se mencionan los tipos de redes neuronales junto con sus reglas aprendiza-
je [5]. Se describe la auto-organización en una red SOM de Kohonen [7] [5]. Se explican el
algoritmo y las variables de una red mnSOM, la cual al igual que la red SOM se adapta
através de vecindarios [4]. Se muestra la regla de Kohonen [7] [5], la cual se utilizó como
regla de aprendizaje en cada módulo de la red mnSOM de vocales diseñada. Se describe
el diseño de la red mnSOM de vocales seguido del tratamiento que debe hacerse a las
señales de audio para procesar correctamente su información [2]. Por último se exponen
los mapas generados, tanto de la red mnSOM de funciones cúbicas como de la de vocales,
junto con los resultados de las pruebas.
5
Capítulo 2
Objetivos
2.1. Objetivo General
Diseñar e implementar una red modular auto-organizada (mnSOM) con una aplicación
2.2. Objetivos Específicos
1. Corroborar el funcionamiento de la red mnSOM através de un ejemplo documentado
2. Desarrollar un modelo que pueda ser utilizado en clasificación de fonemas, através
de una red mnSOM
3. Probar la aplicación del mapa mnSOM creado
6
Capítulo 3
Formulación del problema
¿Es posible tratar el problema de clasificación de fonemas de una manera lineal através
de los coeficientes ceptrales reales mediante interpolación, desarrollando un mapa mn-
SOM?
7
Capítulo 4
Marco Teórico
4.1. Redes neuronales
Las redes neuronales son particularmente usadas en reconocimiento/clasificación de
patrones. Existen diversas arquitecturas y algoritmos flexibles al diseñador del sistema.
Sus parámetros (o neuronas) son modificados através de reglas de aprendizaje, las cuales
tienen como propósito entrenar la red neuronal para desempeñar alguna labor [5].
Entre las arquitecturas de redes neuronales se encuentran dos categorías: Las redes de
alimentación hacia adelante (feedforward networks), las cuales tienen un tipo de apren-
dizaje supervisado, en el cual la red es prevista de un conjunto de muestras (conjunto de
entrenamiento (training set)) del comportamiento deseado [5]. En otra categoría, las neu-
ronas de la red compiten interactuando en vecindarios, desarrollando adaptabilidad. Ésta
es denominada auto-organizada (self-organizing), que es de aprendizaje no-supervisado
[7].
La red de alimentación hacia adelante también es denominada perceptrón multicapa y
es ampliamente utilizada como aproximador de funciones [5] [3].
8
4.2. Redes AutoOrganizadas de Kohonen
Las redes SOM de Kohonen proveen una herramienta poderosa para el análisis de
datos, clasificación y visualización en muchos campos de aplicación [7].
Éstas redes se adaptan de la siguiente manera. Se ingresa a la red un conjunto aleatorio de
vectores de Rn (vectores entrada), generalmente distribuidos en algún tipo de superficie.
La red también está compuesta de vectores de Rn, interconectados (tales conexiones se
denominan topología de la red [5] [3] [7]).
Ésta red se organiza sin supervisión iterando de la siguiente manera: Se determina entre la
red el vector ganador para cada vector entrada a la red, el cuál es el más cercano a dicha
entrada con respecto a la distancia euclidiana. Todos los vectores dentro de un vencin-
dario adecuado del vector ganador (basándose en sus interconexiones) son actualizadas
usando la regla de Kohonen (Ver Sección 4.3.), acercándose a tal vector entrada en una
determinada proporción [5] [7]. Tal vecindario decrece a medida que se va entrenando
la red, generalmente mediante una ecuación gaussiana como en las redes mnSOM (Ver
Sección 4.4).
Veamos una red SOM de 2-dimensiones con topología de grilla 5 × 6 bi-dimensional,
la cual se muestra en la Figura 4.1.
Figura 4.1: Mapa SOM de 5-por-6
9
Primero se crean varios datos de entrada aleatorios. En la Figura 4.2. están graficados
100 datos de entrada.
Figura 4.2: 100 vectores de entrada aleatorios en el intervalo [0, 1]× [0, 1]
La Figura 4.3. muestra los vectores iniciamente para tal red SOM.
Figura 4.3: Inicialización aleatoria de los vectores de la red SOM
En la Figura 4.4. se visualiza la red luego de la tercera iteración; se muestra la direc-
ción en la que se deben mover los vectores del vecindario del vector ganador cuando un
vector entrada es presentado. Éste procedimiento se realiza con los 100 vectores entrada
en cada iteración de la red. En la figura el vencidario es de radio 2 usando como criterio
la distancia de Manhattan.
La Figura 4.5 ilustra los vectores luego de 4, 25 y 85 iteraciones.
10
Figura 4.4: Vecindario de radio 2 del vector ganador mediante la distancia de Manhattan
Figura 4.5: Auto-organización
Una Red SOM de Kohonen es no-supervisada en el sentido de que no utiliza informa-
ción externa - tomando datos de entrada únicamente -, auto-organizando la información
con base en los patrones de entrada.
Si los vectores de la red pertenecen a espacios de alta dimensión, se pueden organizar
sobre un plano (p.e.), y así poder ver las conexiones en la topología de la red [7].
11
4.3. Regla de Kohonen
Sea x(T ) un vector de Rn que depende del tiempo o la iteración T ε N. Esta regla de
aprendizaje hace que x(T ) se acerque a un vector p ε Rn en una proporción α(T ), en la
siguiente iteración o periodo de tiempo [7] [5]:
x(T ) = x(T − 1) + α(T )(p− x(T − 1))
0 ≤ α(T ) ≤ 1. Si α(T ) = 1, x = p.
- Es utilizada como regla de aprendizaje en cada módulo de la red mnSOM de vocales
diseñada (Ver Sección 5.1.) -
4.4. Red mnSOM
La Arquitectura de la red mnSOM es ilustrada en la Figura 4.5. Básicamente la ar-
quitectura es tal, que cada vector nodal unidad de la familia SOM convencional, es reem-
plazado por un módulo funcional, tales como un perceptrón multicapa como aproximador
de funciones. Los módulos son organizados en grilla con coordenada fija. Cada módulo de
una red mnSOM tiene entradas y salidas, a diferencia de una red SOM convencional.
12
Figura 4.6: The Architecture of mnSOM [4]
Supongamos que hayM sistemas representados por funciones. Se interpola entre éstas
generando un mapa auto-organizado, donde se visualiza la distancia mutua en el espacio
de funciones.
Supongamos que sólo disponemos de L muestras de la función para cada sistema. En-
tonces el total de muestras es M × L. Sea Di = {(xij,yij)} (1 ≤ j ≤ L) el conjunto de
parejas de vectores entrada-salida de la i-ésima función, denotada por fi, así yij = fi(xij)
(1 ≤ i ≤M).
Una iteración de la red mnSOM consiste en:
Cada sistema, busca el módulo con función más semejante (Best Matching Module (BMM)).
Sea E(k)i el error cuadrático medio del k-ésimo módulo para el conjunto de datos del i-
ésimo sistema:
13
E(k)i =
1
L
L∑j=1
‖gk(T )(xij)− fi(xij)‖2
donde gk es la función respuesta del k-ésimo módulo.
Llamamos k∗i = argk_min{E(k)i } el número de módulo del BMM para el i-ésimo sis-
tema. Éste módulo recibe un alto coeficiente de aprendizaje al igual que sus vecinos, los
demás módulos reciben reciben un aprendizaje muy bajo o nulo dependiendo de su dis-
tancia al BMM de dicho sistema.
Denotemos como ψ(k)i (T ) la tasa de aprendizaje del k-ésimo módulo para el i-ésimo sis-
tema en la iteración T , definida por las siguientes ecuaciones.
ψ(k)i (T ) =
h(l(k, k∗i );T )∑Mi′=1 h(l(k, k
∗i′);T )
h(l;T ) = exp[− l2
2σ2(T )]
l(k, k∗i ) expresa la distancia (de Manhattan) entre las coordenadas del k-ésimo módulo
y las del BMM del i-ésimo sistema. h(l;T ) es la función de vecindario, la cual se estrecha
con el incremento de T .
Luego cada módulo es entrenado por cada sistema (mediante el algoritmo de propagación
hacia atrás (Anexo 3)), con tasa de aprendizaje ηψ(k)i y conjunto de entrenamiento Di.
Así, las funciones del vecindario de cada BMM se asemejan a su respectivo sistema en tal
iteración.
Cuando la red converje los BMM de la última iteración son una copia leal de su con-
cerniente sistema, y quedan distibuidos a lo largo de la red según su naturaleza.
14
En la Figura 4.7. se muestran los sistemas y en la Figura 4.8. un mapa mnSOM de
seis funciones cúbicas. La curva graficada en cada caja, representa la función adquirida
por el correspondiente módulo, luego del entrenamiento. Las cajas numeradas representan
los BMMs, para el conjunto de entrenamiento de cada función [4].
Figura 4.7: The Cubic Functions [4]
Figura 4.8: Feature Map of the Cubic Function Family generated by mnSOM [4]
15
Es importante notar que por la forma en la que está diseñada la función ψ toma
valores entre 0 y 1 y la suma de los M coeficientes para un k fijo es igual a 1:
M∑i=1
ψ(k0)i (T ) = 1
La red mnSOM es supervisada pues las muestras de los sistemas es el conjunto de entre-
namiento, aunque la auto-organización se genera sin supervisión.
La función respuesta de cada uno de los módulos cuando la red ha convergido correc-
tamente se puede interpretar como una combinación lineal en el espacio de funciones
como lo muestra la ecuación (8) en [4].
- Para crear el mapa mnSOM donde los sistemas representan vocales, no es posible hacer
una comparación certera entre las señales de audio como función de amplitud vs. tiempo,
pues contiene la información de fase y no es explícita la de frecuencia -
4.5. Coeficientes Cepstrales Reales
Para evaluar las propiedades de una señal de voz, los coeficientes cepstrales (cepstrum)
son suficientes para obtener la información necesaria, pues conservan la información espec-
tral de la señal. En clasificación de fonemas es muy usado el cepstrum real (real cepstrum),
el cual descarta la información de fase. Sea s(n) una señal digital de voz, el cepstrum real
rc es definido como
rcs(n) = F−1{log|F{s(n)}|}
en el cual F{·} denota la Transformada Discreta de Fourier [2] [9]. La computación
del cepstrum real es mostrada en el diagrama de bloque formado en la Figura 4.8.
16
Figura 4.9: Computation of the real cepstrum [2]
El índice de los coeficientes cepstrales reales (que en realidad es un eje de tiempo dis-
creto) es llamado eje cuefrencia (quefrency axis).
Los primeros coeficientes ceptrales contienen la información del envolvente acústico del
fonema [2].
4.6. Distancia de Itakura-Saito
Para medir la diferencia entre patrones de voz es matemática y computacionalmente
razonable hacerlo mediante la distorción espectral. El espectro descarta la información de
fase pues está en términos de la frecuencia. La medida utilizada en procesamiento de voz
es la distancia de Itakura-Saito, la cual se puede obtener apartir del espectro de poder [10].
La distancia espectral de Itakura-Saito entre los espectros de potencia pf1 y pf2, es
el promedio (o la integral para espectro continuo) en frecuencia de:
pf1/pf2− log(pf1/pf2)− 1
La distancia de Itakura-Saito es asimétrica, pues pf1 > pf2 contribuye más que
la distancia con pf2 > pf1. La versión simétrica es el promedio: (distIS(pf1, pf2) +
distIS(pf2, pf1))/2 [10].
17
Ver en Anexo 2 Análisis Cepstral y Medidas de distorción espectral.
- Mediante un algoritmo se puede calcular el espectro de potencia apartir de los coe-
ficientes ceptrales (Ver CepSpec.m en CD anexo) -
18
Capítulo 5
Materiales y Métodos
5.1. Diseño del mapa mnSOM de vocales
Son 5 sistemas que significan las vocales, representadas por el vector de coeficientes
ceptrales reales de una grabación de cada una, y cada módulo es un arreglo de la misma
longitud que el número de coeficientes de los sistemas (L = 4000).
El vector gk(T ) corresponde a la función respuesta del k-ésimo módulo, fi el vector de
coeficientes cepstrales del i-ésimo sistema y ψ(k)i (T ) la tasa de aprendizaje del k-ésimo
módulo para el i-ésimo sistema. 1 ≤ k ≤ N = 121, 1 ≤ i ≤M = 5. xi, yi son escalares.
Figura 5.1: Gráfico del i-ésimo sistema
19
f1 corresponde a los coeficientes cepstrales reales de una grabación de la vocal a, ...,
f5 de la u.
Los módulos son distribuidos en arquitectura de grilla cuadrada. Cada vector gk(0) se
inicializa aleatoriamente.
En cada iteración T , para la elección de los BMM de cada sistema, usamos la mínima
distancia de Itakura-Saito, entre cada uno de los 5 vectores cepstral real fi con cada uno
de los módulos gk(T ); tales vectores gk(T ) se van modificando a lo largo del entrenamiento
através de la regla de Kohonen:
gk(T ) = gk(T − 1) + ηψ(k)i (T )(fi − gk(T − 1))
De ésta manera, cada módulo gk(T ) se acerca en proporción ηψ(k)i (T ) al i-ésimo sis-
tema, en cada iteración.
En cada módulo se encuentra únicamente una función, representada por un vector que
se modifica interpolando entre los sistemas, y la regla de aprendizaje en cada módulo es
la regla de Kohonen, -no un perceptrón multicapa con algoritmo de propagación hacia
atrás-, ya que éste intentaría aproximar la función en todo el eje cuefrencia y el dominio
de nuestras funciones es los 4000 datos correspondientes a los índices de los vectores.
Se utiliza como criterio la distancia de Itakura-Saito en lugar del error cuadrático medio
[4] para la elección de los BMM, pues éste último se basa en la distancia euclidiana la
cual no es la más apropiada en procesamiento de voz. [2]
Cuando la red converge, es decir, cuando se repiten los 5 BMM en dos iteraciones seguidas,
finaliza el entrenamiento.
20
Así, el mapa creado es del tipo de la Figura 5.2.
Figura 5.2: Visualización de un mapa mnSOM de coeficientes cepstrales de vocales. Se
muestran los primeros 20 coeficientes
Las variables del estudio son: M el número de sistemas, N el número de módulos,
L el número de muestras, ψ(T ) la tasa de aprendizaje de cada módulo que determina
el vecindario de cada BMM, σ2(T ) establece el alcance de ψ(T ), η determina cuanto se
21
modifica la red en cada iteración.
El procedimiento a seguir es encontrar una función σ2(T ) apropiada, observando los coefi-
cientes ψ (los cuales establecen los vecindarios) en diversas pruebas, a su vez modificando
la variable η, hasta obtener la solución de un mapa visualmente correcto.
Clasificación
La clasificación de vocales se realiza calculando la distancia de Itakura-Saito del vec-
tor respuesta de cada módulo con los coeficientes cepstrales reales de la grabación a cla-
sisificar. El módulo ganador es el que tenga menor distancia de Itakura-Saito con dicho
vocablo. Entonces, podemos calcular el grado de pertenencia que tiene de cada vocal, con
la distancia de Manhatan entre el módulo ganador y los BMM de cada sistema.
Tales algoritmos son implementados en MatLab (Ver CD anexo).
5.2. Tratamiento de las señales
La señal de audio es grabada en el Software Audacity, muestreada a 44100Hz con un
formato de calidad de 16− bits y exportada en un archivo .WAV.
Con el fin de acentuar las frecuecias se aplica preénfasis (Ver Anexo 2) a la señal, mediante
un algoritmo en MatLab (Ver CD anexo).
Luego la señal pasa através de un Filtro pasa-bajos [9] [2] en MatLab Simulink, con fre-
cuencia de corte entre 5000 y 5500 Hz. La respuesta de tal filtro es mostrada en la Figura
5.4.
22
Figura 5.3: Filtro pasa-bajos en ventana Simulink, MatLab
Figura 5.4: Respuesta del Filtro pasa-bajos, con frecuencia de corte entre 5000 y 5500 Hz
Esto con el fin, de retirar las frecuencias altas que no nos interesan pues éstas con-
tienen el ruido y la voz humana no alcanza tal frecuencia de corte [1], además de poder
reducir la frecuencia de muestreo a 11025Hz (sin perder calidad, gracias a la ecuación de
Nyquist) (Anexo 2) para que la cantidad de datos no sea tan elevada.
23
La reducción de la frecuencia de muestreo es realizada importando el archivo .WAV a
Audacity.
Figura 5.5: Tratamiento realizado a las señales de audio para obtener las funciones del
mapa creado
Se tomó una ventana de 4000 muestras de cada señal, a 11025 Hz, equivale a 362, 81
miliSegundos, por cada grabación.
24
Capítulo 6
Resultados y Discusión
6.1. mnSOM de Funciones Cúbicas en MatLab
En cada módulo se crea una red perceptrón multicapa 1-5-1 entrenada con el algoritmo
Levenberg-Marquardt, debido a que el de propapagación hacia atrás no en todos los casos
llega a la solución exacta [5], y no se logró el mapa deseado utilizando tal algoritmo en
los módulos.
Cuando se entrena un perceptrón con el algoritmo Levenberg-Marquardt, la función es
aproximada correctamente en el 100 % de los casos para las funciones cúbicas, y tal solu-
ción se obtiene en muy pocas iteraciones (alrededor de 3). El parametro a modificar (que
haría el papel de tasa de aprendizaje) es un coeficiente denominado µ [3], el cual cuando
es muy bajo el entrenamiento es óptimo, pero cuando µ es muy alto el entrenamiento es
inapreciable; ésto sólo para 1 o 2 iteraciones, pues el coeficiente µ se adapta a lo largo del
entrenamiento [5]. Por lo tanto se usa una función de transferencia entre ηψ(k)i y µ.
La siguiente variable a considerar es σ2. Por lo general, esa notación es usada para la
varianza. Haciendo la simulación con σ2(T ) = 2/T , y calculando el promedio de los E(k)i ,
∀i = 1, ...,M y ∀k = 1, ..., N , en la primera iteración (T = 1) éste valor es cercano a 2,5,
25
y en las siguientes iteraciones está alrededor de 1, pero no de manera estable; como la
función de vecindario h se estrecha con el incremento de T, σ2 debe ser decreciente; si
decrece muy rápido, la red no converge a una solución óptima pues toma mínimos locales
y en algunos casos 2 o más sistemas seleccionan el mismo BMM, lo cual no es deseado.
La función σ2 empleada se muestra en la Figura 6.1.
Figura 6.1: σ2(T ) = 50/(T + 9)
Cuando σ2 toma los valores más altos, cada sistema tiene influencia en todos los módu-
los. El fin de las primeras iteraciones aproximadamente, es separar los BMM, sobre todo
los que aproximan a funciones opuestas entre si. Así, los BMM se van tornando hacia el
exterior del mapa, pues los módulos del centro reciben aprendizaje de más funciones que
los de los límites externos. Cuando el vecindario de cada BMM va siendo más pequeño,
todo el sistema se empieza a estabilizar, es decir los BMM de cada sistema van quedando
en el mismo módulo de la iteración anterior, éste es el punto donde el mapa mnSOM ya
es generado.
Ver los coeficientes de aprendizaje de la simulación en cada iteración y el código MatLab
del algoritmo en CD anexo.
El mapa mnSOM creado es mostrado en la Figura 6.2. Las cajas marcadas indican el
26
módulo BMM de cada sistema al finalizar toda la simulación, los cuales aproximan exac-
tamente su función correspondiente.
Figura 6.2: Mapa mnSOM de funciones cúbicas generado
27
6.2. mnSOM de Vocales
6.2.1. Espectros de frecuencia de los sistemas
Figura 6.3: Espectro de frecuencia de una vocal antes de filtrarla
Figura 6.4: Espectro de frecuencia de la vocal aplicándole el filtro pasa-bajos
Figura 6.5: Espectro de frecuencia de la vocal luego de aplicarle preénfasis y después el
filtro pasabajos
28
6.2.2. Mapa
Se partió del modelo de σ2 del mapa mnSOM de funciones cúbicas para definir tal
variable, através de pruebas observando que los coeficientes de aprendizaje definieran cor-
rectamente el vecindario, o sea que en las primeras iteraciones todos los módulos fueran
afectados por todos los sistemas y a partir de allí se fueran cerrando los vecindarios.
Para observar el resultado obtenido, tomamos los primeros 20 coeficientes, nos devolve-
mos al dominio de la frecuencia, es decir, les aplicamos transformada discreta de Fourier
y graficamos el mapa. En la Figura 6.6 se puede apreciar tal visualización del mapa gen-
erado, junto con los BMM.
Podemos ver que los BMM de la solución no convergen hacia los extremos, debido a
que las funciones no son opuestas como en el ejemplo de las cúbicas. Se observan los
cambios graduales entre los módulos.
29
Figura 6.6: Visualización de un mapa mnSOM generado donde los sistemas representan
las vocales
Clasificación de vocales
Se prueba la aplicación con dos mapas, uno con una voz de un hombre y otro con
una de mujer. Luego de que los mapas han sido generados correctamente, se prueban con
grabaciones de vocales de la misma persona.
Con la primera voz, comparando directamente la vocal a clasificar con los sistemas (através
30
de la distancia Itakura-Saito) se obtuvo el resultado correcto en el 100% de los casos, y
por consiguiente en el mapa mnSOM se corroboró el resultado, obteniendo siempre el
grado de pertenencia más alto de la vocal correcta (Anexo 1).
Con la segunda voz, en 5 de las 25 pruebas dio incorrecto el resultado comparando di-
rectamente con los sistemas, pero comparándolas con los módulos del mapa se obtiene el
grado de pertenencia mayor de la vocal correcta, como se muestra a continuación
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
18
Según el mapa mnSOM:
Es 0.297022 grados de pertenencia de A
Es 0.297022 grados de pertenencia de E
Es 0.106079 grados de pertenencia de I
Es 0.185639 grados de pertenencia de O
Es 0.114239 grados de pertenencia de U
31
Figura 6.7
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
32
Es 0.233918 grados de pertenencia de U
Figura 6.8
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
33
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
Es 0.233918 grados de pertenencia de U
Ver Figura 6.8.
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
Es 0.233918 grados de pertenencia de U
Ver Figura 6.8.
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
85
Según el mapa mnSOM:
Es 0.151261 grados de pertenencia de A
Es 0.12605 grados de pertenencia de E
Es 0.168067 grados de pertenencia de I
Es 0.302521 grados de pertenencia de O
34
Es 0.252101 grados de pertenencia de U
Figura 6.9
35
Capítulo 7
Conclusiones
Objetivo 1. Corroborar el funcionamiento de la red mnSOM através de un ejemplo
documentado
Se generó un mapa mnSOM donde los sistemas son las seis funciones cúbicas del Ejem-
plo No. 1 del artículo Modular Network SOM (mnSOM): From Vector Space to Function
Space; através del cuál se observa la similitud entre las funciones respuesta de los módulos
vecinos, y la distribución de los BMM según la naturaleza de los sistemas, al igual que en
el mapa mostrado en el ejemplo documentado.
El fin de este procedimiento era indagar el comportamiento de las variables através de
diferentes entrenamientos de la red. Se observó que si la función σ2 decrece muy rápido,
cada BMM deja de tener influencia en los módulos más lejanos, haciendo que cada mó-
dulo reciba entrenamiento del BMM más cercano únicamente, lo que no es deseado en
la generación correcta del mapa, donde inicialmente los módulos reciben aprendizaje de
varios BMM. Cuando la variable η es muy alta, en cada iteración los módulos se van a
acercar en una proporción muy alta al sistema con coeficiente ψ mayor, lo que hace que
en las últimas iteraciones se marquen los vecindarios, perdiendo la forma de las funciones
que se ha ganado durante el entrenamiento de la red.
36
Objetivo 2. Desarrollar un modelo que pueda ser utilizado en clasificación de fonemas,
através de una red mnSOM
Se generaron mapas visualmente similares al de las funciones cúbicas pero para el ca-
so de los espectros de las vocales.
La diferencia principal entre una red SOM y una mnSOM es que las unidades son fun-
ciones en vez de vectores. A pesar de que el cepstrum real es una función en el dominio
cuefrencia, se puede expresar como un vector lo que en teoría podría implementarse en
una red SOM. En una red mnSOM los módulos están fijos en una grilla de dos dimen-
siones y sus coordenadas no es lo que se organiza, lo importante es la función que se está
generando en cada módulo y así verlas, y además observar la similitud de las funciones
vecinas en la topología de red, que para nuestro caso representan espectros de vocales.
Objetivo 3. Probar la aplicación del mapa mnSOM creado
Se lograron resultados excelentes al clasificar vocales entre la misma voz con el mapa
mnSOM creado. Todavía no puede ser empleado en reconocimiento del habla pues no
contiene una base de datos amplia en timbres de voz.
37
Capítulo 8
Recomendaciones
Para desarrollar un mapa mnSOM que pueda ser empleado en reconocimiento del
habla, podríamos generar un mapa como el creado, por cada vocal (o fonema); en cada
uno, los sistemas serían grabaciones de diferentes personas de la misma vocal. Éstos ma-
pas son los sistemas del mapa mnSOM, y cada módulo es una grilla cuadrada compuesta
de vectores.
El problema para calcular los coeficientes de aprendizaje está en que en cada mapa sis-
tema no necesariamente quedarían organizados de la misma manera los timbres de voz.
Se podría realizar un procedimiento estocástico para determinar cual sería la organización
adecuada de los timbres y así forzar ésta organización en la generación de los mapas sis-
tema, haciendo que la elección de los subBMM se restrinja a vecindarios (con centro en
el lugar donde debe estar el determinado timbre) que se estrechan en el tiempo hasta el
singleton.
38
Capítulo 9
Anexo 1. Pruebas de clasificación
Voz 1
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
1
Según el mapa mnSOM:
Es 0.427897 grados de pertenencia de A
Es 0.256738 grados de pertenencia de E
Es 0.116699 grados de pertenencia de I
Es 0.0916921 grados de pertenencia de O
Es 0.106974 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
28
Según el mapa mnSOM:
Es 0.18617 grados de pertenencia de A
Es 0.37234 grados de pertenencia de E
Es 0.18617 grados de pertenencia de I
Es 0.106383 grados de pertenencia de O
Es 0.148936 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
52
Según el mapa mnSOM:
Es 0.0985915 grados de pertenencia de A
Es 0.131455 grados de pertenencia de E
Es 0.394366 grados de pertenencia de I
Es 0.112676 grados de pertenencia de O
Es 0.262911 grados de pertenencia de U
——————————————————-
39
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
111
Según el mapa mnSOM:
Es 0.217391 grados de pertenencia de A
Es 0.130435 grados de pertenencia de E
Es 0.130435 grados de pertenencia de I
Es 0.326087 grados de pertenencia de O
Es 0.195652 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
73
Según el mapa mnSOM:
Es 0 grados de pertenencia de A
Es 0 grados de pertenencia de E
Es 0 grados de pertenencia de I
Es 0 grados de pertenencia de O
Es 1 grado de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
58
Según el mapa mnSOM:
Es 0.29661 grados de pertenencia de A
Es 0.148305 grados de pertenencia de E
Es 0.148305 grados de pertenencia de I
Es 0.169492 grados de pertenencia de O
Es 0.237288 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
28
Según el mapa mnSOM:
Es 0.18617 grados de pertenencia de A
Es 0.37234 grados de pertenencia de E
Es 0.18617 grados de pertenencia de I
Es 0.106383 grados de pertenencia de O
Es 0.148936 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
33
Según el mapa mnSOM:
Es 0.139651 grados de pertenencia de A
Es 0.179551 grados de pertenencia de E
Es 0.418953 grados de pertenencia de I
Es 0.104738 grados de pertenencia de O
40
Es 0.157107 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
112
Según el mapa mnSOM:
Es 0.215901 grados de pertenencia de A
Es 0.123372 grados de pertenencia de E
Es 0.123372 grados de pertenencia de I
Es 0.345442 grados de pertenencia de O
Es 0.191912 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
73
Según el mapa mnSOM:
Es 0 grados de pertenencia de A
Es 0 grados de pertenencia de E
Es 0 grados de pertenencia de I
Es 0 grados de pertenencia de O
Es 1 grado de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
13
Según el mapa mnSOM:
Es 0.669145 grados de pertenencia de A
Es 0.133829 grados de pertenencia de E
Es 0.0743494 grados de pertenencia de I
Es 0.0557621 grados de pertenencia de O
Es 0.0669145 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
28
Según el mapa mnSOM:
Es 0.18617 grados de pertenencia de A
Es 0.37234 grados de pertenencia de E
Es 0.18617 grados de pertenencia de I
Es 0.106383 grados de pertenencia de O
Es 0.148936 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
42
Según el mapa mnSOM:
Es 0 grados de pertenencia de A
Es 0 grados de pertenencia de E
41
Es 1 grado de pertenencia de I
Es 0 grados de pertenencia de O
Es 0 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
111
Según el mapa mnSOM:
Es 0.217391 grados de pertenencia de A
Es 0.130435 grados de pertenencia de E
Es 0.130435 grados de pertenencia de I
Es 0.326087 grados de pertenencia de O
Es 0.195652 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
87
Según el mapa mnSOM:
Es 0.0980538 grados de pertenencia de A
Es 0.115882 grados de pertenencia de E
Es 0.25494 grados de pertenencia de I
Es 0.21245 grados de pertenencia de O
Es 0.318675 grados de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
68
Según el mapa mnSOM:
Es 0.315315 grados de pertenencia de A
Es 0.126126 grados de pertenencia de E
Es 0.126126 grados de pertenencia de I
Es 0.18018 grados de pertenencia de O
Es 0.252252 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
28
Según el mapa mnSOM:
Es 0.18617 grados de pertenencia de A
Es 0.37234 grados de pertenencia de E
Es 0.18617 grados de pertenencia de I
Es 0.106383 grados de pertenencia de O
Es 0.148936 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
40
Según el mapa mnSOM:
42
Es 0.119658 grados de pertenencia de A
Es 0.179487 grados de pertenencia de E
Es 0.358974 grados de pertenencia de I
Es 0.102564 grados de pertenencia de O
Es 0.239316 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
80
Según el mapa mnSOM:
Es 0.217391 grados de pertenencia de A
Es 0.130435 grados de pertenencia de E
Es 0.130435 grados de pertenencia de I
Es 0.26087 grados de pertenencia de O
Es 0.26087 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
73
Según el mapa mnSOM:
Es 0 grados de pertenencia de A
Es 0 grados de pertenencia de E
Es 0 grados de pertenencia de I
Es 0 grados de pertenencia de O
Es 1 grado de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
24
Según el mapa mnSOM:
Es 1 grado de pertenencia de A
Es 0 grados de pertenencia de E
Es 0 grados de pertenencia de I
Es 0 grados de pertenencia de O
Es 0 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
28
Según el mapa mnSOM:
Es 0.18617 grados de pertenencia de A
Es 0.37234 grados de pertenencia de E
Es 0.18617 grados de pertenencia de I
Es 0.106383 grados de pertenencia de O
Es 0.148936 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
43
39
Según el mapa mnSOM:
Es 0.155844 grados de pertenencia de A
Es 0.25974 grados de pertenencia de E
Es 0.25974 grados de pertenencia de I
Es 0.12987 grados de pertenencia de O
Es 0.194805 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
80
Según el mapa mnSOM:
Es 0.217391 grados de pertenencia de A
Es 0.130435 grados de pertenencia de E
Es 0.130435 grados de pertenencia de I
Es 0.26087 grados de pertenencia de O
Es 0.26087 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
73
Según el mapa mnSOM:
Es 0 grados de pertenencia de A
Es 0 grados de pertenencia de E
Es 0 grados de pertenencia de I
Es 0 grados de pertenencia de O
Es 1 grado de pertenencia de U
Voz 2
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
18
Según el mapa mnSOM:
Es 0.297022 grados de pertenencia de A
Es 0.297022 grados de pertenencia de E
Es 0.106079 grados de pertenencia de I
Es 0.185639 grados de pertenencia de O
Es 0.114239 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
1
Según el mapa mnSOM:
Es 0.11465 grados de pertenencia de A
Es 0.573248 grados de pertenencia de E
Es 0.127389 grados de pertenencia de I
Es 0.127389 grados de pertenencia de O
Es 0.0573248 grados de pertenencia de U
——————————————————-
44
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
111
Según el mapa mnSOM:
Es 0.0358974 grados de pertenencia de A
Es 0.0717949 grados de pertenencia de E
Es 0.717949 grados de pertenencia de I
Es 0.102564 grados de pertenencia de O
Es 0.0717949 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
Es 0.233918 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
108
Según el mapa mnSOM:
Es 0.122699 grados de pertenencia de A
Es 0.0899796 grados de pertenencia de E
Es 0.168712 grados de pertenencia de I
Es 0.168712 grados de pertenencia de O
Es 0.449898 grados de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
54
Según el mapa mnSOM:
Es 0.317362 grados de pertenencia de A
Es 0.144256 grados de pertenencia de E
Es 0.113344 grados de pertenencia de I
Es 0.198351 grados de pertenencia de O
Es 0.226687 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
34
Según el mapa mnSOM:
Es 0.0958647 grados de pertenencia de A
Es 0.415414 grados de pertenencia de E
Es 0.207707 grados de pertenencia de I
Es 0.207707 grados de pertenencia de O
45
Es 0.0733083 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
Es 0.233918 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
52
Según el mapa mnSOM:
Es 0.232258 grados de pertenencia de A
Es 0.180645 grados de pertenencia de E
Es 0.135484 grados de pertenencia de I
Es 0.270968 grados de pertenencia de O
Es 0.180645 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
108
Según el mapa mnSOM:
Es 0.122699 grados de pertenencia de A
Es 0.0899796 grados de pertenencia de E
Es 0.168712 grados de pertenencia de I
Es 0.168712 grados de pertenencia de O
Es 0.449898 grados de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
30
Según el mapa mnSOM:
Es 0.317362 grados de pertenencia de A
Es 0.226687 grados de pertenencia de E
Es 0.113344 grados de pertenencia de I
Es 0.198351 grados de pertenencia de O
Es 0.144256 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
36
Según el mapa mnSOM:
Es 0.104987 grados de pertenencia de A
Es 0.384952 grados de pertenencia de E
46
Es 0.144357 grados de pertenencia de I
Es 0.288714 grados de pertenencia de O
Es 0.0769904 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
Es 0.233918 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
115
Según el mapa mnSOM:
Es 0.0877193 grados de pertenencia de A
Es 0.116959 grados de pertenencia de E
Es 0.280702 grados de pertenencia de I
Es 0.280702 grados de pertenencia de O
Es 0.233918 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
108
Según el mapa mnSOM:
Es 0.122699 grados de pertenencia de A
Es 0.0899796 grados de pertenencia de E
Es 0.168712 grados de pertenencia de I
Es 0.168712 grados de pertenencia de O
Es 0.449898 grados de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
19
Según el mapa mnSOM:
Es 0.368852 grados de pertenencia de A
Es 0.245902 grados de pertenencia de E
Es 0.0983607 grados de pertenencia de I
Es 0.163934 grados de pertenencia de O
Es 0.122951 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
45
Según el mapa mnSOM:
47
Es 0.0911162 grados de pertenencia de A
Es 0.318907 grados de pertenencia de E
Es 0.255125 grados de pertenencia de I
Es 0.255125 grados de pertenencia de O
Es 0.0797267 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
102
Según el mapa mnSOM:
Es 0.0570523 grados de pertenencia de A
Es 0.107765 grados de pertenencia de E
Es 0.484945 grados de pertenencia de I
Es 0.242472 grados de pertenencia de O
Es 0.107765 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
85
Según el mapa mnSOM:
Es 0.151261 grados de pertenencia de A
Es 0.12605 grados de pertenencia de E
Es 0.168067 grados de pertenencia de I
Es 0.302521 grados de pertenencia de O
Es 0.252101 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
108
Según el mapa mnSOM:
Es 0.122699 grados de pertenencia de A
Es 0.0899796 grados de pertenencia de E
Es 0.168712 grados de pertenencia de I
Es 0.168712 grados de pertenencia de O
Es 0.449898 grados de pertenencia de U
——————————————————-
Vocal: A
Entre los cincos sistemas, se clasifica con sys =
1
modulo =
19
Según el mapa mnSOM:
Es 0.368852 grados de pertenencia de A
Es 0.245902 grados de pertenencia de E
Es 0.0983607 grados de pertenencia de I
Es 0.163934 grados de pertenencia de O
Es 0.122951 grados de pertenencia de U
——————————————————-
Vocal: E
Entre los cincos sistemas, se clasifica con sys =
2
modulo =
48
28
Según el mapa mnSOM:
Es 0.21329 grados de pertenencia de A
Es 0.298605 grados de pertenencia de E
Es 0.124419 grados de pertenencia de I
Es 0.248838 grados de pertenencia de O
Es 0.114848 grados de pertenencia de U
——————————————————-
Vocal: I
Entre los cincos sistemas, se clasifica con sys =
3
modulo =
103
Según el mapa mnSOM:
Es 0.0655022 grados de pertenencia de A
Es 0.104803 grados de pertenencia de E
Es 0.349345 grados de pertenencia de I
Es 0.349345 grados de pertenencia de O
Es 0.131004 grados de pertenencia de U
——————————————————-
Vocal: O
Entre los cincos sistemas, se clasifica con sys =
4
modulo =
40
Según el mapa mnSOM:
Es 0.227979 grados de pertenencia de A
Es 0.227979 grados de pertenencia de E
Es 0.132988 grados de pertenencia de I
Es 0.265976 grados de pertenencia de O
Es 0.145078 grados de pertenencia de U
——————————————————-
Vocal: U
Entre los cincos sistemas, se clasifica con sys =
5
modulo =
108
Según el mapa mnSOM:
Es 0.122699 grados de pertenencia de A
Es 0.0899796 grados de pertenencia de E
Es 0.168712 grados de pertenencia de I
Es 0.168712 grados de pertenencia de O
Es 0.449898 grados de pertenencia de U
49
Capítulo 10
Anexo 2. Algunos Conceptos de Audio
Digital
10.1. Señal Digital
Sea x(n) una señal discreta en el tiempo (o digital), con n entero. x(n) representa
muestras de una onda análoga xa(t), con un periodo de muestreo T ,
x(n) = xa(nT ) = xa(t)|t=nT
Se define así el tiempo normalizado t′:
t′ =t
T
De esta manera las muestras de la señal son tomadas en intervalos de tiempo de igual
magnitud, como lo muestra la Figura 10.1. [2]
10.2. La Frecuencia Nyquist
El teorema de muestreo formula que una señal continua de banda limitada puede ser
reemplazada por una sucesión de muestras sin ninguna pérdida de información, y describe
50
Figura 10.1: Segment of a speech waveform used to illustrate the concept of "normalized
time"[2]
como la señal continua original puede ser reconstruida por las muestras. Además el teo-
rema especifica que la frecuencia de muestreo (F = 1/T Hertz) debe ser como mínimo
el doble de la frecuencia mas alta de la señal. Más específicamente, una señal de audio
que contenga frecuencias entre 0 y F/2 Hz puede ser representada exactamente, con F
muestras por segundo de la señal continua original.
Cuando el teorema de muestreo es aplicado a una señal de audio, ésta pasa por un fil-
tro pasa-bajos, limitando la banda de frecuencias a que no exceda la frecuencia Nyquist
(F/2). Idealmente, el filtro pasa-bajos es diseñado para que únicamente sean removidas de
la señal las frecuencias altas, que caen por encima del límite audible por el humano (20000
Hz). La respuesta en dominio de frecuencia de una señal análoga filtrada pasa-bajos es
mostrada en la Figura 11.2.
51
Figura 10.2: Lowpass filter characteristics. A An ideal lowpass filter has flat passband
response and instantaneous cut-off. B In practice, filters exhibit ripple in the stopband
and passband, and sloping cutoff [9]
La señal ahora puede ser muestreada para definir valores instantáneos de amplitud. En
el sistema de salida, la señal es reconstruida sin pérdida de información, como es ilustrado
en la Figura 11.3. [9]
Figura 10.3: With discrete time sampling, a bandlimited signal can be sampled and
reconstructed without loss because of sampling [9]
Por ejemplo, una señal de audio compuesta de frecuencias entre 0 y 20 kHz, teórica-
mente requiere una frecuencia de muestreo mínima de 40 kHz; una de las razones por la
cual una señal de audio es generalmente muestreada a 44100 Hz.
52
10.3. Pre-énfasis
El pre-énfasis permite acentuar las frecuencias altas de la señal de voz. Este filtro
obedece a la ecuación en diferencia
x(n) = v(n)− a · x(n− 1)
y cuya función de transferencia asociada es la ecuación
H(z) = 1− a · z−1
donde v(n) es la señal de voz de entrada y x(n) la señal filtrada.
10.4. Análisis Cepstral
La eliminación de una de dos señales combinadas es, en general, un problema difí-
cil. Sin embargo, existe una buena solución a éste tipo de problema cuando las señales
son combinadas linealmente. Además hay herramientas poderosas para analizar señales
compuestas de adiciones (y multiplicadas por escalar). Ciertamente, nuestra noción de
”dominio de frecuencia” es basada en una operación lineal (Transformada de Fourier) de
señales, formada de piezas combinadas linealmente. Suponga, por ejemplo, que una señal
de baja-frecuencia, x1(n), es corrupta por la adición de ruido de alta-frecuencia, w(n):
x(n) = x1(n) + w(n)
Debido a que la transformada de Fourier es un operador lineal, sabemos que un sim-
ple espectro de magnitud de x(n) nos permitiría examinar la sucesión de componentes
individualmente, porque ellas ocurren en diferentes partes del espectro de frecuencias. El
espectro, es la representación de la señal con la cual podemos valorar su ”separación” en
partes compuestas. Más aun, la representación de las señales compuestas son combinadas
linealmente en el espectro.
53
Si se quiere remover el ruido de una señal, muy seguramente un filtro pasa-bajos re-
moverá las indeseables componentes de frecuencias altas, y luego transformarlo de vuelta
al dominio de tiempo. Cada operación en un filtro pasa-bajos es lineal (Ver [2]), es decir
que toda la operación es lineal (llamémosla .(ג Sólo porque x1(n) y w(n) son combinados
linealmente podemos evaluar x(n) así,
{x(n)}ג = x1(n)}ג + w(n)} = +{x1(n)}ג {w(n)}ג ≈ x1(n)
obteniendo x1(n).
Si las componentes son combinadas de otra forma (p.e., convolución), no es claro el efecto
del filtro en x(n).
{x(n)}ג = x1(n)}ג ∗ w(n)} = }ג∞∑
m=−∞
x1(m) · w(m− n)} = efecto en x1(n), w(n)?
Ésta situación es el caso en el que se encuentra la voz, y la que motiva el análisis
”Cepstral”, para problemas centrados en el habla. El habla es compuesta de una com-
binación convolucionada de la secuencia de exitación, con la respuesta del impulso del
sistema vocal.
v(n) = e(n) ∗ θ(n)
Así como el espectro, el cepstrum representa una transformación de la señal de habla
con dos propiedades importantes:
1. Las representaciones de las componentes de la señal son separadas en el cepstrum.
2. Las representaciones de las componentes de la señal son combinadas linealmente en
el cepstrum.
54
Si el propósito es evaluar algunas propiedades de las componentes de la señal, el cep-
strum es suficiente para obtener la información necesaria. [2]
Las bajas componentes cepstrales corresponden a variaciones lentas de las componentes
espectrales y por tanto contienen información de la envolvente del espectro, la cual se
relaciona con la respuesta en frecuencia del filtro que modela el tracto vocal.
El análisis cepstral es un caso especial entre una clase general de métodos colectivos
conocidos como procesamiento de señal "homomórfico". El cepstrum derivado del proce-
samiento homomórfico es llamado el cepstrum complejo (complex cepstrum (CC)). En la
práctica es muy usado el cepstrum real (real cepstrum (RC)), el cual corresponde a la
parte real del CC. La diferencia básica entre RC y CC, es que RC descarta la información
de fase, mientras que CC retiene esta información. [2]
10.5. Medidas de distorción espectral
10.5.1. Distancia Log-espectral
Considere dos densidades espectrales [10] S(ω) y S ′(ω), donde ω es la frecuencia nor-
malizada entre −π y π. La diferencia entre los dos espectros en magnitud logarítmica vs.
escala de frecuencia es definida por
V (ω) = log(S(ω))− log(S ′(ω)) = logS(ω)
S ′(ω)
Una elección natural para una medida de distancia o distorción entre S y S ′ es el
conjunto de normas Lp definido por
d(S, S ′)p = (dp)p =
∫ π
−π|V (ω)|pdω
2π
Para p = 1, define la distorción log-espectral media absoluta. Para p = 2, define la dis-
55
torción log-espectral cuadrática media, que tiene aplicación en muchos sistemas de proce-
samiento de voz. Debido a que la percepción del volumen de una señal es aproximadamente
logarítmica, la familia de distancias log-espectrales parece estar estrechamente ligada a la
valoración subjetiva de diferencias del sonido, por lo tanto ésta es una medida de distor-
ción con relevancia perceptual.
La Figura 11.4.A. muestra dos espectros de potencia de dos vocales en escala logarít-
mica y la Figura 11.4.B. la magnitud de la diferencia log-espectral |V (ω)| como función
de la frecuencia normalizada. [10]
Figura 10.4: A Espectros de potencia en escala logarítmica de dos vocales y B su
diferencia de magnitud |V (ω)| [10]
10.5.2. Distancia de Itakura-Saito
La diferencia log-espectral V (ω) es la base de muchas medidas de distorción. La medida
de distorción originalmente propuesta por Itakura y Saito es [10]
56
dIS(S, S′) =
∫ π
−π[eV (ω) − V (ω)− 1]
dω
2π
Tenemos que
eV − V − 1 =V 2
2!+V 3
3!+ . . .
' V 2
2!
para |V | � 1
se observa que
dIS(S, S′) ' 1
2d2
2(S, S′)
para distorciones pequeñas.
La asimetría se debe a que una diferencia espectral positiva V (ω) contribuye mucho más
que una negativa porque
eV − V − 1 ' eV
para V � 1
eV − V − 1 ' −V
para V � 1
57
Capítulo 11
Anexo 3. Redes neuronales
11.1. Redes de alimentación hacia adelante
El modelo de redes de alimentación hacia adelante es mostrado en la Figura .1. Éste
modelo es conocido como perceptrón multicapa.
Figura 11.1: Modelo perceptrón multicapa de M capas, R entradas y SM salidas
El vector p es la entrada a la red, la salida de la red es aM donde M es el número
de capas. La m-ésima capa de la red contiene una matriz de pesos Wm donde cada
fila iwm representa el vector de pesos de la i-ésima neurona de la capa, una función de
transferencia fm (vectorial) y un vector bm denominado sesgo (bias). La salida viene dada
por la siguiente ecuación:
58
aM = WMfM(...f2(W2f1(W1p + b1) + b2)) + bM
El número de entradas y salidas de la red, son definidas por las especificaciones externas
del problema (al igual que las funciones de transferencia); pero no nos dice directamente
cuantas neuronas son requeridas en las capas ocultas, ni cuantas capas son necesarias.
Este problema se sigue investigando en la actualidad.
11.2. El Algoritmo de Propagación hacia atrás
Es un tipo de aprendizaje supervizado, el cual es previsto por un conjunto de muestras
del comportamiento deseado:
{p1, t1}, {p2, t2}, ..., {pQ, tQ}
donde pq es un vector entrada a la red y tq es su correspondiente vector salida correcto
(target). Cuando la entrada es aplicada a la red, la salida es comparada con las correctas.
Entonces, la regla de aprendizaje es usada para ajustar los pesos y sesgos con el fin de
que las salidas de la red converjan a las correctas.
Tal algoritmo usa como índice de desempeño el error cuadrático medio (mean square
error). El algoritmo ajusta los parámetros de la red con el fin de minimizar el error
cuadrático medio:
E(eT (k)e(k)) = E((t− a(k))T (t− a(k)))
donde a(k) es la salida de la red en la iteración k y t su correspondiente salida correcta
para algún vector entrada a la red p.
La regla para modificar las neuronas de la red es:
wmi,j(k + 1) = wmi,j(k)− α∂E
∂wmi,j
59
bmi (k + 1) = bmi (k)− α ∂E∂bmi
donde α es la tasa de aprendizaje (learning rate), 0 < α ≤ 1 . A mayor α más
aprendizaje por iteración, pero puede no converger adecuadamente con un coeficiente
cercano a 1.
Existen variaciones de éste algoritmo, tales como el algoritmo Levenberg-Marquard, el
cual es mucho más rápido y potente que el de propagación hacia atrás simple.
Éstas redes son ampliamente usadas como aproximadoras de funciones teniendo disponible
muestras de la función a aproximar, ajustando los parámetros de la red mediante propa-
gación hacia atrás, hacia obtener la salida deseada para una entrada dada (valor de la
función a aproximar en dicha entrada), pero no solamente en el conjunto de muestras sino
para todo el dominio continuo. Un ejemplo es la red 1-2-1 mostrada en la Figura en la
cual se muestran las funciones de transferencia usadas en este tipo de red.
Figura 11.2: Example Function Approximation Network
[3] [5]
60
Bibliografía
[1] Carríon A. Diseño Acústico de Espacios Arquitectónicos, Alfaomega, 2001. Page 32.
[2] Deller, J., Proakis J., Hansen J. Discrete-Time Processing of Speech Signals, Prentice-
Hall, Inc, 1987. Chapters 1, 5, 6, 11.
[3] Demuth H., Beale M., Hagan M. MatLab, Neural Network ToolboxTM 6 User’s Guide,
The MathWorks, Inc, 1992-2008. Chapters 2, 5, 9.9 - 9.19 .
[4] Furukawa T., Tokunaga K., Morishita K., Yasui S. Modular Network SOM (mnSOM):
From Vector Space to Function Space. Department of Brain Science and Engineering,
Kyushu Institute of Technology, Japan. Proceedings of International Joint Conference
on Neural Networks, Montreal, Canada, July 31 - August 4, 2005.
[5] Hagan M., Demuth H., Beale M. Neural Network Design, PHS Publishing Company,
Boston, 1996. Chapters 1, 2, 4.1, 11, 12, 13.15, 14.12 - 14.16 .
[6] Imperial College London, Department of Electrical and Electronic Engineering,
Voicebox, 2003. <http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/doc/voicebox>
[7] Kohonen T. The Self-Organizing Map, IEEE, Vol. 78, No. 9, 1990.
[8] MatLab Central, Nonparametric Power Spectrum Estimation With Threshold-
ed Cepstrum, 2006. <http://www.mathworks.es/matlabcentral/fileexchange/12996-
nonparametric-power-spectrum-estimation-with-thresholded-cepstrum>
61
[9] Pohlmann K. Principles of Digital Audio, Fourth Edition, McGraw-Hill Video/audio
Professional, United States, 2000. Chapter 2.
[10] Rabiner L., Juang B., Fundamentals of Speech Recognition, Prentice Hall Interna-
tional, Inc, United States, 1993. Chapter 4.
[11] Vaseghi S. Advanced Digital Signal Processing and Noise Reduction, Second Edition,
John Wiley and Sons, Ltd., New York, 2000.
62