Upload
vudat
View
215
Download
0
Embed Size (px)
Citation preview
Ct” W’ a
\ t? FJ ” Y,,
Proyecto de Ingeniería Electrónica I y I1
95 = P
Vis ua I izad o r de
Espectrogramas
Asesor: Omar Amín Abdel Rahamán
Alumno: Luis Carlos Rodriguez González ,
CONTENIDO
Página
1 . I Justificacion .....................................................................
4 . I Introduccion ....................................................................
Desarrollo Teórico y Diseño ............................................ 7
Desarrollo Experimental ................................................. 22
Resultados Experimentales y Análisis de Resultados .... 28
Conclusiones ................................................................... 33
Bibliografía
Justificación
De todos los medios de comunicación, el habla es sin duda, junto con la vista, el más
utilizado, cotidiano y eficiente que el hombre posee.
Seguramente no se perciba tanta información con nuestros oídos como se hace con nuestros
ojos, sin embargo, el análisis del proceso del habla desde el punto de vista técnico trae como
consecuencia grandes beneficios para el hombre. La aplicación inmediata en la que se puede pensar es
la implementación de máquinas que hablan o por qué no, máquinas que escuchan. Pero aún hay
más, pensemos pues, que el uso del habla puede hacer que se libere la atención que tenemos prestada
tanto con manos como con ojos, a otras tareas; asimismo es omnidireccional y no requiere una línea
de visión. Ocasionalmente las interrupciones por voz no interfieren con otras actividades, a menos
que aquellas demanden especial concentración, además la gente puede asimilar con más facilidad
mensajes hablados y recordarlos para acciones posteriores.
Estas razones fueron suficientes para elegir un proyecto que nos introdujera al análisis del
habla. El objetivo primordial será realizar un trabajo que aunque sea sencillo, proporcione valiosa
información de base y permita estimular la curiosidad para seguir a futuro conociendo sobre
situaciones más profundas. Por fortuna existe suficiente información al respecto.
Para aprender acerca del proceso del habla, es crucial decidir sobre la forma en que la voz
será representada para obtener así la información que deseamos. En general se habla de tres
representaciones diferentes:
0 Representación considerando el parámetro: tiempo. Se considera a la voz como una onda
cambiante con características bien deñnidas.
Representación considerando el parámetro: frecuencia. La voz se interpreta como el resultado de
la adición de ondas de diferentes fiecuencias y amplitudes.
Representación considerando todas las propiedades articulatorias y mecánicas del habla.
0
1
Según la experiencia adquirida por estudiosos del tema, se aíit-ma que la representación en
tiempo proporciona información sobre características estructurales del habla (como el ritmo, el
volumen y la entonación), mientras que las representaciones en frecuencia y articulatoria son las que
proporcionan más cantidad de información y de mayor utilidad en cuanto a naturaleza acústica se
refiere, sin embargo el potencial de la representación articulatoria aún tiene progresos muy pobres
debido a su alta complejidad de implementación [5].
Con todo esto, se considera que en este caso, la mejor opción para obtener resultados
satisfactorios en el análisis del habla se ha de lograr haciendo uso de dos parámetros, tanto
frecuencia como tiempo. Para ello, se decidió elaborar un analizador especial de fiecuencia conocido
por los lingüistas e ingenieros del habla como "espectrógrafopara sonido"; dispositivo que sirve para
hacer una gráfica "tridimensional" (posteriormente se mencionará la limitación de esta tercera
dimensión) de la concentración de la energía del habla en ciertasfiecuencias con respecto al tiempo.
En las referencias bibliográficas es común leer que a estos aparatos se les conoce como herramientas
que nos permiten "ver" la voz; o bien como generadores de "huellas digitales" para la voz [l] . Un
ejemplo de este tipo de gráficas se muestra a continuación en la figura 1, en ella se observa el
espectrograma de un hombre pronunciando la frase inglesa "go away'' obtenida de la bibliografia [5].
formante3
A mayor intensidad en el tono de gris, conesponde
mayor amplitud en el
erpeciro. t
G O A W A Y
figura 1
2
Una razón m á s por la que este proyecto se vuelve atractivo se debe al factor económico. Si se
desea imprimir el espectrograma tal como se mostró en la figura anterior se requiere de analizador de
espectros con muy alta velocidad de respuesta, de preferencia en tiempo real y de un graficador. Sin
embargo este equipo tan costoso podrá ser reemplazado obteniendo resultados muy aceptables al
usar un conjunto de filtros pasabanda, un osciloscopio y una interface entre ambos llamada
explorador; cuyo costo en conjunto es considerablemente menor.
3
Introducción
La anatomía del había.
Para hablar, la gente hace uso de su laringe como fuente de sonido, además hace movimientos
rápidos con su lengua, labios, mandíbulas, dentadura, etc. Los cambios de forma de la cavidad bucal
resultantes por dichos movimientos permiten la producción de diferentes sonidos; sonidos que
conocemos como “vocales y consonantes” del lenguaje ordinario.
La laringe contiene dos pliegues de piel, las cuerdas vocales, las cuales se separan y se acercan
una y otra vez repetidamente en cada ciclo del tono o tonos producidos. La onda generada por la
laringe no es puramente sinusoidal (si así fuera, el sistema del habla produciría únicamente tonos de la
misma fiecuencia pero atenuados y amplificados, de modo que nuestra comunicación se llevaría a
cabo por medio de una especie de silbidos).
La acción de agitar las cuerdas vocales provoca que se genere una onda cuya forma puede
aproximarse a la de un pulso triangular. Ésta tiene un rico contenido de armónicos, los cuales decaen
alrededor de 12 &/octava. La entonación que caracteriza a una voz masculina se debe a ondas cuya
fiecuencia varía entre 50 Hz hasta quizá 250 Hz, con un valor medio típico de 100 Hz, aunque
también aparece contenido en fiecuencias más altas; mientras que para una voz femenina el rango es
más alto, arriba de 500 Hz. Cuando se canta, estas fiecuencias aumentan considerablemente llegando
al orden de los 1000 Hz (aunque los cantantes de opera fácilmente superan este valor).
Todo el conjunto de Órganos involucrados en la producción del habla, desde la laringe hasta
los labios (al cual se le referirá como “sistema del habla”) actúan como una cavidad resonante,
ampliíicando independientemente ciertas fiecuencias y atenuando otras.
4
Un modelo simple del sistema referido puede pensarse como un Órgano semejante a un tubo
cilíndrico, como el que se observa en la figura 2, con un sonido &ente en un extremo (la laringe) y
una abertura en el otro extremo (los labios).
Primera resmancia
Segunda resonancia
/ Tercera resonancia
r r Abertura Final
L- Fuente de sonido (laringe) (labios)
figura 2
Las resonancias de esta cavidad se dan a las longitudes de onda 4L, 4L/3, 4L/5, ... donde L es
la longitud del tubo, y corresponden a las fiecuencias c/4L, 3c/4L, 5c/4L,, ...a, donde c es la
velocidad del sonido en el aire. Calculando estas fiecuencias y utilizando un distancia típica entre la
laringe y los labios de 18 cm., además de c = 340 m í s obtenemos resonancias aproximadamente en
475 Hz, 1425 Hz, 2375 Hz.
Con el modelo pensado del tubo cilíndrico se describe que si se pronuncia una vocal
continuamente, como “aaaaa.. .”, su espectro aparecerá continuamente y no variará; pero en el habla
real, la lengua y los labios se encuentran en movimiento continuo alterando la forma del la caja
bucálica y por lo tanto las posiciones de las fiecuencias de resonancia.
Cuando el sistema del habla es excitado por una onda rica en armónicos proporcionada por la
laringe, éste produce picos en el espectro de energía de la señal de voz, conocidos como
FORMANTES. La formante de menor fiecuencia, llamada formante número uno, varía en el rango de
50 a 1000 Hz mientras se habla.
particular se trate. La fiecuencia
El rango exacto depende de la longitud del sistema de habla que en
de la formante número dos varía alrededor de los 500 Hz a los 2500
5
Hz, y la formante tres alrededor de 1500 a 3500 Hz, obsérvese la figura 3 en la que se muestra un
ejemplo.
Forrnante 1
I Enargia
Formante 2
f
2500 wouu ___c
Frecuencia ( H r )
figura 3
Una complicación se introduce debido a la presencia de la cavidad nasal, la cual se acopla a la
cavidad bucal por un pasaje atrás de los dientes. Este pasaje se conmuta por una capa de piel. La
cavidad nasal se abre y se tapa por la capa mientras se está hablando y se usa para pronunciar las
consonantes m, n, y el sonido ng. Las vocales también son frecuentemente nasalizadas. Aunque
realmente no podemos alterar signiñcativamente la forma de la cavidad nasal esta juega un papel
muy importante. Cuando la cavidad nasal también toma parte al hablar, ésta altera las formantes que
se producen cuando no lo hace, pues el sistema se acopla a una nueva cavidad.
Podría pensarse que cuando se murmura una palabra, su espectro en frecuencia fuera igual al
de la pronunciación normal de la misma palabra, sólo que debidamente atenuado, sin embargo eso no
es cierto. Cuando se murmura, las capas de la laringe se separan permitiendo el paso de una gran
cantidad de aire que se convierte en turbulencias, ocasionando un ruido extra debido a la cavidad
resonante, modificando el espectro.
6
Desarrollo Teórico y Diseño
Sabemos que cuando se habla, el sonido que sale de la boca está compuesto de varias
fiecuencias mezcladas para crear la calidad tonal que es Única para cada voz. El ancho de banda de
los principales fonemas para la mayoría de las voces es de unos 4 KHZ.
Podemos pensar en dos métodos para ver las distintas fiecuencias presentes en la onda de
voz: uno, basado en la variable tiempo, y el otro basado en la variable fiecuencia. En el primer
método se conecta un micrófono a la entrada de un osciloscopio y se habla; se pueden ver los
cambios de fiecuencia y amplitud. En el segundo, se hace un registro del contenido espectral de
energías con respecto al tiempo de las palabras pronunciadas, por medio del espectrógrafo.
Visualizador de espectrogramas
Los espectrógrafos comunes de laboratorio casi siempre contienen o bien un ñltro de
exploración por barrido o un procesador de transformada rápida de Fourier. La resolución que
ofiecen estos equipos es mucho mayor que la necesaria para una aplicación introductoria y por ello,
el analizador de espectros en tiempo real de gran costo puede ser sustituido por un diseño como el
que a continuación se propondrá [ 13.
La siguiente gráfica (figura 4) es el diagrama de bloques de la propuesta de hardware utilizado
para grabar espectrogramas. Consta de un banco de filtros pasabanda de dieciséis secciones que se
encarga de hacer el reconocimiento del contenido espectral en las palabras, y es la esencia del
proyecto. La entrada del banco de filtros está conectado a un micrófono con amplificador, y sus
múltiples salidas (dieciséis), cada una con un correspondiente detector nivei, se dirigen a un circuito
de multiplexaje con circuiteha de temporización. Las salidas del circuito se conectan a las entradas de
los ejes x, y y z de un osciloscopio para hacer el despliegue de los resultados.
7
Filtros Pasabanda Conexiones del osciioscopio
figura 4
Conjunto de resultados esperados
El principal resultado que se desea lograr es la visión tridimensional del contenido espectral de
palabras habladas. El eje x representará el tiempo, el eje y la fiecuencia y el eje z la magnitud de la
energía. Se supone además que dicha figura tridimensional es observada desde su vista superior.
El dibujo producido por el sistema visualizador diferirá del mostrado en la figura 1, pero la
información que se obtenga representará de manera satisfactoria el contenido espectral.
El banco de filtros consta de 16 bandas igualmente espaciadas desde los 50 Hz a los 3.8 KHz.
La energía en cada rango aparecerá como una banda horizontal sobre la pantalla del osciloscopio; una
sección horizontal del osciloscopio es asignada a cada fiecuencia. Las medidas de éste son 10 por 8 8
centímetros, así que cada banda de fiecuencia ocupará aproximadamente 0.5 cm. en el eje vertical
01).
Así por ejemplo, cuando en la señal de voz se presente una fiecuencia muy cercana a los 800
Hz, entonces la cuarta banda (de abajo hacia arriba) se verá iluminada. La intensidad con que se
ilumine dependerá directamente de la concentración de energía en dicha frecuencia.
En la Figura 5 se muestra un bosquejo del tipo de visualización que se espera obtener por el
circuito de interface. Aproximadamente así es como aparecerá la fiase "go away" cuando se
pronuncie.
3800 ' It'z'
1 I N
O t
G O A W A Y
figura 5
El tiempo se registrará en el eje horizontal (x) donde el circuito podrá hacer un barrido sobre
fiases hasta de 1 segundo. Así 1 cm. en la pantalla corresponde a O. 1 segundos. Ajustando la base de
tiempo del osciloscopio se podrán obtener rastreos sobre señales de 0.5 segundos, 0.2 segundos o
menos.
Una visualización con tiempo de rastreo de 1 segundo, constará de 256 muestras para cada
fiecuencia, es decir, un total de 4096 muestras por exploración (256 muestras por 16 frecuencias).
Un tiempo de rastreo de 0.5 segundos constará de 128 muestras en cada fiecuencia, 2048 muestras
9
por exploración y así sucesivamente. En realidad, será posible cambiar la velocidad de reloj del
circuito para ajustar el tiempo de rastreo.
La exploración completa se realiza con 256 líneas verticales en la pantalla, una atrás de la
otra, tan juntas que parecen formar una imagen continua. La separación entre línea y línea es de 0.4
mm. Cuando se realiza una exploración de 0.5 segundos, la separación entre líneas es de 0.8 mm.
Posteriormente se explicará que sólo una de cada dos líneas será iluminada para graficar (sin embargo
la visión sigue siendo muy buena). Cada barrido vertical se divide en dieciséis sectores igualmente
espaciados, cada uno a 250 Hz del siguiente. El sector inferior es el de 50 Hz y el superior el de 3800
Hz. La intensidad con que se ilumina cada segmento de la línea de exploración se determina por la
amplitud del voltaje de salida del filtro en particular. El segmento aparecerá más iluminado cuando la
salida sea más positiva, y será más oscurecida cuando más se acerque al potencial de tierra. No
existirán salidas negativas debido a la existencia de un detector de nivel realizado en base a un diodo
y un capacitor.
Funcionamiento del circuito de visualización.
El circuito de visualización prácticamente puede ser dividido en tres secciones:
- Circuito amplificador y disparador de entrada.
- Banco de filtros.
- Circuito de lógica de exploración.
Para explicar el funcionamiento, lo mejor será hacerlo tratando cada sección como un módulo
por separado.
El circuito amplificador y de disparo.
El diagrama esquemático del circuito amplificador y de disparo se puede observar en la
siguiente página en la figura 6.
El circuito integrado IClA es un sencillísimo preamplificador cuya salida alimenta una etapa
adicional de amplificación formada alrededor de I C l B ; así, la amplificación se realiza en dos etapas.
Un potenciómetro es agregado en esta etapa para tener un control mayor sobre la ganancia de los
amplificadores. Una vez instalado el equipo, este potenciómetro es calibrado para obtener la mejor
visión de los resultados. Ganancias muy altas saturarán la pantalla, mientras que ganancias muy
pequeñas la opacarán por completo.
Esta parte del circuito permite el paso de todas las fiecuencias y alimenta al banco de filtros.
IClA e I C l B alimentan a IClC que se configura como un indicador de nivel, produciendo una
tensión constante proporcional a la tensión de salida de los amplificadores. La salida del indicador de
nivel se conecta a un comparador ajustable de voltaje IClD.
Cuando se inicia la pronunciación de la palabra, y está tiene suficiente volumen, el
comparador de voltaje envía pulsos, disparando así al circuito de exploración. Un diodo emisor de luz
activado por un transistor sirve como indicador gráfico para hacer saber al usuario el accionamiento
del circuito. Una segunda opción de disparo se logra presionando un botón auxiliar; muy útil
especialmente en la etapa de calibración, cuando la señal de entrada no provenía de un micrófono
sino de un generador de señales.
11
8 ____.__I_ 7 6 I 5 4 I 3 I 2 I 1 I .-
Etapas de R w l r f r c a c i o n Obiensron de n r v e l med&o AiIu5te n i v e l de d i s P s r o
Vcs12"
Y
1
i 22D
I D a t e : S e p t e m b e r 21, 1995lSheet Of
8 I < I 6 I 5 I 4 I 3 I 2 I 1
Fi I tros >
I
POTENCIOUETRO D E S E N S I B I L I D A D
F I C U R A 6
Size ocument Number tl 0 C I R C U I T O D E A M P L I F I C I C I O N Y DISPORO
2 N 2 2 2 2 A
-
12
El banco de fdtros
No se puede pedir que los filtros utilizados en el banco sean particularmente abruptos, pues
eso provocaría un crecimiento considerable en el hardware del circuito; por el contrario, era
necesario encontrar una configuración de filtro pasabanda tal que ofieciera un factor de calidad
suficientemente alto con el mínimo de componentes.
DISEÑO DEL BANCO DE FILTROS.
La configuración elegida para el proyecto fue una conñguración MFl3 de segundo orden de
banda angosta (Infinite Gain - Multiple Feedback) debido a su sencillez, reducido número de
componentes y buena funcionalidad [3]. El diagrama de este filtro se muestra a continuación en la
figura 7.
Ventrada - R1 t -4 Vcalida
figura 7
Utilizando este modelo, en la figura 8 se muestra el esquema correspondiente al banco de
ñltros; los circuitos integrados IC2 a IC5 se configuran como dieciséis ampliñcadores pasabanda
independientes, las fiecuencias centrales de ellos se localizan en 50 Hz, 300 Hz, 550 Hz, 800 Hz,
1050 Hz, 1300 Hz, 1550 Hz, 1800 Hz, 2050 Hz, 2300 Hz, 2550 Hz, 2800 Hz, 3050 Hz, 3300 Hz,
3550 Hz y 3800 Hz. La salida de cada filtro contiene un detector de nivel encargado de convertir las
salidas de los filtros en niveles de voltaje de CD (en el hardware estos detectores de nivel se
encontrarán en la tarjeta del explorador).
13
La función de transferencia de estos filtros es:
K o o s / Q s2 + o O s / Q + o o 2
H(s) =
y el procedimiento de diseño es el siguiente:
Sea f o -frecuencia central (mo =frecuencia central angular):
1.- Seleccionar un valor estándar de C, (preferiblemente cercano a 10 / f, @) y un valor estándar para
con P =% CSPP - Y ) V
C, de aproximadamente : C, > I
y = l
2.- Calcular los valores de las resistencias, dados por:
con:
p = K / Q P = C / Q y = l
Todos los filtros fueron calculados para trabajar con una ganancia de 10 (K=lO) y un factor
de calidad de 10 (Q=iO).
Para llevar a cabo la calibración es necesario conocer lo siguiente:
0 Rl controla la ganancia del filtro. Si la resistencia aumenta la ganancia disminuye y viceversa.
4 junto con R3 controlan el factor de calidad, y a la vez R, controla la frecuencia central.
14
Ejemolo:
A continuación se realiza el cálculo del filtro con frecuencia central en 50 Hz, Q=1 O y K=10.
5 p = 5 = 0.5
p = 6 = 0.1
y = l c - 0 - , - 50 - 2 0 0 s
C, > 200nF(0.05 - 1)
C2 = lOnF 1 R~ 2n(05XiOO~~íKlnF) 15915R
0 1 R, = 2n(5o)[zoollF(o90)+1onf;(1)] = 1675Q
y los valores comerciales del cálculo teórico son:
R, = 15KR R, = 1.5KQ R, = 3.3MR C, = 220nF c, = l0nF
El diseño se sigue haciendo para todos y cada uno de los filtros, y se utilizan los valores
comerciales más próximos. Si los valores de capacitores o resistencias son muy grandes o pequeños
se puede utilizar un múltiplo o submúltiplo de ellos, obtenido por el uso de una constante arbitraria.
Siempre y cuando si se multiplican los valores resistivos por esa constante, entonces los valores
capacitivos sean divididos por la misma constante o viceversa. El valor de la constante es elegido
según la necesidad.
A continuación en la figura 9 se muestra una simulación de la respuesta en frecuencia de los
filtros que conformaron el banco de ñltros.
figura 9
Nótese que el eje x (de la fiecuencia) está expresado logarítmicamente, por lo tanto el ancho
de banda de los filtros no es el mismo para todos como podría presuponerse. La realidad es que el
ancho de banda de cada ñltro es directamente proporcional a su frecuencia central; así, el ancho de
banda para el filtro ubicado en 50 Hz es de unos 5 Hz, mientras que para el filtro de 3800 Hz será
aproximadamente de 380 Hz. En general:
El hecho de que los filtros pasabanda tengan un ancho mayor para fiecuencias centrales
mayores acarrea un inconveniente; entre más alta la fiecuencia, se vuelve más dificil distinguir una
banda en particular de su banda anterior y de su banda posterior, es decir, inevitablemente pueden
suf?ir de un traslapamiento tal como se observó en la simulación en la figura 8. Para este caso, dicho
traslapamiento sí es notorio, sin embargo, es perfectamente tolerable.
17
El circuito de lógica de exploración.
El circuito de lógica de exploración es la interface que se encarga de acoplar el banco de
filtros al osciloscopio para mostrar gráficamente los resultados de los filtros, su diagrama se observa
en la siguiente página en la figura 1 O.
Todo el funcionamiento del circuito de exploración se basa en un contador de 12 bits
(unidades U3 y U4), el cual está sincronizado con un reloj de fiecuencia ajustable (unidad Ul) por
potenciómetro. Los 8 bits m á s significativos de éste contador ingresan a un convertidor digital
analógico (unidad U9), cuya salida se conecta a la entrada x del osciloscopio. Puesto que el contador
avanza ascendentemente, el DAC proporciona una señal que tiene 256 niveles discretos de voltaje.
Cada uno de ellos sigmfica una posición diferente en que se divide el eje horizontal x mientras se hace
el barrido.
El tiempo que tarda el cursor en una posición del eje x (z = 3.9ms) es ocupado por el
sistema para hacer el barrido vertical. Dada la velocidad del osciloscopio no es prudente realizarlo
usando un DAC, pues esto provocaría la división del eje y en dieciséis puntos y no en dieciséis líneas
como se desea. Para resoher el problema se propone el uso de un integrador activado con el quinto
bit del contador y usando un interruptor controlado por voltaje (unidad U5A). Mientras el bit esté en
nivel bajo el integrador se accionará generando una rampa ascendente y barriendo el eje y. Nótese
que mientras el quinto bit esté en nivel alto, el integrador se desactiva y no se genera el barrido en y;
teniendo como consecuencia que el barrido vertical se realice sólo cuando los últimos 8 bits formen
un número par, es decir en una de cada dos posiciones (se visualizan sólo 128 posiciones de las 256).
No es problemático que sólo una de cada dos h e a s se visualicen, después de todo si se desea
aumentar el número de líneas por pantalla sólo es necesario aumentar la velocidad del reloj del
sistema, que además es ajustable.
9 I m I o I U
1
o
m
O
m
o
z c(
c
4
o
r
O'
O c C
C c rn
E < "
c N
J
xxxxxxxx -\ luil*MN+O
C b- N
2 9 I m I o I o
Para comprender mejor el funcionamiento a continuación se anexa un diagrama de tiempos en
la figura 10.
. AELDJ L L
figura 11
Los tres bits menos significativos del contador controlan las líneas de dirección de dos
multiplexores analógicos de ocho canales cada uno, conmutando entre ellos de acuerdo a la selección
del cuarto bit. De esta manera se logra hacer un multiplexor de 16 líneas a 1, controlado por 4 bits,
en base a multiplexores de 8 líneas a 1. A las dieciséis entradas del multiplexor son conectadas las
dieciséis salidas de los filtros por medio de los detectores de nivel. La salida del multiplexores se
suma (realmente se suma la salida de uno con un potencial de tierra, pues sólo h c i o n a un
multiplexor a la vez; mientras el otro tiene salida de cero voltios). El resultado de la suma se formatea
y va al eje z del osciloscopio. Cuando la dirección del multiplexor es el binario 0000, la salida del
filtro de 50 Hz es dirigida a la entrada del eje z que controla la intensidad del cañón del osciloscopio.
Así mismo, el binario 1 1 1 1 direcciona el filtro de 3.8 KHz.
Es necesario que la salida de la suma sea formateada para ingresar al eje z del osciloscopio.
Para el osciloscopio utilizado, un Tektronix modelo 2220, se necesita de una tensión cercana a O v
para mayor intensidad y cercana a 5 v para menor intensidad.
20
Para lograr el formato adecuado para el osciloscopio se debe cumplir la siguiente h c i ó n :
por lo que es necesario agregar un restador de voltaje después del sumador.
Si alguna vez se desea utilizar el circuito con otro osciloscopio es muy importante cerciorarse
que el formato en su entrada z para modulación de intensidad sea el adecuado, de lo contrario se
deberá modificar está parte del circuito por una adecuada.
21
Desarrollo Experimental
El siguiente paso lógico en la elaboración del proyecto viene con la implementación de los
diseños presentados.
La primera etapa desarrollada fue la del banco defiltros. A pesar de que un filtro pasabanda
es sencillo de implementar, a esta etapa se le debió prestar especial atención, pues de su buen
desempeño dependía la funcionalidad de todo el proyecto en sí. Por ello, se decidió realizar una
implementación en circuito impreso y fijar los componentes para evitar problemas posteriores
procedentes de la mala conexión de componentes.
La elaboración del circuito impreso se llevó a cabo por el siguiente método:
1 .- Diseño de la tarjeta con auxilio de una computadora personal.
2.- Obtención del negativo.
3.- Proceso de fotolitografia:
a. Limpieza de la placa.
b. Aplicación de resina fotosensible.
c. Exposición a luz ultravioleta.
d. Revelado.
e. Erosión con cloruro férrico.
Una muestra de la distribución ñnal de las pistas en la tarjeta se muestra en la siguiente página
en la figura 12. Cada tarjeta está diseñada para contener un total de 8 filtros pasabanda con entrada
común; además, en el diseño se incluye una etapa de 8 comparadores (cada uno conectado a la salida
de cada filtro), encargados de evaluar si la salida de cada uno de estos filtros alcanza un determinado
nivel (ajustable por el usuario). La razón de haber anexado las pistas para este conjunto de
comparadores se debe a que pueden resultar de gran utilidad para un íüturo proyecto sobre
reconocimiento de patrones.
22
I I figura 12
Con la finalidad de facilitar el trabajo a quien desee continuar con el proyecto, perfeccionarlo
o simplemente utilizarlo, en el diagrama siguiente (figura 13) se hace una sencilla descripción de la
tarjeta de filtros que se implementó.
Obsérvese que por cada TL084 se implementan cuatro filtros pasabanda; por ello la existencia
de cuatro R1, cuatro R2, ... por circuito integrado. Los preset sirven para hacer una calibración
precisa de la Fecuencia central. En la tarjeta, estos ya han sido calibrados y se les ha colocado una
pequeña gotita de cola en la muesca del arillo rotatorio par evitar que se muevan; sin embargo en
caso de ser necesario con la ayuda de unas pinzas es posible despegarlos.
Entradas
Salidas Filtros
rn
R3 0 0 R3
I LM339 I
Salidas Cornoaradores
Salidas para
cascadeode
tarjetas
figura 13
En la parte inferior se muestra la implementación (que no se realizó en la practica) de un
comparador. R,,R, y el preset formarían un divisor de voltaje y Rsal es necesaria pues la salida del
comparador integrado LM339 (el comparador para el cual se diseñó) es de colector abierto.
En la figura 14 (derecha) se muestra la
l - - l l = = l ubicación particular de cada filtro en
las tarjetas, observado desde su parte OOHz 550Hz 1800Hz 1550H 800Hz 2550Hz 3800Hz 3550H
superior. Ll figura 14
figura 15 - lo1 Entrada de Señal
Tierra (señal y voltaje)l 0 I
+ 5v. (o1
Desde m a vista superior, las conexiones de
entrada de las tarjetas de los filtros se muestran en la
figura 15 (izquierda). 24
De la misma manera, en vista
salidas de los ñltros están dispuestas
mostrada en la figura 16.
superior, las
de la forma
300 Ó 800 Ó 1300 Ó 1800 Ó 2300Hz 2800Hz 330Hz 3800 Hz
O 0 0 0 0 0 0 0
50ó 550ó 1050Ó 1550ó
figura 16
Como comentario importante de esta parte se debe decir que es de suma importancia lograr
ma muy buena calibración de los filtros. Todos y cada uno de ellos debe estar centrado a la
frecuencia que le corresponde; con m a ganancia tal, que a una misma amplitud de entrada en la
frecuencia central en particular, cada uno de ellos debe mostrar una salida de amplitud muy semejante
(para el diseño de esta tarjeta, el ajuste se logró teniendo una salida sinusoidal de 10 vpp con una
excitación de 1 vpp).
Si no se logra esta calibración se corren varios riesgos: que existan dos o m á s filtros que
respondan a la misma frecuencia; que su frecuencia central este fuera del rango de voz; que su
ganancia sea tan grande que el filtro responda no sólo a su frecuencia asignada, sino a la frecuencia
de sus vecinos, iluminando la banda cuando no le corresponde; o bien con una ganancia tan pequeña
que nunca aparezca; entre otros.
Todos estos problemas no impiden que el sistema visualizador funcione, pero ocasionan que
la información que se esté registrando sea demasiado incierta, lo que puede resultar peor.
La segunda etapa implementada, por orden de importancia, fue la del explorador. En ésta, se
deben realizar una alta cantidad de conexiones (debido a la parte digital), por lo que se decidió que la
mejor forma para implementarla, por seguridad, sería utilizando la técnica de enroliamiento (wzre-
wrap).
25
En la figura 17 se muestra un bosquejo de la implementación del explorador, vista desde su
parte superior, para auxiliar en la localización de entradas, salidas y elementos de ajuste.
Preset Aiuste Reloi
+5vo '
Botón de Salidas: eies
X Y Z -1 2v Disparo
O 0 0 Tierra
0 0 0
figura 17
Una vez realizado el alambrado se procede a la calibración. Ésta tarjeta contiene dos
potenciómetros. El primero se usa para ajustar la fiecuencia del reloj del sistema (si se usa el reloj
interno) y por consecuencia para ajustar el barrido horizontal; el segundo, para ajustar la amplitud de
la rampa de barrido vertical. Cada vez que se calibre el potenciómetro de ajuste del eje x, el eje y
perderá el ajuste y será necesario volverle a calibrar. En esta labor se hace uso de un osciloscopio
para ver las formas, amplitudes y fi-ecuencias de las ondas de interés.
La nota importante de esta tarjeta es sobre el reloj del sistema. Es muy importante que el reloj
utilizado sea lo suficientemente estable. El reloj propuesto puede llegar a tener problemas de
inestabilidad ocasionando que el espectrograma aparezca con demasiadas vibraciones verticales. Para
probar si el reloj es lo suficientemente estable basta con colocar un tono en alguna de las entradas y
realizar el espectrograma. La respuesta debe ser una banda horizontal nítida y pura en el osciloscopio;
si esto no sucede y aparece una banda que vibra, lo más probable es que se tenga que sustituir el reloj
del sistema por algún otro diseño o por un generador de funciones como se hizo con éste proyecto.
26
Finalmente, el circuito amplificador y de disparo no muestra ningún problema en especial e
incluso puede implementarse en un protoboard. Se debe tener la consideración de dar la suficiente
amplificación a la señal de voz; pero no se debe exceder en la ganancia para evitar la saturación de los
ampliñcadores operacionales, que podrían generar armónicos no deseables. Ajustar la ganancia es la
única calibración necesaria para esta etapa.
Conectado el sistema generador de voces impresas a la pantalla del osciloscopio se hace la
experimentación: Se habla y el cursor se desplazará de izquierda a derecha a través de la pantalla,
trazando líneas y mostrando el espectro. Para calibrar el equipo se debe incrementar lentamente la
sensibilidad del potenciómetro en el amplificador hasta que el ruido de fondo sature la pantalla.
Además se deben hacer varias pruebas moviendo el control de intensidad del osciloscopio hasta que
se adquiera la luminosidad deseada y desaparezca la raya vertical luminosa que se desplaza haciendo
el barrido.
Para grabar permanentemente la voz impresa se necesita de una cámara cuyo tiempo de
obturación sea programable, un tripié y un rollo con suñciente sensibilidad a la luz, como el de la
norma ASA400. En una habitación oscurecida, se coloca la cámara sobre el tripié, previamente
programada para que el obturador permanezca abierto durante un segundo (o el tiempo base para el
barrido horizontal); se abre el obturador manualmente y se permite dejar que una muestra explore la
pantalla, después el obturador cerrará automáticamente. Todas las líneas que forman el
espectrograma irán grabándose en la película fotográfica conforme la palabra se pronuncia y el
barrido se realiza. Es importante que todas las luces ajenas al espectrograma sean eliminadas, pues de
lo contrario aparecerían en la fotografia.
De este modo se generan voces impresas. En la siguiente sección de análisis de resultados
aparecen algunas fotografias tomadas con este método. Es importante tener presente que hay
dieciséis bandas de filtro vertical y que el eje x es un segundo.
27
Resultados experimentales y análisis de resultados
En la presente sección se muestran algunos ejemplos de espectrogramas obtenidos con el
sistema visualizador desarrollado. Para analizar los espectrogramas es importante tener presente que
el eje y es el eje de la fiecuencia (50 Hz en el extremo inferior y 3800 Hz en el extremo superior) y
está dividido en dieciséis bandas de filtro vertical y que el eje x indica un segundo de tiempo. Se
considera que los primeros resultados mostrados deben ser los de las vocales, pues éstos servirán
como referencia para facilitar la interpretación de resultados posteriores, cuando se visualicen los
espectrogramas de palabras completas.
"E"
I
"O" U
28
Se intentó que las palabras escogidas para ejemplificar el funcionamiento del sistema tuvieran
diferencias espectrales grandes, con la finalidad de poder apreciar claramente los cambios en
frecuencia que sufren mientras se pronuncian. Ejemplos de algunos espectrogramas obtenidos se
muestran en la columna de la izquierda.
"COME NZARI
"ROZAMI ENTO"
"CALORíF I CO"
De la observación de los resultados de este
proyecto obtenemos información introductoria pero
muy importante acerca de la composición de la voz. Se
mostrarán algunas de las observaciones más
importantes en la siguiente lista:
0 No siempre la pronunciación de la misma vocal
presenta el mismo espectro. Esto se debe a las
diferentes entonaciones con que se digan, incluso
dentro de la misma palabra.
0 h e d e notarse que las palabras pronunciadas por
personas diferentes tienen concentraciones de
energía con algunas semejanzas, al menos en la
posición relativa entre los grabados y no en las
distancias. Sin embargo se aprecian
desplazamientos verticales ya sea hacia arriba o
hacia abajo, marcados por la entonación particular
del individuo del cual se trate.
29
"MONOLITO"
"PAPALOTE"
0 Se sabe que las vocales son formadas por tres
formantes, pero en general la tercera de ellas
aparece en pocas ocasiones. Su amplitud es muy
pequeña.
0 Del análisis del contenido espectral de las vocales
podemos observar la existencia de una semejanza
entre las vocales "a" y "e"; al menos, esta
semejanza existe en la primer formante de ambas.
0 La mayor parte del contenido de la energía al
pronunciar la vocal 3" se encuentra en su primera
formante, cuya fkecuencia es la más baja de todas
las primeras formantes entre las vocales. Sin
embargo su segunda y tercer formante son en
general de más frecuencia que las formantes de las
demás vocales. Además la energía concentrada en
estas es muy poca, y apareció sólo en las
fotografias en las que se le pronunciaba dentro de
la sílaba tónica.
0 En la vocal "0" se puede observar el gran contenido
armónico que aparece. En casi todos los
espectrogramas en los que se le registró se le ve
como una gruesa franja vertical iluminada casi
completamente.
30
"CAZUELA" 0 Obsérvese que en la mayoría de los espectrogramas
"6 IC
- - se puede identificar a la sílaba tónica de la palabra
pronunciada, pues la vocal (o vocales) pronunciadas
en ella con más volumen aparecen más iluminadas
de lo que están cuando no pertenecen a la sílaba
tónica.
3CAl O En general se observan tres bandas de energía que
son constantemente utilizadas. En el caso de la voz
utilizada para grabar los ejemplos, estas bandas son
aproximadamente: entre los 300 Hz y los 1050 Hi;
entre los 18OOHz y los 2300 Hz y arriba de los 2800
Hz.
"BIGOTE" O Pudo observarse, aunque no se proporcionan
pruebas, como los espectrogramas de una voz
femenina presentan su contenido espectral
desplazado un poco más hacia arriba, al menos en
su primera formante.
Al parecer el contenido espectral de las palabras
registradas en el sistema visualizador se debe casi
exclusivamente a las vocales. La participación de las
consonantes no parece afectar mucho los gráficos
impresos. Esto conduce a la suposición de que el
contenido espectral de las consonantes por debajo
de los 3800 Hz es muy pequeño.
31
WATÓ NI@
RÓTES I sii
"DINERAL"
Los espectrogramas de palabras muy parecidas,
tales como "gracia" y 'Grecia'' presentan muy pocas
diferencias en la pantalla del osciloscopio.
0 Al parecer, un espectrograma generado con este
sistema puede servir como una representación
burda de las palabras; teniendo la gran ventaja de
que puede servir para identificar mediante la vista
algunas palabras de otra, siempre y cuando sean lo
suficientemente diferentes en su contenido de
frecuencias. Es decir, como ya lo propuso Steve
Ciarcia [ 13, los espectrogramas parecen ofi-ecer una
huella "digital" para el habla. Si esta huella es
codificada de alguna manera, entonces el uso de un
procesador para interpretarla para sentar las bases
de un sistema reconocedor del habla.
Para concluir con esta sección, se muestra el
resultado de la frase "Go Away" con el sistema
visualizador. Pero en este caso, la base de tiempo es
de 0.5 segundos. Puede notarse cierta semejanza con
los gráficos de las figuras 1 y 5, como se esperaba.
G O A W A Y
32
Conclusiones
Es mucho el provecho que de este trabajo se ha obtenido. El estudio del habla hecho para
este trabajo ha arrojado resultados que si probablemente no son muy innovadores, estoy seguro sí
son muy ilustrativos para todos aquellos que comienzan a aprender al respecto; y algo muy
importante, son completamente compatibles con los que han sido realizados a priori.
Se pudo aprender sobre la formación del habla: un poco estructuralmente (con referencia al
parámetro "tiempo") y un tanto más espectralmente (con referencia del parámetro "frecuencia").
Nos involucramos con nociones del tema, se conoció sobre las características del habla, y se
obtuvieron resultados.
Logramos imprimir espectrogramas de algunas palabras para observar que estos registros
sirven como representaciones simples y útiles del lenguaje oral, cuyo uso trae consigo una
diversidad de aplicaciones, todas ellas relacionadas con la producción y/o identificación del habla.
Notemos pues, que representando el habla de esta manera, la captura, el procesamiento, y el
almacenamiento de palabras en bases de datos puede ser seriamente simplificado.
Podría pensarse que una consecuencia lógica e inmediata de este proyecto es idear la forma
para experimentar con pequeños proyectos de reconocedores del habla, iniciando quizá con un
reconocedor de vocales. El hardware con el que ya se cuenta o posiblemente la reproducción de
éste puede ser de gran utilidad.
Los detalles de los conocimientos, las observaciones y resultados que se generaron se van
presentando a través del texto, desde las primeras páginas hasta las últimas.
33
En el transcurso de la elaboración del proyecto la adquisición de nuevos conocimientos y la
reafirmación de otros previos se fue presentando; se partió de una base de ideas y de hechos
realizados por otras personas para obtener satisfactoriamente nuestras propias experiencias.
Afortunadamente queda la satisfacción de haber obtenido los resultados que desde que se
inició este sistema se buscaban.
34
Bibliografía
1. CIARCIA, Steve; "Utilizar voces impresas para analizar el habla", BYTE, agosto 1983, pág 26.
2. COUGHLIN, F. Robert . ; Amplificadores Operacionules y Circuitos Integrados Lineales, Ed. Prentice Hall Hispanoamericana, México, 1993.
3. JOHNSON, D.E.; A Handbook ofActive Filters, Ed. Prentice Hall, E.U.A., 1980.
4. QUACKENBUSH, R Shuyler; Objective Measures of Speech Quality, Ed. Addison Wesley Advanced Series, E.U.A., 1988.
5. WTTEN, H. Ian; Principles of Computer Speech, Ed. Academic Press, E.U.A., 1982.
6. CMOS Logzc Databook, Santa Clara California E.U. A., National Semiconductor, 1988.
7 . Data Aquisition, Santa Clara California E.U.A., National Semiconductor, 1984.