37
Ct” W’ a \ t? FJ Y,, Proyecto de Ingeniería Electrónica I y I1 95 = P Visua I izad o r de Espectrogramas Asesor: Omar Amín Abdel Rahamán Alumno: Luis Carlos Rodriguez González ,

Vis ua I izad o r de Espectrogramas - 148.206.53.84148.206.53.84/tesiuami/UAM5509.pdf · Justificación De todos los medios de comunicación, el habla es sin duda, junto con la vista,

  • Upload
    vudat

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Ct” W’ a

\ t? FJ ” Y,,

Proyecto de Ingeniería Electrónica I y I1

95 = P

Vis ua I izad o r de

Espectrogramas

Asesor: Omar Amín Abdel Rahamán

Alumno: Luis Carlos Rodriguez González ,

CONTENIDO

Página

1 . I Justificacion .....................................................................

4 . I Introduccion ....................................................................

Desarrollo Teórico y Diseño ............................................ 7

Desarrollo Experimental ................................................. 22

Resultados Experimentales y Análisis de Resultados .... 28

Conclusiones ................................................................... 33

Bibliografía

Justificación

De todos los medios de comunicación, el habla es sin duda, junto con la vista, el más

utilizado, cotidiano y eficiente que el hombre posee.

Seguramente no se perciba tanta información con nuestros oídos como se hace con nuestros

ojos, sin embargo, el análisis del proceso del habla desde el punto de vista técnico trae como

consecuencia grandes beneficios para el hombre. La aplicación inmediata en la que se puede pensar es

la implementación de máquinas que hablan o por qué no, máquinas que escuchan. Pero aún hay

más, pensemos pues, que el uso del habla puede hacer que se libere la atención que tenemos prestada

tanto con manos como con ojos, a otras tareas; asimismo es omnidireccional y no requiere una línea

de visión. Ocasionalmente las interrupciones por voz no interfieren con otras actividades, a menos

que aquellas demanden especial concentración, además la gente puede asimilar con más facilidad

mensajes hablados y recordarlos para acciones posteriores.

Estas razones fueron suficientes para elegir un proyecto que nos introdujera al análisis del

habla. El objetivo primordial será realizar un trabajo que aunque sea sencillo, proporcione valiosa

información de base y permita estimular la curiosidad para seguir a futuro conociendo sobre

situaciones más profundas. Por fortuna existe suficiente información al respecto.

Para aprender acerca del proceso del habla, es crucial decidir sobre la forma en que la voz

será representada para obtener así la información que deseamos. En general se habla de tres

representaciones diferentes:

0 Representación considerando el parámetro: tiempo. Se considera a la voz como una onda

cambiante con características bien deñnidas.

Representación considerando el parámetro: frecuencia. La voz se interpreta como el resultado de

la adición de ondas de diferentes fiecuencias y amplitudes.

Representación considerando todas las propiedades articulatorias y mecánicas del habla.

0

1

Según la experiencia adquirida por estudiosos del tema, se aíit-ma que la representación en

tiempo proporciona información sobre características estructurales del habla (como el ritmo, el

volumen y la entonación), mientras que las representaciones en frecuencia y articulatoria son las que

proporcionan más cantidad de información y de mayor utilidad en cuanto a naturaleza acústica se

refiere, sin embargo el potencial de la representación articulatoria aún tiene progresos muy pobres

debido a su alta complejidad de implementación [5].

Con todo esto, se considera que en este caso, la mejor opción para obtener resultados

satisfactorios en el análisis del habla se ha de lograr haciendo uso de dos parámetros, tanto

frecuencia como tiempo. Para ello, se decidió elaborar un analizador especial de fiecuencia conocido

por los lingüistas e ingenieros del habla como "espectrógrafopara sonido"; dispositivo que sirve para

hacer una gráfica "tridimensional" (posteriormente se mencionará la limitación de esta tercera

dimensión) de la concentración de la energía del habla en ciertasfiecuencias con respecto al tiempo.

En las referencias bibliográficas es común leer que a estos aparatos se les conoce como herramientas

que nos permiten "ver" la voz; o bien como generadores de "huellas digitales" para la voz [l] . Un

ejemplo de este tipo de gráficas se muestra a continuación en la figura 1, en ella se observa el

espectrograma de un hombre pronunciando la frase inglesa "go away'' obtenida de la bibliografia [5].

formante3

A mayor intensidad en el tono de gris, conesponde

mayor amplitud en el

erpeciro. t

G O A W A Y

figura 1

2

Una razón m á s por la que este proyecto se vuelve atractivo se debe al factor económico. Si se

desea imprimir el espectrograma tal como se mostró en la figura anterior se requiere de analizador de

espectros con muy alta velocidad de respuesta, de preferencia en tiempo real y de un graficador. Sin

embargo este equipo tan costoso podrá ser reemplazado obteniendo resultados muy aceptables al

usar un conjunto de filtros pasabanda, un osciloscopio y una interface entre ambos llamada

explorador; cuyo costo en conjunto es considerablemente menor.

3

Introducción

La anatomía del había.

Para hablar, la gente hace uso de su laringe como fuente de sonido, además hace movimientos

rápidos con su lengua, labios, mandíbulas, dentadura, etc. Los cambios de forma de la cavidad bucal

resultantes por dichos movimientos permiten la producción de diferentes sonidos; sonidos que

conocemos como “vocales y consonantes” del lenguaje ordinario.

La laringe contiene dos pliegues de piel, las cuerdas vocales, las cuales se separan y se acercan

una y otra vez repetidamente en cada ciclo del tono o tonos producidos. La onda generada por la

laringe no es puramente sinusoidal (si así fuera, el sistema del habla produciría únicamente tonos de la

misma fiecuencia pero atenuados y amplificados, de modo que nuestra comunicación se llevaría a

cabo por medio de una especie de silbidos).

La acción de agitar las cuerdas vocales provoca que se genere una onda cuya forma puede

aproximarse a la de un pulso triangular. Ésta tiene un rico contenido de armónicos, los cuales decaen

alrededor de 12 &/octava. La entonación que caracteriza a una voz masculina se debe a ondas cuya

fiecuencia varía entre 50 Hz hasta quizá 250 Hz, con un valor medio típico de 100 Hz, aunque

también aparece contenido en fiecuencias más altas; mientras que para una voz femenina el rango es

más alto, arriba de 500 Hz. Cuando se canta, estas fiecuencias aumentan considerablemente llegando

al orden de los 1000 Hz (aunque los cantantes de opera fácilmente superan este valor).

Todo el conjunto de Órganos involucrados en la producción del habla, desde la laringe hasta

los labios (al cual se le referirá como “sistema del habla”) actúan como una cavidad resonante,

ampliíicando independientemente ciertas fiecuencias y atenuando otras.

4

Un modelo simple del sistema referido puede pensarse como un Órgano semejante a un tubo

cilíndrico, como el que se observa en la figura 2, con un sonido &ente en un extremo (la laringe) y

una abertura en el otro extremo (los labios).

Primera resmancia

Segunda resonancia

/ Tercera resonancia

r r Abertura Final

L- Fuente de sonido (laringe) (labios)

figura 2

Las resonancias de esta cavidad se dan a las longitudes de onda 4L, 4L/3, 4L/5, ... donde L es

la longitud del tubo, y corresponden a las fiecuencias c/4L, 3c/4L, 5c/4L,, ...a, donde c es la

velocidad del sonido en el aire. Calculando estas fiecuencias y utilizando un distancia típica entre la

laringe y los labios de 18 cm., además de c = 340 m í s obtenemos resonancias aproximadamente en

475 Hz, 1425 Hz, 2375 Hz.

Con el modelo pensado del tubo cilíndrico se describe que si se pronuncia una vocal

continuamente, como “aaaaa.. .”, su espectro aparecerá continuamente y no variará; pero en el habla

real, la lengua y los labios se encuentran en movimiento continuo alterando la forma del la caja

bucálica y por lo tanto las posiciones de las fiecuencias de resonancia.

Cuando el sistema del habla es excitado por una onda rica en armónicos proporcionada por la

laringe, éste produce picos en el espectro de energía de la señal de voz, conocidos como

FORMANTES. La formante de menor fiecuencia, llamada formante número uno, varía en el rango de

50 a 1000 Hz mientras se habla.

particular se trate. La fiecuencia

El rango exacto depende de la longitud del sistema de habla que en

de la formante número dos varía alrededor de los 500 Hz a los 2500

5

Hz, y la formante tres alrededor de 1500 a 3500 Hz, obsérvese la figura 3 en la que se muestra un

ejemplo.

Forrnante 1

I Enargia

Formante 2

f

2500 wouu ___c

Frecuencia ( H r )

figura 3

Una complicación se introduce debido a la presencia de la cavidad nasal, la cual se acopla a la

cavidad bucal por un pasaje atrás de los dientes. Este pasaje se conmuta por una capa de piel. La

cavidad nasal se abre y se tapa por la capa mientras se está hablando y se usa para pronunciar las

consonantes m, n, y el sonido ng. Las vocales también son frecuentemente nasalizadas. Aunque

realmente no podemos alterar signiñcativamente la forma de la cavidad nasal esta juega un papel

muy importante. Cuando la cavidad nasal también toma parte al hablar, ésta altera las formantes que

se producen cuando no lo hace, pues el sistema se acopla a una nueva cavidad.

Podría pensarse que cuando se murmura una palabra, su espectro en frecuencia fuera igual al

de la pronunciación normal de la misma palabra, sólo que debidamente atenuado, sin embargo eso no

es cierto. Cuando se murmura, las capas de la laringe se separan permitiendo el paso de una gran

cantidad de aire que se convierte en turbulencias, ocasionando un ruido extra debido a la cavidad

resonante, modificando el espectro.

6

Desarrollo Teórico y Diseño

Sabemos que cuando se habla, el sonido que sale de la boca está compuesto de varias

fiecuencias mezcladas para crear la calidad tonal que es Única para cada voz. El ancho de banda de

los principales fonemas para la mayoría de las voces es de unos 4 KHZ.

Podemos pensar en dos métodos para ver las distintas fiecuencias presentes en la onda de

voz: uno, basado en la variable tiempo, y el otro basado en la variable fiecuencia. En el primer

método se conecta un micrófono a la entrada de un osciloscopio y se habla; se pueden ver los

cambios de fiecuencia y amplitud. En el segundo, se hace un registro del contenido espectral de

energías con respecto al tiempo de las palabras pronunciadas, por medio del espectrógrafo.

Visualizador de espectrogramas

Los espectrógrafos comunes de laboratorio casi siempre contienen o bien un ñltro de

exploración por barrido o un procesador de transformada rápida de Fourier. La resolución que

ofiecen estos equipos es mucho mayor que la necesaria para una aplicación introductoria y por ello,

el analizador de espectros en tiempo real de gran costo puede ser sustituido por un diseño como el

que a continuación se propondrá [ 13.

La siguiente gráfica (figura 4) es el diagrama de bloques de la propuesta de hardware utilizado

para grabar espectrogramas. Consta de un banco de filtros pasabanda de dieciséis secciones que se

encarga de hacer el reconocimiento del contenido espectral en las palabras, y es la esencia del

proyecto. La entrada del banco de filtros está conectado a un micrófono con amplificador, y sus

múltiples salidas (dieciséis), cada una con un correspondiente detector nivei, se dirigen a un circuito

de multiplexaje con circuiteha de temporización. Las salidas del circuito se conectan a las entradas de

los ejes x, y y z de un osciloscopio para hacer el despliegue de los resultados.

7

Filtros Pasabanda Conexiones del osciioscopio

figura 4

Conjunto de resultados esperados

El principal resultado que se desea lograr es la visión tridimensional del contenido espectral de

palabras habladas. El eje x representará el tiempo, el eje y la fiecuencia y el eje z la magnitud de la

energía. Se supone además que dicha figura tridimensional es observada desde su vista superior.

El dibujo producido por el sistema visualizador diferirá del mostrado en la figura 1, pero la

información que se obtenga representará de manera satisfactoria el contenido espectral.

El banco de filtros consta de 16 bandas igualmente espaciadas desde los 50 Hz a los 3.8 KHz.

La energía en cada rango aparecerá como una banda horizontal sobre la pantalla del osciloscopio; una

sección horizontal del osciloscopio es asignada a cada fiecuencia. Las medidas de éste son 10 por 8 8

centímetros, así que cada banda de fiecuencia ocupará aproximadamente 0.5 cm. en el eje vertical

01).

Así por ejemplo, cuando en la señal de voz se presente una fiecuencia muy cercana a los 800

Hz, entonces la cuarta banda (de abajo hacia arriba) se verá iluminada. La intensidad con que se

ilumine dependerá directamente de la concentración de energía en dicha frecuencia.

En la Figura 5 se muestra un bosquejo del tipo de visualización que se espera obtener por el

circuito de interface. Aproximadamente así es como aparecerá la fiase "go away" cuando se

pronuncie.

3800 ' It'z'

1 I N

O t

G O A W A Y

figura 5

El tiempo se registrará en el eje horizontal (x) donde el circuito podrá hacer un barrido sobre

fiases hasta de 1 segundo. Así 1 cm. en la pantalla corresponde a O. 1 segundos. Ajustando la base de

tiempo del osciloscopio se podrán obtener rastreos sobre señales de 0.5 segundos, 0.2 segundos o

menos.

Una visualización con tiempo de rastreo de 1 segundo, constará de 256 muestras para cada

fiecuencia, es decir, un total de 4096 muestras por exploración (256 muestras por 16 frecuencias).

Un tiempo de rastreo de 0.5 segundos constará de 128 muestras en cada fiecuencia, 2048 muestras

9

por exploración y así sucesivamente. En realidad, será posible cambiar la velocidad de reloj del

circuito para ajustar el tiempo de rastreo.

La exploración completa se realiza con 256 líneas verticales en la pantalla, una atrás de la

otra, tan juntas que parecen formar una imagen continua. La separación entre línea y línea es de 0.4

mm. Cuando se realiza una exploración de 0.5 segundos, la separación entre líneas es de 0.8 mm.

Posteriormente se explicará que sólo una de cada dos líneas será iluminada para graficar (sin embargo

la visión sigue siendo muy buena). Cada barrido vertical se divide en dieciséis sectores igualmente

espaciados, cada uno a 250 Hz del siguiente. El sector inferior es el de 50 Hz y el superior el de 3800

Hz. La intensidad con que se ilumina cada segmento de la línea de exploración se determina por la

amplitud del voltaje de salida del filtro en particular. El segmento aparecerá más iluminado cuando la

salida sea más positiva, y será más oscurecida cuando más se acerque al potencial de tierra. No

existirán salidas negativas debido a la existencia de un detector de nivel realizado en base a un diodo

y un capacitor.

Funcionamiento del circuito de visualización.

El circuito de visualización prácticamente puede ser dividido en tres secciones:

- Circuito amplificador y disparador de entrada.

- Banco de filtros.

- Circuito de lógica de exploración.

Para explicar el funcionamiento, lo mejor será hacerlo tratando cada sección como un módulo

por separado.

El circuito amplificador y de disparo.

El diagrama esquemático del circuito amplificador y de disparo se puede observar en la

siguiente página en la figura 6.

El circuito integrado IClA es un sencillísimo preamplificador cuya salida alimenta una etapa

adicional de amplificación formada alrededor de I C l B ; así, la amplificación se realiza en dos etapas.

Un potenciómetro es agregado en esta etapa para tener un control mayor sobre la ganancia de los

amplificadores. Una vez instalado el equipo, este potenciómetro es calibrado para obtener la mejor

visión de los resultados. Ganancias muy altas saturarán la pantalla, mientras que ganancias muy

pequeñas la opacarán por completo.

Esta parte del circuito permite el paso de todas las fiecuencias y alimenta al banco de filtros.

IClA e I C l B alimentan a IClC que se configura como un indicador de nivel, produciendo una

tensión constante proporcional a la tensión de salida de los amplificadores. La salida del indicador de

nivel se conecta a un comparador ajustable de voltaje IClD.

Cuando se inicia la pronunciación de la palabra, y está tiene suficiente volumen, el

comparador de voltaje envía pulsos, disparando así al circuito de exploración. Un diodo emisor de luz

activado por un transistor sirve como indicador gráfico para hacer saber al usuario el accionamiento

del circuito. Una segunda opción de disparo se logra presionando un botón auxiliar; muy útil

especialmente en la etapa de calibración, cuando la señal de entrada no provenía de un micrófono

sino de un generador de señales.

11

8 ____.__I_ 7 6 I 5 4 I 3 I 2 I 1 I .-

Etapas de R w l r f r c a c i o n Obiensron de n r v e l med&o AiIu5te n i v e l de d i s P s r o

Vcs12"

Y

1

i 22D

I D a t e : S e p t e m b e r 21, 1995lSheet Of

8 I < I 6 I 5 I 4 I 3 I 2 I 1

Fi I tros >

I

POTENCIOUETRO D E S E N S I B I L I D A D

F I C U R A 6

Size ocument Number tl 0 C I R C U I T O D E A M P L I F I C I C I O N Y DISPORO

2 N 2 2 2 2 A

-

12

El banco de fdtros

No se puede pedir que los filtros utilizados en el banco sean particularmente abruptos, pues

eso provocaría un crecimiento considerable en el hardware del circuito; por el contrario, era

necesario encontrar una configuración de filtro pasabanda tal que ofieciera un factor de calidad

suficientemente alto con el mínimo de componentes.

DISEÑO DEL BANCO DE FILTROS.

La configuración elegida para el proyecto fue una conñguración MFl3 de segundo orden de

banda angosta (Infinite Gain - Multiple Feedback) debido a su sencillez, reducido número de

componentes y buena funcionalidad [3]. El diagrama de este filtro se muestra a continuación en la

figura 7.

Ventrada - R1 t -4 Vcalida

figura 7

Utilizando este modelo, en la figura 8 se muestra el esquema correspondiente al banco de

ñltros; los circuitos integrados IC2 a IC5 se configuran como dieciséis ampliñcadores pasabanda

independientes, las fiecuencias centrales de ellos se localizan en 50 Hz, 300 Hz, 550 Hz, 800 Hz,

1050 Hz, 1300 Hz, 1550 Hz, 1800 Hz, 2050 Hz, 2300 Hz, 2550 Hz, 2800 Hz, 3050 Hz, 3300 Hz,

3550 Hz y 3800 Hz. La salida de cada filtro contiene un detector de nivel encargado de convertir las

salidas de los filtros en niveles de voltaje de CD (en el hardware estos detectores de nivel se

encontrarán en la tarjeta del explorador).

13

La función de transferencia de estos filtros es:

K o o s / Q s2 + o O s / Q + o o 2

H(s) =

y el procedimiento de diseño es el siguiente:

Sea f o -frecuencia central (mo =frecuencia central angular):

1.- Seleccionar un valor estándar de C, (preferiblemente cercano a 10 / f, @) y un valor estándar para

con P =% CSPP - Y ) V

C, de aproximadamente : C, > I

y = l

2.- Calcular los valores de las resistencias, dados por:

con:

p = K / Q P = C / Q y = l

Todos los filtros fueron calculados para trabajar con una ganancia de 10 (K=lO) y un factor

de calidad de 10 (Q=iO).

Para llevar a cabo la calibración es necesario conocer lo siguiente:

0 Rl controla la ganancia del filtro. Si la resistencia aumenta la ganancia disminuye y viceversa.

4 junto con R3 controlan el factor de calidad, y a la vez R, controla la frecuencia central.

14

Ejemolo:

A continuación se realiza el cálculo del filtro con frecuencia central en 50 Hz, Q=1 O y K=10.

5 p = 5 = 0.5

p = 6 = 0.1

y = l c - 0 - , - 50 - 2 0 0 s

C, > 200nF(0.05 - 1)

C2 = lOnF 1 R~ 2n(05XiOO~~íKlnF) 15915R

0 1 R, = 2n(5o)[zoollF(o90)+1onf;(1)] = 1675Q

y los valores comerciales del cálculo teórico son:

R, = 15KR R, = 1.5KQ R, = 3.3MR C, = 220nF c, = l0nF

El diseño se sigue haciendo para todos y cada uno de los filtros, y se utilizan los valores

comerciales más próximos. Si los valores de capacitores o resistencias son muy grandes o pequeños

se puede utilizar un múltiplo o submúltiplo de ellos, obtenido por el uso de una constante arbitraria.

Siempre y cuando si se multiplican los valores resistivos por esa constante, entonces los valores

capacitivos sean divididos por la misma constante o viceversa. El valor de la constante es elegido

según la necesidad.

U I O

rn * O Y -4-4

O

Y N

"I

"I

; -- I\*

3 + I

Y O Y 2:

4

w

o

16

I a l v I m l a

A continuación en la figura 9 se muestra una simulación de la respuesta en frecuencia de los

filtros que conformaron el banco de ñltros.

figura 9

Nótese que el eje x (de la fiecuencia) está expresado logarítmicamente, por lo tanto el ancho

de banda de los filtros no es el mismo para todos como podría presuponerse. La realidad es que el

ancho de banda de cada ñltro es directamente proporcional a su frecuencia central; así, el ancho de

banda para el filtro ubicado en 50 Hz es de unos 5 Hz, mientras que para el filtro de 3800 Hz será

aproximadamente de 380 Hz. En general:

El hecho de que los filtros pasabanda tengan un ancho mayor para fiecuencias centrales

mayores acarrea un inconveniente; entre más alta la fiecuencia, se vuelve más dificil distinguir una

banda en particular de su banda anterior y de su banda posterior, es decir, inevitablemente pueden

suf?ir de un traslapamiento tal como se observó en la simulación en la figura 8. Para este caso, dicho

traslapamiento sí es notorio, sin embargo, es perfectamente tolerable.

17

El circuito de lógica de exploración.

El circuito de lógica de exploración es la interface que se encarga de acoplar el banco de

filtros al osciloscopio para mostrar gráficamente los resultados de los filtros, su diagrama se observa

en la siguiente página en la figura 1 O.

Todo el funcionamiento del circuito de exploración se basa en un contador de 12 bits

(unidades U3 y U4), el cual está sincronizado con un reloj de fiecuencia ajustable (unidad Ul) por

potenciómetro. Los 8 bits m á s significativos de éste contador ingresan a un convertidor digital

analógico (unidad U9), cuya salida se conecta a la entrada x del osciloscopio. Puesto que el contador

avanza ascendentemente, el DAC proporciona una señal que tiene 256 niveles discretos de voltaje.

Cada uno de ellos sigmfica una posición diferente en que se divide el eje horizontal x mientras se hace

el barrido.

El tiempo que tarda el cursor en una posición del eje x (z = 3.9ms) es ocupado por el

sistema para hacer el barrido vertical. Dada la velocidad del osciloscopio no es prudente realizarlo

usando un DAC, pues esto provocaría la división del eje y en dieciséis puntos y no en dieciséis líneas

como se desea. Para resoher el problema se propone el uso de un integrador activado con el quinto

bit del contador y usando un interruptor controlado por voltaje (unidad U5A). Mientras el bit esté en

nivel bajo el integrador se accionará generando una rampa ascendente y barriendo el eje y. Nótese

que mientras el quinto bit esté en nivel alto, el integrador se desactiva y no se genera el barrido en y;

teniendo como consecuencia que el barrido vertical se realice sólo cuando los últimos 8 bits formen

un número par, es decir en una de cada dos posiciones (se visualizan sólo 128 posiciones de las 256).

No es problemático que sólo una de cada dos h e a s se visualicen, después de todo si se desea

aumentar el número de líneas por pantalla sólo es necesario aumentar la velocidad del reloj del

sistema, que además es ajustable.

9 I m I o I U

1

o

m

O

m

o

z c(

c

4

o

r

O'

O c C

C c rn

E < "

c N

J

xxxxxxxx -\ luil*MN+O

C b- N

2 9 I m I o I o

Para comprender mejor el funcionamiento a continuación se anexa un diagrama de tiempos en

la figura 10.

. AELDJ L L

figura 11

Los tres bits menos significativos del contador controlan las líneas de dirección de dos

multiplexores analógicos de ocho canales cada uno, conmutando entre ellos de acuerdo a la selección

del cuarto bit. De esta manera se logra hacer un multiplexor de 16 líneas a 1, controlado por 4 bits,

en base a multiplexores de 8 líneas a 1. A las dieciséis entradas del multiplexor son conectadas las

dieciséis salidas de los filtros por medio de los detectores de nivel. La salida del multiplexores se

suma (realmente se suma la salida de uno con un potencial de tierra, pues sólo h c i o n a un

multiplexor a la vez; mientras el otro tiene salida de cero voltios). El resultado de la suma se formatea

y va al eje z del osciloscopio. Cuando la dirección del multiplexor es el binario 0000, la salida del

filtro de 50 Hz es dirigida a la entrada del eje z que controla la intensidad del cañón del osciloscopio.

Así mismo, el binario 1 1 1 1 direcciona el filtro de 3.8 KHz.

Es necesario que la salida de la suma sea formateada para ingresar al eje z del osciloscopio.

Para el osciloscopio utilizado, un Tektronix modelo 2220, se necesita de una tensión cercana a O v

para mayor intensidad y cercana a 5 v para menor intensidad.

20

Para lograr el formato adecuado para el osciloscopio se debe cumplir la siguiente h c i ó n :

por lo que es necesario agregar un restador de voltaje después del sumador.

Si alguna vez se desea utilizar el circuito con otro osciloscopio es muy importante cerciorarse

que el formato en su entrada z para modulación de intensidad sea el adecuado, de lo contrario se

deberá modificar está parte del circuito por una adecuada.

21

Desarrollo Experimental

El siguiente paso lógico en la elaboración del proyecto viene con la implementación de los

diseños presentados.

La primera etapa desarrollada fue la del banco defiltros. A pesar de que un filtro pasabanda

es sencillo de implementar, a esta etapa se le debió prestar especial atención, pues de su buen

desempeño dependía la funcionalidad de todo el proyecto en sí. Por ello, se decidió realizar una

implementación en circuito impreso y fijar los componentes para evitar problemas posteriores

procedentes de la mala conexión de componentes.

La elaboración del circuito impreso se llevó a cabo por el siguiente método:

1 .- Diseño de la tarjeta con auxilio de una computadora personal.

2.- Obtención del negativo.

3.- Proceso de fotolitografia:

a. Limpieza de la placa.

b. Aplicación de resina fotosensible.

c. Exposición a luz ultravioleta.

d. Revelado.

e. Erosión con cloruro férrico.

Una muestra de la distribución ñnal de las pistas en la tarjeta se muestra en la siguiente página

en la figura 12. Cada tarjeta está diseñada para contener un total de 8 filtros pasabanda con entrada

común; además, en el diseño se incluye una etapa de 8 comparadores (cada uno conectado a la salida

de cada filtro), encargados de evaluar si la salida de cada uno de estos filtros alcanza un determinado

nivel (ajustable por el usuario). La razón de haber anexado las pistas para este conjunto de

comparadores se debe a que pueden resultar de gran utilidad para un íüturo proyecto sobre

reconocimiento de patrones.

22

I I figura 12

Con la finalidad de facilitar el trabajo a quien desee continuar con el proyecto, perfeccionarlo

o simplemente utilizarlo, en el diagrama siguiente (figura 13) se hace una sencilla descripción de la

tarjeta de filtros que se implementó.

Obsérvese que por cada TL084 se implementan cuatro filtros pasabanda; por ello la existencia

de cuatro R1, cuatro R2, ... por circuito integrado. Los preset sirven para hacer una calibración

precisa de la Fecuencia central. En la tarjeta, estos ya han sido calibrados y se les ha colocado una

pequeña gotita de cola en la muesca del arillo rotatorio par evitar que se muevan; sin embargo en

caso de ser necesario con la ayuda de unas pinzas es posible despegarlos.

Entradas

Salidas Filtros

rn

R3 0 0 R3

I LM339 I

Salidas Cornoaradores

Salidas para

cascadeode

tarjetas

figura 13

En la parte inferior se muestra la implementación (que no se realizó en la practica) de un

comparador. R,,R, y el preset formarían un divisor de voltaje y Rsal es necesaria pues la salida del

comparador integrado LM339 (el comparador para el cual se diseñó) es de colector abierto.

En la figura 14 (derecha) se muestra la

l - - l l = = l ubicación particular de cada filtro en

las tarjetas, observado desde su parte OOHz 550Hz 1800Hz 1550H 800Hz 2550Hz 3800Hz 3550H

superior. Ll figura 14

figura 15 - lo1 Entrada de Señal

Tierra (señal y voltaje)l 0 I

+ 5v. (o1

Desde m a vista superior, las conexiones de

entrada de las tarjetas de los filtros se muestran en la

figura 15 (izquierda). 24

De la misma manera, en vista

salidas de los ñltros están dispuestas

mostrada en la figura 16.

superior, las

de la forma

300 Ó 800 Ó 1300 Ó 1800 Ó 2300Hz 2800Hz 330Hz 3800 Hz

O 0 0 0 0 0 0 0

50ó 550ó 1050Ó 1550ó

figura 16

Como comentario importante de esta parte se debe decir que es de suma importancia lograr

ma muy buena calibración de los filtros. Todos y cada uno de ellos debe estar centrado a la

frecuencia que le corresponde; con m a ganancia tal, que a una misma amplitud de entrada en la

frecuencia central en particular, cada uno de ellos debe mostrar una salida de amplitud muy semejante

(para el diseño de esta tarjeta, el ajuste se logró teniendo una salida sinusoidal de 10 vpp con una

excitación de 1 vpp).

Si no se logra esta calibración se corren varios riesgos: que existan dos o m á s filtros que

respondan a la misma frecuencia; que su frecuencia central este fuera del rango de voz; que su

ganancia sea tan grande que el filtro responda no sólo a su frecuencia asignada, sino a la frecuencia

de sus vecinos, iluminando la banda cuando no le corresponde; o bien con una ganancia tan pequeña

que nunca aparezca; entre otros.

Todos estos problemas no impiden que el sistema visualizador funcione, pero ocasionan que

la información que se esté registrando sea demasiado incierta, lo que puede resultar peor.

La segunda etapa implementada, por orden de importancia, fue la del explorador. En ésta, se

deben realizar una alta cantidad de conexiones (debido a la parte digital), por lo que se decidió que la

mejor forma para implementarla, por seguridad, sería utilizando la técnica de enroliamiento (wzre-

wrap).

25

En la figura 17 se muestra un bosquejo de la implementación del explorador, vista desde su

parte superior, para auxiliar en la localización de entradas, salidas y elementos de ajuste.

Preset Aiuste Reloi

+5vo '

Botón de Salidas: eies

X Y Z -1 2v Disparo

O 0 0 Tierra

0 0 0

figura 17

Una vez realizado el alambrado se procede a la calibración. Ésta tarjeta contiene dos

potenciómetros. El primero se usa para ajustar la fiecuencia del reloj del sistema (si se usa el reloj

interno) y por consecuencia para ajustar el barrido horizontal; el segundo, para ajustar la amplitud de

la rampa de barrido vertical. Cada vez que se calibre el potenciómetro de ajuste del eje x, el eje y

perderá el ajuste y será necesario volverle a calibrar. En esta labor se hace uso de un osciloscopio

para ver las formas, amplitudes y fi-ecuencias de las ondas de interés.

La nota importante de esta tarjeta es sobre el reloj del sistema. Es muy importante que el reloj

utilizado sea lo suficientemente estable. El reloj propuesto puede llegar a tener problemas de

inestabilidad ocasionando que el espectrograma aparezca con demasiadas vibraciones verticales. Para

probar si el reloj es lo suficientemente estable basta con colocar un tono en alguna de las entradas y

realizar el espectrograma. La respuesta debe ser una banda horizontal nítida y pura en el osciloscopio;

si esto no sucede y aparece una banda que vibra, lo más probable es que se tenga que sustituir el reloj

del sistema por algún otro diseño o por un generador de funciones como se hizo con éste proyecto.

26

Finalmente, el circuito amplificador y de disparo no muestra ningún problema en especial e

incluso puede implementarse en un protoboard. Se debe tener la consideración de dar la suficiente

amplificación a la señal de voz; pero no se debe exceder en la ganancia para evitar la saturación de los

ampliñcadores operacionales, que podrían generar armónicos no deseables. Ajustar la ganancia es la

única calibración necesaria para esta etapa.

Conectado el sistema generador de voces impresas a la pantalla del osciloscopio se hace la

experimentación: Se habla y el cursor se desplazará de izquierda a derecha a través de la pantalla,

trazando líneas y mostrando el espectro. Para calibrar el equipo se debe incrementar lentamente la

sensibilidad del potenciómetro en el amplificador hasta que el ruido de fondo sature la pantalla.

Además se deben hacer varias pruebas moviendo el control de intensidad del osciloscopio hasta que

se adquiera la luminosidad deseada y desaparezca la raya vertical luminosa que se desplaza haciendo

el barrido.

Para grabar permanentemente la voz impresa se necesita de una cámara cuyo tiempo de

obturación sea programable, un tripié y un rollo con suñciente sensibilidad a la luz, como el de la

norma ASA400. En una habitación oscurecida, se coloca la cámara sobre el tripié, previamente

programada para que el obturador permanezca abierto durante un segundo (o el tiempo base para el

barrido horizontal); se abre el obturador manualmente y se permite dejar que una muestra explore la

pantalla, después el obturador cerrará automáticamente. Todas las líneas que forman el

espectrograma irán grabándose en la película fotográfica conforme la palabra se pronuncia y el

barrido se realiza. Es importante que todas las luces ajenas al espectrograma sean eliminadas, pues de

lo contrario aparecerían en la fotografia.

De este modo se generan voces impresas. En la siguiente sección de análisis de resultados

aparecen algunas fotografias tomadas con este método. Es importante tener presente que hay

dieciséis bandas de filtro vertical y que el eje x es un segundo.

27

Resultados experimentales y análisis de resultados

En la presente sección se muestran algunos ejemplos de espectrogramas obtenidos con el

sistema visualizador desarrollado. Para analizar los espectrogramas es importante tener presente que

el eje y es el eje de la fiecuencia (50 Hz en el extremo inferior y 3800 Hz en el extremo superior) y

está dividido en dieciséis bandas de filtro vertical y que el eje x indica un segundo de tiempo. Se

considera que los primeros resultados mostrados deben ser los de las vocales, pues éstos servirán

como referencia para facilitar la interpretación de resultados posteriores, cuando se visualicen los

espectrogramas de palabras completas.

"E"

I

"O" U

28

Se intentó que las palabras escogidas para ejemplificar el funcionamiento del sistema tuvieran

diferencias espectrales grandes, con la finalidad de poder apreciar claramente los cambios en

frecuencia que sufren mientras se pronuncian. Ejemplos de algunos espectrogramas obtenidos se

muestran en la columna de la izquierda.

"COME NZARI

"ROZAMI ENTO"

"CALORíF I CO"

De la observación de los resultados de este

proyecto obtenemos información introductoria pero

muy importante acerca de la composición de la voz. Se

mostrarán algunas de las observaciones más

importantes en la siguiente lista:

0 No siempre la pronunciación de la misma vocal

presenta el mismo espectro. Esto se debe a las

diferentes entonaciones con que se digan, incluso

dentro de la misma palabra.

0 h e d e notarse que las palabras pronunciadas por

personas diferentes tienen concentraciones de

energía con algunas semejanzas, al menos en la

posición relativa entre los grabados y no en las

distancias. Sin embargo se aprecian

desplazamientos verticales ya sea hacia arriba o

hacia abajo, marcados por la entonación particular

del individuo del cual se trate.

29

"MONOLITO"

"PAPALOTE"

0 Se sabe que las vocales son formadas por tres

formantes, pero en general la tercera de ellas

aparece en pocas ocasiones. Su amplitud es muy

pequeña.

0 Del análisis del contenido espectral de las vocales

podemos observar la existencia de una semejanza

entre las vocales "a" y "e"; al menos, esta

semejanza existe en la primer formante de ambas.

0 La mayor parte del contenido de la energía al

pronunciar la vocal 3" se encuentra en su primera

formante, cuya fkecuencia es la más baja de todas

las primeras formantes entre las vocales. Sin

embargo su segunda y tercer formante son en

general de más frecuencia que las formantes de las

demás vocales. Además la energía concentrada en

estas es muy poca, y apareció sólo en las

fotografias en las que se le pronunciaba dentro de

la sílaba tónica.

0 En la vocal "0" se puede observar el gran contenido

armónico que aparece. En casi todos los

espectrogramas en los que se le registró se le ve

como una gruesa franja vertical iluminada casi

completamente.

30

"CAZUELA" 0 Obsérvese que en la mayoría de los espectrogramas

"6 IC

- - se puede identificar a la sílaba tónica de la palabra

pronunciada, pues la vocal (o vocales) pronunciadas

en ella con más volumen aparecen más iluminadas

de lo que están cuando no pertenecen a la sílaba

tónica.

3CAl O En general se observan tres bandas de energía que

son constantemente utilizadas. En el caso de la voz

utilizada para grabar los ejemplos, estas bandas son

aproximadamente: entre los 300 Hz y los 1050 Hi;

entre los 18OOHz y los 2300 Hz y arriba de los 2800

Hz.

"BIGOTE" O Pudo observarse, aunque no se proporcionan

pruebas, como los espectrogramas de una voz

femenina presentan su contenido espectral

desplazado un poco más hacia arriba, al menos en

su primera formante.

Al parecer el contenido espectral de las palabras

registradas en el sistema visualizador se debe casi

exclusivamente a las vocales. La participación de las

consonantes no parece afectar mucho los gráficos

impresos. Esto conduce a la suposición de que el

contenido espectral de las consonantes por debajo

de los 3800 Hz es muy pequeño.

31

WATÓ NI@

RÓTES I sii

"DINERAL"

Los espectrogramas de palabras muy parecidas,

tales como "gracia" y 'Grecia'' presentan muy pocas

diferencias en la pantalla del osciloscopio.

0 Al parecer, un espectrograma generado con este

sistema puede servir como una representación

burda de las palabras; teniendo la gran ventaja de

que puede servir para identificar mediante la vista

algunas palabras de otra, siempre y cuando sean lo

suficientemente diferentes en su contenido de

frecuencias. Es decir, como ya lo propuso Steve

Ciarcia [ 13, los espectrogramas parecen ofi-ecer una

huella "digital" para el habla. Si esta huella es

codificada de alguna manera, entonces el uso de un

procesador para interpretarla para sentar las bases

de un sistema reconocedor del habla.

Para concluir con esta sección, se muestra el

resultado de la frase "Go Away" con el sistema

visualizador. Pero en este caso, la base de tiempo es

de 0.5 segundos. Puede notarse cierta semejanza con

los gráficos de las figuras 1 y 5, como se esperaba.

G O A W A Y

32

Conclusiones

Es mucho el provecho que de este trabajo se ha obtenido. El estudio del habla hecho para

este trabajo ha arrojado resultados que si probablemente no son muy innovadores, estoy seguro sí

son muy ilustrativos para todos aquellos que comienzan a aprender al respecto; y algo muy

importante, son completamente compatibles con los que han sido realizados a priori.

Se pudo aprender sobre la formación del habla: un poco estructuralmente (con referencia al

parámetro "tiempo") y un tanto más espectralmente (con referencia del parámetro "frecuencia").

Nos involucramos con nociones del tema, se conoció sobre las características del habla, y se

obtuvieron resultados.

Logramos imprimir espectrogramas de algunas palabras para observar que estos registros

sirven como representaciones simples y útiles del lenguaje oral, cuyo uso trae consigo una

diversidad de aplicaciones, todas ellas relacionadas con la producción y/o identificación del habla.

Notemos pues, que representando el habla de esta manera, la captura, el procesamiento, y el

almacenamiento de palabras en bases de datos puede ser seriamente simplificado.

Podría pensarse que una consecuencia lógica e inmediata de este proyecto es idear la forma

para experimentar con pequeños proyectos de reconocedores del habla, iniciando quizá con un

reconocedor de vocales. El hardware con el que ya se cuenta o posiblemente la reproducción de

éste puede ser de gran utilidad.

Los detalles de los conocimientos, las observaciones y resultados que se generaron se van

presentando a través del texto, desde las primeras páginas hasta las últimas.

33

En el transcurso de la elaboración del proyecto la adquisición de nuevos conocimientos y la

reafirmación de otros previos se fue presentando; se partió de una base de ideas y de hechos

realizados por otras personas para obtener satisfactoriamente nuestras propias experiencias.

Afortunadamente queda la satisfacción de haber obtenido los resultados que desde que se

inició este sistema se buscaban.

34

Bibliografía

1. CIARCIA, Steve; "Utilizar voces impresas para analizar el habla", BYTE, agosto 1983, pág 26.

2. COUGHLIN, F. Robert . ; Amplificadores Operacionules y Circuitos Integrados Lineales, Ed. Prentice Hall Hispanoamericana, México, 1993.

3. JOHNSON, D.E.; A Handbook ofActive Filters, Ed. Prentice Hall, E.U.A., 1980.

4. QUACKENBUSH, R Shuyler; Objective Measures of Speech Quality, Ed. Addison Wesley Advanced Series, E.U.A., 1988.

5. WTTEN, H. Ian; Principles of Computer Speech, Ed. Academic Press, E.U.A., 1982.

6. CMOS Logzc Databook, Santa Clara California E.U. A., National Semiconductor, 1988.

7 . Data Aquisition, Santa Clara California E.U.A., National Semiconductor, 1984.