Análisis y parametrización de la voz - esi.uclm.es · Tema 2: Análisis y parametrización de la voz 11 Función sinc continua: 1 ( ) lim x sen x x->0 Componente continua C 0 =

TECNOLOGÍA DEL HABLA. CURSO 2009/10

Tema 2: Análisis y parametrización de la voz 1

TEMA 2: ANÁLISIS Y PARAMETRIZACIÓN DE LA VOZ. 2.1. REPRESENTACIÓN DE LA VOZ: SEÑALES.

* Continuas: la voz; notación x(t).

* Discretas: conversión euro-dólar; notación x(n).

Continua

Discreta

La señal original puede ser continua -----------> hay que muestrear para convertirla en discreta

La señal original puede ser discreta -----------> no hay que hacer nada

TIPOS DE SEÑALES

Señales pares x(-t)=x(t) x(-n)=x(n)

Simétrica respecto al eje de ordenadas

Señales impares x(-t)=-x(t) x(-n)=-x(n)

Nula en el origen

Simétrica respecto al origen

t

x(t)

n

x(n)

t

x(t)

t

x(t)



Señales periódicas

x(t)=x(t+T) x(n)=x(n+N)

Transformaciones.

Original

1.-Simetría

2.- Desplazamiento

3a.- Factor de Escala (M>1)

3b.- Factor de Escala (M<1)

t

x(t)

0 T 2T 3T -2T -T -3T

Si T1>0 DESPLAZAMIENTO A LA DERECHA

Si T1<0 DESPLAZAMIENTO A LA IZQUIERDA

T0+T1

t

x(t-T1)

T / M t

x(Mt)

T / M t

x(Mt)

-T0

t

T0

t

x(t)

x(-t)



Señales especiales: delta de Dirac.

Escalón unidad

Impulso unidad

)(1

)(1

)( tutut

)(lim)( tt cuando 0

Por tanto, la Delta es una señal extremadamente fina y alta de área 1.

Se cumple que

t

dtu )()( si t<0, no abarca la delta y sale 0.

si t>0, sí abarca la delta y sale 1.

1)( d la delta tiene peso 1, pero puede ir multiplicada

por otro número distinto, que sería su peso.

La )(t está centrada en el origen, pero se puede desplazar a cualquier punto t0, de forma que

una delta centrada en el punto t0 sería )( 0tt , cuya representación es

t

1

u(t)

0)(tu para 0t

1)(tu para 0t

0

)(t

t

A

R

E

A

1

1 0

1



Características de la Delta de Dirac.

* Cualquier integral que incluya una delta de peso 1 en su interior vale 1.

* La delta es nula en cualquier punto que no sea el que se aplica.

* No está definida en el punto en que se aplica

1)( 0 dttt

0)( 0tt 0tt

Multiplicación por una delta.

Si 0 , x(t) se puede suponer constante en ese intervalo, con lo cual en el límite, cuando

0 :

)()0()(lim)0()(lim)()()( txtxttxttx

Es decir, tenemos una delta centrada en el mismo punto con peso el valor que toma la función en

dicho punto.

Si el punto no es 0, sino un t0 cualquiera, resulta que

)()()()( 00 otttxtttx

0 t0

t

δ (t - t0)

t

Δ



Versión discreta de la delta.

Escalón unidad discreto

Impulso unidad discreto centrado en n=0

Impulso unidad discreto centrado en n=n0

Se puede observar que )1()()( nunun

n

1

1 2 3 4 5 6 7 0 -1 -2 -3

1)(nu para 0n

0)(nu para 0n

n

1

1 2 3 4 5 6 7 0 -1 -2 -3

1)(nu para 0n

0)(nu para 0n

n

1

1 2 …. 0n 0 -1 -2 -3

1)(nu para 0nn

0)(nu para 0nn



2.2. CONVOLUCIÓN.

2.2.1. Convolución discreta.

Se define la convolución discreta de dos secuencias )(nx y )(nh como:

k

knhkxnhnxny )()()(*)()(

Se observa que la salida del sistema es la convolución de la entrada con h(n), llamada respuesta

impulsiva por ser la respuesta al impulso )( kn , y que caracteriza al sistema.

Longitud de x(n) puede ser miles de puntos. Sin embargo, la longitud de h(n) son pocos puntos.

Longitud convolución = N + M -1, siendo N el número de puntos de x(n) y siendo M el número de

puntos de h(n). Mecánica:

1) Se busca la imagen especular de la segunda.

2) Se desplaza desde - hasta + .

3) Se hace para cada desplazamiento el sumatorio de los productos.

Secuencia original

k -3 -2 -1 0 1 2 3

x(k) 0 0 0 1 1 0 0

h(k) 0 0 -1 1 -2 0 0

Imagen especular

k -3 -2 -1 0 1 2 3

x(k) 0 0 0 1 1 0 0

h(-k) 0 0 -2 1 -1 0 0

y(0) = 1 - 1 = 0

SISTEMA

LINEAL

INVARIANTE h(n-k) δ(n-k)

SISTEMA

LINEAL

INVARIANTE y(n)= Σ x(k)·h(n-k)

x(n)= Σ x(k)·δ(n-k)

SISTEMA

LINEAL

h(n) y(n)= x(n)*h(n) x(n)



Desplazamiento hacia la izquierda

k -3 -2 -1 0 1 2 3

x(k) 0 0 0 1 1 0 0

h(-1-k) 0 -2 1 -1 0 0 0

h(0)=1; h(-1-k)=1, -1-k = 0, k = -1

y(-1) = -1

k -3 -2 -1 0 1 2 3

x(k) 0 0 0 1 1 0 0

h(-2-k) -2 1 -1 0 0 0 0

y(-2) = 0

y(n<-2) = 0

Desplazamiento hacia la derecha

k -3 -2 -1 0 1 2 3

x(k) 0 0 0 1 1 0 0

h(1-k) 0 0 0 -2 1 -1 0

h(0)=1; h(1-k)=1, 1-k = 0, k = 1

y(1) = -2 + 1 = -1

k -3 -2 -1 0 1 2 3

x(k) 0 0 0 1 1 0 0

h(2-k) 0 0 0 0 -2 1 -1

y(2) = -2

k -3 -2 -1 0 1 2 3 4

x(k) 0 0 0 1 1 0 0 0

h(3-k) 0 0 0 0 0 -2 1 -1

y(3) = 0

y(n>3) = 0

Resultado:

n -3 -2 -1 0 1 2 3 4

y(n) 0 0 -1 0 -1 -2 0 0

Propiedades:

1) Conmutativa: )(*)()(*)( nxnynynx

2) Asociativa: )(*)(*)()(*)(*)( nznynxnznynx

3) Distributiva de la convolución respecto a la suma: )(*)()(*)()()(*)( nznxnynxnznynx

4) Elemento neutro )()(*)( nxnnx



2.2.2. Convolución continua.

Se define la convolución (continua) de dos señales como:

dthxthtxty )()()(*)()(

Se observa que la salida del sistema es la convolución de la entrada con h(t), llamada respuesta

impulsiva por ser la respuesta al impulso )(t , y que caracteriza al sistema.

Mecánica:

1) Se busca la imagen especular de la segunda.

2) Se desplaza desde - hasta + .

3) Se hace para cada intervalo la integral del producto.

Propiedades:

1) Conmutativa: )(*)()(*)( txtytytx

2) Asociativa: )(*)(*)()(*)(*)( tztytxtztytx

3) Distributiva: )(*)()(*)()()(*)( tztxtytxtztytx

4) Elemento neutro: )()(*)( txttx

Ejemplo: calcular la convolución )(*)()( tytxtz , siendo

4)(

ttx

22)(

tty

0ttA . Dicha notación representa un pulso cuadrado de amplitud A, centrado en

0tt y de duración . El símbolo no es el número PI = 3.1415926535....

SOLUCIÓN:

0)(tz desde 3t

t

tdtz

1

2

6221)( para 13 t

SISTEMA

LINEAL

INVARIANTE

h(t-t0) δ(t-t0)

SISTEMA

LINEAL

INVARIANTE

y(t) x(t)



t

t

dtz

1

1

421)( para 11 t

2

1

6221)(t

tdtz para 31 t

0)(tz para t3

Convolución de una señal x(t) con una delta de Dirac.

Un caso especialmente interesante de convolución tiene lugar cuando se trata de convolucionar

con una delta de Dirac, centrada en un punto genético t0.

En este caso queda )(*)()(*)( 0tttxtytx . Para ello hay que realiza la integral del

producto )()( tyx , que en este caso queda:

)()( 0ttty

)()( 0ty

)()( 0ty

)()()( 00 ttttty

La convolución será:

dttxdtyxtytx )()()()()(*)( 0

)()()( 000 ttxdttttx

ya que la delta se anula en todos los puntos en que no está aplicada.

En el caso particular de que t0 = 0, queda

)()(*)( txttx

La convolución con un tren de deltas se realiza aplicando la propiedad distributiva. Ejemplo:

)1()2(3)1(2)1()2(3)1(2*)( txtxtxttttx



2.3. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA.

2.3.1. Desarrollo en Serie de Fourier.

Señal periódica: )()( oTtxtx t oT

20

0

0

1

Tf

Cualquier señal periódica de período fundamental T0 se puede expresar como combinación lineal

de exponenciales de período T0, según la expresión:

n

tjn

neCtx 0)( siendo )sin()cos( je j

, llamada fórmula de Euler.

Los coeficientes Cn, llamados coeficientes espectrales, se calculan como:

0

0)(1

0 T

tjn

n dtetxT

C

n=0 componente continua.

n=1 componente fundamental.

resto n armónicos.

Cada coeficiente da idea de la potencia de la señal en cada múltiplo de la frecuencia fundamental.

Propiedades de Cn.

1) Si x(t) es real, los coeficientes son complejos conjugados:

nn CC *

con lo que 1

00 )cos(2)(n

nn tnCCtx .

2) Si x(t) es par, entonces los coeficientes Cn son reales.

3) Si x(t) es impar, entonces los coeficientes Cn son imaginarios puros.

Desarrollo en Serie de Fourier de un tren de pulsos.

0

0

0

2

2

00

...1

)(1

0

0

0

fn

fnsen

T

AdteA

Tdtetx

TC

tjn

T

tjn

n

)( 0

0

nfsincT

ACn siendo

x

xxsinc

)sen()(

x(t)

t

A

2/ 2/ 0T 0T



Función sinc continua:

1)(

limx

xsen

x->0

Componente continua C0 = 0/TA . Cuanto mayor sea la anchura respecto al período, mayor será C0.

Función sinc discreta:

Al cociente 0T

se le llama ciclo de trabajo. Si 0/T es pequeño, n debe ser grande para que

se anule por 1ª vez. Habrá muchas líneas antes del 1º nulo.



2.3.2. Transformada de Fourier continua.

dtetxX tj ·)()( ··

Transformada de Fourier de un pulso cuadrado.

Anchura τ, amplitud A, centrado en el origen.

)()( fsincAdteAfX tj

t

A <------ su par transformado es --------> )( fsincA

La densidad espectral de potencia es el cuadrado del módulo:

)()()( 2222fsincAfXfS

Propiedades de la TF:

1) Linealidad: )()()()( 22112211 fXafXatxatxaTF

2) Traslación en el tiempo: 0)()( 0

tjefXttxTF

3) Traslación en frecuencia: )()( 00 ffXetxTFtj

)()( 00 ffXetxTFtj

4) Cambio de escala: )(1

)(a

fX

aatxTF

5) Dualidad: )(tX )( fx

6) Derivación e integración: dt

tdx )( )( fXj

duux )( jfX /)(

7) Simetría: si )(tx es real, )( fX es hermítica: )()( * fXfX

)(*)( fXfX )(*)( fXFasefXFase

x(t)

t

A

2/ 2/

Pasos por cero /1 /2 /1 /2



2.3.3. Transformada de Fourier Discreta (DFT, Discrete Fourier Transform).

Dada una secuencia )(nx , se define la DFT la secuencia )(kX dada por:

1

0

···2·

)·()(N

n

N

knj

enxkX con 10 Nk

o bien

1

0

·)·()(

N

n

kn

NwnxkX con 10 Nk

siendo N

j

N ew

2

el llamado “factor twiddle” de orden N.

Aunque N puede ser cualquier valor, vamos a suponerle la restricción de que N sea par, con lo

cual existe el )2/(NX .

Casos particulares:

)1(...)2()1()0()0( NxxxxX

)1(...)3()2()1()0()2

( NxxxxxN

X , es decir, la suma de los valores de n par

menos la suma de los valores de n impar.

Si )(nx es real, )0(X y )2/(NX son reales, y el resto son complejos conjugados respecto al

valor central )2/(NX .

Propiedades de la DTF:

Sea )(kX la DFT de la secuencia )(nx , lo que se representa como )(nx )(kX , y sea )(kY la

DFT de la secuencia )(ny , lo que se representa como )(ny )(kY .

1) Linealidad: Si )()()( 2211 nxanxany entonces )()()( 2211 kXakXakY

2) Traslación: )( 0nnx N

knj

ekX

···2· 0

)·(

x(n-n0) es una traslación circular, no se pierden valores.

3) Modulación: N

knj

enx0···2·

)·( )( 0kkX

4) Simetría: )( nx )( kX

Ejemplo de cálculo de DFT (la numeración comienza en 0 y acaba en N-1). 8N

x(0) = 2 x(1) = 6 x(2) = 8 x(3) = 6

x(4) = 5 x(5) = 2 x(6) = 2 x(7) = 8



Se calcularían de la siguiente forma:

7

0

0 39)7()6()5()4()3()2()1()0()()0(n

xxxxxxxxenxX

8

42

8

32

8

22

8

12

8

027

0

8

12

)4()3()2()1()0()()1(

jjjjj

n

nj

exexexexexenxX

j7,4142-,24261)7()6()5( 8

72

8

62

8

52 jjj

exexex

8

82

8

62

8

42

8

22

8

027

0

8

22

)4()3()2()1()0()()2(

jjjjj

n

nj

exexexexexenxX

j63)7()6()5( 8

142

8

122

8

102 jjj

exexex

8

122

8

92

8

62

8

32

8

027

0

8

32

)4()3()2()1()0()()3(

jjjjj

n

nj

exexexexexenxX

j4,58582426,7)7()6()5( 8

212

8

182

8

152 jjj

exexex

43207

0

7

0

8

42

)4()3()2()1()0()()()4( jjjj

n n

nj

nj

exexexexexenxenxX

5)7()6()5()4()3()2()1()0()7()6()5( 765 xxxxxxxxexexex jjj

8

202

8

152

8

102

8

52

8

027

0

8

52

)4()3()2()1()0()()5(

jjjjj

n

nj

exexexexexenxX

j4,58582426,7)7()6()5( 8

352

8

302

8

252 jjj

exexex

8

242

8

182

8

122

8

62

8

027

0

8

62

)4()3()2()1()0()()6(

jjjjj

n

nj

exexexexexenxX

j63)7()6()5( 8

422

8

362

8

302 jjj

exexex

8

282

8

212

8

142

8

72

8

027

0

8

72

)4()3()2()1()0()()7(

jjjjj

n

nj

exexexexexenxX

j7,41422426,1)7()6()5( 8

492

8

422

8

352 jjj

exexex

Resultado:

X(0) = 39

X(1) = 1,2426 – j 7,4142

X(2) = - 3 + j 6

X(3) = - 7,2426 + j 4,5858

X(4) = - 5

X(5) = - 7,2426 - j 4,5858

X(6) = - 3 - j 6

X(7) = 1,2426 + j 7,4142



Se puede comprobar que si la secuencia de partida x(n) es real, los valores de la DFT para

índice mayor que N/2 son los complejos conjugados de los valores con índice menor que N/2, con

simetría respecto al valor central x(N/2), es decir:

X(5) = X*(3) X(6) = X*(2) X(7) = X*(1)

En general, )2

(*)2

( kN

XkN

X para 12

1N

k .

Resolución espectral.

Se llama resolución espectral, y se representa como 0f , a la menor diferencia de frecuencia

entre muestras consecutivas de la DFT. Un análisis espectral de una DFT nos da información en las

frecuencias siguientes: 0 Hz, 0f Hz y todos los múltiplos de la resolución espectral hasta N/2.

Si llamamos 0T al tiempo dentro del cual calculamos la DFT (tiempo de observación), que será

N veces mayor que el tiempo sT o período de muestreo, se cumple que so NTT . Como la frecuencia y

el período de muestreo son inversas entre sí, s

sT

f1

, podemos relacionar la resolución espectral con el

tiempo de observación 0T mediante una sencilla fórmula.

Aunque no es trivial, se puede demostrar que: 0

0

1

Tf , o bien

N

ff s

o .

Ejemplo: si los valores de la DFT anterior fueran muestras tomadas cada msTs 100 , la

frecuencia de muestreo sería HzT

fs

s 101 . Como 8N , msT 8000 y la resolución espectral sería

HzT

f 25,11

0

0, con lo que se podría hacer un análisis espectral desde 0 hasta 5 Hz.

Otro ejemplo: si tenemos una DFT de 4.096 puntos, separados un tiempo de muestreo

msTs 1,0 , la frecuencia de muestreo sería KHzT

fs

s 101

, y la resolución espectral sería

HzNTT

fs

44,211

0

0. El módulo y la fase de la muestra k-sima daría la información

espectral a la frecuencia 0fk , es decir, la muestra )100(X describiría el detalle espectral de la

componente discreta de frecuencia 244 Hz.

2.3.4. Transformada de Fourier Rápida (FFT, Fast Fourier Transform).

Existe una forma alternativa de calcular la DFT, llamada FFT, que produce los mismos

resultados, si bien la cantidad de operaciones a realizar y el tiempo de cálculo es significativamente

inferior.

Conceptualmente son idénticas. Ahorro tiempo y esfuerzo computacional.



1

0

···2·

)·()(N

n

N

knj

enxkX o bien

1

0

·)·()(

N

n

kn

NwnxkX

donde N

j

N ew

2

(factor “twiddle”), es un número complejo de módulo 1 que sólo depende de N.

Propiedades del factor “twiddle”.

A) 2

Nk

N

k

N WW

B) Nk

N

k

N WW

C) k

N

k

N WW

D) nk

N

Nkn

N WW2

)2

(

2

Desarrollo de la FFT.

DFT's de 2 puntos: MUY SENCILLAS.

1

0

2

0···2·

)1()0()·()0(n

nj

xxenxX

1

0

2

1···2·

)1()0()·()1(n

nj

xxenxX

Desarrollo propiamente dicho:

12

0

)·1·2(1

0

12

0

)··2(·)·12()·2()·()(

N

n

kn

N

N

n

N

n

kn

N

kn

N wnxwnxwnxkX

Suma de términos pares / impares. Sacamos factor común k

Nw , que no depende del SUMATORIO.

12

0

··2

12

0

2)·12(·)·2()(

N

n

kn

N

k

N

N

n

kn

N wnxwwnxkX

Aplicando la propiedad C) para k = 2, resulta que

2

2

NN WW , con lo cual

12

0

·

2

12

0

·

2

)·12(·)·2()(

N

n

kn

N

k

N

N

n

kn

N wnxwwnxkX

o bien )(·)()( kZwkYkXk

N siendo



12

0

·

2

)·2()(

N

n

kn

NwnxkY y siendo

12

0

·

2

)·12()(

N

n

kn

NwnxkZ

)(kY es la DFT de la secuencia que resulta de tomar la mitad de los puntos, concretamente los

que ocupan las posiciones pares: x(0), x(2), ... x(N-2).

)(kZ es la DFT de la secuencia que resulta de tomar la mitad de los puntos, concretamente los

que ocupan las posiciones impares: x(1), x(3), ... x(N-1).

)(kY y )(kZ se calculan con el mismo algoritmo; sólo cambian los datos de entrada.

Para realizar una DFT de N puntos, lo que se realiza en realidad son sucesivas descomposiciones

de la secuencia original en secuencias mitades tomando muestras pares e impares, y volviendo a repetir el

proceso hasta llegar a DFT's de 2 puntos. N debe ser potencia de 2.

Descomposición rápida en mitades. Cuando entra la secuencia de datos x(n), cada valor ocupa una posición dependiendo del valor de

n. Pues bien, dicho valor debe ir a otra posición n' (el algunos casos aislados n y n' coinciden) dada por el

llamado criterio de bit reverse. Este criterio indica que el valor x(n), que se encuentra en la posición n,

debe colocarse en n', siendo n' el número que resulta en decimal al leer el valor binario de n en sentido

contrario. Por ejemplo, para N=512, si n=27, el valor x (27) debe ir a la posición 432, ya que 27 en

binario se expresa como 000011011, y leído al revés resulta el binario 110110000, que en decimal es 432.

Ejemplo de FFT para N=8.

Descomponiendo en mitades pares e impares Aplicando el criterio del “bit reverse”

x(0)

x(1)

x(2)

x(3)

x(4)

x(5)

x(6)

x(7)

x(0)

x(2)

x(4)

x(6)

x(0)

x(4)

0: 000 000 :0

1: 001 100 :4

2: 010 010 :2

3: 011 110 :6

4: 100 001 :1

5: 101 101 :5

6: 110 011 :3

7: 111 111 :7

x(2)

x(6)

x(1)

x(3)

x(5)

x(7)

x(1)

x(5)

x(3)

x(7)

Conocida la DFT a nivel 2, nada más hacer las sumas y restas, alcanzar los distintos niveles es

simplemente aplicar la fórmula recursiva siguiente, hasta llegar al nivel original.

)(·)()( kZwkYkXk

N con 12

,...,2,1,0N

k

Dicha expresión nos permite encontrar la DFT a partir de sus dos mitades.

Para 0k )0()0()0( ZYX

Para 1k )1()1()1( ZWYX N



Para 2k )2()2()2( 2ZWYX N

............ ........................

Para 12

Nk )1

2()1

2()1

2(

12

NZW

NY

NX

N

N

Para calcular la segunda mitad, calculamos )2

(N

kX a partir de la expresión de )(kX ,

cambiando k por 2

Nk .

)(·)()·12(·)·2()(

12

0

·

2

12

0

·

2

kZwkYwnxwwnxkXk

N

N

n

kn

N

k

N

N

n

kn

N

12

0

)2

·(

2

)2

(

12

0

)2

·(

2

)·12(·)·2()2

(

N

n

Nkn

N

Nk

N

N

n

Nkn

N wnxwwnxN

kX

Aplicando la propiedad D) del factor twiddle nk

N

Nkn

N WW2

)2

(

2

y aplicando la propiedad A)

k

N

Nk

N WW 2 se puede expresar como:

12

0

·

2

12

0

·

2

)·12(·)·2()2

(

N

n

kn

N

k

N

N

n

kn

N wnxwwnxN

kX

o bien:

)(·)()2

( kZwkYN

kXk

N

Por tanto,

Para 0k )0()0()2

( ZYN

X

Para 1k )1()1()12

( ZWYN

X N

Para 2k )2()2()22

( 2ZWYN

X N

............ ........................

Para 12

Nk )1

2()1

2()1(

12

NZW

NYNX

N

N

La segunda mitad se calcula con los mismos datos que la primera mitad, pero haciendo

diferencias en vez de sumas. También se puede hacer de otra forma teniendo en cuenta que la propiedad

A) del factor twiddle nos permite decir que 2

Nk

N

k

N WW .



Para 0k )0()0()2

( 2 ZWYN

X

N

N

Para 1k )1()1()12

(1

2 ZWYN

X

N

N

Para 2k )2()2()22

(2

2 ZWYN

X

N

N

............ ........................

Para 12

Nk )1

2()1

2()1( 1 N

ZWN

YNX N

N

Resumiendo, se pueden calcular de dos maneras:

1ª FORMA 2ª FORMA

1ª mitad 1ª mitad

)0()0()0( ZYX )0()0()0( ZYX

)1()1()1( ZWYX N )1()1()1( ZWYX N

)2()2()2( 2ZWYX N )2()2()2( 2ZWYX N

.................... ....................

)12

()12

()12

(1

2N

ZWN

YN

X

N

N )12

()12

()12

(1

2N

ZWN

YN

X

N

N

2ª mitad 2ª mitad

)0()0()2

( ZYN

X )0()0()2

( 2 ZWYN

X

N

N

)1()1()12

( ZWYN

X N )1()1()12

(1

2 ZWYN

X

N

N

)2()2()22

( 2ZWYN

X N )2()2()22

(2

2 ZWYN

X

N

N

.................... ....................

)12

()12

()1(1

2N

ZWN

YNX

N

N )12

()12

()1( 1 NZW

NYNX N

N



Ejemplo:

x(0)=1.0000

x(1)=0.86688

x(2)=0.75148

x(3)=0.65144

x(4)=0.56472

x(5)=0.48954

x(6)=0.42437

x(7)=0.36788

1.00000

0.75148

0.56472

0.42437

1.00000

0.56472

1.56472

0.43528

2.74057

0.435 – j 0.327

0.389

0.435 + j 0.327

5.11631

0.500 – j 0.794

0.389 – j 0.337

0.369 – j 0.140

0.36483

0.369 + j 0.140

0.389 + j 0.337

0.500 + j 0.794

0.75148

0.42437

1.17585

0.32711

0.86688

0.65144

0.48954

0.36788

0.86688

0.48954

1.35642

0.37734

2.3757

0.377 – j 0.283

0.337

0.377 + j 0.283 0.65144

0.36788

1.01932

0.28356

1x8 2x4 4x2 4x2 2x4 1x8

Obsérvese que X(0) y X(4) son reales, mientras que X(1) es complejo conjugado de X(7), X(2)

es complejo conjugado de X(6) y X(3) es complejo conjugado de X(5). En general, si la secuencia

original es real, X(0) y X(N/2) son reales, mientras que los restantes son pares conjugados: X(k) = X*(N-

k).

Obtención de la columna 4x2.

1.00000 + 0.56472 = 1.56472

1.00000 - 0.56472 = 0.43528

0.75148 + 0.42437 = 1.17585

0.75148 - 0.42437 = 0.32711

0.86688 + 0.48954 = 1.35642

0.86688 - 0.48954 = 0.37734

0.65144 + 0.36788 = 1.01932

0.65144 - 0.36788 = 0.28356

+

+

+

+

D F T

de

N/2 puntos

PARES

D F T

de

N/2 puntos

IMPARES

-

-

-

-

Y(0)

Y(1)

Y(2)

Y(N/2-1)

Z(N/2-1)

Z(2)

Z(1)

Z(0)

x(0)

x(2)

x(4)

x(N-2)

x(1)

x(3)

x(5)

x(N-1)

)0()0()0( ZYX

)1()1()1( ZWYX N

)2()2()2( 2ZWYX N

)12

()12

()12

(1

2N

ZWN

YN

X

N

N

)0()0()2

( ZYN

X

)1()1()12

( ZWYN

X N

)2()2()22

( 2ZWYN

X N

)12

()12

()1(1

2N

ZWN

YNX

N

N




W40 = 1

W41 = e

-j2π/4 = cos (2π/4) -j sen (2π/4) = 0 -j1 = -j

W42 = e

-j4π/4 = cos (π) -j sen (π) = -1

W43 = e

-j6π/4 = cos (3π/2) -j sen (3π/2) = +j

1.56472 + W40 1.17585 = 1.56472 + 1.17585 = 2.74057

0.43528 + W41 0.32711 = 0.43528 - j 0.32711

1.56472 + W42 1.17585 = 1.56472 - 1.17585 = 0.389

0.43528 + W43 0.32711 = 0.43528 + j 0.32711

o bien

1.56472 - W40 1.17585 = 1.56472 - 1.17585 = 0.389

0.43528 - W41 0.32711 = 0.43528 + j 0.32711

1.35642 + W40 1.01932 = 1.35642 + 1.01932 = 2.37574

0.37734 + W41 0.28356 = 0.37734 - j 0.28356

1.35642 + W42 1.01932 = 1.35642 - 1.01932 = 0.3371

0.37734 + W43 0.28356 = 0.37734 + j 0.28356

o bien

1.35642 - W40 1.01932 = 1.35642 - 1.01932 = 0.3371

0.37734 - W41 0.28356 = 0.37734 + j 0.28356


W80 = 1

W81 = e

-j2π/8 = cos (π/4) -j sen (π/4) = 0.707(1-j)

W82 = e

-j4π/8 = cos (π/2) -j sen (π/2) = 0 -j 1 = -j

W83 = e

-j6π/8 = cos (3π/4) -j sen (3π/4) = -0.707(1+j)

W84 = e

-j8π/8 = cos (π) -j sen (π) = -1

W85 = e

-j10π/8 = cos (5π/4) -j sen (5π/4)=-0.707(1-j)

W86 = e

-j12π/8 = cos (3π/2) -j sen (3π/2) = +j

W87 = e

-j14π/8 = cos (7π/4) -j sen (7π/4) = 0.707(1+j)

2.74057 + W80 2.3757 = 5.11631

(0.435 -j 0.327) + W81 (0.377 -j 0.283) = 0.501 - j 0.794

0.389 + W82 0.377 = 0.389 - j 0.337

(0.435 +j 0.327) + W83 (0.377 +j 0.283) = 0.369 - j 0.140

2.74057 + W84 2.3757 = 0.36483

(0.435 -j 0.327) + W85 (0.377 -j 0.283) = 0.369 + j 0.140

0.389 + W86 0.377 = 0.389 + j 0.337

(0.435 +j 0.327) + W87 (0.377 +j 0.283) = 0.501 + j 0.794

o bien

2.74057 - W80 2.3757 = 0.36483

(0.435 -j 0.327) - W81 (0.377 -j 0.283) = 0.369 + j 0.140

0.389 - W82 0.377 = 0.389 + j 0.337

(0.435 +j 0.327) - W83 (0.377 +j 0.283) = 0.501 + j 0.794



Comparación en la necesidad de cómputo.

DFT de 8 puntos:

Cada )(kX necesita 8 multiplicaciones complejas y 7 sumas complejas.

Total: 64 multiplicaciones complejas y 56 sumas complejas.

En general, DFT de N puntos:

Total: N2 multiplicaciones complejas y N(N -1) sumas complejas.

En general, FFT necesita NN

2·log2

operaciones.

Las operaciones de multiplicación son más complejas que las de suma, y para N suficientemente grandes

son éstas las que determinan el tiempo total.

Ejemplo con N = 1.024

DFT: 1.048.576 multiplicaciones complejas

FFT: 5.120 multiplicaciones complejas

Y ESTA RELACIÓN ES MAYOR CUANTO MAYOR ES N.

Un circuito DSP (Digital Signal Processing) con 50ns de ciclo de reloj necesita 104 ms para

hacer una DFT de 1.024 puntos mientras que el tiempo para hacerlo aplicando FFT es de 0,768 ms.

2.4. MUESTREO.

Analógico ----> Digital

1) Muestrear (sampling).

2) Discretizar y cuantificar.

Muestreo: es la técnica de captura de una señal en determinados instantes de tiempo (para

generar valores llamados muestras) teniendo en cuenta ciertas condiciones para que las muestras

contengan toda la información necesaria para identificar la señal.

Ts: período de muestreo, tiempo entre dos muestras consecutivas.

s

sT

f1

: frecuencia de muestreo, número de muestras por segundo.

Muestreo ideal:

)(ts

n

snTtts )()(

t

x(t)

x(t) x(n) = x(nTs)

t



Señal:

)(tx

Señal muestreada:

)(txs

n

sss nTtnTxtx )()()(

Espectro de la señal muestreada.

Supongamos una señal limitada en banda a W.

Se demuestra que la TF de un tren de deltas en el tiempo es un tren de deltas en la frecuencia:

n ssn s fffnTtTF )()(

La señal muestreada es el producto en el tiempo: n ss nTttxtx )()()( . Por tanto, su TF

será la convolución de las transformadas de cada una de ellas:

n ssn sss nffXfnffffXfX )()(*)()(

es decir, salvo una constante, es el espectro de la señal original, antes de muestrear, X(f), repetido y

centrado en los múltiplos de las frecuencias de muestreo (armónicos).

Criterio de Nyquist.

Para poder recuperar la imagen original, se puede hacer un filtrado paso bajo adecuado y

recuperar )( fX , pero para ello es necesario que no haya solapamiento (aliasing) entre dos

consecutivos, es decir que:

-2fs -fs -W 0 W fs-W fs fs+W 2fs-W 2fs f

t

t



WWf s o lo que es lo mismo Wf s 2

que se conoce como criterio de Nyquist, y a la frecuencia 2W se le llama frecuencia de Nyquist.

Criterio de Nyquist: La frecuencia de muestreo debe ser al menos el doble de la máxima

componente espectral.

Teorema de Nyquist: Si a una señal limitada en banda se la muestrea con un tren de impulsos de

período igual o inferior al inverso del doble de la frecuencia máxima de la señal, se puede recuperar la

señal original de la muestreada aplicando un filtrado paso bajo con frecuencia de corte la mitad de la

frecuencia con que se muestreó.

Ejemplo: voz humana W = 4 KHz. Muestrear al menos a 8 KHZ.

2.5. ANÁLISIS EN EL DOMINIO DEL TIEMPO CORTO.

Señal pseudo-estacionaria para corto plazo (decenas de milisegundos).

2.5.1. Necesidad de las ventanas.

Es necesario usar ventanas porque hay que tomar intervalos finitos de tiempo. El uso de una

ventana es el producto de la señal por una ventana, lo que equivale a convolucionar el espectro de la señal

original por la transformada de la ventana.

Señal enventanada continua: )()()( tvtxtxv , siendo )(tv nula fuera de T.

Secuencia enventanada discreta: )()()( knvnxnxv

Las ventanas consecutivas se pueden solapar (se deben solapar) para no perder información

significativa. Sería deseable que el extremo de la ventana, donde toma los valores mínimos, coincidiera

con el centro de la ventana consecutiva, donde toma los valores máximos. Al tiempo entre dos ventanas

T

x(t)

v(t-τ)

τ t

-fs -fs/2 -W 0 W fs/2 fs f



consecutivas se le llama período de submuestreo smT para distinguirlo del período del muestreo

sT (inversa de la frecuencia de muestreo fs). Al inverso del período de submuestreo se le llama frecuencia

de submuestreo smf y representa en número de ventanas por segundo. Valores típicos de frecuencia de

submuestreo para la señal de voz son de 20 a 200 Hz. Como se ve, la frecuencia de submuestreo es

sensiblemente menor que la frecuencia de muestreo, de 8 a 10 KHz.

2.5.2. Transformada de Fourier Dependiente del Tiempo (TFDT): espectrogramas.

La TF convierte x(t) en X(f). Definimos la TFDT como

detvxtfX fj 2)()(),(

donde la TFDT de x(t) es la TF de )(tx vista a través de una ventana de tiempo )(v centrada en t, con lo

que es una función de 2 variables: tiempo y frecuencia. Su representación es una superficie en el espacio.

Si fijamos 0tt tenemos el espectro de la señal visto a través de una ventana de tiempo

centrada en 0t .

Si fijamos 0ff tenemos la evolución temporal de la componente 0f .

Espectrograma.

El espectrograma es una representación matricial (bidimensional) de la evolución temporal de las

componentes espectrales con el tiempo, que se puede representar en forma de matriz:

128 130 135 133 122 118 115 111

145 147 154 158 166 155 165 160

110 101 098 095 099 104 112 110

Tsm

t



o en forma de diversos tonos de gris o diversos colores.

Forma práctica de realizar el espectrograma: para una ventana de tiempo particular, se

obtendrían los números de una columna concreta. El valor de cada casilla podría ser el valor medio de

los módulos de la DFT cuyas frecuencias estuvieran comprendidas dentro de un rango predeterminado.

Por ejemplo, el Banco de Holmes.

El espectro de una señal de audio se divide en diversas subbandas, cada vez más anchas, para

adaptarse al comportamiento del oído humano, que pierde sensibilidad a medida que aumenta la

frecuencia. Un ejemplo lo tenemos en el Banco de Holmes, con 19 subbandas centradas en las

frecuencias dadas y con las anchuras de banda indicadas.

Subbanda Frecuencia central (Hz) Anchura de banda

1 240 120 (±60)

2 360 120

3 480 120

4 600 120

…. …….. …..

…. ……. …..

15 2.400 200

16 2.700 200

17 3.000 300 (±150)

18 3.300 300

19 3.750 500 (±250)

Es como si la señal original la introdujéramos por diversos filtros paso banda y la salida de cada

uno de ellos nos diera un número que lo caracterizara. Dicho número puede ser la media aritmética de los

módulos de la DFT que están dentro de una cierta subbanda, y serviría para llenar los elementos de cada

columna en un espectrograma matricial.

2.5.3. Transformada de Fourier dependiente del tiempo discreta.

m

T

kmj

enmvmsnkS

2

)()(),(

Según la longitud de la ventana de tiempo, los espectrogramas pueden ser:

De banda ancha: ventanas de tiempo cortas, mala resolución espectral (Δf0 grande) del orden de

centenares de Hz.

De banda estrecha: ventanas de tiempo largas, buena resolución espectral (Δf0 pequeño) del

orden de decenas de Hz.



2.5.4. Tipos de ventanas, comparación y sus efectos.

Vamos a estudiar 4 tipos de ventanas (versión discreta):

Rectangular:

1)(nvr para Mn0

0)(nvr para resto de n

Hamming:

M

nnvham

2cos46,054,0)( para Mn0

0)(nvham para resto de n

Hanning:

M

nnvhan

2cos50,050,0)( para Mn0

0)(nvhan para resto de n

Blackmann-Harris:

M

n

M

nnvbla

4cos08,0

2cos50,042,0)( para Mn0

0)(nvham para resto de n

Idealmente, la mejor ventana sería v(t)=1, desde -∞ hasta +∞, cuya transformada es δ(f). La delta

centrada en el origen es la identidad de la convolución, por tanto los espectros de las ventanas serán

mejores cuanto más se parezcan a una delta. La delta tiene dos características:

a) Separación de lóbulos laterales infinita.

b) Anchura de banda nula.

Una separación de lóbulos laterales finita supone la aparición de un cierto rizado (espectro

lobulado). Una anchura de banda no nula supone que las transiciones en frecuencia sean menos abruptas

(suavizado espectral).

Blackman

Rectangular

bueno malo f

0 dB

-13 dB malo

-60 dB

bueno



A la vista de los espectros de las ventanas en cuanto a separación de lóbulos laterales y anchura

de banda, el cuadro comparativo de las ventanas es el siguiente:

TIPOS DE VENTANA PENDIENTE DE TRANSICIÓN

(ANCHO DE BANDA)

RIZADO (LÓBULOS

SECUNDARIOS)

Rectangular Buen comportamiento Mal comportamiento

Blackman Mal comportamiento Buen comportamiento

Hamming Regular comportamiento Regular comportamiento

Hanning Regular comportamiento Regular comportamiento

De donde se deduce que las ventanas de Hamming, Hanning son soluciones de compromiso,

mientras que la ventana rectangular, además de ser la más sencilla matemáticamente, es la que mejor

comportamiento tiene respecto a ancho de banda (y peor en cuanto a lóbulos laterales) mientras que la de

Blackman es la mejor en cuanto a lóbulos laterales pero la peor en cuanto a anchura de banda.

2.5.5. Análisis temporal localizado.

a) Energía localizada:

n

Nnm

s nmvmsnE1

2 )()()(

b) Tasa de cruces por cero: n

Nnm

s nmvmsms

NnZ

1

)(2

)}1(sgn{)}(sgn{1)(

siendo la función signo la definida por:

1)}(sgn{ ns si 0)(ns

1)}(sgn{ ns si 0)(ns

c) Correlación cruzada de dos secuencias: n

xy knynxkR )()()(

Se define la autocorrelación de una secuencia x(n) como la correlación de ella consigo misma,

es decir:

n

x knxnxkR )()()( variando n desde hasta

Propiedades de la autocorrelación:

1) Es una función par: )()( kRkR .

2) Tiene un máximo en 0k .

3) )0(R es la potencia de la señal.

Mide el parecido de una señal consigo mismo desplazada. Si la secuencia tiene N muestras no

nulas, la autocorrelación tiene 12N valores no nulos, cuya parte positiva y nula se calculan de la

forma:

1

0

)()()0(kN

n

x knxnxkR

mientras que la parte negativa, por ser función par, se calcula como: )()( kRkR xx .

Documents

Análisis y parametrización de la voz - esi.uclm.es · Tema 2: Análisis y parametrización de la voz 11 Función sinc continua: 1 ( ) lim x sen x x->0 Componente continua C 0 =