Upload
buikien
View
238
Download
0
Embed Size (px)
Citation preview
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 1
TEMA 2: ANÁLISIS Y PARAMETRIZACIÓN DE LA VOZ. 2.1. REPRESENTACIÓN DE LA VOZ: SEÑALES.
* Continuas: la voz; notación x(t).
* Discretas: conversión euro-dólar; notación x(n).
Continua
Discreta
La señal original puede ser continua -----------> hay que muestrear para convertirla en discreta
La señal original puede ser discreta -----------> no hay que hacer nada
TIPOS DE SEÑALES
Señales pares x(-t)=x(t) x(-n)=x(n)
Simétrica respecto al eje de ordenadas
Señales impares x(-t)=-x(t) x(-n)=-x(n)
Nula en el origen
Simétrica respecto al origen
t
x(t)
n
x(n)
t
x(t)
t
x(t)
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 2
Señales periódicas
x(t)=x(t+T) x(n)=x(n+N)
Transformaciones.
Original
1.-Simetría
2.- Desplazamiento
3a.- Factor de Escala (M>1)
3b.- Factor de Escala (M<1)
t
x(t)
0 T 2T 3T -2T -T -3T
Si T1>0 DESPLAZAMIENTO A LA DERECHA
Si T1<0 DESPLAZAMIENTO A LA IZQUIERDA
T0+T1
t
x(t-T1)
T / M t
x(Mt)
T / M t
x(Mt)
-T0
t
T0
t
x(t)
x(-t)
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 3
Señales especiales: delta de Dirac.
Escalón unidad
Impulso unidad
)(1
)(1
)( tutut
)(lim)( tt cuando 0
Por tanto, la Delta es una señal extremadamente fina y alta de área 1.
Se cumple que
t
dtu )()( si t<0, no abarca la delta y sale 0.
si t>0, sí abarca la delta y sale 1.
1)( d la delta tiene peso 1, pero puede ir multiplicada
por otro número distinto, que sería su peso.
La )(t está centrada en el origen, pero se puede desplazar a cualquier punto t0, de forma que
una delta centrada en el punto t0 sería )( 0tt , cuya representación es
t
1
u(t)
0)(tu para 0t
1)(tu para 0t
0
)(t
t
A
R
E
A
1
1 0
1
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 4
Características de la Delta de Dirac.
* Cualquier integral que incluya una delta de peso 1 en su interior vale 1.
* La delta es nula en cualquier punto que no sea el que se aplica.
* No está definida en el punto en que se aplica
1)( 0 dttt
0)( 0tt 0tt
Multiplicación por una delta.
Si 0 , x(t) se puede suponer constante en ese intervalo, con lo cual en el límite, cuando
0 :
)()0()(lim)0()(lim)()()( txtxttxttx
Es decir, tenemos una delta centrada en el mismo punto con peso el valor que toma la función en
dicho punto.
Si el punto no es 0, sino un t0 cualquiera, resulta que
)()()()( 00 otttxtttx
0 t0
t
δ (t - t0)
t
Δ
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 5
Versión discreta de la delta.
Escalón unidad discreto
Impulso unidad discreto centrado en n=0
Impulso unidad discreto centrado en n=n0
Se puede observar que )1()()( nunun
n
1
1 2 3 4 5 6 7 0 -1 -2 -3
1)(nu para 0n
0)(nu para 0n
n
1
1 2 3 4 5 6 7 0 -1 -2 -3
1)(nu para 0n
0)(nu para 0n
n
1
1 2 …. 0n 0 -1 -2 -3
1)(nu para 0nn
0)(nu para 0nn
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 6
2.2. CONVOLUCIÓN.
2.2.1. Convolución discreta.
Se define la convolución discreta de dos secuencias )(nx y )(nh como:
k
knhkxnhnxny )()()(*)()(
Se observa que la salida del sistema es la convolución de la entrada con h(n), llamada respuesta
impulsiva por ser la respuesta al impulso )( kn , y que caracteriza al sistema.
Longitud de x(n) puede ser miles de puntos. Sin embargo, la longitud de h(n) son pocos puntos.
Longitud convolución = N + M -1, siendo N el número de puntos de x(n) y siendo M el número de
puntos de h(n). Mecánica:
1) Se busca la imagen especular de la segunda.
2) Se desplaza desde - hasta + .
3) Se hace para cada desplazamiento el sumatorio de los productos.
Secuencia original
k -3 -2 -1 0 1 2 3
x(k) 0 0 0 1 1 0 0
h(k) 0 0 -1 1 -2 0 0
Imagen especular
k -3 -2 -1 0 1 2 3
x(k) 0 0 0 1 1 0 0
h(-k) 0 0 -2 1 -1 0 0
y(0) = 1 - 1 = 0
SISTEMA
LINEAL
INVARIANTE h(n-k) δ(n-k)
SISTEMA
LINEAL
INVARIANTE y(n)= Σ x(k)·h(n-k)
x(n)= Σ x(k)·δ(n-k)
SISTEMA
LINEAL
h(n) y(n)= x(n)*h(n) x(n)
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 7
Desplazamiento hacia la izquierda
k -3 -2 -1 0 1 2 3
x(k) 0 0 0 1 1 0 0
h(-1-k) 0 -2 1 -1 0 0 0
h(0)=1; h(-1-k)=1, -1-k = 0, k = -1
y(-1) = -1
k -3 -2 -1 0 1 2 3
x(k) 0 0 0 1 1 0 0
h(-2-k) -2 1 -1 0 0 0 0
y(-2) = 0
y(n<-2) = 0
Desplazamiento hacia la derecha
k -3 -2 -1 0 1 2 3
x(k) 0 0 0 1 1 0 0
h(1-k) 0 0 0 -2 1 -1 0
h(0)=1; h(1-k)=1, 1-k = 0, k = 1
y(1) = -2 + 1 = -1
k -3 -2 -1 0 1 2 3
x(k) 0 0 0 1 1 0 0
h(2-k) 0 0 0 0 -2 1 -1
y(2) = -2
k -3 -2 -1 0 1 2 3 4
x(k) 0 0 0 1 1 0 0 0
h(3-k) 0 0 0 0 0 -2 1 -1
y(3) = 0
y(n>3) = 0
Resultado:
n -3 -2 -1 0 1 2 3 4
y(n) 0 0 -1 0 -1 -2 0 0
Propiedades:
1) Conmutativa: )(*)()(*)( nxnynynx
2) Asociativa: )(*)(*)()(*)(*)( nznynxnznynx
3) Distributiva de la convolución respecto a la suma: )(*)()(*)()()(*)( nznxnynxnznynx
4) Elemento neutro )()(*)( nxnnx
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 8
2.2.2. Convolución continua.
Se define la convolución (continua) de dos señales como:
dthxthtxty )()()(*)()(
Se observa que la salida del sistema es la convolución de la entrada con h(t), llamada respuesta
impulsiva por ser la respuesta al impulso )(t , y que caracteriza al sistema.
Mecánica:
1) Se busca la imagen especular de la segunda.
2) Se desplaza desde - hasta + .
3) Se hace para cada intervalo la integral del producto.
Propiedades:
1) Conmutativa: )(*)()(*)( txtytytx
2) Asociativa: )(*)(*)()(*)(*)( tztytxtztytx
3) Distributiva: )(*)()(*)()()(*)( tztxtytxtztytx
4) Elemento neutro: )()(*)( txttx
Ejemplo: calcular la convolución )(*)()( tytxtz , siendo
4)(
ttx
22)(
tty
0ttA . Dicha notación representa un pulso cuadrado de amplitud A, centrado en
0tt y de duración . El símbolo no es el número PI = 3.1415926535....
SOLUCIÓN:
0)(tz desde 3t
t
tdtz
1
2
6221)( para 13 t
SISTEMA
LINEAL
INVARIANTE
h(t-t0) δ(t-t0)
SISTEMA
LINEAL
INVARIANTE
y(t) x(t)
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 9
t
t
dtz
1
1
421)( para 11 t
2
1
6221)(t
tdtz para 31 t
0)(tz para t3
Convolución de una señal x(t) con una delta de Dirac.
Un caso especialmente interesante de convolución tiene lugar cuando se trata de convolucionar
con una delta de Dirac, centrada en un punto genético t0.
En este caso queda )(*)()(*)( 0tttxtytx . Para ello hay que realiza la integral del
producto )()( tyx , que en este caso queda:
)()( 0ttty
)()( 0ty
)()( 0ty
)()()( 00 ttttty
La convolución será:
dttxdtyxtytx )()()()()(*)( 0
)()()( 000 ttxdttttx
ya que la delta se anula en todos los puntos en que no está aplicada.
En el caso particular de que t0 = 0, queda
)()(*)( txttx
La convolución con un tren de deltas se realiza aplicando la propiedad distributiva. Ejemplo:
)1()2(3)1(2)1()2(3)1(2*)( txtxtxttttx
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 10
2.3. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA.
2.3.1. Desarrollo en Serie de Fourier.
Señal periódica: )()( oTtxtx t oT
20
0
0
1
Tf
Cualquier señal periódica de período fundamental T0 se puede expresar como combinación lineal
de exponenciales de período T0, según la expresión:
n
tjn
neCtx 0)( siendo )sin()cos( je j
, llamada fórmula de Euler.
Los coeficientes Cn, llamados coeficientes espectrales, se calculan como:
0
0)(1
0 T
tjn
n dtetxT
C
n=0 componente continua.
n=1 componente fundamental.
resto n armónicos.
Cada coeficiente da idea de la potencia de la señal en cada múltiplo de la frecuencia fundamental.
Propiedades de Cn.
1) Si x(t) es real, los coeficientes son complejos conjugados:
nn CC *
con lo que 1
00 )cos(2)(n
nn tnCCtx .
2) Si x(t) es par, entonces los coeficientes Cn son reales.
3) Si x(t) es impar, entonces los coeficientes Cn son imaginarios puros.
Desarrollo en Serie de Fourier de un tren de pulsos.
0
0
0
2
2
00
...1
)(1
0
0
0
fn
fnsen
T
AdteA
Tdtetx
TC
tjn
T
tjn
n
)( 0
0
nfsincT
ACn siendo
x
xxsinc
)sen()(
x(t)
t
A
2/ 2/ 0T 0T
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 11
Función sinc continua:
1)(
limx
xsen
x->0
Componente continua C0 = 0/TA . Cuanto mayor sea la anchura respecto al período, mayor será C0.
Función sinc discreta:
Al cociente 0T
se le llama ciclo de trabajo. Si 0/T es pequeño, n debe ser grande para que
se anule por 1ª vez. Habrá muchas líneas antes del 1º nulo.
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 12
2.3.2. Transformada de Fourier continua.
dtetxX tj ·)()( ··
Transformada de Fourier de un pulso cuadrado.
Anchura τ, amplitud A, centrado en el origen.
)()( fsincAdteAfX tj
t
A <------ su par transformado es --------> )( fsincA
La densidad espectral de potencia es el cuadrado del módulo:
)()()( 2222fsincAfXfS
Propiedades de la TF:
1) Linealidad: )()()()( 22112211 fXafXatxatxaTF
2) Traslación en el tiempo: 0)()( 0
tjefXttxTF
3) Traslación en frecuencia: )()( 00 ffXetxTFtj
)()( 00 ffXetxTFtj
4) Cambio de escala: )(1
)(a
fX
aatxTF
5) Dualidad: )(tX )( fx
6) Derivación e integración: dt
tdx )( )( fXj
duux )( jfX /)(
7) Simetría: si )(tx es real, )( fX es hermítica: )()( * fXfX
)(*)( fXfX )(*)( fXFasefXFase
x(t)
t
A
2/ 2/
Pasos por cero /1 /2 /1 /2
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 13
2.3.3. Transformada de Fourier Discreta (DFT, Discrete Fourier Transform).
Dada una secuencia )(nx , se define la DFT la secuencia )(kX dada por:
1
0
···2·
)·()(N
n
N
knj
enxkX con 10 Nk
o bien
1
0
·)·()(
N
n
kn
NwnxkX con 10 Nk
siendo N
j
N ew
2
el llamado “factor twiddle” de orden N.
Aunque N puede ser cualquier valor, vamos a suponerle la restricción de que N sea par, con lo
cual existe el )2/(NX .
Casos particulares:
)1(...)2()1()0()0( NxxxxX
)1(...)3()2()1()0()2
( NxxxxxN
X , es decir, la suma de los valores de n par
menos la suma de los valores de n impar.
Si )(nx es real, )0(X y )2/(NX son reales, y el resto son complejos conjugados respecto al
valor central )2/(NX .
Propiedades de la DTF:
Sea )(kX la DFT de la secuencia )(nx , lo que se representa como )(nx )(kX , y sea )(kY la
DFT de la secuencia )(ny , lo que se representa como )(ny )(kY .
1) Linealidad: Si )()()( 2211 nxanxany entonces )()()( 2211 kXakXakY
2) Traslación: )( 0nnx N
knj
ekX
···2· 0
)·(
x(n-n0) es una traslación circular, no se pierden valores.
3) Modulación: N
knj
enx0···2·
)·( )( 0kkX
4) Simetría: )( nx )( kX
Ejemplo de cálculo de DFT (la numeración comienza en 0 y acaba en N-1). 8N
x(0) = 2 x(1) = 6 x(2) = 8 x(3) = 6
x(4) = 5 x(5) = 2 x(6) = 2 x(7) = 8
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 14
Se calcularían de la siguiente forma:
7
0
0 39)7()6()5()4()3()2()1()0()()0(n
xxxxxxxxenxX
8
42
8
32
8
22
8
12
8
027
0
8
12
)4()3()2()1()0()()1(
jjjjj
n
nj
exexexexexenxX
j7,4142-,24261)7()6()5( 8
72
8
62
8
52 jjj
exexex
8
82
8
62
8
42
8
22
8
027
0
8
22
)4()3()2()1()0()()2(
jjjjj
n
nj
exexexexexenxX
j63)7()6()5( 8
142
8
122
8
102 jjj
exexex
8
122
8
92
8
62
8
32
8
027
0
8
32
)4()3()2()1()0()()3(
jjjjj
n
nj
exexexexexenxX
j4,58582426,7)7()6()5( 8
212
8
182
8
152 jjj
exexex
43207
0
7
0
8
42
)4()3()2()1()0()()()4( jjjj
n n
nj
nj
exexexexexenxenxX
5)7()6()5()4()3()2()1()0()7()6()5( 765 xxxxxxxxexexex jjj
8
202
8
152
8
102
8
52
8
027
0
8
52
)4()3()2()1()0()()5(
jjjjj
n
nj
exexexexexenxX
j4,58582426,7)7()6()5( 8
352
8
302
8
252 jjj
exexex
8
242
8
182
8
122
8
62
8
027
0
8
62
)4()3()2()1()0()()6(
jjjjj
n
nj
exexexexexenxX
j63)7()6()5( 8
422
8
362
8
302 jjj
exexex
8
282
8
212
8
142
8
72
8
027
0
8
72
)4()3()2()1()0()()7(
jjjjj
n
nj
exexexexexenxX
j7,41422426,1)7()6()5( 8
492
8
422
8
352 jjj
exexex
Resultado:
X(0) = 39
X(1) = 1,2426 – j 7,4142
X(2) = - 3 + j 6
X(3) = - 7,2426 + j 4,5858
X(4) = - 5
X(5) = - 7,2426 - j 4,5858
X(6) = - 3 - j 6
X(7) = 1,2426 + j 7,4142
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 15
Se puede comprobar que si la secuencia de partida x(n) es real, los valores de la DFT para
índice mayor que N/2 son los complejos conjugados de los valores con índice menor que N/2, con
simetría respecto al valor central x(N/2), es decir:
X(5) = X*(3) X(6) = X*(2) X(7) = X*(1)
En general, )2
(*)2
( kN
XkN
X para 12
1N
k .
Resolución espectral.
Se llama resolución espectral, y se representa como 0f , a la menor diferencia de frecuencia
entre muestras consecutivas de la DFT. Un análisis espectral de una DFT nos da información en las
frecuencias siguientes: 0 Hz, 0f Hz y todos los múltiplos de la resolución espectral hasta N/2.
Si llamamos 0T al tiempo dentro del cual calculamos la DFT (tiempo de observación), que será
N veces mayor que el tiempo sT o período de muestreo, se cumple que so NTT . Como la frecuencia y
el período de muestreo son inversas entre sí, s
sT
f1
, podemos relacionar la resolución espectral con el
tiempo de observación 0T mediante una sencilla fórmula.
Aunque no es trivial, se puede demostrar que: 0
0
1
Tf , o bien
N
ff s
o .
Ejemplo: si los valores de la DFT anterior fueran muestras tomadas cada msTs 100 , la
frecuencia de muestreo sería HzT
fs
s 101 . Como 8N , msT 8000 y la resolución espectral sería
HzT
f 25,11
0
0, con lo que se podría hacer un análisis espectral desde 0 hasta 5 Hz.
Otro ejemplo: si tenemos una DFT de 4.096 puntos, separados un tiempo de muestreo
msTs 1,0 , la frecuencia de muestreo sería KHzT
fs
s 101
, y la resolución espectral sería
HzNTT
fs
44,211
0
0. El módulo y la fase de la muestra k-sima daría la información
espectral a la frecuencia 0fk , es decir, la muestra )100(X describiría el detalle espectral de la
componente discreta de frecuencia 244 Hz.
2.3.4. Transformada de Fourier Rápida (FFT, Fast Fourier Transform).
Existe una forma alternativa de calcular la DFT, llamada FFT, que produce los mismos
resultados, si bien la cantidad de operaciones a realizar y el tiempo de cálculo es significativamente
inferior.
Conceptualmente son idénticas. Ahorro tiempo y esfuerzo computacional.
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 16
1
0
···2·
)·()(N
n
N
knj
enxkX o bien
1
0
·)·()(
N
n
kn
NwnxkX
donde N
j
N ew
2
(factor “twiddle”), es un número complejo de módulo 1 que sólo depende de N.
Propiedades del factor “twiddle”.
A) 2
Nk
N
k
N WW
B) Nk
N
k
N WW
C) k
N
k
N WW
D) nk
N
Nkn
N WW2
)2
(
2
Desarrollo de la FFT.
DFT's de 2 puntos: MUY SENCILLAS.
1
0
2
0···2·
)1()0()·()0(n
nj
xxenxX
1
0
2
1···2·
)1()0()·()1(n
nj
xxenxX
Desarrollo propiamente dicho:
12
0
)·1·2(1
0
12
0
)··2(·)·12()·2()·()(
N
n
kn
N
N
n
N
n
kn
N
kn
N wnxwnxwnxkX
Suma de términos pares / impares. Sacamos factor común k
Nw , que no depende del SUMATORIO.
12
0
··2
12
0
2)·12(·)·2()(
N
n
kn
N
k
N
N
n
kn
N wnxwwnxkX
Aplicando la propiedad C) para k = 2, resulta que
2
2
NN WW , con lo cual
12
0
·
2
12
0
·
2
)·12(·)·2()(
N
n
kn
N
k
N
N
n
kn
N wnxwwnxkX
o bien )(·)()( kZwkYkXk
N siendo
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 17
12
0
·
2
)·2()(
N
n
kn
NwnxkY y siendo
12
0
·
2
)·12()(
N
n
kn
NwnxkZ
)(kY es la DFT de la secuencia que resulta de tomar la mitad de los puntos, concretamente los
que ocupan las posiciones pares: x(0), x(2), ... x(N-2).
)(kZ es la DFT de la secuencia que resulta de tomar la mitad de los puntos, concretamente los
que ocupan las posiciones impares: x(1), x(3), ... x(N-1).
)(kY y )(kZ se calculan con el mismo algoritmo; sólo cambian los datos de entrada.
Para realizar una DFT de N puntos, lo que se realiza en realidad son sucesivas descomposiciones
de la secuencia original en secuencias mitades tomando muestras pares e impares, y volviendo a repetir el
proceso hasta llegar a DFT's de 2 puntos. N debe ser potencia de 2.
Descomposición rápida en mitades. Cuando entra la secuencia de datos x(n), cada valor ocupa una posición dependiendo del valor de
n. Pues bien, dicho valor debe ir a otra posición n' (el algunos casos aislados n y n' coinciden) dada por el
llamado criterio de bit reverse. Este criterio indica que el valor x(n), que se encuentra en la posición n,
debe colocarse en n', siendo n' el número que resulta en decimal al leer el valor binario de n en sentido
contrario. Por ejemplo, para N=512, si n=27, el valor x (27) debe ir a la posición 432, ya que 27 en
binario se expresa como 000011011, y leído al revés resulta el binario 110110000, que en decimal es 432.
Ejemplo de FFT para N=8.
Descomponiendo en mitades pares e impares Aplicando el criterio del “bit reverse”
x(0)
x(1)
x(2)
x(3)
x(4)
x(5)
x(6)
x(7)
x(0)
x(2)
x(4)
x(6)
x(0)
x(4)
0: 000 000 :0
1: 001 100 :4
2: 010 010 :2
3: 011 110 :6
4: 100 001 :1
5: 101 101 :5
6: 110 011 :3
7: 111 111 :7
x(2)
x(6)
x(1)
x(3)
x(5)
x(7)
x(1)
x(5)
x(3)
x(7)
Conocida la DFT a nivel 2, nada más hacer las sumas y restas, alcanzar los distintos niveles es
simplemente aplicar la fórmula recursiva siguiente, hasta llegar al nivel original.
)(·)()( kZwkYkXk
N con 12
,...,2,1,0N
k
Dicha expresión nos permite encontrar la DFT a partir de sus dos mitades.
Para 0k )0()0()0( ZYX
Para 1k )1()1()1( ZWYX N
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 18
Para 2k )2()2()2( 2ZWYX N
............ ........................
Para 12
Nk )1
2()1
2()1
2(
12
NZW
NY
NX
N
N
Para calcular la segunda mitad, calculamos )2
(N
kX a partir de la expresión de )(kX ,
cambiando k por 2
Nk .
)(·)()·12(·)·2()(
12
0
·
2
12
0
·
2
kZwkYwnxwwnxkXk
N
N
n
kn
N
k
N
N
n
kn
N
12
0
)2
·(
2
)2
(
12
0
)2
·(
2
)·12(·)·2()2
(
N
n
Nkn
N
Nk
N
N
n
Nkn
N wnxwwnxN
kX
Aplicando la propiedad D) del factor twiddle nk
N
Nkn
N WW2
)2
(
2
y aplicando la propiedad A)
k
N
Nk
N WW 2 se puede expresar como:
12
0
·
2
12
0
·
2
)·12(·)·2()2
(
N
n
kn
N
k
N
N
n
kn
N wnxwwnxN
kX
o bien:
)(·)()2
( kZwkYN
kXk
N
Por tanto,
Para 0k )0()0()2
( ZYN
X
Para 1k )1()1()12
( ZWYN
X N
Para 2k )2()2()22
( 2ZWYN
X N
............ ........................
Para 12
Nk )1
2()1
2()1(
12
NZW
NYNX
N
N
La segunda mitad se calcula con los mismos datos que la primera mitad, pero haciendo
diferencias en vez de sumas. También se puede hacer de otra forma teniendo en cuenta que la propiedad
A) del factor twiddle nos permite decir que 2
Nk
N
k
N WW .
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 19
Para 0k )0()0()2
( 2 ZWYN
X
N
N
Para 1k )1()1()12
(1
2 ZWYN
X
N
N
Para 2k )2()2()22
(2
2 ZWYN
X
N
N
............ ........................
Para 12
Nk )1
2()1
2()1( 1 N
ZWN
YNX N
N
Resumiendo, se pueden calcular de dos maneras:
1ª FORMA 2ª FORMA
1ª mitad 1ª mitad
)0()0()0( ZYX )0()0()0( ZYX
)1()1()1( ZWYX N )1()1()1( ZWYX N
)2()2()2( 2ZWYX N )2()2()2( 2ZWYX N
.................... ....................
)12
()12
()12
(1
2N
ZWN
YN
X
N
N )12
()12
()12
(1
2N
ZWN
YN
X
N
N
2ª mitad 2ª mitad
)0()0()2
( ZYN
X )0()0()2
( 2 ZWYN
X
N
N
)1()1()12
( ZWYN
X N )1()1()12
(1
2 ZWYN
X
N
N
)2()2()22
( 2ZWYN
X N )2()2()22
(2
2 ZWYN
X
N
N
.................... ....................
)12
()12
()1(1
2N
ZWN
YNX
N
N )12
()12
()1( 1 NZW
NYNX N
N
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 20
Ejemplo:
x(0)=1.0000
x(1)=0.86688
x(2)=0.75148
x(3)=0.65144
x(4)=0.56472
x(5)=0.48954
x(6)=0.42437
x(7)=0.36788
1.00000
0.75148
0.56472
0.42437
1.00000
0.56472
1.56472
0.43528
2.74057
0.435 – j 0.327
0.389
0.435 + j 0.327
5.11631
0.500 – j 0.794
0.389 – j 0.337
0.369 – j 0.140
0.36483
0.369 + j 0.140
0.389 + j 0.337
0.500 + j 0.794
0.75148
0.42437
1.17585
0.32711
0.86688
0.65144
0.48954
0.36788
0.86688
0.48954
1.35642
0.37734
2.3757
0.377 – j 0.283
0.337
0.377 + j 0.283 0.65144
0.36788
1.01932
0.28356
1x8 2x4 4x2 4x2 2x4 1x8
Obsérvese que X(0) y X(4) son reales, mientras que X(1) es complejo conjugado de X(7), X(2)
es complejo conjugado de X(6) y X(3) es complejo conjugado de X(5). En general, si la secuencia
original es real, X(0) y X(N/2) son reales, mientras que los restantes son pares conjugados: X(k) = X*(N-
k).
Obtención de la columna 4x2.
1.00000 + 0.56472 = 1.56472
1.00000 - 0.56472 = 0.43528
0.75148 + 0.42437 = 1.17585
0.75148 - 0.42437 = 0.32711
0.86688 + 0.48954 = 1.35642
0.86688 - 0.48954 = 0.37734
0.65144 + 0.36788 = 1.01932
0.65144 - 0.36788 = 0.28356
+
+
+
+
D F T
de
N/2 puntos
PARES
D F T
de
N/2 puntos
IMPARES
-
-
-
-
Y(0)
Y(1)
Y(2)
Y(N/2-1)
Z(N/2-1)
Z(2)
Z(1)
Z(0)
x(0)
x(2)
x(4)
x(N-2)
x(1)
x(3)
x(5)
x(N-1)
)0()0()0( ZYX
)1()1()1( ZWYX N
)2()2()2( 2ZWYX N
)12
()12
()12
(1
2N
ZWN
YN
X
N
N
)0()0()2
( ZYN
X
)1()1()12
( ZWYN
X N
)2()2()22
( 2ZWYN
X N
)12
()12
()1(1
2N
ZWN
YNX
N
N
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 21
Obtención de la columna 2x4.
W40 = 1
W41 = e
-j2π/4 = cos (2π/4) -j sen (2π/4) = 0 -j1 = -j
W42 = e
-j4π/4 = cos (π) -j sen (π) = -1
W43 = e
-j6π/4 = cos (3π/2) -j sen (3π/2) = +j
1.56472 + W40 1.17585 = 1.56472 + 1.17585 = 2.74057
0.43528 + W41 0.32711 = 0.43528 - j 0.32711
1.56472 + W42 1.17585 = 1.56472 - 1.17585 = 0.389
0.43528 + W43 0.32711 = 0.43528 + j 0.32711
o bien
1.56472 - W40 1.17585 = 1.56472 - 1.17585 = 0.389
0.43528 - W41 0.32711 = 0.43528 + j 0.32711
1.35642 + W40 1.01932 = 1.35642 + 1.01932 = 2.37574
0.37734 + W41 0.28356 = 0.37734 - j 0.28356
1.35642 + W42 1.01932 = 1.35642 - 1.01932 = 0.3371
0.37734 + W43 0.28356 = 0.37734 + j 0.28356
o bien
1.35642 - W40 1.01932 = 1.35642 - 1.01932 = 0.3371
0.37734 - W41 0.28356 = 0.37734 + j 0.28356
Obtención de la columna 1x8.
W80 = 1
W81 = e
-j2π/8 = cos (π/4) -j sen (π/4) = 0.707(1-j)
W82 = e
-j4π/8 = cos (π/2) -j sen (π/2) = 0 -j 1 = -j
W83 = e
-j6π/8 = cos (3π/4) -j sen (3π/4) = -0.707(1+j)
W84 = e
-j8π/8 = cos (π) -j sen (π) = -1
W85 = e
-j10π/8 = cos (5π/4) -j sen (5π/4)=-0.707(1-j)
W86 = e
-j12π/8 = cos (3π/2) -j sen (3π/2) = +j
W87 = e
-j14π/8 = cos (7π/4) -j sen (7π/4) = 0.707(1+j)
2.74057 + W80 2.3757 = 5.11631
(0.435 -j 0.327) + W81 (0.377 -j 0.283) = 0.501 - j 0.794
0.389 + W82 0.377 = 0.389 - j 0.337
(0.435 +j 0.327) + W83 (0.377 +j 0.283) = 0.369 - j 0.140
2.74057 + W84 2.3757 = 0.36483
(0.435 -j 0.327) + W85 (0.377 -j 0.283) = 0.369 + j 0.140
0.389 + W86 0.377 = 0.389 + j 0.337
(0.435 +j 0.327) + W87 (0.377 +j 0.283) = 0.501 + j 0.794
o bien
2.74057 - W80 2.3757 = 0.36483
(0.435 -j 0.327) - W81 (0.377 -j 0.283) = 0.369 + j 0.140
0.389 - W82 0.377 = 0.389 + j 0.337
(0.435 +j 0.327) - W83 (0.377 +j 0.283) = 0.501 + j 0.794
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 22
Comparación en la necesidad de cómputo.
DFT de 8 puntos:
Cada )(kX necesita 8 multiplicaciones complejas y 7 sumas complejas.
Total: 64 multiplicaciones complejas y 56 sumas complejas.
En general, DFT de N puntos:
Total: N2 multiplicaciones complejas y N(N -1) sumas complejas.
En general, FFT necesita NN
2·log2
operaciones.
Las operaciones de multiplicación son más complejas que las de suma, y para N suficientemente grandes
son éstas las que determinan el tiempo total.
Ejemplo con N = 1.024
DFT: 1.048.576 multiplicaciones complejas
FFT: 5.120 multiplicaciones complejas
Y ESTA RELACIÓN ES MAYOR CUANTO MAYOR ES N.
Un circuito DSP (Digital Signal Processing) con 50ns de ciclo de reloj necesita 104 ms para
hacer una DFT de 1.024 puntos mientras que el tiempo para hacerlo aplicando FFT es de 0,768 ms.
2.4. MUESTREO.
Analógico ----> Digital
1) Muestrear (sampling).
2) Discretizar y cuantificar.
Muestreo: es la técnica de captura de una señal en determinados instantes de tiempo (para
generar valores llamados muestras) teniendo en cuenta ciertas condiciones para que las muestras
contengan toda la información necesaria para identificar la señal.
Ts: período de muestreo, tiempo entre dos muestras consecutivas.
s
sT
f1
: frecuencia de muestreo, número de muestras por segundo.
Muestreo ideal:
)(ts
n
snTtts )()(
t
x(t)
x(t) x(n) = x(nTs)
t
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 23
Señal:
)(tx
Señal muestreada:
)(txs
n
sss nTtnTxtx )()()(
Espectro de la señal muestreada.
Supongamos una señal limitada en banda a W.
Se demuestra que la TF de un tren de deltas en el tiempo es un tren de deltas en la frecuencia:
n ssn s fffnTtTF )()(
La señal muestreada es el producto en el tiempo: n ss nTttxtx )()()( . Por tanto, su TF
será la convolución de las transformadas de cada una de ellas:
n ssn sss nffXfnffffXfX )()(*)()(
es decir, salvo una constante, es el espectro de la señal original, antes de muestrear, X(f), repetido y
centrado en los múltiplos de las frecuencias de muestreo (armónicos).
Criterio de Nyquist.
Para poder recuperar la imagen original, se puede hacer un filtrado paso bajo adecuado y
recuperar )( fX , pero para ello es necesario que no haya solapamiento (aliasing) entre dos
consecutivos, es decir que:
-2fs -fs -W 0 W fs-W fs fs+W 2fs-W 2fs f
t
t
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 24
WWf s o lo que es lo mismo Wf s 2
que se conoce como criterio de Nyquist, y a la frecuencia 2W se le llama frecuencia de Nyquist.
Criterio de Nyquist: La frecuencia de muestreo debe ser al menos el doble de la máxima
componente espectral.
Teorema de Nyquist: Si a una señal limitada en banda se la muestrea con un tren de impulsos de
período igual o inferior al inverso del doble de la frecuencia máxima de la señal, se puede recuperar la
señal original de la muestreada aplicando un filtrado paso bajo con frecuencia de corte la mitad de la
frecuencia con que se muestreó.
Ejemplo: voz humana W = 4 KHz. Muestrear al menos a 8 KHZ.
2.5. ANÁLISIS EN EL DOMINIO DEL TIEMPO CORTO.
Señal pseudo-estacionaria para corto plazo (decenas de milisegundos).
2.5.1. Necesidad de las ventanas.
Es necesario usar ventanas porque hay que tomar intervalos finitos de tiempo. El uso de una
ventana es el producto de la señal por una ventana, lo que equivale a convolucionar el espectro de la señal
original por la transformada de la ventana.
Señal enventanada continua: )()()( tvtxtxv , siendo )(tv nula fuera de T.
Secuencia enventanada discreta: )()()( knvnxnxv
Las ventanas consecutivas se pueden solapar (se deben solapar) para no perder información
significativa. Sería deseable que el extremo de la ventana, donde toma los valores mínimos, coincidiera
con el centro de la ventana consecutiva, donde toma los valores máximos. Al tiempo entre dos ventanas
T
x(t)
v(t-τ)
τ t
-fs -fs/2 -W 0 W fs/2 fs f
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 25
consecutivas se le llama período de submuestreo smT para distinguirlo del período del muestreo
sT (inversa de la frecuencia de muestreo fs). Al inverso del período de submuestreo se le llama frecuencia
de submuestreo smf y representa en número de ventanas por segundo. Valores típicos de frecuencia de
submuestreo para la señal de voz son de 20 a 200 Hz. Como se ve, la frecuencia de submuestreo es
sensiblemente menor que la frecuencia de muestreo, de 8 a 10 KHz.
2.5.2. Transformada de Fourier Dependiente del Tiempo (TFDT): espectrogramas.
La TF convierte x(t) en X(f). Definimos la TFDT como
detvxtfX fj 2)()(),(
donde la TFDT de x(t) es la TF de )(tx vista a través de una ventana de tiempo )(v centrada en t, con lo
que es una función de 2 variables: tiempo y frecuencia. Su representación es una superficie en el espacio.
Si fijamos 0tt tenemos el espectro de la señal visto a través de una ventana de tiempo
centrada en 0t .
Si fijamos 0ff tenemos la evolución temporal de la componente 0f .
Espectrograma.
El espectrograma es una representación matricial (bidimensional) de la evolución temporal de las
componentes espectrales con el tiempo, que se puede representar en forma de matriz:
128 130 135 133 122 118 115 111
145 147 154 158 166 155 165 160
110 101 098 095 099 104 112 110
Tsm
t
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 26
o en forma de diversos tonos de gris o diversos colores.
Forma práctica de realizar el espectrograma: para una ventana de tiempo particular, se
obtendrían los números de una columna concreta. El valor de cada casilla podría ser el valor medio de
los módulos de la DFT cuyas frecuencias estuvieran comprendidas dentro de un rango predeterminado.
Por ejemplo, el Banco de Holmes.
El espectro de una señal de audio se divide en diversas subbandas, cada vez más anchas, para
adaptarse al comportamiento del oído humano, que pierde sensibilidad a medida que aumenta la
frecuencia. Un ejemplo lo tenemos en el Banco de Holmes, con 19 subbandas centradas en las
frecuencias dadas y con las anchuras de banda indicadas.
Subbanda Frecuencia central (Hz) Anchura de banda
1 240 120 (±60)
2 360 120
3 480 120
4 600 120
…. …….. …..
…. ……. …..
15 2.400 200
16 2.700 200
17 3.000 300 (±150)
18 3.300 300
19 3.750 500 (±250)
Es como si la señal original la introdujéramos por diversos filtros paso banda y la salida de cada
uno de ellos nos diera un número que lo caracterizara. Dicho número puede ser la media aritmética de los
módulos de la DFT que están dentro de una cierta subbanda, y serviría para llenar los elementos de cada
columna en un espectrograma matricial.
2.5.3. Transformada de Fourier dependiente del tiempo discreta.
m
T
kmj
enmvmsnkS
2
)()(),(
Según la longitud de la ventana de tiempo, los espectrogramas pueden ser:
De banda ancha: ventanas de tiempo cortas, mala resolución espectral (Δf0 grande) del orden de
centenares de Hz.
De banda estrecha: ventanas de tiempo largas, buena resolución espectral (Δf0 pequeño) del
orden de decenas de Hz.
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 27
2.5.4. Tipos de ventanas, comparación y sus efectos.
Vamos a estudiar 4 tipos de ventanas (versión discreta):
Rectangular:
1)(nvr para Mn0
0)(nvr para resto de n
Hamming:
M
nnvham
2cos46,054,0)( para Mn0
0)(nvham para resto de n
Hanning:
M
nnvhan
2cos50,050,0)( para Mn0
0)(nvhan para resto de n
Blackmann-Harris:
M
n
M
nnvbla
4cos08,0
2cos50,042,0)( para Mn0
0)(nvham para resto de n
Idealmente, la mejor ventana sería v(t)=1, desde -∞ hasta +∞, cuya transformada es δ(f). La delta
centrada en el origen es la identidad de la convolución, por tanto los espectros de las ventanas serán
mejores cuanto más se parezcan a una delta. La delta tiene dos características:
a) Separación de lóbulos laterales infinita.
b) Anchura de banda nula.
Una separación de lóbulos laterales finita supone la aparición de un cierto rizado (espectro
lobulado). Una anchura de banda no nula supone que las transiciones en frecuencia sean menos abruptas
(suavizado espectral).
Blackman
Rectangular
bueno malo f
0 dB
-13 dB malo
-60 dB
bueno
TECNOLOGÍA DEL HABLA. CURSO 2009/10
Tema 2: Análisis y parametrización de la voz 28
A la vista de los espectros de las ventanas en cuanto a separación de lóbulos laterales y anchura
de banda, el cuadro comparativo de las ventanas es el siguiente:
TIPOS DE VENTANA PENDIENTE DE TRANSICIÓN
(ANCHO DE BANDA)
RIZADO (LÓBULOS
SECUNDARIOS)
Rectangular Buen comportamiento Mal comportamiento
Blackman Mal comportamiento Buen comportamiento
Hamming Regular comportamiento Regular comportamiento
Hanning Regular comportamiento Regular comportamiento
De donde se deduce que las ventanas de Hamming, Hanning son soluciones de compromiso,
mientras que la ventana rectangular, además de ser la más sencilla matemáticamente, es la que mejor
comportamiento tiene respecto a ancho de banda (y peor en cuanto a lóbulos laterales) mientras que la de
Blackman es la mejor en cuanto a lóbulos laterales pero la peor en cuanto a anchura de banda.
2.5.5. Análisis temporal localizado.
a) Energía localizada:
n
Nnm
s nmvmsnE1
2 )()()(
b) Tasa de cruces por cero: n
Nnm
s nmvmsms
NnZ
1
)(2
)}1(sgn{)}(sgn{1)(
siendo la función signo la definida por:
1)}(sgn{ ns si 0)(ns
1)}(sgn{ ns si 0)(ns
c) Correlación cruzada de dos secuencias: n
xy knynxkR )()()(
Se define la autocorrelación de una secuencia x(n) como la correlación de ella consigo misma,
es decir:
n
x knxnxkR )()()( variando n desde hasta
Propiedades de la autocorrelación:
1) Es una función par: )()( kRkR .
2) Tiene un máximo en 0k .
3) )0(R es la potencia de la señal.
Mide el parecido de una señal consigo mismo desplazada. Si la secuencia tiene N muestras no
nulas, la autocorrelación tiene 12N valores no nulos, cuya parte positiva y nula se calculan de la
forma:
1
0
)()()0(kN
n
x knxnxkR
mientras que la parte negativa, por ser función par, se calcula como: )()( kRkR xx .