Proyecto Fin de Carrera Autor: Juan Carmona Mariscal Tutor: Juan Manuel Montero Martínez

DESARROLLO DE UN SEGMENTADOR FONTICO AUTOMTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOV

DESARROLLO DE UN SEGMENTADOR FONTICO AUTOMTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOVProyecto Fin de Carrera

Autor: Juan Carmona MariscalTutor: Juan Manuel Montero MartnezndiceObjetivosAnteriores trabajos relacionadosEstructura del sistemaLas bases de datosResultados de los experimentosConclusiones y lneas futuras

2Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal2Objetivos (I)Segmentacin automtica a partir de ficheros de audio (.wav o .pcm) y su transcripcin fontica (.lab)

Empleado para segmentar archivos de habla expresiva en castellano

Conjunto de experimentos ms amplio y exhaustivo sobre una BD ya empleada, SES

Experimentos sobre BDs nuevas: SEV y UPC

Open Source

3Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal3Objetivos (II)Restricciones de diseo Automatizacin y configurabilidad:Variables: algoritmo de parametrizacinnmero de estados de los modelosnmero de gaussianas por estadonmero de iteraciones a realizar (reestimaciones)coeficientes extra (deltas, aceleraciones, de energa)inclusin o no de normalizacin cepstral

4Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalAnteriores trabajos relacionadosSegmentacin fontica automtica de Doroteo Torres (2003). Segmentacin en dos etapas:Esquema bsico de segmentacin (comparable al nuestro) error del 20,73% para tolerancia de 20 msProcedimiento adicional de correccin estadstica de las marcas automticas reduce el error al 4%Experimentos con SES de Gallardo et al. (Interspeech 2007):Errores entre el 8,70% y el 14,45% entrenando con toda la base de datos

Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal5Herramientas empleadasHTK (Hidden Markov Model Toolkit)

Lenguaje de scripts (archivos de procesos por lotes .bat)

Lenguaje PERLEj: perl -e "while ($_=){$v=uc \"%1_%6\";s/TARGETKIND[\s\t]+=[\s\t]+[a-zA-z_0-9]+/TARGETKIND = $v/i;print;}" < %LIB_DIR%\tmp.tmp >%CONFIG_FILE_HCOPY%6Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalEstructura del sistema (I)

7Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalLanzamiento del sistemaDefinicin de las variables del experimentoPermite barrido de una batera de experimentos de manera desatendida

Estructura del sistema (II)

8Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalDefine la estructura de las distintas etapas del procesoLlamada secuencial de cada uno de los scriptsEstructura del sistema (III)

9Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConfiguracin del sistema y acondicionamiento de ficherosDefinicin de la BDDefinicin de conjuntos de entrenamiento y segmentacin y evaluacin de manera separadaPermite definir dos conjuntos diferentes de evaluacinGeneracin automtica de ficheros de configuracinEstructura del sistema (IV)

10Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalParametrizacin de los ficheros de entradaEstructura del sistema (V)

11Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalEntrenamiento de los modelosGeneracin automtica:Lista y diccionario de fonemasGramtica empleadaGeneracin automtica de los modelos semilla y actualizacinGenera automticamente un script para tareas dependientes de las variables definidasEstructura del sistema (VI)

12Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalReconocimiento automtico (a modo de comprobacin del funcionamiento del sistema)Generacin automtica de la red de fonemasGenera automticamente un script para tareas dependientes de las variables definidas

Estructura del sistema (VII)

13Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalSegmentacin automticaGenera automticamente un script para tareas dependientes de las variables definidas

Estructura del sistema (VIII)

14Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalEvaluacin de la segmentacin realizadaGenera automticamente un script para tareas dependientes de las variables definidas

La base de datos SESGrabaciones de actor varn simulando voz neutra y 4 emociones (alegra, enfado, sorpresa, tristeza)Contenido semntico y sintctico neutroCorpus empleado:15 frases cortas en 3 sesiones, segmentadas manualmente4 prrafos completos en 3 sesioneslos tres primeros prrafos divididos y etiquetados manualmente (1 sesin, a excepcin del enfado)

15Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalLa base de datos SEVGrabaciones de locutora (Rosa) simulando voz neutra y 6 emociones (alegra, enfado, sorpresa, tristeza, asco, miedo)Corpus empleado (todo menos Logatomos):Corpus de frases largas provenientes de prrafos de SES; 3 frases por emocin (21 en total) segmentadas manualmente Corpus de frases largas del Quijote; 2 frases por emocin (14) s.m. Corpus de Prosodia, unas frases cortas y otras largas, incluyendo interrogativas; 10 frases por emocin (70) s.m.Grabaciones de actor varn (Joaqun): dem, pero sin etiquetar manualmente16Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de los experimentosEl entrenamiento con frases produce peores resultados que con prrafos (pocos datos)17Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados del cambio de versinEleccin de la versin de HTKIdnticos resultados para las versiones 3.3 y 3.4

Resultados de la optimizacin del nmero de estados, iteraciones y gaussianas (I)SES Estados: 6(4) Iteraciones: 6Gaussianas: 5 (MFCC)Estados: 6(4) Iteraciones: 6Gaussianas: 2-5 (PLP)Error mnimo: 8,01% (MFCC) 7,60% (PLP)

18Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la optimizacin del nmero de estados, iteraciones y gaussianas (II)SEV Estados: 6(4) Iteraciones: 5/6Gaussianas: 5 (MFCC)Estados: 6(4)Iteraciones: 4Gaussianas: 10 (PLP)

Error mnimo: 18,06% (MFCC) 18,17% (PLP)

Posibles factores de que depende la diferencia:Revisin del marcaje manualCaractersticas de la voz del locutor

19Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la combinacin de coeficientes_0_E_0_E

_D_A_D_0_E

_D_A_T_D_A

_0_D_A_E_D_A _D_A

Mejor queMejor queMejor queMejor quePeor queSegn casoSegn caso20Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la combinacin de frases y prrafos (I)Combinaciones de frases y prrafos (SES) como grupos de entrenamiento y evaluacin

21Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la combinacin de frases y prrafos (II)Combinaciones de frases y prrafos (SES) como grupos de entrenamiento y evaluacin

22Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la segmentacin interemocionesPara segmentar frases con emocin es mejor entrenar con frases con emocin que con voz neutra.Voz mejor segmentada: Neutra (5% en MFCC, SES)Voz peor segmentada: Tristeza (11,18% en MFCC, SES)Mejor voz para entrenar en solitario: SES: 1.Tristeza (9,15% en media, MFCC), 2.Alegra (9,98)SEV: Alegra (21,08% en media, MFCC), Neutra (21,74)Peor voz para entrenar en solitario:SES: Neutra (22,67% en media, MFCC)SEV: Tristeza (29,48% en media, MFCC), Miedo (26,56)Diferencias entre la mejor y la peor voz son significativas

23Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la segmentacin con normalizacin cepstralMejora en general, ms con MFCC que con PLP

24Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la variacin del nmero de canalesVariacin del nmero de canales

25Resultados de la variacin del desplazamiento de tramas (I)Variacin del desplazamiento de tramas y del tamao de la ventana de anlisisValores usuales (10 y 25 ms) son ptimos

26Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal

Resultados de la variacin del desplazamiento de tramas (II)Variacin del desplazamiento de tramas y del tamao de la ventana de anlisisDisminuirlas mejora la desviacin media (mejor resolucin) pero aumenta el nmero de errores

27Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la inclusin de filtradoEn general los mejores resultados se dan sin filtrado (buenas condiciones de ruido en SES)Slo mejora un poco con filtro paso bajo a 7800 HzCanal telefnico (300-3400 Hz): empeora entre 2,65 y 4,8 puntos porcentuales absolutosHay ms informacin a menos de 300 Hz que de 3400 Hz para arriba

28Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la segmentacin de UPCErrores mnimos: 11,17% (MFCC) y 11,48% (PLP)

29Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalBD para Albayzn 2012Segmentacin de la base de datos SEV, locutor masculinoRealizada para proporcionar datos a los desarrolladores de sntesis de voz para la competicin Albayzn 2012Evaluacin cualitativa e informal, considerando los resultados bastante aceptablesAlgunos errores concretos:Transicin entre dos vocales en un diptongoTransicin entre silencios y principios o finales de palabraConsonantes oclusivasPausas no transcritas

30Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConclusiones (I)Obtencin de un segmentador automtico que cumple los objetivos iniciales:Automatizacin y configurabilidadTrabajo con diferentes bases de datosOpen Source

Ha sido necesaria una cierta complejidad (HTK, scripts, perl, C)

31Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConclusiones (II)Mejores tasas de error:SES: en torno al 7-8%UPC: en torno al 11%SEV: en torno al 17-18%Posibles factores de que dependen:Correccin del marcaje manualCaractersticas de la voz del locutor32Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConclusiones (III)Sugerencia de parametrizacin para el uso del segmentador:algoritmo de parametrizacin: PLPnmero de estados de los modelos: 6 (4)nmero de iteraciones a realizar (reestimaciones): 6nmero de gaussianas por estado: 5coeficientes extra: _E_D_A (de energa, derivados y aceleraciones)inclusin de normalizacin cepstral: snmero de canales: 20desplazamiento de tramas: 10 mstamao de la ventana de anlisis: 25 msfiltrado de altas frecuencias para reducir ruido (+7800 Hz)emocin: si se puede entrenar con todas las emociones, con todas; si se debe elegir una para entrenar, alegra (para segmentar frases con emocin es mejor entrenar con frases con emocin que con voz neutra)

33Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalLneas futuras de investigacinMejorar graf2fon efecto de coarticulacin entre palabras

Medida estndar de error: fronteras a ms de 20 ms de las marcadas manualmente Puede penalizar a las emociones con ritmo lento. Experimentar teniendo esto en cuenta

Segmentar otras bases de datos (diferentes estilos)

Modelos independientes de locutor

Realizar adaptacin y comprobar el impacto en resultados de segmentacin automtica34Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalPreguntas?35Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal

Documents

Proyecto Fin de Carrera Autor: Juan Carmona Mariscal Tutor: Juan Manuel Montero Martínez