Upload
daniel-garrido
View
738
Download
1
Embed Size (px)
Citation preview
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Utilización de trifonemas como modelo acústicopara el reconocimiento del habla
Proyecto informático
Daniel Garrido Garrochena
Escuela Técnica Superior de Ingeniería Informática
Junio 2009
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Sumario
Introducción - Objetivos y alcance.Arquitectura del sistema.Fases del reconocimiento del habla.Objetivos del proyecto.Planificación.Módulos del sistema.Conclusiones.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Introducción - Objetivos y alcance
Desarrollo de un sistema reconocedor de voz (a nivel local).Entrenamiento del sistema con trifonemas.Ampliación del sistema, agregando la posibilidad de reconocera través del protocolo TCP/IP.Permitir que múltiples usuarios puedan emplear el mismosistema reconocedor, con las consiguientes ventajas que elloconlleva.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Sistema reconocedor de vozReconocimiento de voz sobre TCP/IP
Sistema reconocedor de voz
Reconocimiento de voz: proceso de convertir señales acústicascapturadas por, por ejemplo un micrófono, en texto.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Sistema reconocedor de vozReconocimiento de voz sobre TCP/IP
Reconocimiento de voz sobre TCP/IP
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Adquisición
Sistema desde el cual se adquieren los datos de entrada alsistema reconocedor, la señal de voz.Por lo general, estos datos son adquiridos desde un micrófono.En este sistema serán adquiridos a través de sockets. Lafuente de generación podría ser un micrófono en otro equipo,un fichero de audio, . . .
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Extracción de características
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Reconocimiento / clasificación probabilística
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Reconocimiento mediante fonemas
Sonidos distinguibles.34 para el español.Representan secuencias de senones. Modelado con cadenasocultas de Markov.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Reconocimiento mediante trifonemas
343 = 39304 trifonemas para el español.En la práctica, alrededor de 5000.Es capaz de diferenciar los sonidos según su contexto.Muy práctico para reconocimiento continuo del habla.Aumento de la tasa de aciertos.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Reconocimiento mediante trifonemas
¿Cómo se modelan el resto de trifonemas?
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas
Reconocimiento mediante trifonemas
¿Cómo se modelan el resto de trifonemas?
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Objetivos del proyecto
Construir un sistema reconocedor de voz.
Entrenamiento.Reconocimiento.
Tecnologías inexploradas y en auge.Objetivos de carácter:
Técnicos.Personales.Metodológicos.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Planificación
Concepto Estimado Real REBúsqueda dedocumentación
8 días 6 días -33.33%
Planificación 8 días 9 días 11.11%Adquirir conocimientossobre sistemasreconocedores del habla
40 días 43 días 6.97%
Elicitación de requisitos 10 días 11 días 9.09%Análisis 20 días 19 días -5.26%Diseño 30 días 28 días -7.14%Implementación 60 días 64 días 6.25%
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Planificación
Concepto Estimado Real REDocumentación 18 días 22 días 18.18%Presentación 2 días 2 días 0%TOTAL 196 días 204 días 0.65%
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Módulos del sistema
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Adquisición de datos
Adaptable a diferentes formas/dispositivos de adquisición.Observador y fábrica simple.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Extracción de características
Patrones de diseño observador y decorador.Encargado de:
Preénfasis.Hamming.MFCC.. . .
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Extracción de características
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Modelos ocultos de Markov
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Entrenamiento
Algoritmo Baum-Welch.Cálculos de avance-retroceso.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Reconocimiento
Algoritmo de Viterbi.Estructura estática: palabras.Estructura dinámica: proceso del algoritmo.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Gestor de bases de datos orales
Albayzin.Posibilidad de gestionar otras bases de datos orales.Fábrica abstracta.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Gestión de la configuración y log
Acceso a los parámetros de configuración.Registro de errores, avisos, . . .
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones
Comunicaciones
Realizan las comunicaciones cliente-servidor/servidor-cliente.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Posibles mejoras¡Gracias!
Conclusiones
Campo de conocimiento muy amplio y numerosas variantes.
Redes neuronales.Otro modelo acústico.
Motivación personal satisfecha: adquisición de nuevosconocimientos.Objetivos técnicos y metodológicos cumplidos en mayor omenor medida.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Posibles mejoras¡Gracias!
Posibles mejoras
Implementación para otras plataformas.Inmunidad al ruido de ambiente.Prosodia: expresar emociones.Questions revisadas por especialistas.
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcanceArquitectura del sistema
Fases del reconocimiento del hablaObjetivos del proyecto
PlanificaciónMódulos del sistema
Conclusiones
Posibles mejoras¡Gracias!
¡Gracias!
Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla