Upload
insinfo2008
View
221
Download
0
Embed Size (px)
Citation preview
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
1/152
Universidade Estadual de Campinas
Faculdade de Engenharia Eltrica e de Computao
Departamento de Comunicaes
Reconhecimento de Fala Contnua Usando
Modelos Ocultos de Markov
Carlos Alberto Ynoguti
Orientador: Prof. Dr. Fbio Violaro
Banca Examinadora:
Prof. Dr. Fbio Violaro FEEC - UNICAMP
Prof. Dr. Abrahan Alcaim CETUC PUC RIO
Prof Dr. Ivandro Sanches POLI USP
Prof. Dr. Lus Geraldo Meloni FEEC UNICAMP
Prof. Dr. Lee Luan Ling FEEC UNICAMP
Tese apresentada Faculdade de Engenharia
Eltrica e de Computao da Universidade
Estadual de Campinas como requisito parcial paraa obteno do ttulo de Doutor em Engenharia
Eltrica.
Campinas, maio de 1999
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
2/152
FICHA CATALOGRFICA ELABORADA PELABIBLIOTECA DA REA DE ENGENHARIA - BAE - UNICAMP
Y69rYnoguti, Carlos Alberto
Reconhecimento de fala contnua usando modelosocultos de Markov. / Carlos Alberto Ynoguti.--Campinas, SP: [s.n.], 1999.
Orientador: Fbio Violaro.Tese (doutorado) - Universidade Estadual de
Campinas, Faculdade de Engenharia Eltrica e deComputao.
1. Markov, Processos de. 2. Reconhecimento
automtico da voz. 3. Processamento de sinais Tcnicasdigitais. I. Violaro, Fbio. II. Universidade Estadual deCampinas. Faculdade de Engenharia Eltrica e deComputao. III. Ttulo.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
3/152
Resumo
Nos sistemas que constituem o estado da arte na rea de reconhecimento de fala
predominam os modelos estatsticos, notadamente aqueles baseados em Modelos
Ocultos de Markov (Hidden Markov Models, HMM). Os HMMs so estruturas
poderosas pois so capazes de modelar ao mesmo tempo as variabilidades acsticas e
temporais do sinal de voz.
Mtodos estatsticos so extremamente vorazes quando se trata de dados de
treinamento. Deste modo, nos sistemas de reconhecimento de fala contnua e
vocabulrio extenso, as palavras so geralmente modeladas a partir da concatenao de
sub-unidades fonticas, pois o nmero destas bem menor do que o de palavras, e em
uma locuo geralmente existem vrios exemplos de sub-unidades fonticas.
O reconhecimento de fala contnua difere do de palavras isoladas, pois neste o
locutor no precisa fazer pausas entre as palavras. Deste modo, a determinao das
fronteiras entre as palavras e do nmero destas na locuo deve ser feita pelo sistema de
reconhecimento. Para isto so utilizados os algoritmos de busca, que podem ter ainda
modelos de durao e de linguagem incorporados.O objetivo deste trabalho estudar o problema de reconhecimento de fala
contnua, com independncia de locutor e vocabulrio mdio (aproximadamente 700
palavras) utilizando HMMs. investigada a influncia de alguns conjuntos de sub-
unidades fonticas, e dos modelos de durao e de linguagem no desempenho do
sistema. Tambm so propostos alguns mtodos de reduo do tempo de processamento
para os algoritmos de busca.
Para a avaliao do sistema foi confeccionada uma base de dados formada de 200
frases foneticamente balanceadas, com gravaes de 40 locutores adultos, sendo 20 de
cada sexo
Palavras chave: Modelos Ocultos de Markov, reconhecimento de fala contnua,
processamento digital de sinais.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
4/152
Abstract
In the field of continuous speech recognition, current state of art systems make
use of statistical methods, mainly those based on Hidden Markov Models (HMM).
HMM are powerful due to their ability to model both the acoustic and temporal features
of speech signals.
Statistical methods require lots of training samples. For this reason, large
vocabulary, continuous speech recognition systems use word models composed by
concatenating subunit models. In this approach there are much fewer subunits than
words, and many samples of them in a single utterance.
The main difference between continuous speech recognition and isolated words
speech recognition is basically in the way that users interact with the system. In isolated
words speech recognition, the user needs to make short pauses between words, which is
not required for continuous speech recognition systems. The determination of word
boundaries, and consequently the number of words in the utterance, take a part of the
recognition process in continuous speech recognition systems. For this task searching
algorithms are used, and they can also incorporate word duration and language models.The purpose of this work is to study the problem of speaker independent,
medium-size vocabulary (about 700 words), continuous speech recognition using
HMMs. The influence of some different subunit sets, word duration model and
language model in the overall system performance are investigated. We also propose
some methods to alleviate the computational burden in the searching procedure.
To perform system evaluation a multispeaker database (20 male and 20 female)
composed of 200 phonetically balanced sentences was created.
Keywords: Hidden Markov Models, continuous speech recognition, digital signal
processing.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
5/152
A meus pais Mituyosi (in memoriam) e Clara
e a meus irmos Srgio e Cristiane.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
6/152
Agradecimentos
Ao Prof. Dr. Fbio Violaro pela acolhida e apoio durante os primeiros tempos em
uma nova cidade, pela orientao do trabalho, e pelas inmeras discusses e idias.
Aos Profs. Drs. Jos Carlos Pereira e Marcelo Baslio Joaquim pelo apoio e
grande ajuda.
Adriana por seu carinho, pacincia e compreenso nos dias difceis.
Aos colegas do LPDF, Henrique, Fernando, Cairo, Edmilson, Fabrcio, Antnio
Marcos, Raquel, Irene, Flvio, e Lo pela grande ajuda e por proporcionarem um
ambiente de trabalho alegre e descontrado.
Aos colegas e amigos Marcelo, Ricardo, Fbio, Alexandre e Richard pelo apoio e
compreenso.
Aos professores e funcionrios da FEEC.
s pessoas que emprestaram suas vozes na confeco da base de dados.
Ao CNPq, pela concesso da bolsa, ao FAEP da UNICAMP pela prorrogao de
bolsa concedida, e FAPESP (processo 97/02740-7) pelo auxlio pesquisa.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
7/152
ndice
Lista de figuras i
Lista de Tabelas iii
1. INTRODUO. 1
1.1. APLICAES . 2
1.1.1. SISTEMAS DE DITADO DE VOCABULRIO EXTENSO . 2
1.1.2. INTERFACE PARA COMPUTADORES PESSOAIS. 3
1.1.3. SISTEMAS BASEADOS NA REDE TELEFNICA. 4
1.1.4. APLICAES INDUSTRIAIS E SISTEMAS INTEGRADOS. 5
1.2. OBJETIVOS E CONTRIBUIES DO TRABALHO. 6
1.3. CONTEDO DA TESE. 6
2. O PROBLEMA DO RECONHECIMENTO DE FALA. 8
2.1. ARQUITETURAS PARA RECONHECIMENTO DE FALA. 11
2.2. UNIDADES FUNDAMENTAIS . 11
2.3. MODELOS OCULTOS DE MARKOV (HMMS). 13
2.4. MODELO DE DURAO DE PALAVRAS . 14
2.5. ALGORITMOS DE DECODIFICAO. 14
2.6. MODELOS DE LINGUAGEM. 15
2.6.1. MODELOS DE LINGUAGEM N-GRAM . 16
2.6.2. PERPLEXIDADE. 18
2.7. ESTADO DA ARTE. 21
3. BASE DE DADOS. 24
3.1. INTRODUO. 24
3.2. ENCAMINHAMENTOS FUTUROS. 26
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
8/152
3.3. PROJETO E CONFECO DA BASE DE DADOS . 27
3.3.1. ESCOLHA DAS FRASES. 27
3.3.2. LOCUTORES. 28
3.3.3. GRAVAES. 28
3.3.4. TRANSCRIO FONTICA . 29
4. MODELOS OCULTOS DE MARKOV. 32
4.1. ESTRUTURA DE UM HMM. 33
4.2. TIPOS DE HMMS . 35
4.3. TREINAMENTO DOSHMMS. 36
4.4. RECONHECIMENTO DE FALA UTILIZANDO HMMS. 37
4.4.1. VITERBI BEAM SEARCH. 40
5. ALGORITMOS DE BUSCA. 42
5.1. INTRODUO. 42
5.2. RECONHECIMENTO DE FALA CONTNUA VIA DECODIFICAO DE REDE FINITA DE
ESTADOS . 43
5.3. DEFINIO DO PROBLEMA. 455.3.1. LEVEL BUILDING. 46
5.3.2. ONE STEP. 49
5.4. INCLUSO DO MODELO DE DURAO DE PALAVRAS . 53
5.5. INCLUSO DO MODELO DE LINGUAGEM. 55
6. SISTEMA DESENVOLVIDO. 57
6.1. MDULO DE EXTRAO DE PARMETROS E QUANTIZAO VETORIAL. 586.1.1. EXTRAO DE PARMETROS. 59
6.1.2. QUANTIZADOR VETORIAL. 61
6.2. MDULO DE TREINAMENTO . 62
6.2.1. PROGRAMA DE TREINAMENTO DAS SUB-UNIDADES. 62
6.2.2. DETECO DOS TRIFONES. 67
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
9/152
6.2.3. DELETED INTERPOLATION [15]. 71
6.3. MDULO DE GERAO DO MODELO DE LINGUAGEM . 74
6.4. MDULO DE RECONHECIMENTO. 75
6.4.1. CONSTRUO DO VOCABULRIO DE RECONHECIMENTO . 76
6.4.2. DETECO AUTOMTICA DO NMERO DE NVEIS PARA O ALGORITMO LEVEL
BUILDING. 78
7. TESTES E ANLISE DOS RESULTADOS. 82
7.1. INTRODUO. 82
7.2. DETERMINAO DO CONJUNTO DE SUB-UNIDADES FONTICAS . 83
7.3. DEFINIO DOS SUBCONJUNTOS DE TESTE E TREINAMENTO. 85
7.4. TESTES COM FONES INDEPENDENTES DE CONTEXTO 87
7.5. TESTES COM TRIFONES . 88
7.5.1. TRIFONES BASEADOS NAS CLASSES FONTICAS. 88
7.5.2. TRIFONES BASEADOS NA CONFIGURAO DO TRATO VOCAL. 89
7.6. AVALIAO DOS PROCEDIMENTOS PARA DIMINUIO DO TEMPO DE
PROCESSAMENTO . 90
7.6.1. LEVEL BUILDING. 90
7.6.2. ONE STEP. 91
7.7. VERIFICAO DA INFLUNCIA DA TRANSCRIO FONTICA DAS LOCUES DE
TREINAMENTO NO DESEMPENHO DO SISTEMA. 92
7.8. INFLUNCIA DO NMERO DE VERSES DE CADA PALAVRA NO ARQUIVO DE
VOCABULRIO . 93
7.9. ESTABELECIMENTO DO DESEMPENHO FINAL DO SISTEMA. 95
7.10. ANLISE DOS RESULTADOS . 96
7.10.1. DESEMPENHO DO SISTEMA UTILIZANDO FONES INDEPENDENTES DE CONTEXTO E
INFLUNCIA DO MODO DE OPERAO NA TAXA DE ACERTOS DE PALAVRA. 97
7.10.2. INFLUNCIA DOS FONES DEPENDENTES DE CONTEXTO NO DESEMPENHO DO
SISTEMA. 100
7.10.3. INFLUNCIA DOS PROCEDIMENTOS DE DIMINUIO DOS CLCULOS NECESSRIOS
NA ETAPA DE BUSCA NO TEMPO DE RECONHECIMENTO 103
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
10/152
7.10.4. INFLUNCIA DA TRANSCRIO FONTICA DAS FRASES DE TREINAMENTO NO
DESEMPENHO DO SISTEMA. 104
7.10.5. INFLUNCIA DO NMERO DE VERSES DE CADA PALAVRA NO ARQUIVO DE
VOCABULRIO. 105
7.10.6. DESEMPENHO FINAL DO SISTEMA. 106
8. CONCLUSES. 107
9. BIBLIOGRAFIA. 112
APNDICE A. LISTAS DE FRASES UTILIZADAS NESTE TRABALHO .
APNDICE B. RESUMO INFORMATIVO DOS LOCUTORES DA BASE DE DADOS .
APNDICE C. DICIONRIO DE PRONNCIAS E DADOS DO MODELO DE DURAO.
APNDICE D. ALGUMAS FRASES RECONHECIDAS .
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
11/152
Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov i
_______________________________________________________________________
LISTA DE FIGURAS
FIGURA
1: HISTOGRAMA COMPARATIVO DA OCORRNCIA DE FONES NOS TRABALHOS
ATUAL A) E OS REALIZADOS EM [1] B).___________________________________31
FIGURA 2: MODELO DE BAKIS PARA UM HMM LEFT-RIGHT DE 5 ESTADOS ___________33
FIGURA 3: FORMAS DE MOORE A) E MEALY B) PARA UM HMM COM 3 ESTADOS.______34
FIGURA 4: EXEMPLO DE FUNCIONAMENTO DO ALGORITMO DE VITERBI. _____________39
FIGURA 5: EXEMPLO DE FUNCIONAMENTO DO ALGORITMO LEVEL BUILDING. _________48
FIGURA 6: ILUSTRAO DO FUNCIONAMENTO DO ALGORITMO DE VITERBI NA
IMPLEMENTAO DO ALGORITMO ONESTEP. ______________________________51
FIGURA 7: DIAGRAMA DE BLOCOS DO MDULO DE EXTRAO DE PARMETROS E
QUANTIZAO VETORIAL. ____________________________________________58
FIGURA 8: DIAGRAMA DE BLOCOS DO PROCESSO DE EXTRAO DOS PARMETROS MEL-
CEPSTRAIS COM REMOO DA MDIA ESPECTRAL. __________________________60
FIGURA 9: ESQUEMA DE FUNCIONAMENTO DO PROGRAMA DE TREINAMENTO DAS SUB-
UNIDADES COM INDICAO DAS INFORMAES A SEREM FORNECIDAS AO SISTEMA. 63
FIGURA 10: MODELO HMM UTILIZADO PARA CADA UMA DAS SUB-UNIDADES FONTICAS.
A PROBABILIDADE DE TRANSIO AKL INDICA A PROBABILIDADE DE FAZER UMATRANSIO PARA A SUB-UNIDADE SEGUINTE.______________________________64
FIGURA 11: VALORES INICIAIS PARA AS PROBABILIDADES DE TRANSIO DOS MODELOS
DOS FONES PARA INICIALIZAO COM DISTRIBUIO UNIFORME._______________64
FIGURA 12: DIAGRAMA DE BLOCOS PARA O PROGRAMA DE DETEO DE TRIFONES. ____68
FIGURA 13: DELETED INTERPOLATION. _______________________________________73
FIGURA 14: DIAGRAMA DE BLOCOS DO MDULO DE RECONHECIMENTO. _____________75
FIGURA 15: EXEMPLO DE ARQUIVO DE VOCABULRIO ___________________________78
FIGURA 16: VARIAO DE ( )|OP COM O NMERO DE NVEIS PARA UMA LOCUO DE
QUATRO PALAVRAS. VERIFICA-SE UM COMPORTAMENTO MONOTNICO DE
CRESCIMENTO E DECAIMENTO NOS VALORES DA LOG-VEROSSIMILHANA COM O
NMERO DE NVEIS. _________________________________________________80
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
12/152
ii Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov
FIGURA 17: VARIAO DE ( )|OP COM O NMERO DE NVEIS PARA UMA LOCUO DE
OITO PALAVRAS. VERIFICA-SE UM COMPORTAMENTO NO MONOTNICO DE
CRESCIMENTO E DECAIMENTO NOS VALORES DA LOG-VEROSSIMILHANA COM ONMERO DE NVEIS. _________________________________________________80
FIGURA 18: DIVISO DOS LOCUTORES EM CONJUNTOS DE TREINAMENTO E TESTE. _____86
FIGURA 19: NMERO DE ERROS COMETIDOS PELO SISTEMA PARA CADA LOCUTOR, PARA OS
TESTES COM INDEPENDNCIA DE LOCUTOR. _______________________________98
FIGURA 20: NMERO DE ERROS COMETIDOS PELO SISTEMA PARA CADA LOCUTOR, PARA OS
TESTES COM DEPENDNCIA DE SEXO. A) LOCUTORES FEMININOS E B) LOCUTORES
MASCULINOS. ______________________________________________________98
FIGURA 21: NMERO DE ERROS PARA CADA SUBCONJUNTO DE FRASES NOS TESTES COM
DEPENDNCIA DE LOCUTOR. ___________________________________________99
FIGURA 22: NMERO DE EXEMPLOS DE TREINAMENTO PARA OS TRIFONES. OS GRFICOS DA
COLUNA DA ESQUERDA REFEREM-SE AOS TRIFONES GERADOS ATRAVS DAS CLASSES
FONTICAS, E OS DA DIREITA, AOS TRIFONES GERADOS A PARTIR DA CONFIGURAO
DO TRATO VOCAL. _________________________________________________102
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
13/152
Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov iii
_______________________________________________________________________
LISTA DE TABELAS
TABELA
1: PARMETROS TPICOS USADOS PARA CARACTERIZAR A CAPACIDADE DE
SISTEMAS DE RECONHECIMENTO DE FALA. _________________________________8
TABELA 2: PERPLEXIDADES TPICAS PARA VRIOS DOMNIOS._____________________21
TABELA 3: SUB-UNIDADES ACSTICAS UTILIZADAS NA TRANSCRIO FONTICA DAS
LOCUES, COM EXEMPLOS E FREQUNCIAS RELATIVAS DE OCORRNCIA, SEGUNDO
ALCAIM ET. AL. [1] E AQUELAS ENCONTRADAS NA TRANSCRIO FONTICA DA BASE
DE DADOS COLETADA. TAMBM SO LISTADOS OS NMEROS DE OCORRNCIAS
OBSERVADOS PARA CADA SUB-UNIDADE. _________________________________30
TABELA 4: CLASSES FONTICAS COM SEUS RESPECTIVOS FONES.___________________69
TABELA 5: CLASSES FONTICAS BASEADAS NA POSIO DO TRATO VOCAL E SEUS
RESPECTIVOS FONES. ________________________________________________71
TABELA 6: LISTA DOS FONES PRESENTES NO PORTUGUS FALADO NO BRASIL. ________84
TABELA 7: RESULTADOS DOS TESTES REALIZADOS PARA FUSO DE FONES INDEPENDENTES
DE CONTEXTO. _____________________________________________________85
TABELA 8: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM FONES INDEPENDENTES
DE CONTEXTO______________________________________________________87TABELA 9: NMERO DE TRIFONES BASEADOS NAS CLASSES FONTICAS GERADOS A PARTIR
DO SUBCONJUNTO DE LOCUES DE TREINAMENTO._________________________89
TABELA 10: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM TRIFONES BASEADOS
NAS CLASSES FONTICAS. _____________________________________________89
TABELA 11: NMERO DE TRIFONES BASEADOS NA CONFIGURAO DO TRATO VOCAL
GERADOS A PARTIR DO SUBCONJUNTO DE LOCUES DE TREINAMENTO. _________89
TABELA 12: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM TRIFONES BASEADOS
NA CONFIGURAO DO TRATO VOCAL.___________________________________90
TABELA 13: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE
PALAVRA PARA O PROCEDIMENTO DE DETECO AUTOMTICA DO NMERO DE NVEIS
BASEADO NA DERIVADA DA CURVA DE EVOLUO DA LOG-VEROSSIMILHANA COM O
NMERO DE NVEIS. _________________________________________________91
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
14/152
iv Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov
TABELA 14: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE
PALAVRA PARA O PROCEDIMENTO DE DETECO AUTOMTICA DO NMERO DE NVEIS
DE ACORDO COM A CONTAGEM DO NMERO DE NVEIS EM QUE A VEROSSIMILHANA
CAI.______________________________________________________________91
TABELA 15: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE
PALAVRA PARA VRIOS VALORES DO LIMIAR DE PODA NO ALGORITMO VITERBI BEAM
SEARCH. __________________________________________________________92
TABELA 16: DESEMPENHO DO SISTEMA EM FUNO DAS TRANSCRIES FONTICAS DAS
LOCUES DE TREINAMENTO.__________________________________________93
TABELA 17: RESULTADOS DOS TESTES COM VOCABULRIO SIMPLIFICADO (APENAS 1
VERSO DE CADA PALAVRA), UTILIZANDO FONES INDEPENDENTES DE CONTEXTO. _94
TABELA 18: RESULTADOS DOS TESTES COM VOCABULRIO SIMPLIFICADO (APENAS 1
VERSO DE CADA PALAVRA), UTILIZANDO TRIFONES BASEADOS NA CONFIGURAO
DO TRATO VOCAL. __________________________________________________95
TABELA 19: TEMPO MDIO DE RECONHECIMENTO PARA OS TESTES COM OS DOIS ARQUIVOS
DE VOCABULRIO. __________________________________________________95
TABELA 20: RESULTADOS DOS TESTES DE AVALIAO DO DESEMPENHO FINAL DO
SISTEMA. _________________________________________________________96TABELA 21: QUADRO COMPARATIVO DO DESEMPENHO DO SISTEMA NOS TESTES INCIAIS E
NOS TESTES FINAIS._________________________________________________106
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
15/152
Introduo. 1
1.Introduo.
As interfaces via voz esto rapidamente se tornando uma necessidade. Em um
futuro prximo, sistemas interativos iro fornecer fcil acesso a milhares de informaes
e servios que iro afetar de forma profunda a vida cotidiana das pessoas. Hoje em dia,
tais sistemas esto limitados a pessoas que tenham acesso aos computadores, uma parte
relativamente pequena da populao, mesmo nos pases mais desenvolvidos. So
necessrios avanos na tecnologia de linguagem humana para que o cidado mdio
possa acessar estes sistemas, usando habilidades de comunicao naturais e empregando
aparelhos domsticos, tais como o telefone.
Sem avanos fundamentais em interfaces voltadas ao usurio, uma larga frao
da sociedade ser impedida de participar da era da informao, resultando em uma maiorextratificao da sociedade, agravando ainda mais o panorama social dos dias de hoje.
Uma interface via voz, na linguagem do usurio, seria ideal pois a mais natural,
flexvel, eficiente, e econmica forma de comunicao humana.
Depois de vrios anos de pesquisa, a tecnologia de reconhecimento de fala est
passando o limiar da praticabilidade. A ltima dcada testemunhou um progresso
assombroso na tecnologia de reconhecimento de fala, no sentido de que esto se
tornando disponveis algoritmos e sistemas de alto desempenho. Em muitos casos, a
transio de prottipos de laboratrio para sistemas comerciais j se iniciou.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
16/152
2 Introduo.
1.1. Aplicaes.
Algumas das principais reas de aplicao comercial para os sistemas de
reconhecimento automtico de fala so: ditado, interfaces para computadores pessoais,
servios de telefonia automticos e aplicaes industriais especiais [42]. A principal
razo para o sucesso comercial tem sido o aumento na produtividade proporcionado por
estes sistemas que auxiliam ou substituem operadores humanos.
1.1.1. Sistemas de ditado de vocabulrio extenso.
Os sistemas de ditado de vocabulrio extenso podem ser de dois tipos: ditado
irrestrito (por exemplo cartas de negcios ou artigos de jornais) e gerao de
documentos estruturados (por exemplo, receitas mdicas, aplices de seguro, relatrios
radiolgicos, etc). Tais sistemas podem ser dependentes do locutor ou adaptativos desde
que se espera que geralmente um nico usurio ir utiliz-lo por um perodo extenso de
tempo.At bem pouco tempo atrs, os sistemas de palavras isoladas predominaram no
mercado. Agora, sistemas de reconhecimento de fala contnua comeam a aparecer. Os
vocabulrios so de aproximadamente 60000 palavras. Estes sistemas so projetados
para operar em condies favorveis (por exemplo, em escritrios, com microfones fixos
na cabea do operador e com cancelamento de rudo).
Para aumentar a taxa de acertos, os sistemas de ditado irrestrito contam com
modelos de linguagem estatsticos para favorecer palavras ou sequncias de palavras
mais frequentes. Os sistemas de domnio especfico podem aumentar o seu desempenho
incorporando um padro de documento estruturado para gerar um relatrio completo,
embora muitas vezes isto exija um processo de planejamento bastante laborioso.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
17/152
Introduo. 3
Um sistema de ditado torna-se mais poderoso se possui a habilidade de se adaptar
voz de um determinado usurio (adaptao ao locutor), vocabulrio (aprendizado de
novas palavras), e tarefas (adaptao do modelo de linguagem).
1.1.2. Interface para computadores pessoais.
A fala tende a se tornar uma componente importante na interface com os
computadores. Algumas das possveis aplicaes poderiam ser:
Fala como atalho: ao invs de abrir um arquivo atravs de vrios nveis de
hierarquia, o usurio apenas diz Abra o estoque.
Recuperao de informao: interfaces grficas so inconvenientes para especificar
recuperao de informaes baseada em restries (encontre todos os documentos
de Fbio criados depois de maro)
Computadores de bolso: medida em que o tamanho dos computadores diminui
(hoje existem palm-tops minsculos), teclados e mouses tornam-se cada vez mais
difceis de usar, tornando a fala uma alternativa bastante atraente.
Embora o reconhecimento de fala em computadores seja uma alternativa bastante
atraente, as interfaces atuais, teclado e mouse, representam uma alternativa madura e
extremamente eficiente. improvvel que a fala possa substituir completamente estes
dispositivos. Ao invs disso, a nova interface deve combinar estes dispositivos e permitir
que o usurio defina qual combinao de dispositivos a mais adequada para
determinada tarefa.
O uso apropriado da fala nos computadores pessoais ir provavelmente requerer
o desenvolvimento de um novo conceito de interao com o usurio ao invs de
simplesmente modificar as interfaces grficas existentes.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
18/152
4 Introduo.
Uma questo social tambm est envolvida neste tipo de interface: a dos
deficientes fsicos. Com interfaces via voz, pessoas que no tm acesso ao computador
por causa de suas deficincias, poderiam utiliz-lo normalmente, permitindo umingresso ao mercado de trabalho e uma competio em p de igualdade com as outras
pessoas.
1.1.3. Sistemas baseados na rede telefnica.
O reconhecimento de fala baseado na rede telefnica oferece um potencial
enorme por ser um meio de comunicao extremamente difundido. tambm a rea
tecnicamente mais difcil para o reconhecimento devido impossibilidade de controle
sobre as condies de uso.
Os problemas envolvem uma grande e imprevisvel populao de usurios,
diferenas nos microfones dos aparelhos, a presena de rudo de canal e banda estreita.
Os sistemas mais bem sucedidos so os que se limitam a vocabulrios
extremamente pequenos, da ordem de 10 a 20 palavras. Para que um sistema seja til
no necessrio um vocabulrio muito grande; alguns sistemas tem um vocabulrio deapenas duas palavras (sim e no).
Alm do pouco controle sobre a qualidade do sinal, o reconhecimento atravs da
linha telefnica apresenta problemas devido expectativa dos usurios que o sistema se
comporte como um interlocutor humano. Dois exemplos clssicos seriam:
usurio fala enquanto o sistema ainda est formulando as questes (intromisso), de
modo que na hora em que o sistema entra em modo de gravao para coletar a
resposta, o usurio j est no meio da resposta ou j terminou de falar
usurio adiciona palavras resposta, que no esto no vocabulrio do sistema (sim,
por favor). Neste caso podem ser usadas tcnicas de identificao de palavras para
conseguir taxas de reconhecimento aceitveis .
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
19/152
Introduo. 5
Estes servios de operao envolvem vocabulrios pequenos, dilogo interativo e
avisos. As possveis aplicaes seriam: validao de cartes de crdito, compras por
catlogo, reservas para hotis, restaurantes, teatros, passagens areas, consultas atelefones e endereos, etc.
1.1.4. Aplicaes industriais e sistemas integrados.
Os sistemas de reconhecimento de fala tambm podem ser utilizados em
aplicaes mais simples de vocabulrio restrito, como o controle de mquinas e
dispositivos, abertura e fechamento de portas e vlvulas, acendimento de luzes,
operaes financeiras e outros.
Para muitas aplicaes o reconhecimento dependente de locutor suficiente,
desde que um dispositivo particular ser utilizado por uma nica pessoa durante um
perodo de tempo relativamente extenso, por exemplo um turno de trabalho. Por outro
lado, seria conveniente para algumas aplicaes que o sistema pudesse fazer
reconhecimento de palavras conectadas, uma vez que uma entrada por palavras isoladas
pode ser muito lenta e desconfortvel.Dispositivos de reconhecimento de fala podem ser tambm utilizados como parte
de simuladores, permitindo que um sistema automtico substitua um treinador humano.
Outra aplicao possvel a de sistemas de inspeo mvel e controle de inventrio, por
exemplo no caso de atividades envolvendo microscopia e trabalho em quartos escuros de
fotografia. A cada dia mais comum ver aparelhos de telefonia celular com discagem
por voz (Ligue-me com o Fbio).
Estes exemplos significam uma nova era na interao homem-mquina, onde
cada vez mais a tecnologia procura criar interfaces que sejam mais naturais ao homem.
Com o amadurecimento da tecnologia de reconhecimento de fala, ser possvel fazer
com que todos estes servios sejam oferecidos de forma segura e eficiente.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
20/152
6 Introduo.
1.2. Objetivos e contribuies do Trabalho.
Dentre as vrias aplicaes citadas para os sistemas de reconhecimento de fala,
este trabalho focalizou o problema de reconhecimento de fala contnua, com
independncia de locutor e vocabulrio mdio, sendo um caso tpico o de editor de texto
comandado por voz.
Alm do desenvolvimento de um sistema completo para treinamento e
reconhecimento, foram estudadas todas as etapas envolvidas no processo, desde o
planejamento, gravao e transcrio fontica da base de dados utilizada at a
implementao final do sistema.
Tambm houve a preocupao de se criar um sistema que pudesse ser utilizado
por outros pesquisadores, tendo uma interface visual bastante intuitiva e documentao
bastante cuidadosa, com o intuito de diminuir o tempo de desenvolvimento e facilitar as
pesquisas futuras.
Como contribuies principais deste trabalho pode-se citar a proposta de um
conjunto de fones dependentes de contexto consistente e razoavelmente menor do que os
trifones propriamente ditos, e a verificao da influncia da transcrio fontica daslocues de treinamento no desempenho do sistema. O estudo de todas as etapas do
desenvolvimento de um sistema de reconhecimento tambm proporcionou uma viso
bastante ampla e clara dos problemas envolvidos, e serviu para um melhor
direcionamento das linhas de pesquisa.
1.3. Contedo da Tese.
A tese est organizada da seguinte maneira. No Captulo 2 feito um
levantamento dos principais problemas observados na tarefa de reconhecimento de fala,
com nfase especial no problema de reconhecimento de fala contnua; tambm
apresentada uma viso geral do estado da arte atual para os sistemas de reconhecimento
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
21/152
Introduo. 7
de fala em vrias aplicaes. O Captulo 3 discute a questo das bases de dados: como
so feitas, como deveriam ser feitas, as dificuldades de confeco, e finalmente os
trabalhos realizados para a confeco da base de dados utilizada neste trabalho. NoCaptulo 4 apresentada a teoria sobre modelos ocultos de Markov. O Captulo 5 trata
dos algoritmos de busca com nfase para o Level Building e o One Step. O sistema
desenvolvido neste trabalho descrito no Captulo 6, e os testes e resultados obtidos so
apresentados no Captulo 7. Finalmente, no Captulo 8 so feitas as anlises sobre os
resultados e tiradas concluses a partir destas. Tambm so feitas sugestes para a
continuao das pesquisas a partir das deficincias observadas.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
22/152
8 O problema do reconhecimento de fala.
2.O problema do reconhecimento de fala.
O reconhecimento de fala consiste em mapear um sinal acstico, capturado por
um transdutor (usualmente um microfone ou um telefone) em um conjunto de palavras.
Os sistemas de reconhecimento de fala podem ser caracterizados por vrios
parmetros sendo que alguns dos mais importantes se encontram resumidos na Tabela
1[13].
Tabela 1: Parmetros tpicos usados para caracterizar a capacidade de sistemas dereconhecimento de fala.
Parmetros FaixaModo de Pronncia De palavras isoladas a fala contnua
Estilo de pronncia De leitura a fala espontneaTreinamento De dependente de locutor a independente de locutorVocabulrio De pequeno (< 20 palavras) a grande (> 20000 palavras)Modelo de linguagem De estados finitos a sensvel a contextoPerplexidade De pequena (< 10) a grande (> 100)SNR De alta (> 30 dB) a baixa (< 10 dB)Transdutor De microfone com cancelamento de rudo a telefone
Um sistema de reconhecimento de palavras isoladas requer que o locutor efetue
uma pequena pausa entre as palavras, enquanto que um sistema de reconhecimento de
fala contnua no apresenta este inconveniente.A fala quando gerada de modo espontneo mais relaxada, contm mais
coarticulaes, e portanto muito mais difcil de reconhecer do que quando gerada
atravs de leitura.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
23/152
O problema do reconhecimento de fala. 9
Os sistemas dependentes de locutor necessitam de uma fase de treinamento para
cada usurio antes de serem utilizados, o que no acontece com sistemas independentes
do locutor, desde que estes j foram previamente treinados com vrios locutores.O reconhecimento torna-se mais difcil medida em que o vocabulrio cresce, ou
apresenta palavras parecidas.
Quando a fala produzida em sequncias de palavras, so usados modelos de
linguagem para restringir as possibilidades de sequncias de palavras. O modelo mais
simples pode ser definido como uma mquina de estados finita, onde so explicitadas as
palavras que podem seguir uma dada palavra. Os modelos de linguagem mais gerais, que
aproximam-se da linguagem natural, so definidos em termos de gramticas sensveis a
contexto.
Uma medida popular da dificuldade da tarefa, que combina o tamanho do
vocabulrio e o modelo de linguagem, a perplexidade, grosseiramente definida como a
mdia do nmero de palavras que pode seguir uma palavra depois que o modelo de
linguagem foi aplicado.
Existem tambm parmetros externos que podem afetar o desempenho de um
sistema de reconhecimento de fala, incluindo as caractersticas do rudo ambiente e o
tipo e posio do microfone.
O reconhecimento de fala um problema difcil devido s vrias fontes de
variabilidade associadas ao sinal de voz [13]:
variabilidades fonticas : as realizaes acsticas dos fonemas, a menor unidade
sonora das quais as palavras so compostas, so altamente dependentes do contexto
em que aparecem [1]. Por exemplo o fonema /t/ em tatu tem uma articulaopuramente oclusiva, e em tia, dependendo do locutor, pode ter uma articulao
africada, onde ocluso se segue um rudo fricativo semelhante ao do incio da
palavra chuva. Alm disso, nas fronteiras entre palavras, as variaes contextuais
podem tornar-se bem mais acentuadas fazendo, por exemplo, com que a frase a
justia ... seja pronunciada como ajustic...
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
24/152
10 O problema do reconhecimento de fala.
variabilidades acsticas:podem resultar de mudanas no ambiente assim como da
posio e caractersticas do transdutor.
variabilidades intra-locutor: podem resultar de mudanas do estado fsico/emocionaldos locutores, velocidade de pronncia ou qualidade de voz.
variabilidades entre-locutores: originam-se das diferenas na condio scio -
cultural, dialeto, tamanho e forma do trato vocal para cada uma das pessoas.
Os sistemas de reconhecimento tentam modelar as fontes de variabilidade
descritas acima de vrias maneiras:
Em termos fontico acsticos, a variabilidade dos locutores tipicamente modelada
usando tcnicas estatsticas aplicadas a grandes quantidades de dados de
treinamento. Tambm tm sido desenvolvidos algoritmos de adaptao ao locutor
que adaptam modelos acsticos independentes do locutor para os do locutor corrente
durante o uso [47][55].
As variaes acsticas so tratadas com o uso de adaptao dinmica de parmetros
[47], uso de mltiplos microfones [48] e processamento de sinal [13].
Na parametrizao dos sinais, os pesquisadores desenvolveram representaes que
enfatizam caractersticas independentes do locutor, e desprezam caractersticas
dependentes do locutor [14][18].
Os efeitos do contexto lingustico em termos fontico-acsticos so tipicamente
resolvidos treinando modelos fonticos separados para fonemas em diferentes
contextos; isto chamado de modelamento acstico dependente de contexto [30].
O problema da diferena de pronncias das palavras pode ser tratado permitindo
pronncias alternativas de palavras em representaes conhecidas como redes de
pronncia. As pronncias alternativas mais comuns de cada palavra, assim como os
efeitos de dialeto e sotaque so tratados ao se permitir aos algoritmos de busca
encontrarem caminhos alternativos de fonemas atravs destas redes. Modelos
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
25/152
O problema do reconhecimento de fala. 11
estatsticos de linguagem, baseados na estimativa de ocorrncia de sequncias de
palavras, so geralmente utilizados para guiar a busca atravs da sequncia de
palavras mais provvel [13].Outro problema encontrado na tarefa de reconhecimento de fala contnua o
procedimento de decodificao da locuo. Este, em sistemas de reconhecimento de fala
contnua com vocabulrio extenso, tem um custo computacional elevadssimo, fazendo
com que seja necessrio buscar maneiras inteligentes de guiar o processo de busca. Este
tpico ser abordado com mais detalhes na seo seguinte.
2.1. Arquiteturas para reconhecimento de fala.
Atualmente, os algoritmos mais populares na rea de reconhecimento de fala
baseiam-se em mtodos estatsticos. Dentre estes, dois mtodos tm se destacado: as
redes neurais artificiais (Artificial Neural Networks, ANN) [49][54] e os modelos
ocultos de Markov (Hidden Markov Models, HMM) [5][3][29][40]. Mais recentemente,
implementaes hbridas que tentam utilizar as caractersticas mais favorveis de cada
um destes mtodos tambm tm obtido bons resultados [45].
2.2. Unidades fundamentais.
Em sistemas de vocabulrio pequeno (algumas dezenas de palavras), comum
utilizar-se as palavras como unidades fundamentais. Para um treinamento adequado
destes sistemas, deve-se ter um grande nmero de exemplos de cada palavra. Entretanto,
para sistemas com vocabulrios maiores, a disponibilidade de um grande nmero de
exemplos de cada palavra torna-se invivel. A utilizao de sub-unidades fonticas, tais
como fonemas, slabas, demisslabas, etc, uma alternativa bastante razovel, pois agora
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
26/152
12 O problema do reconhecimento de fala.
necessrio ter vrios exemplos de cada sub-unidade, e no vrios exemplos de cada
palavra.
Dois critrios bastante importantes para uma boa escolha de sub-unidades so[30]:
consistncia: exemplos diferentes de uma unidade devem ter caractersticas
similares.
treinabilidade: devem existir exemplos de treinamento suficientes de cada sub-
unidade para criar um modelo robusto.
Sub-unidades maiores tais como slabas, demissslabas, difones, etc, so
consistentes, mas difceis de treinar, enquanto que unidades menores, tais como os
fones, so treinveis, mas inconsistentes.
Uma alternativa que mostrou ser bastante atrativa a de fones dependentes de
contexto [46]. Estas unidades so bastante consistentes, pois levam em considerao o
efeito de coarticulao com os fones vizinhos.
Os fones dependentes de contexto, como o nome sugere, modelam o fone em seu
contexto. Um contexto geralmente refere-se ao fones imediatamente vizinhos direita e
esquerda. Um fone dependente do contexto esquerda aquele modificado pelo fone
imediatamente anterior, enquanto que um fone dependente do contexto direita aquele
modificado pelo fone imediatamente posterior.
O modelo trifone leva em considerao tanto o contexto esquerda como o
contexto direita; deste modo, se dois fones tm a mesma identidade mas contextos
esquerda e/ou direita diferentes, ento so considerados trifones distintos.
Estes modelos so em geral insuficientemente treinados devido sua grande
quantidade. Entretanto, como os modelos de trifones so modelos de fones especficos,
podem ser interpolados com modelos de fones independentes de contexto, fones
dependentes de contexto esquerda, e fones dependentes de contexto direita, que so
modelos menos consistentes, mas melhor treinados.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
27/152
O problema do reconhecimento de fala. 13
2.3. Modelos Ocultos de Markov (HMMs).
A histria dos HMMs precede seu uso no processamento de voz e somente mais
tarde, gradualmente, foi se tornando bem conhecido e usado no campo da fala. A
introduo dos HMMs no campo da voz usualmente creditada aos trabalhos
independentes de Baker na Carnegie Mellon University [5] e Jelinek e colegas na IBM
[26].
Os HMMs podem ser classificados em modelos discretos, contnuos e semi-
contnuos, de acordo com a natureza dos elementos na matriz de emisso de smbolos
(b), que so funes de distribuio [41].
Nos modelos discretos, as distribuies so definidas em espaos finitos. Neste
caso, as observaes so vetores de smbolos de um alfabeto finito de N elementos
distintos.
Outra possibilidade definir distribuies como densidades de probabilidade em
espaos de observao contnuos (modelos contnuos). Neste caso, devem ser impostas
fortes restries forma funcional das distribuies, de modo a se obter um nmero
razovel de parmetros a serem estimados. A estratgia mais popular caracterizar astransies do modelo atravs de misturas de densidades que tenham uma forma
paramtrica simples (por exemplo Gaussianas ou Laplacianas), e que possam ser
caracterizadas pelo vetor mdia e pela matriz de covarincia. De modo a modelar
distribuies complexas desta maneira pode ser necessrio usar um grande nmero
destas funes em cada mistura. Isto pode requerer um conjunto de treinamento muito
grande para uma estimao robusta dos parmetros das distribuies.
Nos modelos semicontnuos, todas as misturas so expressas em termos de um
conjunto comum de densidades base. As diferentes misturas so caracterizadas somente
atravs de fatores de ponderao diferentes.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
28/152
14 O problema do reconhecimento de fala.
2.4. Modelo de durao de palavras.
A idia de se utilizar um modelo de durao de palavras penalizar hipteses
levantadas pelo decodificador que estejam fora da durao mdia (em segundos, por
exemplo) da realizao de uma dada palavra [40]. Por exemplo, se o decodificador
reconheceu a palavra casa e atribuiu a ela uma durao de 20 segundos, obviamente
esta hiptese deve ser severamente punida, pois est muito longe da realidade.
Para isto, devemos conhecer a priori a durao mdia de cada uma das palavras
que constituem o vocabulrio do sistema de reconhecimento. Em sistemas dependentes
do locutor, esta estimativa pode ser razoavelmente precisa, mas para sistemas
independentes de locutor, torna-se um problema srio estimar a durao mdia de cada
palavra. Alm disso, para sistemas com vocabulrio grande, a determinao da durao
mdia de cada uma das palavras pode se tornar invivel.
2.5. Algoritmos de decodificao.
A decodificao um processo de busca no qual uma sequncia de vetores
correspondentes a caractersticas acsticas do sinal de voz comparada com modelos de
palavras. De uma maneira geral, o sinal de voz e suas transformaes no fornecem uma
indicao clara das fronteiras entre palavras nem do nmero total de palavras em uma
dada locuo, de modo que a determinao destas parte do processo de decodificao.
Neste processo, todos os modelos das palavras so comparados com uma sequncia de
vetores acsticos.
Os algoritmos mais utilizados nesta fase do reconhecimento so todos baseados
no algoritmo de Viterbi e, dentre eles, podemos citar: Level Building [35], One Step
[36], Stack Decoding [24], entre outros.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
29/152
O problema do reconhecimento de fala. 15
Estes modelos crescem com o vocabulrio, e podem gerar espaos de busca
extremamente grandes, o que torna o processo de busca bastante oneroso em termos
computacionais, e portanto lento.Algumas estratgias para diminuir o custo computacional nesta etapa envolvem
procedimentos de poda, tais como o Viterbi Beam Search [41].
Deve-se acrescentar que esta etapa do reconhecimento responsvel por
praticamente 100% do esforo computacional de um sistema de reconhecimento de fala
contnua e, portanto, a que determina a velocidade final de reconhecimento.
2.6. Modelos de linguagem.
Um sistema de reconhecimento de fala converte o sinal acstico observado em
sua representao ortogrfica correspondente. O sistema faz a sua escolha a partir de um
vocabulrio finito de palavras que podem ser reconhecidas. Por simplicidade, assume-se
que uma palavra identificada somente por sua pronncia 1.
Foi conseguido um progresso dramtico na resoluo do problema de
reconhecimento de fala atravs do uso de um modelo estatstico da distribuio conjunta
( )OWp , da sequncia W de palavras pronunciadas e da sequncia de informao
acstica observada O. Este mtodo chamado de modelo de fonte-canal. Neste mtodo,
o sistema determina uma estimativa $W da identidade da sequncia de palavras
pronunciadas a partir da evidncia acstica observada O usando a distribuio a
posteriori ( )p W O| . Para minimizar a taxa de erro, o sistema escolhe a sequncia de
palavras que maximiza a distribuio a posteriori:
1 Por exemplo, a palavra macaco considerada uma palavra s, embora possa ter mais
de um significado (animal ou objeto).
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
30/152
16 O problema do reconhecimento de fala.
( )( ) ( )
( )$ arg | arg
|W max p W O max
p W p OW
p OW W= = (1)
onde ( )p W a probabilidade da sequncia de n palavras We ( )p O W| a probabilidade
de observar a evidncia acstica O quando a sequncia W pronunciada. A distribuio
a priori ( )p W de quais palavras poderiam ter sido pronunciadas (a fonte) refere-se ao
modelo de linguagem. O modelo da probabilidade de observao ( )p O W| (o canal)
chamado de modelo acstico.
2.6.1. Modelos de linguagem n-gram.
Para uma dada sequncia de palavras { }W w wn= 1 ,..., de n palavras, pode-se
reescrever a probabilidade do modelo de linguagem como:
( ) ( ) ( )== = n
iiin wwwPwwPWP 1 101 ,...,|,..., (2)
onde w0 escolhido de forma conveniente para lidar com a condio inicial. A
probabilidade da prxima palavra wi depende da histria ( )121 ,...,, = ii wwwh das
palavras que j foram pronunciadas. Com esta fatorao, a complexidade do modelo de
linguagem cresce exponencialmente com o comprimento da histria. De modo a obter
um modelo mais prtico e parcimonioso, a histria de palavras pronunciadas truncada,
de modo que apenas alguns termos so utilizados para calcular a probabilidade da
prxima palavra seguir a palavra atual.
Os modelo mais bem sucedidos das ltimas duas dcadas so os modelos n-
gram, onde somente as n palavras mais recentes da histria so usadas para condicionar
a probabilidade da prxima palavra. O desenvolvimento a seguir refere-se ao caso
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
31/152
O problema do reconhecimento de fala. 17
particular de gramticas bigrama (n = 2), A probabilidade de uma sequncia de palavras
torna-se:
( ) ( )=
n
i
ii wwPWP1
1| (3)
Para estimar as probabilidades bigrama, pode-se usar um grande corpus de textos
para estimar as respectivas frequncias bigrama:
( )1
12122 |
c
cwwf = (4)
onde 12c o nmero de vezes que a sequncia de palavras { }21 , ww observada e 1c o
nmero de vezes que 1w observada. Para um vocabulrio de Vpalavras existem V2
bigramas possveis, o que para um vocabulrio de 20000 palavras significa 400 milhes
de bigramas. Muitos destes bigramas no sero observados no corpus de treinamento, e
deste modo estes bigramas no observados iro ter probabilidade zero quando se usa afrequncia bigrama como uma estimativa da probabilidade bigrama. Para resolver este
problema, necessrio uma estimativa suavizada da probabilidade de eventos no
observados. Isto pode ser feito pela interpolao linear das frequncias bigrama e
unigram e uma distribuio uniforme no vocabulrio.
( ) ( ) ( )V
wfwwfwwp1
|| 0211122212 ++= (5)
onde ( )f2 e ( )f1 so estimadas pela razo das contagens bigrama e unigram
apropriadas. Os pesos (0, 1 e2) da interpolao linear so estimados a partir de dados
de validao: maximizando a probabilidade de novos dados diferentes daqueles usados
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
32/152
18 O problema do reconhecimento de fala.
para estimar as frequncias n-gram. O algoritmo forward-backwardpode ser usado para
resolver este problema de estimao de mxima verossimilhana.
No trabalho de modelamento de linguagem tm sido usadas bases de dados deum milho a 500 milhes de palavras, correspondendo a vocabulrios de 1000 a 267000
palavras distintas, para construir modelos trigrama [13]. Para gramticas do tipo bigrama
as necessidades so um pouco menores, mas ainda astronmicas.
2.6.2. Perplexidade.
Na comparao de modelos de linguagem, importante ser capaz de quantificar a
dificuldade que estes impem ao sistema de reconhecimento. Um modo de se fazer isso
utiliz-los em um sistema de reconhecimento e determinar qual deles fornece a menor
taxa de erro. Este ainda a melhor maneira de avaliar um modelo de linguagem, embora
seja um mtodo altamente custoso.
Os modelos de linguagem tendem a minorar as incertezas (diminuir a entropia)
do contedo das sentenas e facilitar o reconhecimento. Por exemplo, se existem, em
mdia, muito poucas palavras que podem seguir uma dada palavra em um modelo delinguagem, o sistema de reconhecimento ter menos opes para verificar, e o
desempenho ser melhor do que se existissem muitas palavras possveis. Este exemplo
sugere que uma medida conveniente da dificuldade de um modelo de linguagem deva
envolver alguma medida do nmero mdio de palavras que possam seguir outras. Se o
modelo de linguagem for visto como um grafo, com terminais associados a transies
entre palavras, por exemplo, ento esta medida estaria relacionada com o fator de
ramificao mdio em todos os pontos de deciso do grafo. Grosseiramente falando, esta
a quantidade medida pela perplexidade, formalizada a seguir.
Um modelo estocstico formal de linguagem gera sequncias terminais com
certas probabilidades. Estas sequncias terminais podem ser vistas como realizaes de
um processo estocstico estacionrio discreto cujas variveis aleatrias assumem valores
discretos. Estes valores discretos correspondem aos terminais individuais, e o tempo
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
33/152
O problema do reconhecimento de fala. 19
indica simplesmente a posio do terminal aleatrio na sequncia de palavras. Por
simplicidade, vamos assumir que os terminais correspondam a palavras, e este processo
aleatrio ser indicado por w . Se existem Wpalavras possveis, Www ,...,1 , a entropiaassociada com este processo aleatrio ou fonte dada por
( ) ( )( ){ }
( )( ) ( )( )iW
ii
i
wwPwwP
wwPEwH
= ==
==
=2
1
2
log
log(6)
onde ( )w uma varivel aleatria arbitrria em w se a fonte tem variveis aleatriasindependentes e identicamente distribudas. Se no, a entropia dada por
( ) ( ){ }
( ) ( )NNw
NN
N
NN
N
wwPwwPN
wwPEN
wH
N1111
11
log1
lim
log1
lim
1
= ==
==
(7)
onde Nw1 denota a sequncia de variveis aleatrias ( ) ( )Nww ,...,1 , eNw1 denota a
realizao parcial ( ) ( )Nww ,...,1 , e a soma tomada sobre todas estas realizaes. Desde
que as palavras em um modelo de linguagem no so independentes e nem
equiprovveis, usamos (7) ao invs de (6). Para uma fonte ergdica, a entropia pode ser
calculada utilizando-se uma mdia temporal
( ) ( )NN
NwwP
NwH 112log1lim == (8)
Na prtica, quanto mais longa a sentena (N maior) utilizada para estimar H,
melhor ser a estimativa; Hrepresenta o nmero mdio de bits de informao inerente a
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
34/152
20 O problema do reconhecimento de fala.
uma palavra no modelo de linguagem. Isto significa que, em mdia, ( )wH bits precisam
ser extrados dos dados acsticos para reconhecer uma palavra.
As probabilidades NN
wwP 11 = so desconhecidas e precisam ser estimadas apartir de dados de treinamento (que podem ser vitos como exemplos de produes do
modelo de linguagem). Chamando as estimativas de NN wwP 11 = , e a medida de
entropia resultante de ( )wH , temos
( ) ( )NNN
wwPN
wH 112log
1lim ==
(9)
Pode-se mostrar que HH se w for um processo ergdico.
Embora a entropia fornea uma medida de dificuldade perfeitamente vlida, na
rea de processamento de fala, prefere-se usar a perplexidade, definida como
( ) ( )
( )N N
wHdef
wP
wQ
1
12 = (10)
para algum N grande. Para verificar o sentido desta medida, note que se o modelo de
linguagem tem Wpalavras equiprovveis que ocorrem independentemente em qualquer
sequncia de palavras, segue de (6) que a quantidade de entropia em qualquer sequncia
dada por
( ) WwH 2log= (11)
O tamanho do vocabulrio neste caso est relacionado com a entropia atravs da
seguinte expresso:
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
35/152
O problema do reconhecimento de fala. 21
( )wHW 2= (12)
Comparando (12) e (10), pode-se ver que a perplexidade de um modelo delinguagem pode ser interpretada como o tamanho do vocabulrio (nmero de terminais)
em outro modelo de linguagem com palavras equiprovveis e independentes, que seja
igualmente difcil de reconhecer. Portanto a perplexidade indica um fator de ramificao
mdio de um modelo de linguagem modelado por w .
A perplexidade de um modelo de linguagem depende do domnio de discurso. Na
Tabela 2 tem-se um quadro comparativo para diversas aplicaes [13] :
Tabela 2: Perplexidades tpicas para vrios domnios.
Domnio PerplexidadeRadiologia 20
Medicina de emergncia 60Jornalismo 105Fala geral 247
2.7. Estado da arte.
O desempenho dos sistemas de reconhecimento de fala tipicamente descrito em
termos de taxa de erros de palavra E, definida como [41]:
ES I D
N=
+ +100 (13)
onde N o nmero total de palavras no conjunto de teste, S, Ie D so o nmero total de
substituies, inseres e delees, respectivamente.
A ltima dcada tem testemunhado um progresso significativo na tecnologia de
reconhecimento de fala. As taxas de erro de palavra caem de um fator de 2 a cada dois
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
36/152
22 O problema do reconhecimento de fala.
anos. Foi feito um progresso substancial na tecnologia bsica, o que levou a vencer as
barreira de independncia de locutor, fala contnua e vocabulrios extensos.
Existem vrios fatores que contriburam para este rpido progresso. A chegada da era do HMM. O HMM poderoso no sentido de que, com a
disponibilidade de dados de treinamento, os parmetros do modelo podem ser
treinados automaticamente para fornecer um desempenho timo.
Foi feito um grande esforo no sentido de desenvolver grandes bases de dados de
fala para o desenvolvimento, treinamento e avaliao de sistemas.
Estabelecimento de normas de avaliao de desempenho. At uma dcada atrs, os
pesquisadores treinavam e testavam seus sistemas usando dados coletadoslocalmente, e no foram muito cuidadosos em delinear os conjuntos de treinamento e
testes. Consequentemente, era muito difcil comparar o desempenho dos vrios
sistemas, e ainda, o desempenho de um sistema era geralmente degradado quando
este era apresentado a dados novos. A recente disponibilidade de grandes bases de
dados no domnio pblico, associada especificao de padres de avaliao,
resultou em uma documentao uniforme de resultados de testes, contribuindo para
uma maior confiabilidade na monitorao dos progressos alcanados. Os avanos na tecnologia dos computadores influenciaram indiretamente o progresso
nesta rea. A disponibilidade de computadores rpidos com grandes capacidades de
memria permitiu aos pesquisadores realizar vrias experincias em larga escala e
em um curto espao de tempo. Isto significa que o intervalo de tempo entre uma
idia e a sua implementao e avaliao foi bastante reduzido. De fato, sistemas de
reconhecimento de fala com desempenho razovel podem rodar em
microcomputadores comuns em tempo real, sem hardware adicional, um fatoinimaginvel a alguns anos atrs.
Talvez a tarefa mais popular, e potencialmente mais til, com baixa perplexidade
(PP = 11) o reconhecimento de dgitos conectados. Para o ingls americano, o
reconhecimento independente de locutor de sequncias de dgitos pronunciados de
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
37/152
O problema do reconhecimento de fala. 23
forma contnua e restringido largura de banda telefnica pode alcanar uma taxa de
erro de 0,3% quando o comprimento da sequncia conhecido.
Uma das tarefas de mdia perplexidade mais conhecidas a de 1000 palavraschamada de Resource Management, na qual podem-se fazer indagaes sobre vrios
navios no oceano Pacfico. O melhor desempenho independente de locutor nesta tarefa
de menos de 4%, usando um modelo de linguagem de pares de palavras que limita as
palavras possveis que seguem uma dada palavra (PP = 60). Mais recentemente, os
pesquisadores comearam a estudar a questo do reconhecimento de fala espontnea.
Por exemplo, no domnio do Servio de Informao de Viagens Areas (Air Travel
Information Service, ATIS), foram relatadas taxas de erros de menos de 3% para um
vocabulrio de aproximadamente 2000 palavras e um modelo de linguagem bigrama
com uma perplexidade por volta de 15.
Tarefas com alta perplexidade, com vocabulrios de milhares de palavras, so
destinadas principalmente para aplicaes de ditado. Depois de trabalhar em sistemas de
palavras isoladas, dependentes de locutor, por muitos anos, a comunidade tem voltado
suas atenes desde 1992 para o reconhecimento de fala contnua para grandes
vocabulrios (20.000 palavras ou mais), alta perplexidade (PP 200), independente de
locutor. O melhor sistema em 1997 conseguiu uma taxa de erro de 9,9% em testesrealizados regularmente nos EUA atravs do Departamento de Defesa. [39].
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
38/152
24 Base de dados.
3.Base de dados.
3.1. Introduo.
A linguagem falada a forma mais natural de comunicao humana. Sua
estrutura moldada pelas estruturas fonolgicas, sintticas e prosdicas da lngua, do
ambiente acstico, do contexto em que a fala est sendo produzida (por exemplo, as
pessoas falam de maneira diferente em ambientes ruidosos e silenciosos), e do canal
atravs do qual viaja (telefone, microfone, diretamente pelo ar, etc.).
A fala produzida de maneira diferente por cada pessoa, sendo as variaes
devidas ao dialeto, forma e tamanho do trato vocal, ritmo de pronncia, entre outros
fatores. Ainda, os padres de fala so modificados pelo ambiente fsico, contexto social,
e estado fsico e emocional das pessoas.
As tecnologias mais promissoras na rea de reconhecimento de fala (redes
neurais e HMMs) utilizam mtodos de modelagem estatstica que aprendem por
exemplos, exigindo conjuntos de dados de treinamento extremamente grandes, que
cubram todas estas variaes.O efeito causado por variveis no modeladas ou mal modeladas (tais como
diferenas de canal ou microfones, palavras fora do vocabulrio, sub-unidades fonticas
mal treinadas) no desempenho dos sistemas de reconhecimento de fala devastador.
Deste modo, para fornecer exemplos em nmero suficiente para que os mtodos
estatsticos funcionem adequadamente, a base de dados precisa ser extremamente
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
39/152
Base de dados. 25
grande e, consequentemente, custosa, tanto em termos de trabalho como em termos
financeiros.
Estes altos custos s podem ser arcados por um esforo conjunto de empresas,instituies de pesquisa e agncias financiadoras, de modo a evitar duplicao de
esforos e distribuir as tarefas. Para envolver um nmero maior de agentes neste
processo, necessrio que este material no seja direcionado a um sistema ou tarefa
especficos, mas atender as necessidades de vrios grupos e linhas de pesquisa e
desenvolvimento, em diversas reas do conhecimento (sntese e reconhecimento de fala,
estudos fonticos, estudos lingusticos, etc.).
Na Europa, o projeto EUROM_1 congregou esforos de 8 pases europeus: Itlia,
Inglaterra, Alemanha, Holanda, Dinamarca, Sucia, Noruega e Frana, com a adeso
posterior de Grcia, Espanha e Portugal. A base de dados foi criada com o mesmo
nmero de locutores (30 homens e 30 mulheres), escolhidos atravs dos mesmos
critrios e gravados em condies acsticas semelhantes, e no mesmo formato.
Ainda, em Portugal, foi criada uma base de dados chamada BD-PUBLICO (Base
de Dados em Portugus eUropeu, vocaBulrio Largo, Independente do orador e fala
COntnua), com aproximadamente 10 milhes de palavras em aproximadamente 156 mil
frases, pronunciadas por 120 locutores (60 de cada sexo). Como no poderia deixar deser, esta base foi confeccionada atravs do esforo conjunto de instituies de pesquisa,
rgos governamentais e tambm empresas do setor privado.
Nos EUA tambm foi feito um grande esforo neste sentido, e j existem
disponveis no domnio pblico, vrias bases de dados (TIMIT, TI-DIGITS,
SWITCHBOARD, etc.) para desenvolvimento e teste de sistemas.
A disponibilidade destas bases impulsionou de forma expressiva o
desenvolvimento da tecnologia de fala, no s devido ao fato de os centros de pesquisa
no terem que criar suas prprias bases de dados, um trabalho por si s extremamente
rduo, caro e demorado, como tambm pela possibilidade de comparar os resultados de
cada nova idia de uma forma estatisticamente significativa.
No caso do Brasil este tipo de consrcio ainda no foi sequer cogitado, e os
pesquisadores tm que desenvolver seus trabalhos como os americanos faziam h 20
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
40/152
26 Base de dados.
anos atrs: com bases caseiras e pequenas, que tentam cobrir os fenmenos mais
significativos da lngua falada, na maioria dos casos sem sucesso.
3.2. Encaminhamentos futuros.
Os desafios em linguagem falada so muitos. Um desafio bsico est na
definio da metodologia - como projetar bases de dados compactas que possam ser
utilizadas em vrias aplicaes; como projetar bases de dados que possam ser
comparadas em vrias lnguas; como selecionar locutores para que se tenha uma
populao representativa em relao a vrios fatores, tais como sotaque, dialeto, e modo
de pronncia; como selecionar as frases a serem pronunciadas de modo a cobrir todas as
aplicaes; como selecionar um conjunto de dados de teste estatisticamente
representativo para a avaliao dos sistemas.
Outro desafio desenvolver padres para transcrever as locues em diferentes
nveis e entre lnguas diferentes: estabelecer conjuntos de smbolos, convenes de
alinhamento, definir nveis de transcrio (acstica, fontica, de palavras, e outros),
convenes para prosdia e tom, convenes para controle de qualidade das transcries
(por exemplo vrias pessoas transcrevendo as mesmas locues para uma estatstica
confivel). Tambm seria interessante classificar as gravaes de acordo com o
ambiente em que foram feitas, assim como o canal utilizado (ambientes silenciosos ou
ruidosos, com msica ambiente, gravaes feitas atravs da linha telefnica, etc.).
No caso brasileiro, ainda necessrio juntar os esforos para obter pelo menos
uma base de dados padro, para que os pesquisadores possam comparar mtodos e
resultados, e assim evitar duplicaes de esforos.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
41/152
Base de dados. 27
3.3. Projeto e confeco da base de dados.
Com dito anteriormente, no se tem disponvel para a lngua portuguesa uma
base de dados de referncia sobre a qual se possa desenvolver e testar o desempenho dos
sistemas de reconhecimento de fala, tornando-se necessrio confeccionar nossas prprias
bases de dados.
Por um lado, isto significa um grande dispndio de tempo e trabalho, que
poderiam ser utilizados na elaborao, desenvolvimento e avaliao de novas idias. Por
outro lado, o planejamento e a confeco de uma base de dados traz uma compreenso
valiosa da forma com que as pessoas interagem com um sistema de reconhecimento de
fala. As variaes de pronncia e qualidade de voz devido presena de um microfone,
condio scio-cultural, regio de origem, estado emocional e at hora do dia ficam
bem claras quando se confecciona uma base de dados relativamente grande.
Os trabalhos de confeco da base de dados consistiram de:
escolha das frases
escolha dos locutores
gravao das locues
transcrio fontica
3.3.1. Escolha das frases.
As frases foram escolhidas segundo o trabalho realizado por Alcaim et. al. [1].
Neste, foram criadas 20 listas de 10 frases foneticamente balanceadas, segundo o
portugus falado no Rio de Janeiro, listadas no Apndice A. Nestas listas, contou-se 694
palavras distintas.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
42/152
28 Base de dados.
O termo foneticamente balanceado, neste caso, significa que a lista de frases
gerada tem uma distribuio fontica similar quela encontrada na fala espontnea. Esta
distribuio foi levantada a partir da transcrio fontica de gravaes de inquritos,obtidas a partir do projeto NURC-RJ (Projeto de Estudo da Norma Lingustica Urbana
culta na cidade do Rio de Janeiro) [10].
3.3.2. Locutores.
Para a confeco da base de dados, foram selecionados 40 locutores adultos,
sendo 20 homens e 20 mulheres. A maioria dos locutores nasceu no interior do estado de
So Paulo, embora alguns sejam nativos de outros estados (Pernambuco, Cear, Paran e
Amazonas). A maioria tem o nvel superior, e todos tem pelo menos o segundo grau
completo. Um resumo informativo de cada um dos locutores pode ser encontrado no
Apndice B.
Os locutores foram divididos igualmente em 5 grupos, ou seja, 4 homens e 4
mulheres para cada grupo. Para cada grupo foram designadas 4 das 20 listas da base de
dados da seguinte forma: as primeiras 4 listas para o primeiro grupo, as 4 seguintes parao segundo grupo, e assim por diante. Desta forma, cada locutor pronunciou no total 40
frases, e cada frase foi repetida por 8 locutores diferentes.
Um locutor extra do sexo masculino completa a base de dados. Este locutor
pronunciou todas as 200 frases, repetindo-as 3 vezes. Estas locues foram utilizadas
para testes com dependncia de locutor.
3.3.3. Gravaes.
As gravaes foram realizadas em ambiente relativamente silencioso, com um
microfone direcional de boa qualidade, utilizando uma placa de som SoundBlaster AWE
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
43/152
Base de dados. 29
64. A taxa de amostragem utilizada foi de 11,025 kHz, e resoluo de 16 bits. Os dados
foram armazenados em formato Windows PCM (WAV).
3.3.4. Transcrio Fontica.
A transcrio fontica foi feita manualmente para cada locuo, utilizando
programa de visualizao grfica do espectrograma e forma de onda do sinal, e fones de
ouvido para audio da mesma.
As sub-unidades utilizadas nesta tarefa so mostradas na Tabela 3. importante
frisar que os fones utilizados na transcrio fontica deste trabalho e daquele realizado
por Alcaim et al [1] no so os mesmos. No presente trabalho foi utilizado um conjunto
menor de sub-unidades fonticas, resultante da fuso de algumas classes propostas em
[1], principalmente entre as vogais.
Mesmo com estas restries, pode-se observar que, de uma forma geral, o
levantamento dos fones a partir da transcrio fontica da base de dados gravada
acompanhou a distribuio encontrada em [1]. Entretanto, a comparao da frequncia
relativa da ocorrncia dos fones mostra algumas diferenas significativas, possivelmentedecorrentes das variaes regionais de pronncia dos locutores. Na Figura 1, tem-se um
histograma comparativo para a ocorrncia dos fones em ambos os casos.
Considerando que a maioria dos locutores selecionados para este trabalho tem
origem no estado de So Paulo, pode-se considerar que uma base paulista, e como o
trabalho do Prof. Alcaim foi realizado somente com locutores cariocas, pode-se
considerar que uma base carioca. Assim, com ressalvas, pode-se fazer algumas
comparaes interessantes:
a diferena de pronncia do s entre consoantes bem visvel se observarmos os
histogramas correspondentes aos fones s e x.
idem para os fones z e j
idem para os fones r e rr.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
44/152
30 Base de dados.
Tabela 3: sub-unidades acsticas utilizadas na transcrio fontica das locues, com exemplos efrequncias relativas de ocorrncia, segundo Alcaim et. al. [1] e aquelas encontradas natranscrio fontica da base de dados coletada. Tambm so listados os nmeros de ocorrnciasobservados para cada sub-unidade.
Fone Smboloutilizado
Exemplo Frequncia Relativa (%) Nmero de
Alcaim et. al. Observada ocorrnciasa a aafro 12,94 13,91 6031e e elevador 4,82 2,15 933 E p ele 1,91 6,35 2785i i s ino 8,57 1,90 821j y fu i 3,13 0,95 410o o b olo 2,71 4,14 1798 O b ola 1,00 6,23 2691
u u lua 8,69 2,57 1124~ an ma 2,12 4,04 1773e~ en s enta 2,30 1,16 501
i~ in p into 3,23 0,69 296 on s ombra 0,75 8,41 3648u~ un um 2,50 1,98 860b b bela 1,09 1,18 511d d ddiva 2,64 3,14 1346dZ D diferente 1,92 1,49 665f f feira 1,46 1,44 625g g gorila 0,93 0,87 378Z j jil 1,32 0,75 325k k cachoeira 4,19 3,63 1575l l leo 1,72 1,91 830 L lhama 0,21 0,35 152m m montanha 4,12 3,77 1637n n nvoa 2,40 2,26 982 N inhame 0,68 0,42 185p p poente 2,29 2,49 1081r r ce ra 3,58 4,05 1759r rr ce rrado 2,06 0,89 363
R R ca r ta - 1,32 598s s sapo 4,18 6,52 2832t t tempes tade 3,94 4,02 1737tS T tigela 1,44 1,20 531v v v ero 1,23 1,51 656S x ch ave 2,12 0,32 132z z z abumba 1,81 1,96 859
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
45/152
Base de dados. 31
0
2
4
6
8
10
12
14
16
a
an
e
E
en
i
y
in
o
O
on
u
un
b
d
D
f
g
j
k
l
L
m
n
N
p
r
rr
R
s
t
T
v
x
z
fones
frequnciarelativa(%)
a b
Figura 1: Histograma comparativo da ocorrncia de fones nos trabalhos atual a) e os realizadosem [1] b).
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
46/152
32 Modelos Ocultos de Markov.
4.Modelos Ocultos de Markov.
A teoria relativa aos modelos ocultos de Markov j bem conhecida e
extensivamente documentada. Desta forma, neste captulo so apresentados apenas
alguns conceitos bsicos e notaes importantes para a compreenso das sees
posteriores. Textos com explicaes bastante claras e precisas podem ser encontrados
em [40] e [15].
Em um sistema estatstico de reconhecimento de fala contnua, geralmente as
palavras do vocabulrio so representadas atravs de um conjunto de modelos
probabilsticos de unidades lingusticas elementares (por exemplo fones). Uma
sequncia de parmetros acsticos, extrados de uma locuo, vista como uma
realizao de uma concatenao de processos elementares descritos por ModelosOcultos de Markov (em ingls, Hidden Markov Models, HMM). Um HMM uma
composio de dois processos estocsticos, uma cadeia de Markov oculta, relacionada
variao temporal, e um processo observvel, relacionado variabilidade espectral. Esta
combinao provou ser poderosa para lidar com as fontes mais importantes de
ambiguidade, e flexvel o suficiente para permitir a realizao de sistemas de
reconhecimento com dicionrios extremamente grandes (dezenas de milhares de
palavras) [13].
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
47/152
Modelos Ocultos de Markov. 33
4.1. Estrutura de um HMM.
Um HMM definido como um par de processos estocsticos (X,Y). O processo
X uma cadeia de Markov de primeira ordem, e no diretamente observvel, enquanto
que o processo Y uma sequncia de variveis aleatrias que assumem valores no
espao de parmetros acsticos (observaes).
Um HMM gera sequncias de observaes pulando de um estado para outro,
emitindo uma observao a cada salto. Em geral, para o reconhecimento de fala,
utilizado um modelo simplificado de HMM conhecido como modelo left-right, ou
modelo de Bakis [15], no qual a sequncia de estados associada ao modelo tem a
propriedade de, medida que o tempo aumenta, o ndice do estado aumenta (ou
permanece o mesmo), isto , o sistema caminha da esquerda para a direita no modelo
(veja Figura 2)
Figura 2: modelo de Bakis para um HMM left-right de 5 estados
So usadas duas formas ligeiramente diferentes para os HMMs. Uma delas
usualmente (mas nem sempre) utilizada no processamento acstico (modelamento do
sinal) emite uma observao no instante de chegada ao estado. A outra forma ,
geralmente utilizada em processamento de linguagem, emite uma observao durante a
transio. A forma de estado emissor tambm chamada de mquina de Moore na teoria
de autmatos, enquanto que a forma de transio emissora uma mquina de Mealy
[20]. Neste trabalho, seguindo a tendncia geral, foi utilizada a forma de Moore. Na
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
48/152
34 Modelos Ocultos de Markov.
Figura 3 tem-se um exemplo de cada uma destas formas para um modelo HMM left-
rightde 3 estados.
bi[ ]
a)
ai i
i j k
b)
a bi i i i
, [ ]
i j k
aj j
ak k
ai j
aj k
ai k
ak l
bj[ ] b
k[ ]
a bj j j j
, [ ] a bk k k k
, [ ]
a bi j i j
, [ ] a bj k j k
, [ ]
a bi k i k
, [ ]
a bk l k l
, [ ]
Figura 3: formas de Moore a) e Mealy b) para um HMM com 3 estados.
Na tarefa de reconhecimento de fala, geralmente so adotadas duas
simplificaes da teoria de modelos de Markov, que podem ser formalizadas da seguinte
maneira [15]:
Hiptese de Markov de primeira ordem: a histria no tem influncia na evoluofutura da cadeia se o presente especificado.
Hiptese de independncia das sadas: nem a evoluo da cadeia nem as
observaes passadas influenciam a observao atual se a ltima transio da cadeia
especificada.
Estas duas hipteses podem ser escritas da seguinte maneira: seja Yy a
varivel que representa as observaes e Xji, as variveis que representam os
estados do modelo. Ento, o modelo pode ser representado pelos seguintes parmetros:
{ }X jiaAij ,| (14)
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
49/152
Modelos Ocultos de Markov. 35
( ){ }YX yiybBi ,| (15)
{ }X ii | (16)
onde A a matriz com as probabilidades de transio, B a matriz de densidades de
probabilidade de emisso dos smbolos de sada, e a matriz de probabilidades
iniciais, com as seguintes definies
( )iXjXPa ttij == 1| (17)
( ) ( )jXyYpyb ttj == | (18)
( )iXPi = 0 (19)
4.2. Tipos de HMMs.
Os HMMs podem ser classificados de acordo com a natureza dos elementos da
matriz B, que so funes densidade de probabilidade.
Nos HMMs discretos as densidades de probabilidades so definidas em espaos
finitos. Neste caso, as observaes so vetores de smbolos de um alfabeto finito de N
elementos diferentes.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
50/152
36 Modelos Ocultos de Markov.
Outra possibilidade definir as densidades de probabilidade em espaos de
observao contnuos. Neste caso necessrio impor severas restries na forma
funcional das densidades de modo a ter um nmero manipulvel de parmetrosestatsticos para estimar. A aproximao mais popular consiste em caracterizar as
densidades de emisso do modelo como misturas de densidades base g de uma famlia G
com uma forma paramtrica simples. As densidades base g G so geralmente
Gaussianas ou Laplacianas, e podem ser parametrizadas pelo vetor mdia e pela matriz
de covarincia. HMMs com este tipo de distribuio so chamados de HMMs
contnuos. De modo a modelar distribuies complexas desta maneira necessrio usar
um grande nmero de densidades base em cada mistura. Os problemas que surgem
quando o corpus de treinamento no suficientemente grande podem ser aliviados pelo
compartilhamento de distribuies entre emisses de estados diferentes [23].
Nos modelos semicontnuos, todas as misturas so expressas em termos de um
conjunto comum Cde densidades base. Neste caso, as misturas so diferenciadas pelos
pesos atribudos a cada uma das funes base de C.
O clculo das probabilidades com modelos discretos mais rpido do que com
modelos contnuos, embora seja possvel acelerar o clculo das misturas de densidades
aplicando a quantizao vetorial nas gaussianas das misturas [15].Levando em considerao o grande apetite por exemplos de treinamento dos
modelos contnuos e o fato de a base de dados utilizada ser relativamente pequena,
optou-se por utilizar a forma discreta neste trabalho.
4.3. Treinamento dos HMMs.
A estimao dos parmetros dos HMMs, como em todos os sistemas
estocsticos, baseada em exemplos de treinamento e geralmente feita utilizando o
algoritmo forward-backward[40], tambm conhecido como algoritmo Baum-Welch.
O critrio utilizado para a reestimao dos parmetros o de mxima
verossimilhana ML (Maximum Likelihood), que consiste em aumentar, a cada poca de
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
51/152
Modelos Ocultos de Markov. 37
treinamento, a probabilidade a posteriori, ou seja, a probabilidade do modelo gerar a
sequncia de observaes.
4.4. Reconhecimento de fala utilizando HMMs.
Dada uma locuo de entrada, um sistema de reconhecimento de fala gera
hipteses de palavras ou sequncias de palavras. Destas hipteses pode resultar uma
nica sequncia de palavras, uma coleo de n melhores sequncias de palavras, ou uma
trelia de hipteses de palavras parcialmente superpostas. Isto feito num processo de
busca no qual se compara uma sequncia de vetores de caractersticas acsticas com os
modelos das palavras que esto no vocabulrio do sistema.
Em geral, o sinal de fala e suas transformaes no exibem indicaes claras
sobre as fronteiras das palavras, de modo que a deteco destas fronteiras faz parte do
processo de gerao de hipteses realizado no procedimento de busca. No procedimento
de gerao de hipteses, todos os modelos de palavras so comparados com uma
sequncia de vetores acsticos. Em um sistema probabilstico, a comparao entre uma
sequncia acstica e um modelo envolve o clculo da probabilidade que o modelo
associa a uma dada sequncia. Neste processo, as seguintes quantidades so utilizadas:
( )iTt ,1y : probabilidade de observar a sequncia de observao parcial y1
t 2 e estar
no estado i no instante t(sendo que a sequncia de observao total dada por T1y )
( ) ( )( )
>====
0,,0,,
11
01
tiXP
tiXPi ttt
Tt
yYy (20)
2 A notao khy refere-se sequncia de vetores acsticos [ ]khh yyy ,...,, 1+ . Esta notao
ser utilizada daqui em diante.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
52/152
38 Modelos Ocultos de Markov.
( )iTt
,1y : probabilidade de observar a sequncia de observao parcial y tT
+1 dado
que o modelo est no estado i no instante t.
( ) ( )
=====
0,,max
0,,
111
0
0
11
0
tXP
tiXPi tt
tt
Tt
tyYi,=iXy 1-t0
i
(22)
As variveis e podem ser utilizadas para calcular a probabilidade de emisso
total WP T |1y atravs das expresses
( ) ( )
( )=
==
i
Ti
i
TT
TT
i
iP
,
,
10
111
y
yyY
(23)
Uma aproximao para calcular esta probabilidade consiste em seguir somente o
caminho de mxima probabilidade. Isto pode ser feito utilizando-se a quantidade :
iPT
Ti
TT ,max 111 yyY == (24)
Esta aproximao corresponde ao algoritmo de Viterbi.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
53/152
Modelos Ocultos de Markov. 39
O clculo das probabilidades acima realizado em uma estrutura em forma de
trelia, mostrada na Figura 4. Por simplicidade, pode-se assumir na figura que o HMM
representa uma palavra e que o sinal de entrada corresponde pronncia de uma nicapalavra.
aii
ak
k
ajk
aij
ajj
a b yk k k
( )1
a b yi i i
( )1
a b yj j j
( )1
i
j
k
t= 1 t= 2 t= 3 t= 4
bi
[]
bj
[]
bk
[]
ab
y
jk
k
(
)1
ab
y
i j
j(
)1
a b yk k k
( )2
a b yk k k
( )3
a b yk k k
( )4
ab
y
jk
k
(
)2
ab
y
jk
k
(
)3
ab
y
jk
k
(
)4
a b yj j j
( )2
a b yj j j
( )3
a b yj j j
( )4
ab
y
i j
j(
)2
ab
y
i j
j(
)3
ab
y
i j
j(
)4
a b yi i i
( )2
a b yi i i
( )3
a b yi i i
( )4
y1
y2
y3
y4
Figura 4: Exemplo de funcionamento do algoritmo de Viterbi.
Cada coluna da trelia armazena os valores das verossimilhanas acumuladas em
cada estado do HMM para todos os instantes de tempo, e todo intervalo entre duascolunas consecutivas corresponde a um quadro 3 de entrada.
As setas na trelia representam transies no modelo que correspondem a
possveis caminhos no modelo do instante inicial at o final. O clculo realizado por
colunas, atualizando as probabilidades dos ns a cada quadro, utilizando frmulas de
recurso as quais envolvem os valores de uma coluna adjacente, as probabilidades de
transio dos modelos, e os valores das densidades de sada para o quadro
correspondente. Para os coeficientes , o clculo comea na primeira coluna
esquerda, cujos valores iniciais so dados por i , e termina na ltima coluna direita,
com a probabilidade final dada pela equao (20).
3 Um quadro definido como o intervalo de tempo em que gerado um vetor de
parmetros acsticos. Valores tpicos esto entre 10 e 20 ms.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
54/152
40 Modelos Ocultos de Markov.
O algoritmo usado para calcular os coeficientes conhecido como algoritmo
de Viterbi, e pode ser visto como uma aplicao de programao dinmica para
encontrar o caminho de mxima verossimilhana em um grafo. A frmula de recurso dada por:
( ) ( ) ( )
>=
= 0,,max
0,,
111 tybaj
ti
tiji
T
tj
iT
t yy
(25)
Monitorando o estado j que fornece a maior probabilidade na frmula de
recurso acima, possvel, no final da sequncia de entrada, recuperar a sequncia de
estados visitada pelo melhor caminho, realizando ento um tipo de alinhamento
temporal dos quadros de entrada com os estados do modelo.
Todos estes algoritmos tm uma complexidade ( )O MT , onde M o nmero de
transies no nulas e To comprimento da sequncia de entrada. Mpode ser no mximo
igual a S 2 , onde S o nmero de estados no modelo, mas geralmente muito menor,
uma vez que a matriz de probabilidades de transio geralmente esparsa. De fato, nos
modelos left-right, uma escolha comum fazer 2,0 >= ijaij , como no caso ilustrado
na Figura 2.
Geralmente, o reconhecimento baseado em um processo de busca que leva em
conta todas as segmentaes possveis da sequncia de entrada em palavras, e as
probabilidades a priori que o modelo de linguagem associa a sequncias de palavras.
Podem ser obtidos bons resultados com modelos de linguagem simples tais como
probabilidades bigrama ou trigrama [13].
4.4.1. Viterbi Beam Search.
O tamanho do espao de busca cresce de acordo com o nmero de palavras no
vocabulrio. Para sistemas de ditado, onde so comuns vocabulrios de dezenas de
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
55/152
Modelos Ocultos de Markov. 41
milhares de palavras, o espao de busca torna-se to grande que o custo computacional
torna-se proibitivo. Entretanto a distribuio irregular das probabilidades nos diferentes
caminhos pode ajudar. O que acontece que, quando o nmero de estados grande, emcada instante de tempo, uma grande parte destes estados tm uma verossimilhana
acumulada que muito menor do que a verossimilhana mxima, de modo que
bastante improvvel que um caminho que passe por um destes estados venha a ser o
melhor ao final da locuo.
Esta considerao leva a uma tcnica de reduo da complexidade chamada de
Beam Search [15], que consiste em desprezar, em cada instante de tempo, os estados
cuja verossimilhana acumulada seja menor do que a verossimilhana mxima menos
um dado limiar. Desta maneira, os clculos necessrios para expandir ns ruins so
evitados. Est claro pela natureza do critrio de poda desta tcnica de reduo que ela
pode causar a perda do melhor caminho. Na prtica, uma boa escolha do limiar de poda
resulta em um ganho de velocidade de uma ordem de magnitude, introduzindo uma
quantidade desprezvel de erros de busca.
8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti
56/152
42 Algoritmos de Busca.
5.Algoritmos de Busca.
5.1. Introduo.
O reconhecimento de fala contnua difere do reconhecimento de palavras
isoladas no modo com que o usurio deve pronunciar as palavras. No reconhecimento de
palavras isoladas necessrio que o locutor efetue pausas breves entre as palavras de
modo que o sistema possa determinar as fronteiras entre estas de forma precisa. J em
fala contnua, o locutor pode falar de modo natural, sem efetuar pausas entre as
palavras. Neste caso, a determinao das fronteiras entre as palavras e consequentemente
do nmero de palavras na locuo fica a cargo do sistema de reconhecimento.
A premissa bsica do reconhecimento de fala contnua que o reconhecimento
baseado em modelos de palavras (possivelmente formadas a partir da concatenao de
sub-unidades fonticas para os casos de grandes vocabulrios). Uma vez definidos os
modelos das palavras, o problema do reconhecimento resume-se em encontrar a