Tese-Doutorado-Carlos_Alberto_Ynoguti

8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

1/152

Universidade Estadual de Campinas

Faculdade de Engenharia Eltrica e de Computao

Departamento de Comunicaes

Reconhecimento de Fala Contnua Usando

Modelos Ocultos de Markov

Carlos Alberto Ynoguti

Orientador: Prof. Dr. Fbio Violaro

Banca Examinadora:

Prof. Dr. Fbio Violaro FEEC - UNICAMP

Prof. Dr. Abrahan Alcaim CETUC PUC RIO

Prof Dr. Ivandro Sanches POLI USP

Prof. Dr. Lus Geraldo Meloni FEEC UNICAMP

Prof. Dr. Lee Luan Ling FEEC UNICAMP

Tese apresentada Faculdade de Engenharia

Eltrica e de Computao da Universidade

Estadual de Campinas como requisito parcial paraa obteno do ttulo de Doutor em Engenharia

Eltrica.

Campinas, maio de 1999


2/152

FICHA CATALOGRFICA ELABORADA PELABIBLIOTECA DA REA DE ENGENHARIA - BAE - UNICAMP

Y69rYnoguti, Carlos Alberto

Reconhecimento de fala contnua usando modelosocultos de Markov. / Carlos Alberto Ynoguti.--Campinas, SP: [s.n.], 1999.

Orientador: Fbio Violaro.Tese (doutorado) - Universidade Estadual de

Campinas, Faculdade de Engenharia Eltrica e deComputao.

1. Markov, Processos de. 2. Reconhecimento

automtico da voz. 3. Processamento de sinais Tcnicasdigitais. I. Violaro, Fbio. II. Universidade Estadual deCampinas. Faculdade de Engenharia Eltrica e deComputao. III. Ttulo.


3/152

Resumo

Nos sistemas que constituem o estado da arte na rea de reconhecimento de fala

predominam os modelos estatsticos, notadamente aqueles baseados em Modelos

Ocultos de Markov (Hidden Markov Models, HMM). Os HMMs so estruturas

poderosas pois so capazes de modelar ao mesmo tempo as variabilidades acsticas e

temporais do sinal de voz.

Mtodos estatsticos so extremamente vorazes quando se trata de dados de

treinamento. Deste modo, nos sistemas de reconhecimento de fala contnua e

vocabulrio extenso, as palavras so geralmente modeladas a partir da concatenao de

sub-unidades fonticas, pois o nmero destas bem menor do que o de palavras, e em

uma locuo geralmente existem vrios exemplos de sub-unidades fonticas.

O reconhecimento de fala contnua difere do de palavras isoladas, pois neste o

locutor no precisa fazer pausas entre as palavras. Deste modo, a determinao das

fronteiras entre as palavras e do nmero destas na locuo deve ser feita pelo sistema de

reconhecimento. Para isto so utilizados os algoritmos de busca, que podem ter ainda

modelos de durao e de linguagem incorporados.O objetivo deste trabalho estudar o problema de reconhecimento de fala

contnua, com independncia de locutor e vocabulrio mdio (aproximadamente 700

palavras) utilizando HMMs. investigada a influncia de alguns conjuntos de sub-

unidades fonticas, e dos modelos de durao e de linguagem no desempenho do

sistema. Tambm so propostos alguns mtodos de reduo do tempo de processamento

para os algoritmos de busca.

Para a avaliao do sistema foi confeccionada uma base de dados formada de 200

frases foneticamente balanceadas, com gravaes de 40 locutores adultos, sendo 20 de

cada sexo

Palavras chave: Modelos Ocultos de Markov, reconhecimento de fala contnua,

processamento digital de sinais.


4/152

Abstract

In the field of continuous speech recognition, current state of art systems make

use of statistical methods, mainly those based on Hidden Markov Models (HMM).

HMM are powerful due to their ability to model both the acoustic and temporal features

of speech signals.

Statistical methods require lots of training samples. For this reason, large

vocabulary, continuous speech recognition systems use word models composed by

concatenating subunit models. In this approach there are much fewer subunits than

words, and many samples of them in a single utterance.

The main difference between continuous speech recognition and isolated words

speech recognition is basically in the way that users interact with the system. In isolated

words speech recognition, the user needs to make short pauses between words, which is

not required for continuous speech recognition systems. The determination of word

boundaries, and consequently the number of words in the utterance, take a part of the

recognition process in continuous speech recognition systems. For this task searching

algorithms are used, and they can also incorporate word duration and language models.The purpose of this work is to study the problem of speaker independent,

medium-size vocabulary (about 700 words), continuous speech recognition using

HMMs. The influence of some different subunit sets, word duration model and

language model in the overall system performance are investigated. We also propose

some methods to alleviate the computational burden in the searching procedure.

To perform system evaluation a multispeaker database (20 male and 20 female)

composed of 200 phonetically balanced sentences was created.

Keywords: Hidden Markov Models, continuous speech recognition, digital signal

processing.


5/152

A meus pais Mituyosi (in memoriam) e Clara

e a meus irmos Srgio e Cristiane.


6/152

Agradecimentos

Ao Prof. Dr. Fbio Violaro pela acolhida e apoio durante os primeiros tempos em

uma nova cidade, pela orientao do trabalho, e pelas inmeras discusses e idias.

Aos Profs. Drs. Jos Carlos Pereira e Marcelo Baslio Joaquim pelo apoio e

grande ajuda.

Adriana por seu carinho, pacincia e compreenso nos dias difceis.

Aos colegas do LPDF, Henrique, Fernando, Cairo, Edmilson, Fabrcio, Antnio

Marcos, Raquel, Irene, Flvio, e Lo pela grande ajuda e por proporcionarem um

ambiente de trabalho alegre e descontrado.

Aos colegas e amigos Marcelo, Ricardo, Fbio, Alexandre e Richard pelo apoio e

compreenso.

Aos professores e funcionrios da FEEC.

s pessoas que emprestaram suas vozes na confeco da base de dados.

Ao CNPq, pela concesso da bolsa, ao FAEP da UNICAMP pela prorrogao de

bolsa concedida, e FAPESP (processo 97/02740-7) pelo auxlio pesquisa.


7/152

ndice

Lista de figuras i

Lista de Tabelas iii

1. INTRODUO. 1

1.1. APLICAES . 2

1.1.1. SISTEMAS DE DITADO DE VOCABULRIO EXTENSO . 2

1.1.2. INTERFACE PARA COMPUTADORES PESSOAIS. 3

1.1.3. SISTEMAS BASEADOS NA REDE TELEFNICA. 4

1.1.4. APLICAES INDUSTRIAIS E SISTEMAS INTEGRADOS. 5

1.2. OBJETIVOS E CONTRIBUIES DO TRABALHO. 6

1.3. CONTEDO DA TESE. 6

2. O PROBLEMA DO RECONHECIMENTO DE FALA. 8

2.1. ARQUITETURAS PARA RECONHECIMENTO DE FALA. 11

2.2. UNIDADES FUNDAMENTAIS . 11

2.3. MODELOS OCULTOS DE MARKOV (HMMS). 13

2.4. MODELO DE DURAO DE PALAVRAS . 14

2.5. ALGORITMOS DE DECODIFICAO. 14

2.6. MODELOS DE LINGUAGEM. 15

2.6.1. MODELOS DE LINGUAGEM N-GRAM . 16

2.6.2. PERPLEXIDADE. 18

2.7. ESTADO DA ARTE. 21

3. BASE DE DADOS. 24

3.1. INTRODUO. 24

3.2. ENCAMINHAMENTOS FUTUROS. 26


8/152

3.3. PROJETO E CONFECO DA BASE DE DADOS . 27

3.3.1. ESCOLHA DAS FRASES. 27

3.3.2. LOCUTORES. 28

3.3.3. GRAVAES. 28

3.3.4. TRANSCRIO FONTICA . 29

4. MODELOS OCULTOS DE MARKOV. 32

4.1. ESTRUTURA DE UM HMM. 33

4.2. TIPOS DE HMMS . 35

4.3. TREINAMENTO DOSHMMS. 36

4.4. RECONHECIMENTO DE FALA UTILIZANDO HMMS. 37

4.4.1. VITERBI BEAM SEARCH. 40

5. ALGORITMOS DE BUSCA. 42

5.1. INTRODUO. 42

5.2. RECONHECIMENTO DE FALA CONTNUA VIA DECODIFICAO DE REDE FINITA DE

ESTADOS . 43

5.3. DEFINIO DO PROBLEMA. 455.3.1. LEVEL BUILDING. 46

5.3.2. ONE STEP. 49

5.4. INCLUSO DO MODELO DE DURAO DE PALAVRAS . 53

5.5. INCLUSO DO MODELO DE LINGUAGEM. 55

6. SISTEMA DESENVOLVIDO. 57

6.1. MDULO DE EXTRAO DE PARMETROS E QUANTIZAO VETORIAL. 586.1.1. EXTRAO DE PARMETROS. 59

6.1.2. QUANTIZADOR VETORIAL. 61

6.2. MDULO DE TREINAMENTO . 62

6.2.1. PROGRAMA DE TREINAMENTO DAS SUB-UNIDADES. 62

6.2.2. DETECO DOS TRIFONES. 67


9/152

6.2.3. DELETED INTERPOLATION [15]. 71

6.3. MDULO DE GERAO DO MODELO DE LINGUAGEM . 74

6.4. MDULO DE RECONHECIMENTO. 75

6.4.1. CONSTRUO DO VOCABULRIO DE RECONHECIMENTO . 76

6.4.2. DETECO AUTOMTICA DO NMERO DE NVEIS PARA O ALGORITMO LEVEL

BUILDING. 78

7. TESTES E ANLISE DOS RESULTADOS. 82

7.1. INTRODUO. 82

7.2. DETERMINAO DO CONJUNTO DE SUB-UNIDADES FONTICAS . 83

7.3. DEFINIO DOS SUBCONJUNTOS DE TESTE E TREINAMENTO. 85

7.4. TESTES COM FONES INDEPENDENTES DE CONTEXTO 87

7.5. TESTES COM TRIFONES . 88

7.5.1. TRIFONES BASEADOS NAS CLASSES FONTICAS. 88

7.5.2. TRIFONES BASEADOS NA CONFIGURAO DO TRATO VOCAL. 89

7.6. AVALIAO DOS PROCEDIMENTOS PARA DIMINUIO DO TEMPO DE

PROCESSAMENTO . 90

7.6.1. LEVEL BUILDING. 90

7.6.2. ONE STEP. 91

7.7. VERIFICAO DA INFLUNCIA DA TRANSCRIO FONTICA DAS LOCUES DE

TREINAMENTO NO DESEMPENHO DO SISTEMA. 92

7.8. INFLUNCIA DO NMERO DE VERSES DE CADA PALAVRA NO ARQUIVO DE

VOCABULRIO . 93

7.9. ESTABELECIMENTO DO DESEMPENHO FINAL DO SISTEMA. 95

7.10. ANLISE DOS RESULTADOS . 96

7.10.1. DESEMPENHO DO SISTEMA UTILIZANDO FONES INDEPENDENTES DE CONTEXTO E

INFLUNCIA DO MODO DE OPERAO NA TAXA DE ACERTOS DE PALAVRA. 97

7.10.2. INFLUNCIA DOS FONES DEPENDENTES DE CONTEXTO NO DESEMPENHO DO

SISTEMA. 100

7.10.3. INFLUNCIA DOS PROCEDIMENTOS DE DIMINUIO DOS CLCULOS NECESSRIOS

NA ETAPA DE BUSCA NO TEMPO DE RECONHECIMENTO 103


10/152

7.10.4. INFLUNCIA DA TRANSCRIO FONTICA DAS FRASES DE TREINAMENTO NO

DESEMPENHO DO SISTEMA. 104

7.10.5. INFLUNCIA DO NMERO DE VERSES DE CADA PALAVRA NO ARQUIVO DE

VOCABULRIO. 105

7.10.6. DESEMPENHO FINAL DO SISTEMA. 106

8. CONCLUSES. 107

9. BIBLIOGRAFIA. 112

APNDICE A. LISTAS DE FRASES UTILIZADAS NESTE TRABALHO .

APNDICE B. RESUMO INFORMATIVO DOS LOCUTORES DA BASE DE DADOS .

APNDICE C. DICIONRIO DE PRONNCIAS E DADOS DO MODELO DE DURAO.

APNDICE D. ALGUMAS FRASES RECONHECIDAS .


11/152

Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov i

_______________________________________________________________________

LISTA DE FIGURAS

FIGURA

1: HISTOGRAMA COMPARATIVO DA OCORRNCIA DE FONES NOS TRABALHOS

ATUAL A) E OS REALIZADOS EM [1] B).___________________________________31

FIGURA 2: MODELO DE BAKIS PARA UM HMM LEFT-RIGHT DE 5 ESTADOS ___________33

FIGURA 3: FORMAS DE MOORE A) E MEALY B) PARA UM HMM COM 3 ESTADOS.______34

FIGURA 4: EXEMPLO DE FUNCIONAMENTO DO ALGORITMO DE VITERBI. _____________39

FIGURA 5: EXEMPLO DE FUNCIONAMENTO DO ALGORITMO LEVEL BUILDING. _________48

FIGURA 6: ILUSTRAO DO FUNCIONAMENTO DO ALGORITMO DE VITERBI NA

IMPLEMENTAO DO ALGORITMO ONESTEP. ______________________________51

FIGURA 7: DIAGRAMA DE BLOCOS DO MDULO DE EXTRAO DE PARMETROS E

QUANTIZAO VETORIAL. ____________________________________________58

FIGURA 8: DIAGRAMA DE BLOCOS DO PROCESSO DE EXTRAO DOS PARMETROS MEL-

CEPSTRAIS COM REMOO DA MDIA ESPECTRAL. __________________________60

FIGURA 9: ESQUEMA DE FUNCIONAMENTO DO PROGRAMA DE TREINAMENTO DAS SUB-

UNIDADES COM INDICAO DAS INFORMAES A SEREM FORNECIDAS AO SISTEMA. 63

FIGURA 10: MODELO HMM UTILIZADO PARA CADA UMA DAS SUB-UNIDADES FONTICAS.

A PROBABILIDADE DE TRANSIO AKL INDICA A PROBABILIDADE DE FAZER UMATRANSIO PARA A SUB-UNIDADE SEGUINTE.______________________________64

FIGURA 11: VALORES INICIAIS PARA AS PROBABILIDADES DE TRANSIO DOS MODELOS

DOS FONES PARA INICIALIZAO COM DISTRIBUIO UNIFORME._______________64

FIGURA 12: DIAGRAMA DE BLOCOS PARA O PROGRAMA DE DETEO DE TRIFONES. ____68

FIGURA 13: DELETED INTERPOLATION. _______________________________________73

FIGURA 14: DIAGRAMA DE BLOCOS DO MDULO DE RECONHECIMENTO. _____________75

FIGURA 15: EXEMPLO DE ARQUIVO DE VOCABULRIO ___________________________78

FIGURA 16: VARIAO DE ( )|OP COM O NMERO DE NVEIS PARA UMA LOCUO DE

QUATRO PALAVRAS. VERIFICA-SE UM COMPORTAMENTO MONOTNICO DE

CRESCIMENTO E DECAIMENTO NOS VALORES DA LOG-VEROSSIMILHANA COM O

NMERO DE NVEIS. _________________________________________________80


12/152

ii Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov

FIGURA 17: VARIAO DE ( )|OP COM O NMERO DE NVEIS PARA UMA LOCUO DE

OITO PALAVRAS. VERIFICA-SE UM COMPORTAMENTO NO MONOTNICO DE

CRESCIMENTO E DECAIMENTO NOS VALORES DA LOG-VEROSSIMILHANA COM ONMERO DE NVEIS. _________________________________________________80

FIGURA 18: DIVISO DOS LOCUTORES EM CONJUNTOS DE TREINAMENTO E TESTE. _____86

FIGURA 19: NMERO DE ERROS COMETIDOS PELO SISTEMA PARA CADA LOCUTOR, PARA OS

TESTES COM INDEPENDNCIA DE LOCUTOR. _______________________________98

FIGURA 20: NMERO DE ERROS COMETIDOS PELO SISTEMA PARA CADA LOCUTOR, PARA OS

TESTES COM DEPENDNCIA DE SEXO. A) LOCUTORES FEMININOS E B) LOCUTORES

MASCULINOS. ______________________________________________________98

FIGURA 21: NMERO DE ERROS PARA CADA SUBCONJUNTO DE FRASES NOS TESTES COM

DEPENDNCIA DE LOCUTOR. ___________________________________________99

FIGURA 22: NMERO DE EXEMPLOS DE TREINAMENTO PARA OS TRIFONES. OS GRFICOS DA

COLUNA DA ESQUERDA REFEREM-SE AOS TRIFONES GERADOS ATRAVS DAS CLASSES

FONTICAS, E OS DA DIREITA, AOS TRIFONES GERADOS A PARTIR DA CONFIGURAO

DO TRATO VOCAL. _________________________________________________102


13/152

Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov iii

_______________________________________________________________________

LISTA DE TABELAS

TABELA

1: PARMETROS TPICOS USADOS PARA CARACTERIZAR A CAPACIDADE DE

SISTEMAS DE RECONHECIMENTO DE FALA. _________________________________8

TABELA 2: PERPLEXIDADES TPICAS PARA VRIOS DOMNIOS._____________________21

TABELA 3: SUB-UNIDADES ACSTICAS UTILIZADAS NA TRANSCRIO FONTICA DAS

LOCUES, COM EXEMPLOS E FREQUNCIAS RELATIVAS DE OCORRNCIA, SEGUNDO

ALCAIM ET. AL. [1] E AQUELAS ENCONTRADAS NA TRANSCRIO FONTICA DA BASE

DE DADOS COLETADA. TAMBM SO LISTADOS OS NMEROS DE OCORRNCIAS

OBSERVADOS PARA CADA SUB-UNIDADE. _________________________________30

TABELA 4: CLASSES FONTICAS COM SEUS RESPECTIVOS FONES.___________________69

TABELA 5: CLASSES FONTICAS BASEADAS NA POSIO DO TRATO VOCAL E SEUS

RESPECTIVOS FONES. ________________________________________________71

TABELA 6: LISTA DOS FONES PRESENTES NO PORTUGUS FALADO NO BRASIL. ________84

TABELA 7: RESULTADOS DOS TESTES REALIZADOS PARA FUSO DE FONES INDEPENDENTES

DE CONTEXTO. _____________________________________________________85

TABELA 8: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM FONES INDEPENDENTES

DE CONTEXTO______________________________________________________87TABELA 9: NMERO DE TRIFONES BASEADOS NAS CLASSES FONTICAS GERADOS A PARTIR

DO SUBCONJUNTO DE LOCUES DE TREINAMENTO._________________________89

TABELA 10: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM TRIFONES BASEADOS

NAS CLASSES FONTICAS. _____________________________________________89

TABELA 11: NMERO DE TRIFONES BASEADOS NA CONFIGURAO DO TRATO VOCAL

GERADOS A PARTIR DO SUBCONJUNTO DE LOCUES DE TREINAMENTO. _________89

TABELA 12: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM TRIFONES BASEADOS

NA CONFIGURAO DO TRATO VOCAL.___________________________________90

TABELA 13: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE

PALAVRA PARA O PROCEDIMENTO DE DETECO AUTOMTICA DO NMERO DE NVEIS

BASEADO NA DERIVADA DA CURVA DE EVOLUO DA LOG-VEROSSIMILHANA COM O

NMERO DE NVEIS. _________________________________________________91


14/152

iv Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov


PALAVRA PARA O PROCEDIMENTO DE DETECO AUTOMTICA DO NMERO DE NVEIS

DE ACORDO COM A CONTAGEM DO NMERO DE NVEIS EM QUE A VEROSSIMILHANA

CAI.______________________________________________________________91


PALAVRA PARA VRIOS VALORES DO LIMIAR DE PODA NO ALGORITMO VITERBI BEAM

SEARCH. __________________________________________________________92

TABELA 16: DESEMPENHO DO SISTEMA EM FUNO DAS TRANSCRIES FONTICAS DAS

LOCUES DE TREINAMENTO.__________________________________________93

TABELA 17: RESULTADOS DOS TESTES COM VOCABULRIO SIMPLIFICADO (APENAS 1

VERSO DE CADA PALAVRA), UTILIZANDO FONES INDEPENDENTES DE CONTEXTO. _94

TABELA 18: RESULTADOS DOS TESTES COM VOCABULRIO SIMPLIFICADO (APENAS 1

VERSO DE CADA PALAVRA), UTILIZANDO TRIFONES BASEADOS NA CONFIGURAO

DO TRATO VOCAL. __________________________________________________95

TABELA 19: TEMPO MDIO DE RECONHECIMENTO PARA OS TESTES COM OS DOIS ARQUIVOS

DE VOCABULRIO. __________________________________________________95

TABELA 20: RESULTADOS DOS TESTES DE AVALIAO DO DESEMPENHO FINAL DO

SISTEMA. _________________________________________________________96TABELA 21: QUADRO COMPARATIVO DO DESEMPENHO DO SISTEMA NOS TESTES INCIAIS E

NOS TESTES FINAIS._________________________________________________106


15/152

Introduo. 1

1.Introduo.

As interfaces via voz esto rapidamente se tornando uma necessidade. Em um

futuro prximo, sistemas interativos iro fornecer fcil acesso a milhares de informaes

e servios que iro afetar de forma profunda a vida cotidiana das pessoas. Hoje em dia,

tais sistemas esto limitados a pessoas que tenham acesso aos computadores, uma parte

relativamente pequena da populao, mesmo nos pases mais desenvolvidos. So

necessrios avanos na tecnologia de linguagem humana para que o cidado mdio

possa acessar estes sistemas, usando habilidades de comunicao naturais e empregando

aparelhos domsticos, tais como o telefone.

Sem avanos fundamentais em interfaces voltadas ao usurio, uma larga frao

da sociedade ser impedida de participar da era da informao, resultando em uma maiorextratificao da sociedade, agravando ainda mais o panorama social dos dias de hoje.

Uma interface via voz, na linguagem do usurio, seria ideal pois a mais natural,

flexvel, eficiente, e econmica forma de comunicao humana.

Depois de vrios anos de pesquisa, a tecnologia de reconhecimento de fala est

passando o limiar da praticabilidade. A ltima dcada testemunhou um progresso

assombroso na tecnologia de reconhecimento de fala, no sentido de que esto se

tornando disponveis algoritmos e sistemas de alto desempenho. Em muitos casos, a

transio de prottipos de laboratrio para sistemas comerciais j se iniciou.


16/152

2 Introduo.

1.1. Aplicaes.

Algumas das principais reas de aplicao comercial para os sistemas de

reconhecimento automtico de fala so: ditado, interfaces para computadores pessoais,

servios de telefonia automticos e aplicaes industriais especiais [42]. A principal

razo para o sucesso comercial tem sido o aumento na produtividade proporcionado por

estes sistemas que auxiliam ou substituem operadores humanos.

1.1.1. Sistemas de ditado de vocabulrio extenso.

Os sistemas de ditado de vocabulrio extenso podem ser de dois tipos: ditado

irrestrito (por exemplo cartas de negcios ou artigos de jornais) e gerao de

documentos estruturados (por exemplo, receitas mdicas, aplices de seguro, relatrios

radiolgicos, etc). Tais sistemas podem ser dependentes do locutor ou adaptativos desde

que se espera que geralmente um nico usurio ir utiliz-lo por um perodo extenso de

tempo.At bem pouco tempo atrs, os sistemas de palavras isoladas predominaram no

mercado. Agora, sistemas de reconhecimento de fala contnua comeam a aparecer. Os

vocabulrios so de aproximadamente 60000 palavras. Estes sistemas so projetados

para operar em condies favorveis (por exemplo, em escritrios, com microfones fixos

na cabea do operador e com cancelamento de rudo).

Para aumentar a taxa de acertos, os sistemas de ditado irrestrito contam com

modelos de linguagem estatsticos para favorecer palavras ou sequncias de palavras

mais frequentes. Os sistemas de domnio especfico podem aumentar o seu desempenho

incorporando um padro de documento estruturado para gerar um relatrio completo,

embora muitas vezes isto exija um processo de planejamento bastante laborioso.


17/152

Introduo. 3

Um sistema de ditado torna-se mais poderoso se possui a habilidade de se adaptar

voz de um determinado usurio (adaptao ao locutor), vocabulrio (aprendizado de

novas palavras), e tarefas (adaptao do modelo de linguagem).

1.1.2. Interface para computadores pessoais.

A fala tende a se tornar uma componente importante na interface com os

computadores. Algumas das possveis aplicaes poderiam ser:

Fala como atalho: ao invs de abrir um arquivo atravs de vrios nveis de

hierarquia, o usurio apenas diz Abra o estoque.

Recuperao de informao: interfaces grficas so inconvenientes para especificar

recuperao de informaes baseada em restries (encontre todos os documentos

de Fbio criados depois de maro)

Computadores de bolso: medida em que o tamanho dos computadores diminui

(hoje existem palm-tops minsculos), teclados e mouses tornam-se cada vez mais

difceis de usar, tornando a fala uma alternativa bastante atraente.

Embora o reconhecimento de fala em computadores seja uma alternativa bastante

atraente, as interfaces atuais, teclado e mouse, representam uma alternativa madura e

extremamente eficiente. improvvel que a fala possa substituir completamente estes

dispositivos. Ao invs disso, a nova interface deve combinar estes dispositivos e permitir

que o usurio defina qual combinao de dispositivos a mais adequada para

determinada tarefa.

O uso apropriado da fala nos computadores pessoais ir provavelmente requerer

o desenvolvimento de um novo conceito de interao com o usurio ao invs de

simplesmente modificar as interfaces grficas existentes.


18/152

4 Introduo.

Uma questo social tambm est envolvida neste tipo de interface: a dos

deficientes fsicos. Com interfaces via voz, pessoas que no tm acesso ao computador

por causa de suas deficincias, poderiam utiliz-lo normalmente, permitindo umingresso ao mercado de trabalho e uma competio em p de igualdade com as outras

pessoas.

1.1.3. Sistemas baseados na rede telefnica.

O reconhecimento de fala baseado na rede telefnica oferece um potencial

enorme por ser um meio de comunicao extremamente difundido. tambm a rea

tecnicamente mais difcil para o reconhecimento devido impossibilidade de controle

sobre as condies de uso.

Os problemas envolvem uma grande e imprevisvel populao de usurios,

diferenas nos microfones dos aparelhos, a presena de rudo de canal e banda estreita.

Os sistemas mais bem sucedidos so os que se limitam a vocabulrios

extremamente pequenos, da ordem de 10 a 20 palavras. Para que um sistema seja til

no necessrio um vocabulrio muito grande; alguns sistemas tem um vocabulrio deapenas duas palavras (sim e no).

Alm do pouco controle sobre a qualidade do sinal, o reconhecimento atravs da

linha telefnica apresenta problemas devido expectativa dos usurios que o sistema se

comporte como um interlocutor humano. Dois exemplos clssicos seriam:

usurio fala enquanto o sistema ainda est formulando as questes (intromisso), de

modo que na hora em que o sistema entra em modo de gravao para coletar a

resposta, o usurio j est no meio da resposta ou j terminou de falar

usurio adiciona palavras resposta, que no esto no vocabulrio do sistema (sim,

por favor). Neste caso podem ser usadas tcnicas de identificao de palavras para

conseguir taxas de reconhecimento aceitveis .


19/152

Introduo. 5

Estes servios de operao envolvem vocabulrios pequenos, dilogo interativo e

avisos. As possveis aplicaes seriam: validao de cartes de crdito, compras por

catlogo, reservas para hotis, restaurantes, teatros, passagens areas, consultas atelefones e endereos, etc.

1.1.4. Aplicaes industriais e sistemas integrados.

Os sistemas de reconhecimento de fala tambm podem ser utilizados em

aplicaes mais simples de vocabulrio restrito, como o controle de mquinas e

dispositivos, abertura e fechamento de portas e vlvulas, acendimento de luzes,

operaes financeiras e outros.

Para muitas aplicaes o reconhecimento dependente de locutor suficiente,

desde que um dispositivo particular ser utilizado por uma nica pessoa durante um

perodo de tempo relativamente extenso, por exemplo um turno de trabalho. Por outro

lado, seria conveniente para algumas aplicaes que o sistema pudesse fazer

reconhecimento de palavras conectadas, uma vez que uma entrada por palavras isoladas

pode ser muito lenta e desconfortvel.Dispositivos de reconhecimento de fala podem ser tambm utilizados como parte

de simuladores, permitindo que um sistema automtico substitua um treinador humano.

Outra aplicao possvel a de sistemas de inspeo mvel e controle de inventrio, por

exemplo no caso de atividades envolvendo microscopia e trabalho em quartos escuros de

fotografia. A cada dia mais comum ver aparelhos de telefonia celular com discagem

por voz (Ligue-me com o Fbio).

Estes exemplos significam uma nova era na interao homem-mquina, onde

cada vez mais a tecnologia procura criar interfaces que sejam mais naturais ao homem.

Com o amadurecimento da tecnologia de reconhecimento de fala, ser possvel fazer

com que todos estes servios sejam oferecidos de forma segura e eficiente.


20/152

6 Introduo.

1.2. Objetivos e contribuies do Trabalho.

Dentre as vrias aplicaes citadas para os sistemas de reconhecimento de fala,

este trabalho focalizou o problema de reconhecimento de fala contnua, com

independncia de locutor e vocabulrio mdio, sendo um caso tpico o de editor de texto

comandado por voz.

Alm do desenvolvimento de um sistema completo para treinamento e

reconhecimento, foram estudadas todas as etapas envolvidas no processo, desde o

planejamento, gravao e transcrio fontica da base de dados utilizada at a

implementao final do sistema.

Tambm houve a preocupao de se criar um sistema que pudesse ser utilizado

por outros pesquisadores, tendo uma interface visual bastante intuitiva e documentao

bastante cuidadosa, com o intuito de diminuir o tempo de desenvolvimento e facilitar as

pesquisas futuras.

Como contribuies principais deste trabalho pode-se citar a proposta de um

conjunto de fones dependentes de contexto consistente e razoavelmente menor do que os

trifones propriamente ditos, e a verificao da influncia da transcrio fontica daslocues de treinamento no desempenho do sistema. O estudo de todas as etapas do

desenvolvimento de um sistema de reconhecimento tambm proporcionou uma viso

bastante ampla e clara dos problemas envolvidos, e serviu para um melhor

direcionamento das linhas de pesquisa.

1.3. Contedo da Tese.

A tese est organizada da seguinte maneira. No Captulo 2 feito um

levantamento dos principais problemas observados na tarefa de reconhecimento de fala,

com nfase especial no problema de reconhecimento de fala contnua; tambm

apresentada uma viso geral do estado da arte atual para os sistemas de reconhecimento


21/152

Introduo. 7

de fala em vrias aplicaes. O Captulo 3 discute a questo das bases de dados: como

so feitas, como deveriam ser feitas, as dificuldades de confeco, e finalmente os

trabalhos realizados para a confeco da base de dados utilizada neste trabalho. NoCaptulo 4 apresentada a teoria sobre modelos ocultos de Markov. O Captulo 5 trata

dos algoritmos de busca com nfase para o Level Building e o One Step. O sistema

desenvolvido neste trabalho descrito no Captulo 6, e os testes e resultados obtidos so

apresentados no Captulo 7. Finalmente, no Captulo 8 so feitas as anlises sobre os

resultados e tiradas concluses a partir destas. Tambm so feitas sugestes para a

continuao das pesquisas a partir das deficincias observadas.


22/152

8 O problema do reconhecimento de fala.

2.O problema do reconhecimento de fala.

O reconhecimento de fala consiste em mapear um sinal acstico, capturado por

um transdutor (usualmente um microfone ou um telefone) em um conjunto de palavras.

Os sistemas de reconhecimento de fala podem ser caracterizados por vrios

parmetros sendo que alguns dos mais importantes se encontram resumidos na Tabela

1[13].

Tabela 1: Parmetros tpicos usados para caracterizar a capacidade de sistemas dereconhecimento de fala.

Parmetros FaixaModo de Pronncia De palavras isoladas a fala contnua

Estilo de pronncia De leitura a fala espontneaTreinamento De dependente de locutor a independente de locutorVocabulrio De pequeno (< 20 palavras) a grande (> 20000 palavras)Modelo de linguagem De estados finitos a sensvel a contextoPerplexidade De pequena (< 10) a grande (> 100)SNR De alta (> 30 dB) a baixa (< 10 dB)Transdutor De microfone com cancelamento de rudo a telefone

Um sistema de reconhecimento de palavras isoladas requer que o locutor efetue

uma pequena pausa entre as palavras, enquanto que um sistema de reconhecimento de

fala contnua no apresenta este inconveniente.A fala quando gerada de modo espontneo mais relaxada, contm mais

coarticulaes, e portanto muito mais difcil de reconhecer do que quando gerada

atravs de leitura.


23/152

O problema do reconhecimento de fala. 9

Os sistemas dependentes de locutor necessitam de uma fase de treinamento para

cada usurio antes de serem utilizados, o que no acontece com sistemas independentes

do locutor, desde que estes j foram previamente treinados com vrios locutores.O reconhecimento torna-se mais difcil medida em que o vocabulrio cresce, ou

apresenta palavras parecidas.

Quando a fala produzida em sequncias de palavras, so usados modelos de

linguagem para restringir as possibilidades de sequncias de palavras. O modelo mais

simples pode ser definido como uma mquina de estados finita, onde so explicitadas as

palavras que podem seguir uma dada palavra. Os modelos de linguagem mais gerais, que

aproximam-se da linguagem natural, so definidos em termos de gramticas sensveis a

contexto.

Uma medida popular da dificuldade da tarefa, que combina o tamanho do

vocabulrio e o modelo de linguagem, a perplexidade, grosseiramente definida como a

mdia do nmero de palavras que pode seguir uma palavra depois que o modelo de

linguagem foi aplicado.

Existem tambm parmetros externos que podem afetar o desempenho de um

sistema de reconhecimento de fala, incluindo as caractersticas do rudo ambiente e o

tipo e posio do microfone.

O reconhecimento de fala um problema difcil devido s vrias fontes de

variabilidade associadas ao sinal de voz [13]:

variabilidades fonticas : as realizaes acsticas dos fonemas, a menor unidade

sonora das quais as palavras so compostas, so altamente dependentes do contexto

em que aparecem [1]. Por exemplo o fonema /t/ em tatu tem uma articulaopuramente oclusiva, e em tia, dependendo do locutor, pode ter uma articulao

africada, onde ocluso se segue um rudo fricativo semelhante ao do incio da

palavra chuva. Alm disso, nas fronteiras entre palavras, as variaes contextuais

podem tornar-se bem mais acentuadas fazendo, por exemplo, com que a frase a

justia ... seja pronunciada como ajustic...


24/152


variabilidades acsticas:podem resultar de mudanas no ambiente assim como da

posio e caractersticas do transdutor.

variabilidades intra-locutor: podem resultar de mudanas do estado fsico/emocionaldos locutores, velocidade de pronncia ou qualidade de voz.

variabilidades entre-locutores: originam-se das diferenas na condio scio -

cultural, dialeto, tamanho e forma do trato vocal para cada uma das pessoas.

Os sistemas de reconhecimento tentam modelar as fontes de variabilidade

descritas acima de vrias maneiras:

Em termos fontico acsticos, a variabilidade dos locutores tipicamente modelada

usando tcnicas estatsticas aplicadas a grandes quantidades de dados de

treinamento. Tambm tm sido desenvolvidos algoritmos de adaptao ao locutor

que adaptam modelos acsticos independentes do locutor para os do locutor corrente

durante o uso [47][55].

As variaes acsticas so tratadas com o uso de adaptao dinmica de parmetros

[47], uso de mltiplos microfones [48] e processamento de sinal [13].

Na parametrizao dos sinais, os pesquisadores desenvolveram representaes que

enfatizam caractersticas independentes do locutor, e desprezam caractersticas

dependentes do locutor [14][18].

Os efeitos do contexto lingustico em termos fontico-acsticos so tipicamente

resolvidos treinando modelos fonticos separados para fonemas em diferentes

contextos; isto chamado de modelamento acstico dependente de contexto [30].

O problema da diferena de pronncias das palavras pode ser tratado permitindo

pronncias alternativas de palavras em representaes conhecidas como redes de

pronncia. As pronncias alternativas mais comuns de cada palavra, assim como os

efeitos de dialeto e sotaque so tratados ao se permitir aos algoritmos de busca

encontrarem caminhos alternativos de fonemas atravs destas redes. Modelos


25/152


estatsticos de linguagem, baseados na estimativa de ocorrncia de sequncias de

palavras, so geralmente utilizados para guiar a busca atravs da sequncia de

palavras mais provvel [13].Outro problema encontrado na tarefa de reconhecimento de fala contnua o

procedimento de decodificao da locuo. Este, em sistemas de reconhecimento de fala

contnua com vocabulrio extenso, tem um custo computacional elevadssimo, fazendo

com que seja necessrio buscar maneiras inteligentes de guiar o processo de busca. Este

tpico ser abordado com mais detalhes na seo seguinte.

2.1. Arquiteturas para reconhecimento de fala.

Atualmente, os algoritmos mais populares na rea de reconhecimento de fala

baseiam-se em mtodos estatsticos. Dentre estes, dois mtodos tm se destacado: as

redes neurais artificiais (Artificial Neural Networks, ANN) [49][54] e os modelos

ocultos de Markov (Hidden Markov Models, HMM) [5][3][29][40]. Mais recentemente,

implementaes hbridas que tentam utilizar as caractersticas mais favorveis de cada

um destes mtodos tambm tm obtido bons resultados [45].

2.2. Unidades fundamentais.

Em sistemas de vocabulrio pequeno (algumas dezenas de palavras), comum

utilizar-se as palavras como unidades fundamentais. Para um treinamento adequado

destes sistemas, deve-se ter um grande nmero de exemplos de cada palavra. Entretanto,

para sistemas com vocabulrios maiores, a disponibilidade de um grande nmero de

exemplos de cada palavra torna-se invivel. A utilizao de sub-unidades fonticas, tais

como fonemas, slabas, demisslabas, etc, uma alternativa bastante razovel, pois agora


26/152


necessrio ter vrios exemplos de cada sub-unidade, e no vrios exemplos de cada

palavra.

Dois critrios bastante importantes para uma boa escolha de sub-unidades so[30]:

consistncia: exemplos diferentes de uma unidade devem ter caractersticas

similares.

treinabilidade: devem existir exemplos de treinamento suficientes de cada sub-

unidade para criar um modelo robusto.

Sub-unidades maiores tais como slabas, demissslabas, difones, etc, so

consistentes, mas difceis de treinar, enquanto que unidades menores, tais como os

fones, so treinveis, mas inconsistentes.

Uma alternativa que mostrou ser bastante atrativa a de fones dependentes de

contexto [46]. Estas unidades so bastante consistentes, pois levam em considerao o

efeito de coarticulao com os fones vizinhos.

Os fones dependentes de contexto, como o nome sugere, modelam o fone em seu

contexto. Um contexto geralmente refere-se ao fones imediatamente vizinhos direita e

esquerda. Um fone dependente do contexto esquerda aquele modificado pelo fone

imediatamente anterior, enquanto que um fone dependente do contexto direita aquele

modificado pelo fone imediatamente posterior.

O modelo trifone leva em considerao tanto o contexto esquerda como o

contexto direita; deste modo, se dois fones tm a mesma identidade mas contextos

esquerda e/ou direita diferentes, ento so considerados trifones distintos.

Estes modelos so em geral insuficientemente treinados devido sua grande

quantidade. Entretanto, como os modelos de trifones so modelos de fones especficos,

podem ser interpolados com modelos de fones independentes de contexto, fones

dependentes de contexto esquerda, e fones dependentes de contexto direita, que so

modelos menos consistentes, mas melhor treinados.


27/152


2.3. Modelos Ocultos de Markov (HMMs).

A histria dos HMMs precede seu uso no processamento de voz e somente mais

tarde, gradualmente, foi se tornando bem conhecido e usado no campo da fala. A

introduo dos HMMs no campo da voz usualmente creditada aos trabalhos

independentes de Baker na Carnegie Mellon University [5] e Jelinek e colegas na IBM

[26].

Os HMMs podem ser classificados em modelos discretos, contnuos e semi-

contnuos, de acordo com a natureza dos elementos na matriz de emisso de smbolos

(b), que so funes de distribuio [41].

Nos modelos discretos, as distribuies so definidas em espaos finitos. Neste

caso, as observaes so vetores de smbolos de um alfabeto finito de N elementos

distintos.

Outra possibilidade definir distribuies como densidades de probabilidade em

espaos de observao contnuos (modelos contnuos). Neste caso, devem ser impostas

fortes restries forma funcional das distribuies, de modo a se obter um nmero

razovel de parmetros a serem estimados. A estratgia mais popular caracterizar astransies do modelo atravs de misturas de densidades que tenham uma forma

paramtrica simples (por exemplo Gaussianas ou Laplacianas), e que possam ser

caracterizadas pelo vetor mdia e pela matriz de covarincia. De modo a modelar

distribuies complexas desta maneira pode ser necessrio usar um grande nmero

destas funes em cada mistura. Isto pode requerer um conjunto de treinamento muito

grande para uma estimao robusta dos parmetros das distribuies.

Nos modelos semicontnuos, todas as misturas so expressas em termos de um

conjunto comum de densidades base. As diferentes misturas so caracterizadas somente

atravs de fatores de ponderao diferentes.


28/152


2.4. Modelo de durao de palavras.

A idia de se utilizar um modelo de durao de palavras penalizar hipteses

levantadas pelo decodificador que estejam fora da durao mdia (em segundos, por

exemplo) da realizao de uma dada palavra [40]. Por exemplo, se o decodificador

reconheceu a palavra casa e atribuiu a ela uma durao de 20 segundos, obviamente

esta hiptese deve ser severamente punida, pois est muito longe da realidade.

Para isto, devemos conhecer a priori a durao mdia de cada uma das palavras

que constituem o vocabulrio do sistema de reconhecimento. Em sistemas dependentes

do locutor, esta estimativa pode ser razoavelmente precisa, mas para sistemas

independentes de locutor, torna-se um problema srio estimar a durao mdia de cada

palavra. Alm disso, para sistemas com vocabulrio grande, a determinao da durao

mdia de cada uma das palavras pode se tornar invivel.

2.5. Algoritmos de decodificao.

A decodificao um processo de busca no qual uma sequncia de vetores

correspondentes a caractersticas acsticas do sinal de voz comparada com modelos de

palavras. De uma maneira geral, o sinal de voz e suas transformaes no fornecem uma

indicao clara das fronteiras entre palavras nem do nmero total de palavras em uma

dada locuo, de modo que a determinao destas parte do processo de decodificao.

Neste processo, todos os modelos das palavras so comparados com uma sequncia de

vetores acsticos.

Os algoritmos mais utilizados nesta fase do reconhecimento so todos baseados

no algoritmo de Viterbi e, dentre eles, podemos citar: Level Building [35], One Step

[36], Stack Decoding [24], entre outros.


29/152


Estes modelos crescem com o vocabulrio, e podem gerar espaos de busca

extremamente grandes, o que torna o processo de busca bastante oneroso em termos

computacionais, e portanto lento.Algumas estratgias para diminuir o custo computacional nesta etapa envolvem

procedimentos de poda, tais como o Viterbi Beam Search [41].

Deve-se acrescentar que esta etapa do reconhecimento responsvel por

praticamente 100% do esforo computacional de um sistema de reconhecimento de fala

contnua e, portanto, a que determina a velocidade final de reconhecimento.

2.6. Modelos de linguagem.

Um sistema de reconhecimento de fala converte o sinal acstico observado em

sua representao ortogrfica correspondente. O sistema faz a sua escolha a partir de um

vocabulrio finito de palavras que podem ser reconhecidas. Por simplicidade, assume-se

que uma palavra identificada somente por sua pronncia 1.

Foi conseguido um progresso dramtico na resoluo do problema de

reconhecimento de fala atravs do uso de um modelo estatstico da distribuio conjunta

( )OWp , da sequncia W de palavras pronunciadas e da sequncia de informao

acstica observada O. Este mtodo chamado de modelo de fonte-canal. Neste mtodo,

o sistema determina uma estimativa $W da identidade da sequncia de palavras

pronunciadas a partir da evidncia acstica observada O usando a distribuio a

posteriori ( )p W O| . Para minimizar a taxa de erro, o sistema escolhe a sequncia de

palavras que maximiza a distribuio a posteriori:

1 Por exemplo, a palavra macaco considerada uma palavra s, embora possa ter mais

de um significado (animal ou objeto).


30/152


( )( ) ( )

( )$ arg | arg

|W max p W O max

p W p OW

p OW W= = (1)

onde ( )p W a probabilidade da sequncia de n palavras We ( )p O W| a probabilidade

de observar a evidncia acstica O quando a sequncia W pronunciada. A distribuio

a priori ( )p W de quais palavras poderiam ter sido pronunciadas (a fonte) refere-se ao

modelo de linguagem. O modelo da probabilidade de observao ( )p O W| (o canal)

chamado de modelo acstico.

2.6.1. Modelos de linguagem n-gram.

Para uma dada sequncia de palavras { }W w wn= 1 ,..., de n palavras, pode-se

reescrever a probabilidade do modelo de linguagem como:

( ) ( ) ( )== = n

iiin wwwPwwPWP 1 101 ,...,|,..., (2)

onde w0 escolhido de forma conveniente para lidar com a condio inicial. A

probabilidade da prxima palavra wi depende da histria ( )121 ,...,, = ii wwwh das

palavras que j foram pronunciadas. Com esta fatorao, a complexidade do modelo de

linguagem cresce exponencialmente com o comprimento da histria. De modo a obter

um modelo mais prtico e parcimonioso, a histria de palavras pronunciadas truncada,

de modo que apenas alguns termos so utilizados para calcular a probabilidade da

prxima palavra seguir a palavra atual.

Os modelo mais bem sucedidos das ltimas duas dcadas so os modelos n-

gram, onde somente as n palavras mais recentes da histria so usadas para condicionar

a probabilidade da prxima palavra. O desenvolvimento a seguir refere-se ao caso


31/152


particular de gramticas bigrama (n = 2), A probabilidade de uma sequncia de palavras

torna-se:

( ) ( )=

n

i

ii wwPWP1

1| (3)

Para estimar as probabilidades bigrama, pode-se usar um grande corpus de textos

para estimar as respectivas frequncias bigrama:

( )1

12122 |

c

cwwf = (4)

onde 12c o nmero de vezes que a sequncia de palavras { }21 , ww observada e 1c o

nmero de vezes que 1w observada. Para um vocabulrio de Vpalavras existem V2

bigramas possveis, o que para um vocabulrio de 20000 palavras significa 400 milhes

de bigramas. Muitos destes bigramas no sero observados no corpus de treinamento, e

deste modo estes bigramas no observados iro ter probabilidade zero quando se usa afrequncia bigrama como uma estimativa da probabilidade bigrama. Para resolver este

problema, necessrio uma estimativa suavizada da probabilidade de eventos no

observados. Isto pode ser feito pela interpolao linear das frequncias bigrama e

unigram e uma distribuio uniforme no vocabulrio.

( ) ( ) ( )V

wfwwfwwp1

|| 0211122212 ++= (5)

onde ( )f2 e ( )f1 so estimadas pela razo das contagens bigrama e unigram

apropriadas. Os pesos (0, 1 e2) da interpolao linear so estimados a partir de dados

de validao: maximizando a probabilidade de novos dados diferentes daqueles usados


32/152


para estimar as frequncias n-gram. O algoritmo forward-backwardpode ser usado para

resolver este problema de estimao de mxima verossimilhana.

No trabalho de modelamento de linguagem tm sido usadas bases de dados deum milho a 500 milhes de palavras, correspondendo a vocabulrios de 1000 a 267000

palavras distintas, para construir modelos trigrama [13]. Para gramticas do tipo bigrama

as necessidades so um pouco menores, mas ainda astronmicas.

2.6.2. Perplexidade.

Na comparao de modelos de linguagem, importante ser capaz de quantificar a

dificuldade que estes impem ao sistema de reconhecimento. Um modo de se fazer isso

utiliz-los em um sistema de reconhecimento e determinar qual deles fornece a menor

taxa de erro. Este ainda a melhor maneira de avaliar um modelo de linguagem, embora

seja um mtodo altamente custoso.

Os modelos de linguagem tendem a minorar as incertezas (diminuir a entropia)

do contedo das sentenas e facilitar o reconhecimento. Por exemplo, se existem, em

mdia, muito poucas palavras que podem seguir uma dada palavra em um modelo delinguagem, o sistema de reconhecimento ter menos opes para verificar, e o

desempenho ser melhor do que se existissem muitas palavras possveis. Este exemplo

sugere que uma medida conveniente da dificuldade de um modelo de linguagem deva

envolver alguma medida do nmero mdio de palavras que possam seguir outras. Se o

modelo de linguagem for visto como um grafo, com terminais associados a transies

entre palavras, por exemplo, ento esta medida estaria relacionada com o fator de

ramificao mdio em todos os pontos de deciso do grafo. Grosseiramente falando, esta

a quantidade medida pela perplexidade, formalizada a seguir.

Um modelo estocstico formal de linguagem gera sequncias terminais com

certas probabilidades. Estas sequncias terminais podem ser vistas como realizaes de

um processo estocstico estacionrio discreto cujas variveis aleatrias assumem valores

discretos. Estes valores discretos correspondem aos terminais individuais, e o tempo


33/152


indica simplesmente a posio do terminal aleatrio na sequncia de palavras. Por

simplicidade, vamos assumir que os terminais correspondam a palavras, e este processo

aleatrio ser indicado por w . Se existem Wpalavras possveis, Www ,...,1 , a entropiaassociada com este processo aleatrio ou fonte dada por

( ) ( )( ){ }

( )( ) ( )( )iW

ii

i

wwPwwP

wwPEwH

= ==

==

=2

1

2

log

log(6)

onde ( )w uma varivel aleatria arbitrria em w se a fonte tem variveis aleatriasindependentes e identicamente distribudas. Se no, a entropia dada por

( ) ( ){ }

( ) ( )NNw

NN

N

NN

N

wwPwwPN

wwPEN

wH

N1111

11

log1

lim

log1

lim

1

= ==

==

(7)

onde Nw1 denota a sequncia de variveis aleatrias ( ) ( )Nww ,...,1 , eNw1 denota a

realizao parcial ( ) ( )Nww ,...,1 , e a soma tomada sobre todas estas realizaes. Desde

que as palavras em um modelo de linguagem no so independentes e nem

equiprovveis, usamos (7) ao invs de (6). Para uma fonte ergdica, a entropia pode ser

calculada utilizando-se uma mdia temporal

( ) ( )NN

NwwP

NwH 112log1lim == (8)

Na prtica, quanto mais longa a sentena (N maior) utilizada para estimar H,

melhor ser a estimativa; Hrepresenta o nmero mdio de bits de informao inerente a


34/152


uma palavra no modelo de linguagem. Isto significa que, em mdia, ( )wH bits precisam

ser extrados dos dados acsticos para reconhecer uma palavra.

As probabilidades NN

wwP 11 = so desconhecidas e precisam ser estimadas apartir de dados de treinamento (que podem ser vitos como exemplos de produes do

modelo de linguagem). Chamando as estimativas de NN wwP 11 = , e a medida de

entropia resultante de ( )wH , temos

( ) ( )NNN

wwPN

wH 112log

1lim ==

(9)

Pode-se mostrar que HH se w for um processo ergdico.

Embora a entropia fornea uma medida de dificuldade perfeitamente vlida, na

rea de processamento de fala, prefere-se usar a perplexidade, definida como

( ) ( )

( )N N

wHdef

wP

wQ

1

12 = (10)

para algum N grande. Para verificar o sentido desta medida, note que se o modelo de

linguagem tem Wpalavras equiprovveis que ocorrem independentemente em qualquer

sequncia de palavras, segue de (6) que a quantidade de entropia em qualquer sequncia

dada por

( ) WwH 2log= (11)

O tamanho do vocabulrio neste caso est relacionado com a entropia atravs da

seguinte expresso:


35/152


( )wHW 2= (12)

Comparando (12) e (10), pode-se ver que a perplexidade de um modelo delinguagem pode ser interpretada como o tamanho do vocabulrio (nmero de terminais)

em outro modelo de linguagem com palavras equiprovveis e independentes, que seja

igualmente difcil de reconhecer. Portanto a perplexidade indica um fator de ramificao

mdio de um modelo de linguagem modelado por w .

A perplexidade de um modelo de linguagem depende do domnio de discurso. Na

Tabela 2 tem-se um quadro comparativo para diversas aplicaes [13] :

Tabela 2: Perplexidades tpicas para vrios domnios.

Domnio PerplexidadeRadiologia 20

Medicina de emergncia 60Jornalismo 105Fala geral 247

2.7. Estado da arte.

O desempenho dos sistemas de reconhecimento de fala tipicamente descrito em

termos de taxa de erros de palavra E, definida como [41]:

ES I D

N=

+ +100 (13)

onde N o nmero total de palavras no conjunto de teste, S, Ie D so o nmero total de

substituies, inseres e delees, respectivamente.

A ltima dcada tem testemunhado um progresso significativo na tecnologia de

reconhecimento de fala. As taxas de erro de palavra caem de um fator de 2 a cada dois


36/152


anos. Foi feito um progresso substancial na tecnologia bsica, o que levou a vencer as

barreira de independncia de locutor, fala contnua e vocabulrios extensos.

Existem vrios fatores que contriburam para este rpido progresso. A chegada da era do HMM. O HMM poderoso no sentido de que, com a

disponibilidade de dados de treinamento, os parmetros do modelo podem ser

treinados automaticamente para fornecer um desempenho timo.

Foi feito um grande esforo no sentido de desenvolver grandes bases de dados de

fala para o desenvolvimento, treinamento e avaliao de sistemas.

Estabelecimento de normas de avaliao de desempenho. At uma dcada atrs, os

pesquisadores treinavam e testavam seus sistemas usando dados coletadoslocalmente, e no foram muito cuidadosos em delinear os conjuntos de treinamento e

testes. Consequentemente, era muito difcil comparar o desempenho dos vrios

sistemas, e ainda, o desempenho de um sistema era geralmente degradado quando

este era apresentado a dados novos. A recente disponibilidade de grandes bases de

dados no domnio pblico, associada especificao de padres de avaliao,

resultou em uma documentao uniforme de resultados de testes, contribuindo para

uma maior confiabilidade na monitorao dos progressos alcanados. Os avanos na tecnologia dos computadores influenciaram indiretamente o progresso

nesta rea. A disponibilidade de computadores rpidos com grandes capacidades de

memria permitiu aos pesquisadores realizar vrias experincias em larga escala e

em um curto espao de tempo. Isto significa que o intervalo de tempo entre uma

idia e a sua implementao e avaliao foi bastante reduzido. De fato, sistemas de

reconhecimento de fala com desempenho razovel podem rodar em

microcomputadores comuns em tempo real, sem hardware adicional, um fatoinimaginvel a alguns anos atrs.

Talvez a tarefa mais popular, e potencialmente mais til, com baixa perplexidade

(PP = 11) o reconhecimento de dgitos conectados. Para o ingls americano, o

reconhecimento independente de locutor de sequncias de dgitos pronunciados de


37/152


forma contnua e restringido largura de banda telefnica pode alcanar uma taxa de

erro de 0,3% quando o comprimento da sequncia conhecido.

Uma das tarefas de mdia perplexidade mais conhecidas a de 1000 palavraschamada de Resource Management, na qual podem-se fazer indagaes sobre vrios

navios no oceano Pacfico. O melhor desempenho independente de locutor nesta tarefa

de menos de 4%, usando um modelo de linguagem de pares de palavras que limita as

palavras possveis que seguem uma dada palavra (PP = 60). Mais recentemente, os

pesquisadores comearam a estudar a questo do reconhecimento de fala espontnea.

Por exemplo, no domnio do Servio de Informao de Viagens Areas (Air Travel

Information Service, ATIS), foram relatadas taxas de erros de menos de 3% para um

vocabulrio de aproximadamente 2000 palavras e um modelo de linguagem bigrama

com uma perplexidade por volta de 15.

Tarefas com alta perplexidade, com vocabulrios de milhares de palavras, so

destinadas principalmente para aplicaes de ditado. Depois de trabalhar em sistemas de

palavras isoladas, dependentes de locutor, por muitos anos, a comunidade tem voltado

suas atenes desde 1992 para o reconhecimento de fala contnua para grandes

vocabulrios (20.000 palavras ou mais), alta perplexidade (PP 200), independente de

locutor. O melhor sistema em 1997 conseguiu uma taxa de erro de 9,9% em testesrealizados regularmente nos EUA atravs do Departamento de Defesa. [39].


38/152

24 Base de dados.

3.Base de dados.

3.1. Introduo.

A linguagem falada a forma mais natural de comunicao humana. Sua

estrutura moldada pelas estruturas fonolgicas, sintticas e prosdicas da lngua, do

ambiente acstico, do contexto em que a fala est sendo produzida (por exemplo, as

pessoas falam de maneira diferente em ambientes ruidosos e silenciosos), e do canal

atravs do qual viaja (telefone, microfone, diretamente pelo ar, etc.).

A fala produzida de maneira diferente por cada pessoa, sendo as variaes

devidas ao dialeto, forma e tamanho do trato vocal, ritmo de pronncia, entre outros

fatores. Ainda, os padres de fala so modificados pelo ambiente fsico, contexto social,

e estado fsico e emocional das pessoas.

As tecnologias mais promissoras na rea de reconhecimento de fala (redes

neurais e HMMs) utilizam mtodos de modelagem estatstica que aprendem por

exemplos, exigindo conjuntos de dados de treinamento extremamente grandes, que

cubram todas estas variaes.O efeito causado por variveis no modeladas ou mal modeladas (tais como

diferenas de canal ou microfones, palavras fora do vocabulrio, sub-unidades fonticas

mal treinadas) no desempenho dos sistemas de reconhecimento de fala devastador.

Deste modo, para fornecer exemplos em nmero suficiente para que os mtodos

estatsticos funcionem adequadamente, a base de dados precisa ser extremamente


39/152

Base de dados. 25

grande e, consequentemente, custosa, tanto em termos de trabalho como em termos

financeiros.

Estes altos custos s podem ser arcados por um esforo conjunto de empresas,instituies de pesquisa e agncias financiadoras, de modo a evitar duplicao de

esforos e distribuir as tarefas. Para envolver um nmero maior de agentes neste

processo, necessrio que este material no seja direcionado a um sistema ou tarefa

especficos, mas atender as necessidades de vrios grupos e linhas de pesquisa e

desenvolvimento, em diversas reas do conhecimento (sntese e reconhecimento de fala,

estudos fonticos, estudos lingusticos, etc.).

Na Europa, o projeto EUROM_1 congregou esforos de 8 pases europeus: Itlia,

Inglaterra, Alemanha, Holanda, Dinamarca, Sucia, Noruega e Frana, com a adeso

posterior de Grcia, Espanha e Portugal. A base de dados foi criada com o mesmo

nmero de locutores (30 homens e 30 mulheres), escolhidos atravs dos mesmos

critrios e gravados em condies acsticas semelhantes, e no mesmo formato.

Ainda, em Portugal, foi criada uma base de dados chamada BD-PUBLICO (Base

de Dados em Portugus eUropeu, vocaBulrio Largo, Independente do orador e fala

COntnua), com aproximadamente 10 milhes de palavras em aproximadamente 156 mil

frases, pronunciadas por 120 locutores (60 de cada sexo). Como no poderia deixar deser, esta base foi confeccionada atravs do esforo conjunto de instituies de pesquisa,

rgos governamentais e tambm empresas do setor privado.

Nos EUA tambm foi feito um grande esforo neste sentido, e j existem

disponveis no domnio pblico, vrias bases de dados (TIMIT, TI-DIGITS,

SWITCHBOARD, etc.) para desenvolvimento e teste de sistemas.

A disponibilidade destas bases impulsionou de forma expressiva o

desenvolvimento da tecnologia de fala, no s devido ao fato de os centros de pesquisa

no terem que criar suas prprias bases de dados, um trabalho por si s extremamente

rduo, caro e demorado, como tambm pela possibilidade de comparar os resultados de

cada nova idia de uma forma estatisticamente significativa.

No caso do Brasil este tipo de consrcio ainda no foi sequer cogitado, e os

pesquisadores tm que desenvolver seus trabalhos como os americanos faziam h 20


40/152

26 Base de dados.

anos atrs: com bases caseiras e pequenas, que tentam cobrir os fenmenos mais

significativos da lngua falada, na maioria dos casos sem sucesso.

3.2. Encaminhamentos futuros.

Os desafios em linguagem falada so muitos. Um desafio bsico est na

definio da metodologia - como projetar bases de dados compactas que possam ser

utilizadas em vrias aplicaes; como projetar bases de dados que possam ser

comparadas em vrias lnguas; como selecionar locutores para que se tenha uma

populao representativa em relao a vrios fatores, tais como sotaque, dialeto, e modo

de pronncia; como selecionar as frases a serem pronunciadas de modo a cobrir todas as

aplicaes; como selecionar um conjunto de dados de teste estatisticamente

representativo para a avaliao dos sistemas.

Outro desafio desenvolver padres para transcrever as locues em diferentes

nveis e entre lnguas diferentes: estabelecer conjuntos de smbolos, convenes de

alinhamento, definir nveis de transcrio (acstica, fontica, de palavras, e outros),

convenes para prosdia e tom, convenes para controle de qualidade das transcries

(por exemplo vrias pessoas transcrevendo as mesmas locues para uma estatstica

confivel). Tambm seria interessante classificar as gravaes de acordo com o

ambiente em que foram feitas, assim como o canal utilizado (ambientes silenciosos ou

ruidosos, com msica ambiente, gravaes feitas atravs da linha telefnica, etc.).

No caso brasileiro, ainda necessrio juntar os esforos para obter pelo menos

uma base de dados padro, para que os pesquisadores possam comparar mtodos e

resultados, e assim evitar duplicaes de esforos.


41/152

Base de dados. 27

3.3. Projeto e confeco da base de dados.

Com dito anteriormente, no se tem disponvel para a lngua portuguesa uma

base de dados de referncia sobre a qual se possa desenvolver e testar o desempenho dos

sistemas de reconhecimento de fala, tornando-se necessrio confeccionar nossas prprias

bases de dados.

Por um lado, isto significa um grande dispndio de tempo e trabalho, que

poderiam ser utilizados na elaborao, desenvolvimento e avaliao de novas idias. Por

outro lado, o planejamento e a confeco de uma base de dados traz uma compreenso

valiosa da forma com que as pessoas interagem com um sistema de reconhecimento de

fala. As variaes de pronncia e qualidade de voz devido presena de um microfone,

condio scio-cultural, regio de origem, estado emocional e at hora do dia ficam

bem claras quando se confecciona uma base de dados relativamente grande.

Os trabalhos de confeco da base de dados consistiram de:

escolha das frases

escolha dos locutores

gravao das locues

transcrio fontica

3.3.1. Escolha das frases.

As frases foram escolhidas segundo o trabalho realizado por Alcaim et. al. [1].

Neste, foram criadas 20 listas de 10 frases foneticamente balanceadas, segundo o

portugus falado no Rio de Janeiro, listadas no Apndice A. Nestas listas, contou-se 694

palavras distintas.


42/152

28 Base de dados.

O termo foneticamente balanceado, neste caso, significa que a lista de frases

gerada tem uma distribuio fontica similar quela encontrada na fala espontnea. Esta

distribuio foi levantada a partir da transcrio fontica de gravaes de inquritos,obtidas a partir do projeto NURC-RJ (Projeto de Estudo da Norma Lingustica Urbana

culta na cidade do Rio de Janeiro) [10].

3.3.2. Locutores.

Para a confeco da base de dados, foram selecionados 40 locutores adultos,

sendo 20 homens e 20 mulheres. A maioria dos locutores nasceu no interior do estado de

So Paulo, embora alguns sejam nativos de outros estados (Pernambuco, Cear, Paran e

Amazonas). A maioria tem o nvel superior, e todos tem pelo menos o segundo grau

completo. Um resumo informativo de cada um dos locutores pode ser encontrado no

Apndice B.

Os locutores foram divididos igualmente em 5 grupos, ou seja, 4 homens e 4

mulheres para cada grupo. Para cada grupo foram designadas 4 das 20 listas da base de

dados da seguinte forma: as primeiras 4 listas para o primeiro grupo, as 4 seguintes parao segundo grupo, e assim por diante. Desta forma, cada locutor pronunciou no total 40

frases, e cada frase foi repetida por 8 locutores diferentes.

Um locutor extra do sexo masculino completa a base de dados. Este locutor

pronunciou todas as 200 frases, repetindo-as 3 vezes. Estas locues foram utilizadas

para testes com dependncia de locutor.

3.3.3. Gravaes.

As gravaes foram realizadas em ambiente relativamente silencioso, com um

microfone direcional de boa qualidade, utilizando uma placa de som SoundBlaster AWE


43/152

Base de dados. 29

64. A taxa de amostragem utilizada foi de 11,025 kHz, e resoluo de 16 bits. Os dados

foram armazenados em formato Windows PCM (WAV).

3.3.4. Transcrio Fontica.

A transcrio fontica foi feita manualmente para cada locuo, utilizando

programa de visualizao grfica do espectrograma e forma de onda do sinal, e fones de

ouvido para audio da mesma.

As sub-unidades utilizadas nesta tarefa so mostradas na Tabela 3. importante

frisar que os fones utilizados na transcrio fontica deste trabalho e daquele realizado

por Alcaim et al [1] no so os mesmos. No presente trabalho foi utilizado um conjunto

menor de sub-unidades fonticas, resultante da fuso de algumas classes propostas em

[1], principalmente entre as vogais.

Mesmo com estas restries, pode-se observar que, de uma forma geral, o

levantamento dos fones a partir da transcrio fontica da base de dados gravada

acompanhou a distribuio encontrada em [1]. Entretanto, a comparao da frequncia

relativa da ocorrncia dos fones mostra algumas diferenas significativas, possivelmentedecorrentes das variaes regionais de pronncia dos locutores. Na Figura 1, tem-se um

histograma comparativo para a ocorrncia dos fones em ambos os casos.

Considerando que a maioria dos locutores selecionados para este trabalho tem

origem no estado de So Paulo, pode-se considerar que uma base paulista, e como o

trabalho do Prof. Alcaim foi realizado somente com locutores cariocas, pode-se

considerar que uma base carioca. Assim, com ressalvas, pode-se fazer algumas

comparaes interessantes:

a diferena de pronncia do s entre consoantes bem visvel se observarmos os

histogramas correspondentes aos fones s e x.

idem para os fones z e j

idem para os fones r e rr.


44/152

30 Base de dados.

Tabela 3: sub-unidades acsticas utilizadas na transcrio fontica das locues, com exemplos efrequncias relativas de ocorrncia, segundo Alcaim et. al. [1] e aquelas encontradas natranscrio fontica da base de dados coletada. Tambm so listados os nmeros de ocorrnciasobservados para cada sub-unidade.

Fone Smboloutilizado

Exemplo Frequncia Relativa (%) Nmero de

Alcaim et. al. Observada ocorrnciasa a aafro 12,94 13,91 6031e e elevador 4,82 2,15 933 E p ele 1,91 6,35 2785i i s ino 8,57 1,90 821j y fu i 3,13 0,95 410o o b olo 2,71 4,14 1798 O b ola 1,00 6,23 2691

u u lua 8,69 2,57 1124~ an ma 2,12 4,04 1773e~ en s enta 2,30 1,16 501

i~ in p into 3,23 0,69 296 on s ombra 0,75 8,41 3648u~ un um 2,50 1,98 860b b bela 1,09 1,18 511d d ddiva 2,64 3,14 1346dZ D diferente 1,92 1,49 665f f feira 1,46 1,44 625g g gorila 0,93 0,87 378Z j jil 1,32 0,75 325k k cachoeira 4,19 3,63 1575l l leo 1,72 1,91 830 L lhama 0,21 0,35 152m m montanha 4,12 3,77 1637n n nvoa 2,40 2,26 982 N inhame 0,68 0,42 185p p poente 2,29 2,49 1081r r ce ra 3,58 4,05 1759r rr ce rrado 2,06 0,89 363

R R ca r ta - 1,32 598s s sapo 4,18 6,52 2832t t tempes tade 3,94 4,02 1737tS T tigela 1,44 1,20 531v v v ero 1,23 1,51 656S x ch ave 2,12 0,32 132z z z abumba 1,81 1,96 859


45/152

Base de dados. 31

0

2

4

6

8

10

12

14

16

a

an

e

E

en

i

y

in

o

O

on

u

un

b

d

D

f

g

j

k

l

L

m

n

N

p

r

rr

R

s

t

T

v

x

z

fones

frequnciarelativa(%)

a b

Figura 1: Histograma comparativo da ocorrncia de fones nos trabalhos atual a) e os realizadosem [1] b).


46/152

32 Modelos Ocultos de Markov.

4.Modelos Ocultos de Markov.

A teoria relativa aos modelos ocultos de Markov j bem conhecida e

extensivamente documentada. Desta forma, neste captulo so apresentados apenas

alguns conceitos bsicos e notaes importantes para a compreenso das sees

posteriores. Textos com explicaes bastante claras e precisas podem ser encontrados

em [40] e [15].

Em um sistema estatstico de reconhecimento de fala contnua, geralmente as

palavras do vocabulrio so representadas atravs de um conjunto de modelos

probabilsticos de unidades lingusticas elementares (por exemplo fones). Uma

sequncia de parmetros acsticos, extrados de uma locuo, vista como uma

realizao de uma concatenao de processos elementares descritos por ModelosOcultos de Markov (em ingls, Hidden Markov Models, HMM). Um HMM uma

composio de dois processos estocsticos, uma cadeia de Markov oculta, relacionada

variao temporal, e um processo observvel, relacionado variabilidade espectral. Esta

combinao provou ser poderosa para lidar com as fontes mais importantes de

ambiguidade, e flexvel o suficiente para permitir a realizao de sistemas de

reconhecimento com dicionrios extremamente grandes (dezenas de milhares de

palavras) [13].


47/152

Modelos Ocultos de Markov. 33

4.1. Estrutura de um HMM.

Um HMM definido como um par de processos estocsticos (X,Y). O processo

X uma cadeia de Markov de primeira ordem, e no diretamente observvel, enquanto

que o processo Y uma sequncia de variveis aleatrias que assumem valores no

espao de parmetros acsticos (observaes).

Um HMM gera sequncias de observaes pulando de um estado para outro,

emitindo uma observao a cada salto. Em geral, para o reconhecimento de fala,

utilizado um modelo simplificado de HMM conhecido como modelo left-right, ou

modelo de Bakis [15], no qual a sequncia de estados associada ao modelo tem a

propriedade de, medida que o tempo aumenta, o ndice do estado aumenta (ou

permanece o mesmo), isto , o sistema caminha da esquerda para a direita no modelo

(veja Figura 2)

Figura 2: modelo de Bakis para um HMM left-right de 5 estados

So usadas duas formas ligeiramente diferentes para os HMMs. Uma delas

usualmente (mas nem sempre) utilizada no processamento acstico (modelamento do

sinal) emite uma observao no instante de chegada ao estado. A outra forma ,

geralmente utilizada em processamento de linguagem, emite uma observao durante a

transio. A forma de estado emissor tambm chamada de mquina de Moore na teoria

de autmatos, enquanto que a forma de transio emissora uma mquina de Mealy

[20]. Neste trabalho, seguindo a tendncia geral, foi utilizada a forma de Moore. Na


48/152


Figura 3 tem-se um exemplo de cada uma destas formas para um modelo HMM left-

rightde 3 estados.

bi[ ]

a)

ai i

i j k

b)

a bi i i i

, [ ]

i j k

aj j

ak k

ai j

aj k

ai k

ak l

bj[ ] b

k[ ]

a bj j j j

, [ ] a bk k k k

, [ ]

a bi j i j

, [ ] a bj k j k

, [ ]

a bi k i k

, [ ]

a bk l k l

, [ ]

Figura 3: formas de Moore a) e Mealy b) para um HMM com 3 estados.

Na tarefa de reconhecimento de fala, geralmente so adotadas duas

simplificaes da teoria de modelos de Markov, que podem ser formalizadas da seguinte

maneira [15]:

Hiptese de Markov de primeira ordem: a histria no tem influncia na evoluofutura da cadeia se o presente especificado.

Hiptese de independncia das sadas: nem a evoluo da cadeia nem as

observaes passadas influenciam a observao atual se a ltima transio da cadeia

especificada.

Estas duas hipteses podem ser escritas da seguinte maneira: seja Yy a

varivel que representa as observaes e Xji, as variveis que representam os

estados do modelo. Ento, o modelo pode ser representado pelos seguintes parmetros:

{ }X jiaAij ,| (14)


49/152


( ){ }YX yiybBi ,| (15)

{ }X ii | (16)

onde A a matriz com as probabilidades de transio, B a matriz de densidades de

probabilidade de emisso dos smbolos de sada, e a matriz de probabilidades

iniciais, com as seguintes definies

( )iXjXPa ttij == 1| (17)

( ) ( )jXyYpyb ttj == | (18)

( )iXPi = 0 (19)

4.2. Tipos de HMMs.

Os HMMs podem ser classificados de acordo com a natureza dos elementos da

matriz B, que so funes densidade de probabilidade.

Nos HMMs discretos as densidades de probabilidades so definidas em espaos

finitos. Neste caso, as observaes so vetores de smbolos de um alfabeto finito de N

elementos diferentes.


50/152


Outra possibilidade definir as densidades de probabilidade em espaos de

observao contnuos. Neste caso necessrio impor severas restries na forma

funcional das densidades de modo a ter um nmero manipulvel de parmetrosestatsticos para estimar. A aproximao mais popular consiste em caracterizar as

densidades de emisso do modelo como misturas de densidades base g de uma famlia G

com uma forma paramtrica simples. As densidades base g G so geralmente

Gaussianas ou Laplacianas, e podem ser parametrizadas pelo vetor mdia e pela matriz

de covarincia. HMMs com este tipo de distribuio so chamados de HMMs

contnuos. De modo a modelar distribuies complexas desta maneira necessrio usar

um grande nmero de densidades base em cada mistura. Os problemas que surgem

quando o corpus de treinamento no suficientemente grande podem ser aliviados pelo

compartilhamento de distribuies entre emisses de estados diferentes [23].

Nos modelos semicontnuos, todas as misturas so expressas em termos de um

conjunto comum Cde densidades base. Neste caso, as misturas so diferenciadas pelos

pesos atribudos a cada uma das funes base de C.

O clculo das probabilidades com modelos discretos mais rpido do que com

modelos contnuos, embora seja possvel acelerar o clculo das misturas de densidades

aplicando a quantizao vetorial nas gaussianas das misturas [15].Levando em considerao o grande apetite por exemplos de treinamento dos

modelos contnuos e o fato de a base de dados utilizada ser relativamente pequena,

optou-se por utilizar a forma discreta neste trabalho.

4.3. Treinamento dos HMMs.

A estimao dos parmetros dos HMMs, como em todos os sistemas

estocsticos, baseada em exemplos de treinamento e geralmente feita utilizando o

algoritmo forward-backward[40], tambm conhecido como algoritmo Baum-Welch.

O critrio utilizado para a reestimao dos parmetros o de mxima

verossimilhana ML (Maximum Likelihood), que consiste em aumentar, a cada poca de


51/152


treinamento, a probabilidade a posteriori, ou seja, a probabilidade do modelo gerar a

sequncia de observaes.

4.4. Reconhecimento de fala utilizando HMMs.

Dada uma locuo de entrada, um sistema de reconhecimento de fala gera

hipteses de palavras ou sequncias de palavras. Destas hipteses pode resultar uma

nica sequncia de palavras, uma coleo de n melhores sequncias de palavras, ou uma

trelia de hipteses de palavras parcialmente superpostas. Isto feito num processo de

busca no qual se compara uma sequncia de vetores de caractersticas acsticas com os

modelos das palavras que esto no vocabulrio do sistema.

Em geral, o sinal de fala e suas transformaes no exibem indicaes claras

sobre as fronteiras das palavras, de modo que a deteco destas fronteiras faz parte do

processo de gerao de hipteses realizado no procedimento de busca. No procedimento

de gerao de hipteses, todos os modelos de palavras so comparados com uma

sequncia de vetores acsticos. Em um sistema probabilstico, a comparao entre uma

sequncia acstica e um modelo envolve o clculo da probabilidade que o modelo

associa a uma dada sequncia. Neste processo, as seguintes quantidades so utilizadas:

( )iTt ,1y : probabilidade de observar a sequncia de observao parcial y1

t 2 e estar

no estado i no instante t(sendo que a sequncia de observao total dada por T1y )

( ) ( )( )

>====

0,,0,,

11

01

tiXP

tiXPi ttt

Tt

yYy (20)

2 A notao khy refere-se sequncia de vetores acsticos [ ]khh yyy ,...,, 1+ . Esta notao

ser utilizada daqui em diante.


52/152


( )iTt

,1y : probabilidade de observar a sequncia de observao parcial y tT

+1 dado

que o modelo est no estado i no instante t.

( ) ( )

=====

0,,max

0,,

111

0

0

11

0

tXP

tiXPi tt

tt

Tt

tyYi,=iXy 1-t0

i

(22)

As variveis e podem ser utilizadas para calcular a probabilidade de emisso

total WP T |1y atravs das expresses

( ) ( )

( )=

==

i

Ti

i

TT

TT

i

iP

,

,

10

111

y

yyY

(23)

Uma aproximao para calcular esta probabilidade consiste em seguir somente o

caminho de mxima probabilidade. Isto pode ser feito utilizando-se a quantidade :

iPT

Ti

TT ,max 111 yyY == (24)

Esta aproximao corresponde ao algoritmo de Viterbi.


53/152


O clculo das probabilidades acima realizado em uma estrutura em forma de

trelia, mostrada na Figura 4. Por simplicidade, pode-se assumir na figura que o HMM

representa uma palavra e que o sinal de entrada corresponde pronncia de uma nicapalavra.

aii

ak

k

ajk

aij

ajj

a b yk k k

( )1

a b yi i i

( )1

a b yj j j

( )1

i

j

k

t= 1 t= 2 t= 3 t= 4

bi

[]

bj

[]

bk

[]

ab

y

jk

k

(

)1

ab

y

i j

j(

)1

a b yk k k

( )2

a b yk k k

( )3

a b yk k k

( )4

ab

y

jk

k

(

)2

ab

y

jk

k

(

)3

ab

y

jk

k

(

)4

a b yj j j

( )2

a b yj j j

( )3

a b yj j j

( )4

ab

y

i j

j(

)2

ab

y

i j

j(

)3

ab

y

i j

j(

)4

a b yi i i

( )2

a b yi i i

( )3

a b yi i i

( )4

y1

y2

y3

y4

Figura 4: Exemplo de funcionamento do algoritmo de Viterbi.

Cada coluna da trelia armazena os valores das verossimilhanas acumuladas em

cada estado do HMM para todos os instantes de tempo, e todo intervalo entre duascolunas consecutivas corresponde a um quadro 3 de entrada.

As setas na trelia representam transies no modelo que correspondem a

possveis caminhos no modelo do instante inicial at o final. O clculo realizado por

colunas, atualizando as probabilidades dos ns a cada quadro, utilizando frmulas de

recurso as quais envolvem os valores de uma coluna adjacente, as probabilidades de

transio dos modelos, e os valores das densidades de sada para o quadro

correspondente. Para os coeficientes , o clculo comea na primeira coluna

esquerda, cujos valores iniciais so dados por i , e termina na ltima coluna direita,

com a probabilidade final dada pela equao (20).

3 Um quadro definido como o intervalo de tempo em que gerado um vetor de

parmetros acsticos. Valores tpicos esto entre 10 e 20 ms.


54/152


O algoritmo usado para calcular os coeficientes conhecido como algoritmo

de Viterbi, e pode ser visto como uma aplicao de programao dinmica para

encontrar o caminho de mxima verossimilhana em um grafo. A frmula de recurso dada por:

( ) ( ) ( )

>=

= 0,,max

0,,

111 tybaj

ti

tiji

T

tj

iT

t yy

(25)

Monitorando o estado j que fornece a maior probabilidade na frmula de

recurso acima, possvel, no final da sequncia de entrada, recuperar a sequncia de

estados visitada pelo melhor caminho, realizando ento um tipo de alinhamento

temporal dos quadros de entrada com os estados do modelo.

Todos estes algoritmos tm uma complexidade ( )O MT , onde M o nmero de

transies no nulas e To comprimento da sequncia de entrada. Mpode ser no mximo

igual a S 2 , onde S o nmero de estados no modelo, mas geralmente muito menor,

uma vez que a matriz de probabilidades de transio geralmente esparsa. De fato, nos

modelos left-right, uma escolha comum fazer 2,0 >= ijaij , como no caso ilustrado

na Figura 2.

Geralmente, o reconhecimento baseado em um processo de busca que leva em

conta todas as segmentaes possveis da sequncia de entrada em palavras, e as

probabilidades a priori que o modelo de linguagem associa a sequncias de palavras.

Podem ser obtidos bons resultados com modelos de linguagem simples tais como

probabilidades bigrama ou trigrama [13].

4.4.1. Viterbi Beam Search.

O tamanho do espao de busca cresce de acordo com o nmero de palavras no

vocabulrio. Para sistemas de ditado, onde so comuns vocabulrios de dezenas de


55/152


milhares de palavras, o espao de busca torna-se to grande que o custo computacional

torna-se proibitivo. Entretanto a distribuio irregular das probabilidades nos diferentes

caminhos pode ajudar. O que acontece que, quando o nmero de estados grande, emcada instante de tempo, uma grande parte destes estados tm uma verossimilhana

acumulada que muito menor do que a verossimilhana mxima, de modo que

bastante improvvel que um caminho que passe por um destes estados venha a ser o

melhor ao final da locuo.

Esta considerao leva a uma tcnica de reduo da complexidade chamada de

Beam Search [15], que consiste em desprezar, em cada instante de tempo, os estados

cuja verossimilhana acumulada seja menor do que a verossimilhana mxima menos

um dado limiar. Desta maneira, os clculos necessrios para expandir ns ruins so

evitados. Est claro pela natureza do critrio de poda desta tcnica de reduo que ela

pode causar a perda do melhor caminho. Na prtica, uma boa escolha do limiar de poda

resulta em um ganho de velocidade de uma ordem de magnitude, introduzindo uma

quantidade desprezvel de erros de busca.


56/152

42 Algoritmos de Busca.

5.Algoritmos de Busca.

5.1. Introduo.

O reconhecimento de fala contnua difere do reconhecimento de palavras

isoladas no modo com que o usurio deve pronunciar as palavras. No reconhecimento de

palavras isoladas necessrio que o locutor efetue pausas breves entre as palavras de

modo que o sistema possa determinar as fronteiras entre estas de forma precisa. J em

fala contnua, o locutor pode falar de modo natural, sem efetuar pausas entre as

palavras. Neste caso, a determinao das fronteiras entre as palavras e consequentemente

do nmero de palavras na locuo fica a cargo do sistema de reconhecimento.

A premissa bsica do reconhecimento de fala contnua que o reconhecimento

baseado em modelos de palavras (possivelmente formadas a partir da concatenao de

sub-unidades fonticas para os casos de grandes vocabulrios). Uma vez definidos os

modelos das palavras, o problema do reconhecimento resume-se em encontrar a

Documents

Tese-Doutorado-Carlos_Alberto_Ynoguti