Tese-Doutorado-Carlos_Alberto_Ynoguti

Embed Size (px)

Citation preview

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    1/152

    Universidade Estadual de Campinas

    Faculdade de Engenharia Eltrica e de Computao

    Departamento de Comunicaes

    Reconhecimento de Fala Contnua Usando

    Modelos Ocultos de Markov

    Carlos Alberto Ynoguti

    Orientador: Prof. Dr. Fbio Violaro

    Banca Examinadora:

    Prof. Dr. Fbio Violaro FEEC - UNICAMP

    Prof. Dr. Abrahan Alcaim CETUC PUC RIO

    Prof Dr. Ivandro Sanches POLI USP

    Prof. Dr. Lus Geraldo Meloni FEEC UNICAMP

    Prof. Dr. Lee Luan Ling FEEC UNICAMP

    Tese apresentada Faculdade de Engenharia

    Eltrica e de Computao da Universidade

    Estadual de Campinas como requisito parcial paraa obteno do ttulo de Doutor em Engenharia

    Eltrica.

    Campinas, maio de 1999

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    2/152

    FICHA CATALOGRFICA ELABORADA PELABIBLIOTECA DA REA DE ENGENHARIA - BAE - UNICAMP

    Y69rYnoguti, Carlos Alberto

    Reconhecimento de fala contnua usando modelosocultos de Markov. / Carlos Alberto Ynoguti.--Campinas, SP: [s.n.], 1999.

    Orientador: Fbio Violaro.Tese (doutorado) - Universidade Estadual de

    Campinas, Faculdade de Engenharia Eltrica e deComputao.

    1. Markov, Processos de. 2. Reconhecimento

    automtico da voz. 3. Processamento de sinais Tcnicasdigitais. I. Violaro, Fbio. II. Universidade Estadual deCampinas. Faculdade de Engenharia Eltrica e deComputao. III. Ttulo.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    3/152

    Resumo

    Nos sistemas que constituem o estado da arte na rea de reconhecimento de fala

    predominam os modelos estatsticos, notadamente aqueles baseados em Modelos

    Ocultos de Markov (Hidden Markov Models, HMM). Os HMMs so estruturas

    poderosas pois so capazes de modelar ao mesmo tempo as variabilidades acsticas e

    temporais do sinal de voz.

    Mtodos estatsticos so extremamente vorazes quando se trata de dados de

    treinamento. Deste modo, nos sistemas de reconhecimento de fala contnua e

    vocabulrio extenso, as palavras so geralmente modeladas a partir da concatenao de

    sub-unidades fonticas, pois o nmero destas bem menor do que o de palavras, e em

    uma locuo geralmente existem vrios exemplos de sub-unidades fonticas.

    O reconhecimento de fala contnua difere do de palavras isoladas, pois neste o

    locutor no precisa fazer pausas entre as palavras. Deste modo, a determinao das

    fronteiras entre as palavras e do nmero destas na locuo deve ser feita pelo sistema de

    reconhecimento. Para isto so utilizados os algoritmos de busca, que podem ter ainda

    modelos de durao e de linguagem incorporados.O objetivo deste trabalho estudar o problema de reconhecimento de fala

    contnua, com independncia de locutor e vocabulrio mdio (aproximadamente 700

    palavras) utilizando HMMs. investigada a influncia de alguns conjuntos de sub-

    unidades fonticas, e dos modelos de durao e de linguagem no desempenho do

    sistema. Tambm so propostos alguns mtodos de reduo do tempo de processamento

    para os algoritmos de busca.

    Para a avaliao do sistema foi confeccionada uma base de dados formada de 200

    frases foneticamente balanceadas, com gravaes de 40 locutores adultos, sendo 20 de

    cada sexo

    Palavras chave: Modelos Ocultos de Markov, reconhecimento de fala contnua,

    processamento digital de sinais.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    4/152

    Abstract

    In the field of continuous speech recognition, current state of art systems make

    use of statistical methods, mainly those based on Hidden Markov Models (HMM).

    HMM are powerful due to their ability to model both the acoustic and temporal features

    of speech signals.

    Statistical methods require lots of training samples. For this reason, large

    vocabulary, continuous speech recognition systems use word models composed by

    concatenating subunit models. In this approach there are much fewer subunits than

    words, and many samples of them in a single utterance.

    The main difference between continuous speech recognition and isolated words

    speech recognition is basically in the way that users interact with the system. In isolated

    words speech recognition, the user needs to make short pauses between words, which is

    not required for continuous speech recognition systems. The determination of word

    boundaries, and consequently the number of words in the utterance, take a part of the

    recognition process in continuous speech recognition systems. For this task searching

    algorithms are used, and they can also incorporate word duration and language models.The purpose of this work is to study the problem of speaker independent,

    medium-size vocabulary (about 700 words), continuous speech recognition using

    HMMs. The influence of some different subunit sets, word duration model and

    language model in the overall system performance are investigated. We also propose

    some methods to alleviate the computational burden in the searching procedure.

    To perform system evaluation a multispeaker database (20 male and 20 female)

    composed of 200 phonetically balanced sentences was created.

    Keywords: Hidden Markov Models, continuous speech recognition, digital signal

    processing.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    5/152

    A meus pais Mituyosi (in memoriam) e Clara

    e a meus irmos Srgio e Cristiane.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    6/152

    Agradecimentos

    Ao Prof. Dr. Fbio Violaro pela acolhida e apoio durante os primeiros tempos em

    uma nova cidade, pela orientao do trabalho, e pelas inmeras discusses e idias.

    Aos Profs. Drs. Jos Carlos Pereira e Marcelo Baslio Joaquim pelo apoio e

    grande ajuda.

    Adriana por seu carinho, pacincia e compreenso nos dias difceis.

    Aos colegas do LPDF, Henrique, Fernando, Cairo, Edmilson, Fabrcio, Antnio

    Marcos, Raquel, Irene, Flvio, e Lo pela grande ajuda e por proporcionarem um

    ambiente de trabalho alegre e descontrado.

    Aos colegas e amigos Marcelo, Ricardo, Fbio, Alexandre e Richard pelo apoio e

    compreenso.

    Aos professores e funcionrios da FEEC.

    s pessoas que emprestaram suas vozes na confeco da base de dados.

    Ao CNPq, pela concesso da bolsa, ao FAEP da UNICAMP pela prorrogao de

    bolsa concedida, e FAPESP (processo 97/02740-7) pelo auxlio pesquisa.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    7/152

    ndice

    Lista de figuras i

    Lista de Tabelas iii

    1. INTRODUO. 1

    1.1. APLICAES . 2

    1.1.1. SISTEMAS DE DITADO DE VOCABULRIO EXTENSO . 2

    1.1.2. INTERFACE PARA COMPUTADORES PESSOAIS. 3

    1.1.3. SISTEMAS BASEADOS NA REDE TELEFNICA. 4

    1.1.4. APLICAES INDUSTRIAIS E SISTEMAS INTEGRADOS. 5

    1.2. OBJETIVOS E CONTRIBUIES DO TRABALHO. 6

    1.3. CONTEDO DA TESE. 6

    2. O PROBLEMA DO RECONHECIMENTO DE FALA. 8

    2.1. ARQUITETURAS PARA RECONHECIMENTO DE FALA. 11

    2.2. UNIDADES FUNDAMENTAIS . 11

    2.3. MODELOS OCULTOS DE MARKOV (HMMS). 13

    2.4. MODELO DE DURAO DE PALAVRAS . 14

    2.5. ALGORITMOS DE DECODIFICAO. 14

    2.6. MODELOS DE LINGUAGEM. 15

    2.6.1. MODELOS DE LINGUAGEM N-GRAM . 16

    2.6.2. PERPLEXIDADE. 18

    2.7. ESTADO DA ARTE. 21

    3. BASE DE DADOS. 24

    3.1. INTRODUO. 24

    3.2. ENCAMINHAMENTOS FUTUROS. 26

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    8/152

    3.3. PROJETO E CONFECO DA BASE DE DADOS . 27

    3.3.1. ESCOLHA DAS FRASES. 27

    3.3.2. LOCUTORES. 28

    3.3.3. GRAVAES. 28

    3.3.4. TRANSCRIO FONTICA . 29

    4. MODELOS OCULTOS DE MARKOV. 32

    4.1. ESTRUTURA DE UM HMM. 33

    4.2. TIPOS DE HMMS . 35

    4.3. TREINAMENTO DOSHMMS. 36

    4.4. RECONHECIMENTO DE FALA UTILIZANDO HMMS. 37

    4.4.1. VITERBI BEAM SEARCH. 40

    5. ALGORITMOS DE BUSCA. 42

    5.1. INTRODUO. 42

    5.2. RECONHECIMENTO DE FALA CONTNUA VIA DECODIFICAO DE REDE FINITA DE

    ESTADOS . 43

    5.3. DEFINIO DO PROBLEMA. 455.3.1. LEVEL BUILDING. 46

    5.3.2. ONE STEP. 49

    5.4. INCLUSO DO MODELO DE DURAO DE PALAVRAS . 53

    5.5. INCLUSO DO MODELO DE LINGUAGEM. 55

    6. SISTEMA DESENVOLVIDO. 57

    6.1. MDULO DE EXTRAO DE PARMETROS E QUANTIZAO VETORIAL. 586.1.1. EXTRAO DE PARMETROS. 59

    6.1.2. QUANTIZADOR VETORIAL. 61

    6.2. MDULO DE TREINAMENTO . 62

    6.2.1. PROGRAMA DE TREINAMENTO DAS SUB-UNIDADES. 62

    6.2.2. DETECO DOS TRIFONES. 67

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    9/152

    6.2.3. DELETED INTERPOLATION [15]. 71

    6.3. MDULO DE GERAO DO MODELO DE LINGUAGEM . 74

    6.4. MDULO DE RECONHECIMENTO. 75

    6.4.1. CONSTRUO DO VOCABULRIO DE RECONHECIMENTO . 76

    6.4.2. DETECO AUTOMTICA DO NMERO DE NVEIS PARA O ALGORITMO LEVEL

    BUILDING. 78

    7. TESTES E ANLISE DOS RESULTADOS. 82

    7.1. INTRODUO. 82

    7.2. DETERMINAO DO CONJUNTO DE SUB-UNIDADES FONTICAS . 83

    7.3. DEFINIO DOS SUBCONJUNTOS DE TESTE E TREINAMENTO. 85

    7.4. TESTES COM FONES INDEPENDENTES DE CONTEXTO 87

    7.5. TESTES COM TRIFONES . 88

    7.5.1. TRIFONES BASEADOS NAS CLASSES FONTICAS. 88

    7.5.2. TRIFONES BASEADOS NA CONFIGURAO DO TRATO VOCAL. 89

    7.6. AVALIAO DOS PROCEDIMENTOS PARA DIMINUIO DO TEMPO DE

    PROCESSAMENTO . 90

    7.6.1. LEVEL BUILDING. 90

    7.6.2. ONE STEP. 91

    7.7. VERIFICAO DA INFLUNCIA DA TRANSCRIO FONTICA DAS LOCUES DE

    TREINAMENTO NO DESEMPENHO DO SISTEMA. 92

    7.8. INFLUNCIA DO NMERO DE VERSES DE CADA PALAVRA NO ARQUIVO DE

    VOCABULRIO . 93

    7.9. ESTABELECIMENTO DO DESEMPENHO FINAL DO SISTEMA. 95

    7.10. ANLISE DOS RESULTADOS . 96

    7.10.1. DESEMPENHO DO SISTEMA UTILIZANDO FONES INDEPENDENTES DE CONTEXTO E

    INFLUNCIA DO MODO DE OPERAO NA TAXA DE ACERTOS DE PALAVRA. 97

    7.10.2. INFLUNCIA DOS FONES DEPENDENTES DE CONTEXTO NO DESEMPENHO DO

    SISTEMA. 100

    7.10.3. INFLUNCIA DOS PROCEDIMENTOS DE DIMINUIO DOS CLCULOS NECESSRIOS

    NA ETAPA DE BUSCA NO TEMPO DE RECONHECIMENTO 103

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    10/152

    7.10.4. INFLUNCIA DA TRANSCRIO FONTICA DAS FRASES DE TREINAMENTO NO

    DESEMPENHO DO SISTEMA. 104

    7.10.5. INFLUNCIA DO NMERO DE VERSES DE CADA PALAVRA NO ARQUIVO DE

    VOCABULRIO. 105

    7.10.6. DESEMPENHO FINAL DO SISTEMA. 106

    8. CONCLUSES. 107

    9. BIBLIOGRAFIA. 112

    APNDICE A. LISTAS DE FRASES UTILIZADAS NESTE TRABALHO .

    APNDICE B. RESUMO INFORMATIVO DOS LOCUTORES DA BASE DE DADOS .

    APNDICE C. DICIONRIO DE PRONNCIAS E DADOS DO MODELO DE DURAO.

    APNDICE D. ALGUMAS FRASES RECONHECIDAS .

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    11/152

    Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov i

    _______________________________________________________________________

    LISTA DE FIGURAS

    FIGURA

    1: HISTOGRAMA COMPARATIVO DA OCORRNCIA DE FONES NOS TRABALHOS

    ATUAL A) E OS REALIZADOS EM [1] B).___________________________________31

    FIGURA 2: MODELO DE BAKIS PARA UM HMM LEFT-RIGHT DE 5 ESTADOS ___________33

    FIGURA 3: FORMAS DE MOORE A) E MEALY B) PARA UM HMM COM 3 ESTADOS.______34

    FIGURA 4: EXEMPLO DE FUNCIONAMENTO DO ALGORITMO DE VITERBI. _____________39

    FIGURA 5: EXEMPLO DE FUNCIONAMENTO DO ALGORITMO LEVEL BUILDING. _________48

    FIGURA 6: ILUSTRAO DO FUNCIONAMENTO DO ALGORITMO DE VITERBI NA

    IMPLEMENTAO DO ALGORITMO ONESTEP. ______________________________51

    FIGURA 7: DIAGRAMA DE BLOCOS DO MDULO DE EXTRAO DE PARMETROS E

    QUANTIZAO VETORIAL. ____________________________________________58

    FIGURA 8: DIAGRAMA DE BLOCOS DO PROCESSO DE EXTRAO DOS PARMETROS MEL-

    CEPSTRAIS COM REMOO DA MDIA ESPECTRAL. __________________________60

    FIGURA 9: ESQUEMA DE FUNCIONAMENTO DO PROGRAMA DE TREINAMENTO DAS SUB-

    UNIDADES COM INDICAO DAS INFORMAES A SEREM FORNECIDAS AO SISTEMA. 63

    FIGURA 10: MODELO HMM UTILIZADO PARA CADA UMA DAS SUB-UNIDADES FONTICAS.

    A PROBABILIDADE DE TRANSIO AKL INDICA A PROBABILIDADE DE FAZER UMATRANSIO PARA A SUB-UNIDADE SEGUINTE.______________________________64

    FIGURA 11: VALORES INICIAIS PARA AS PROBABILIDADES DE TRANSIO DOS MODELOS

    DOS FONES PARA INICIALIZAO COM DISTRIBUIO UNIFORME._______________64

    FIGURA 12: DIAGRAMA DE BLOCOS PARA O PROGRAMA DE DETEO DE TRIFONES. ____68

    FIGURA 13: DELETED INTERPOLATION. _______________________________________73

    FIGURA 14: DIAGRAMA DE BLOCOS DO MDULO DE RECONHECIMENTO. _____________75

    FIGURA 15: EXEMPLO DE ARQUIVO DE VOCABULRIO ___________________________78

    FIGURA 16: VARIAO DE ( )|OP COM O NMERO DE NVEIS PARA UMA LOCUO DE

    QUATRO PALAVRAS. VERIFICA-SE UM COMPORTAMENTO MONOTNICO DE

    CRESCIMENTO E DECAIMENTO NOS VALORES DA LOG-VEROSSIMILHANA COM O

    NMERO DE NVEIS. _________________________________________________80

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    12/152

    ii Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov

    FIGURA 17: VARIAO DE ( )|OP COM O NMERO DE NVEIS PARA UMA LOCUO DE

    OITO PALAVRAS. VERIFICA-SE UM COMPORTAMENTO NO MONOTNICO DE

    CRESCIMENTO E DECAIMENTO NOS VALORES DA LOG-VEROSSIMILHANA COM ONMERO DE NVEIS. _________________________________________________80

    FIGURA 18: DIVISO DOS LOCUTORES EM CONJUNTOS DE TREINAMENTO E TESTE. _____86

    FIGURA 19: NMERO DE ERROS COMETIDOS PELO SISTEMA PARA CADA LOCUTOR, PARA OS

    TESTES COM INDEPENDNCIA DE LOCUTOR. _______________________________98

    FIGURA 20: NMERO DE ERROS COMETIDOS PELO SISTEMA PARA CADA LOCUTOR, PARA OS

    TESTES COM DEPENDNCIA DE SEXO. A) LOCUTORES FEMININOS E B) LOCUTORES

    MASCULINOS. ______________________________________________________98

    FIGURA 21: NMERO DE ERROS PARA CADA SUBCONJUNTO DE FRASES NOS TESTES COM

    DEPENDNCIA DE LOCUTOR. ___________________________________________99

    FIGURA 22: NMERO DE EXEMPLOS DE TREINAMENTO PARA OS TRIFONES. OS GRFICOS DA

    COLUNA DA ESQUERDA REFEREM-SE AOS TRIFONES GERADOS ATRAVS DAS CLASSES

    FONTICAS, E OS DA DIREITA, AOS TRIFONES GERADOS A PARTIR DA CONFIGURAO

    DO TRATO VOCAL. _________________________________________________102

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    13/152

    Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov iii

    _______________________________________________________________________

    LISTA DE TABELAS

    TABELA

    1: PARMETROS TPICOS USADOS PARA CARACTERIZAR A CAPACIDADE DE

    SISTEMAS DE RECONHECIMENTO DE FALA. _________________________________8

    TABELA 2: PERPLEXIDADES TPICAS PARA VRIOS DOMNIOS._____________________21

    TABELA 3: SUB-UNIDADES ACSTICAS UTILIZADAS NA TRANSCRIO FONTICA DAS

    LOCUES, COM EXEMPLOS E FREQUNCIAS RELATIVAS DE OCORRNCIA, SEGUNDO

    ALCAIM ET. AL. [1] E AQUELAS ENCONTRADAS NA TRANSCRIO FONTICA DA BASE

    DE DADOS COLETADA. TAMBM SO LISTADOS OS NMEROS DE OCORRNCIAS

    OBSERVADOS PARA CADA SUB-UNIDADE. _________________________________30

    TABELA 4: CLASSES FONTICAS COM SEUS RESPECTIVOS FONES.___________________69

    TABELA 5: CLASSES FONTICAS BASEADAS NA POSIO DO TRATO VOCAL E SEUS

    RESPECTIVOS FONES. ________________________________________________71

    TABELA 6: LISTA DOS FONES PRESENTES NO PORTUGUS FALADO NO BRASIL. ________84

    TABELA 7: RESULTADOS DOS TESTES REALIZADOS PARA FUSO DE FONES INDEPENDENTES

    DE CONTEXTO. _____________________________________________________85

    TABELA 8: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM FONES INDEPENDENTES

    DE CONTEXTO______________________________________________________87TABELA 9: NMERO DE TRIFONES BASEADOS NAS CLASSES FONTICAS GERADOS A PARTIR

    DO SUBCONJUNTO DE LOCUES DE TREINAMENTO._________________________89

    TABELA 10: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM TRIFONES BASEADOS

    NAS CLASSES FONTICAS. _____________________________________________89

    TABELA 11: NMERO DE TRIFONES BASEADOS NA CONFIGURAO DO TRATO VOCAL

    GERADOS A PARTIR DO SUBCONJUNTO DE LOCUES DE TREINAMENTO. _________89

    TABELA 12: TAXA DE ERRO DE PALAVRA (%) PARA OS TESTES COM TRIFONES BASEADOS

    NA CONFIGURAO DO TRATO VOCAL.___________________________________90

    TABELA 13: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE

    PALAVRA PARA O PROCEDIMENTO DE DETECO AUTOMTICA DO NMERO DE NVEIS

    BASEADO NA DERIVADA DA CURVA DE EVOLUO DA LOG-VEROSSIMILHANA COM O

    NMERO DE NVEIS. _________________________________________________91

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    14/152

    iv Reconhecimento de Fala Contnua Usando Modelos Ocultos de Markov

    TABELA 14: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE

    PALAVRA PARA O PROCEDIMENTO DE DETECO AUTOMTICA DO NMERO DE NVEIS

    DE ACORDO COM A CONTAGEM DO NMERO DE NVEIS EM QUE A VEROSSIMILHANA

    CAI.______________________________________________________________91

    TABELA 15: COMPARAO DO TEMPO MDIO DE RECONHECIMENTO E TAXA DE ERRO DE

    PALAVRA PARA VRIOS VALORES DO LIMIAR DE PODA NO ALGORITMO VITERBI BEAM

    SEARCH. __________________________________________________________92

    TABELA 16: DESEMPENHO DO SISTEMA EM FUNO DAS TRANSCRIES FONTICAS DAS

    LOCUES DE TREINAMENTO.__________________________________________93

    TABELA 17: RESULTADOS DOS TESTES COM VOCABULRIO SIMPLIFICADO (APENAS 1

    VERSO DE CADA PALAVRA), UTILIZANDO FONES INDEPENDENTES DE CONTEXTO. _94

    TABELA 18: RESULTADOS DOS TESTES COM VOCABULRIO SIMPLIFICADO (APENAS 1

    VERSO DE CADA PALAVRA), UTILIZANDO TRIFONES BASEADOS NA CONFIGURAO

    DO TRATO VOCAL. __________________________________________________95

    TABELA 19: TEMPO MDIO DE RECONHECIMENTO PARA OS TESTES COM OS DOIS ARQUIVOS

    DE VOCABULRIO. __________________________________________________95

    TABELA 20: RESULTADOS DOS TESTES DE AVALIAO DO DESEMPENHO FINAL DO

    SISTEMA. _________________________________________________________96TABELA 21: QUADRO COMPARATIVO DO DESEMPENHO DO SISTEMA NOS TESTES INCIAIS E

    NOS TESTES FINAIS._________________________________________________106

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    15/152

    Introduo. 1

    1.Introduo.

    As interfaces via voz esto rapidamente se tornando uma necessidade. Em um

    futuro prximo, sistemas interativos iro fornecer fcil acesso a milhares de informaes

    e servios que iro afetar de forma profunda a vida cotidiana das pessoas. Hoje em dia,

    tais sistemas esto limitados a pessoas que tenham acesso aos computadores, uma parte

    relativamente pequena da populao, mesmo nos pases mais desenvolvidos. So

    necessrios avanos na tecnologia de linguagem humana para que o cidado mdio

    possa acessar estes sistemas, usando habilidades de comunicao naturais e empregando

    aparelhos domsticos, tais como o telefone.

    Sem avanos fundamentais em interfaces voltadas ao usurio, uma larga frao

    da sociedade ser impedida de participar da era da informao, resultando em uma maiorextratificao da sociedade, agravando ainda mais o panorama social dos dias de hoje.

    Uma interface via voz, na linguagem do usurio, seria ideal pois a mais natural,

    flexvel, eficiente, e econmica forma de comunicao humana.

    Depois de vrios anos de pesquisa, a tecnologia de reconhecimento de fala est

    passando o limiar da praticabilidade. A ltima dcada testemunhou um progresso

    assombroso na tecnologia de reconhecimento de fala, no sentido de que esto se

    tornando disponveis algoritmos e sistemas de alto desempenho. Em muitos casos, a

    transio de prottipos de laboratrio para sistemas comerciais j se iniciou.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    16/152

    2 Introduo.

    1.1. Aplicaes.

    Algumas das principais reas de aplicao comercial para os sistemas de

    reconhecimento automtico de fala so: ditado, interfaces para computadores pessoais,

    servios de telefonia automticos e aplicaes industriais especiais [42]. A principal

    razo para o sucesso comercial tem sido o aumento na produtividade proporcionado por

    estes sistemas que auxiliam ou substituem operadores humanos.

    1.1.1. Sistemas de ditado de vocabulrio extenso.

    Os sistemas de ditado de vocabulrio extenso podem ser de dois tipos: ditado

    irrestrito (por exemplo cartas de negcios ou artigos de jornais) e gerao de

    documentos estruturados (por exemplo, receitas mdicas, aplices de seguro, relatrios

    radiolgicos, etc). Tais sistemas podem ser dependentes do locutor ou adaptativos desde

    que se espera que geralmente um nico usurio ir utiliz-lo por um perodo extenso de

    tempo.At bem pouco tempo atrs, os sistemas de palavras isoladas predominaram no

    mercado. Agora, sistemas de reconhecimento de fala contnua comeam a aparecer. Os

    vocabulrios so de aproximadamente 60000 palavras. Estes sistemas so projetados

    para operar em condies favorveis (por exemplo, em escritrios, com microfones fixos

    na cabea do operador e com cancelamento de rudo).

    Para aumentar a taxa de acertos, os sistemas de ditado irrestrito contam com

    modelos de linguagem estatsticos para favorecer palavras ou sequncias de palavras

    mais frequentes. Os sistemas de domnio especfico podem aumentar o seu desempenho

    incorporando um padro de documento estruturado para gerar um relatrio completo,

    embora muitas vezes isto exija um processo de planejamento bastante laborioso.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    17/152

    Introduo. 3

    Um sistema de ditado torna-se mais poderoso se possui a habilidade de se adaptar

    voz de um determinado usurio (adaptao ao locutor), vocabulrio (aprendizado de

    novas palavras), e tarefas (adaptao do modelo de linguagem).

    1.1.2. Interface para computadores pessoais.

    A fala tende a se tornar uma componente importante na interface com os

    computadores. Algumas das possveis aplicaes poderiam ser:

    Fala como atalho: ao invs de abrir um arquivo atravs de vrios nveis de

    hierarquia, o usurio apenas diz Abra o estoque.

    Recuperao de informao: interfaces grficas so inconvenientes para especificar

    recuperao de informaes baseada em restries (encontre todos os documentos

    de Fbio criados depois de maro)

    Computadores de bolso: medida em que o tamanho dos computadores diminui

    (hoje existem palm-tops minsculos), teclados e mouses tornam-se cada vez mais

    difceis de usar, tornando a fala uma alternativa bastante atraente.

    Embora o reconhecimento de fala em computadores seja uma alternativa bastante

    atraente, as interfaces atuais, teclado e mouse, representam uma alternativa madura e

    extremamente eficiente. improvvel que a fala possa substituir completamente estes

    dispositivos. Ao invs disso, a nova interface deve combinar estes dispositivos e permitir

    que o usurio defina qual combinao de dispositivos a mais adequada para

    determinada tarefa.

    O uso apropriado da fala nos computadores pessoais ir provavelmente requerer

    o desenvolvimento de um novo conceito de interao com o usurio ao invs de

    simplesmente modificar as interfaces grficas existentes.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    18/152

    4 Introduo.

    Uma questo social tambm est envolvida neste tipo de interface: a dos

    deficientes fsicos. Com interfaces via voz, pessoas que no tm acesso ao computador

    por causa de suas deficincias, poderiam utiliz-lo normalmente, permitindo umingresso ao mercado de trabalho e uma competio em p de igualdade com as outras

    pessoas.

    1.1.3. Sistemas baseados na rede telefnica.

    O reconhecimento de fala baseado na rede telefnica oferece um potencial

    enorme por ser um meio de comunicao extremamente difundido. tambm a rea

    tecnicamente mais difcil para o reconhecimento devido impossibilidade de controle

    sobre as condies de uso.

    Os problemas envolvem uma grande e imprevisvel populao de usurios,

    diferenas nos microfones dos aparelhos, a presena de rudo de canal e banda estreita.

    Os sistemas mais bem sucedidos so os que se limitam a vocabulrios

    extremamente pequenos, da ordem de 10 a 20 palavras. Para que um sistema seja til

    no necessrio um vocabulrio muito grande; alguns sistemas tem um vocabulrio deapenas duas palavras (sim e no).

    Alm do pouco controle sobre a qualidade do sinal, o reconhecimento atravs da

    linha telefnica apresenta problemas devido expectativa dos usurios que o sistema se

    comporte como um interlocutor humano. Dois exemplos clssicos seriam:

    usurio fala enquanto o sistema ainda est formulando as questes (intromisso), de

    modo que na hora em que o sistema entra em modo de gravao para coletar a

    resposta, o usurio j est no meio da resposta ou j terminou de falar

    usurio adiciona palavras resposta, que no esto no vocabulrio do sistema (sim,

    por favor). Neste caso podem ser usadas tcnicas de identificao de palavras para

    conseguir taxas de reconhecimento aceitveis .

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    19/152

    Introduo. 5

    Estes servios de operao envolvem vocabulrios pequenos, dilogo interativo e

    avisos. As possveis aplicaes seriam: validao de cartes de crdito, compras por

    catlogo, reservas para hotis, restaurantes, teatros, passagens areas, consultas atelefones e endereos, etc.

    1.1.4. Aplicaes industriais e sistemas integrados.

    Os sistemas de reconhecimento de fala tambm podem ser utilizados em

    aplicaes mais simples de vocabulrio restrito, como o controle de mquinas e

    dispositivos, abertura e fechamento de portas e vlvulas, acendimento de luzes,

    operaes financeiras e outros.

    Para muitas aplicaes o reconhecimento dependente de locutor suficiente,

    desde que um dispositivo particular ser utilizado por uma nica pessoa durante um

    perodo de tempo relativamente extenso, por exemplo um turno de trabalho. Por outro

    lado, seria conveniente para algumas aplicaes que o sistema pudesse fazer

    reconhecimento de palavras conectadas, uma vez que uma entrada por palavras isoladas

    pode ser muito lenta e desconfortvel.Dispositivos de reconhecimento de fala podem ser tambm utilizados como parte

    de simuladores, permitindo que um sistema automtico substitua um treinador humano.

    Outra aplicao possvel a de sistemas de inspeo mvel e controle de inventrio, por

    exemplo no caso de atividades envolvendo microscopia e trabalho em quartos escuros de

    fotografia. A cada dia mais comum ver aparelhos de telefonia celular com discagem

    por voz (Ligue-me com o Fbio).

    Estes exemplos significam uma nova era na interao homem-mquina, onde

    cada vez mais a tecnologia procura criar interfaces que sejam mais naturais ao homem.

    Com o amadurecimento da tecnologia de reconhecimento de fala, ser possvel fazer

    com que todos estes servios sejam oferecidos de forma segura e eficiente.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    20/152

    6 Introduo.

    1.2. Objetivos e contribuies do Trabalho.

    Dentre as vrias aplicaes citadas para os sistemas de reconhecimento de fala,

    este trabalho focalizou o problema de reconhecimento de fala contnua, com

    independncia de locutor e vocabulrio mdio, sendo um caso tpico o de editor de texto

    comandado por voz.

    Alm do desenvolvimento de um sistema completo para treinamento e

    reconhecimento, foram estudadas todas as etapas envolvidas no processo, desde o

    planejamento, gravao e transcrio fontica da base de dados utilizada at a

    implementao final do sistema.

    Tambm houve a preocupao de se criar um sistema que pudesse ser utilizado

    por outros pesquisadores, tendo uma interface visual bastante intuitiva e documentao

    bastante cuidadosa, com o intuito de diminuir o tempo de desenvolvimento e facilitar as

    pesquisas futuras.

    Como contribuies principais deste trabalho pode-se citar a proposta de um

    conjunto de fones dependentes de contexto consistente e razoavelmente menor do que os

    trifones propriamente ditos, e a verificao da influncia da transcrio fontica daslocues de treinamento no desempenho do sistema. O estudo de todas as etapas do

    desenvolvimento de um sistema de reconhecimento tambm proporcionou uma viso

    bastante ampla e clara dos problemas envolvidos, e serviu para um melhor

    direcionamento das linhas de pesquisa.

    1.3. Contedo da Tese.

    A tese est organizada da seguinte maneira. No Captulo 2 feito um

    levantamento dos principais problemas observados na tarefa de reconhecimento de fala,

    com nfase especial no problema de reconhecimento de fala contnua; tambm

    apresentada uma viso geral do estado da arte atual para os sistemas de reconhecimento

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    21/152

    Introduo. 7

    de fala em vrias aplicaes. O Captulo 3 discute a questo das bases de dados: como

    so feitas, como deveriam ser feitas, as dificuldades de confeco, e finalmente os

    trabalhos realizados para a confeco da base de dados utilizada neste trabalho. NoCaptulo 4 apresentada a teoria sobre modelos ocultos de Markov. O Captulo 5 trata

    dos algoritmos de busca com nfase para o Level Building e o One Step. O sistema

    desenvolvido neste trabalho descrito no Captulo 6, e os testes e resultados obtidos so

    apresentados no Captulo 7. Finalmente, no Captulo 8 so feitas as anlises sobre os

    resultados e tiradas concluses a partir destas. Tambm so feitas sugestes para a

    continuao das pesquisas a partir das deficincias observadas.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    22/152

    8 O problema do reconhecimento de fala.

    2.O problema do reconhecimento de fala.

    O reconhecimento de fala consiste em mapear um sinal acstico, capturado por

    um transdutor (usualmente um microfone ou um telefone) em um conjunto de palavras.

    Os sistemas de reconhecimento de fala podem ser caracterizados por vrios

    parmetros sendo que alguns dos mais importantes se encontram resumidos na Tabela

    1[13].

    Tabela 1: Parmetros tpicos usados para caracterizar a capacidade de sistemas dereconhecimento de fala.

    Parmetros FaixaModo de Pronncia De palavras isoladas a fala contnua

    Estilo de pronncia De leitura a fala espontneaTreinamento De dependente de locutor a independente de locutorVocabulrio De pequeno (< 20 palavras) a grande (> 20000 palavras)Modelo de linguagem De estados finitos a sensvel a contextoPerplexidade De pequena (< 10) a grande (> 100)SNR De alta (> 30 dB) a baixa (< 10 dB)Transdutor De microfone com cancelamento de rudo a telefone

    Um sistema de reconhecimento de palavras isoladas requer que o locutor efetue

    uma pequena pausa entre as palavras, enquanto que um sistema de reconhecimento de

    fala contnua no apresenta este inconveniente.A fala quando gerada de modo espontneo mais relaxada, contm mais

    coarticulaes, e portanto muito mais difcil de reconhecer do que quando gerada

    atravs de leitura.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    23/152

    O problema do reconhecimento de fala. 9

    Os sistemas dependentes de locutor necessitam de uma fase de treinamento para

    cada usurio antes de serem utilizados, o que no acontece com sistemas independentes

    do locutor, desde que estes j foram previamente treinados com vrios locutores.O reconhecimento torna-se mais difcil medida em que o vocabulrio cresce, ou

    apresenta palavras parecidas.

    Quando a fala produzida em sequncias de palavras, so usados modelos de

    linguagem para restringir as possibilidades de sequncias de palavras. O modelo mais

    simples pode ser definido como uma mquina de estados finita, onde so explicitadas as

    palavras que podem seguir uma dada palavra. Os modelos de linguagem mais gerais, que

    aproximam-se da linguagem natural, so definidos em termos de gramticas sensveis a

    contexto.

    Uma medida popular da dificuldade da tarefa, que combina o tamanho do

    vocabulrio e o modelo de linguagem, a perplexidade, grosseiramente definida como a

    mdia do nmero de palavras que pode seguir uma palavra depois que o modelo de

    linguagem foi aplicado.

    Existem tambm parmetros externos que podem afetar o desempenho de um

    sistema de reconhecimento de fala, incluindo as caractersticas do rudo ambiente e o

    tipo e posio do microfone.

    O reconhecimento de fala um problema difcil devido s vrias fontes de

    variabilidade associadas ao sinal de voz [13]:

    variabilidades fonticas : as realizaes acsticas dos fonemas, a menor unidade

    sonora das quais as palavras so compostas, so altamente dependentes do contexto

    em que aparecem [1]. Por exemplo o fonema /t/ em tatu tem uma articulaopuramente oclusiva, e em tia, dependendo do locutor, pode ter uma articulao

    africada, onde ocluso se segue um rudo fricativo semelhante ao do incio da

    palavra chuva. Alm disso, nas fronteiras entre palavras, as variaes contextuais

    podem tornar-se bem mais acentuadas fazendo, por exemplo, com que a frase a

    justia ... seja pronunciada como ajustic...

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    24/152

    10 O problema do reconhecimento de fala.

    variabilidades acsticas:podem resultar de mudanas no ambiente assim como da

    posio e caractersticas do transdutor.

    variabilidades intra-locutor: podem resultar de mudanas do estado fsico/emocionaldos locutores, velocidade de pronncia ou qualidade de voz.

    variabilidades entre-locutores: originam-se das diferenas na condio scio -

    cultural, dialeto, tamanho e forma do trato vocal para cada uma das pessoas.

    Os sistemas de reconhecimento tentam modelar as fontes de variabilidade

    descritas acima de vrias maneiras:

    Em termos fontico acsticos, a variabilidade dos locutores tipicamente modelada

    usando tcnicas estatsticas aplicadas a grandes quantidades de dados de

    treinamento. Tambm tm sido desenvolvidos algoritmos de adaptao ao locutor

    que adaptam modelos acsticos independentes do locutor para os do locutor corrente

    durante o uso [47][55].

    As variaes acsticas so tratadas com o uso de adaptao dinmica de parmetros

    [47], uso de mltiplos microfones [48] e processamento de sinal [13].

    Na parametrizao dos sinais, os pesquisadores desenvolveram representaes que

    enfatizam caractersticas independentes do locutor, e desprezam caractersticas

    dependentes do locutor [14][18].

    Os efeitos do contexto lingustico em termos fontico-acsticos so tipicamente

    resolvidos treinando modelos fonticos separados para fonemas em diferentes

    contextos; isto chamado de modelamento acstico dependente de contexto [30].

    O problema da diferena de pronncias das palavras pode ser tratado permitindo

    pronncias alternativas de palavras em representaes conhecidas como redes de

    pronncia. As pronncias alternativas mais comuns de cada palavra, assim como os

    efeitos de dialeto e sotaque so tratados ao se permitir aos algoritmos de busca

    encontrarem caminhos alternativos de fonemas atravs destas redes. Modelos

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    25/152

    O problema do reconhecimento de fala. 11

    estatsticos de linguagem, baseados na estimativa de ocorrncia de sequncias de

    palavras, so geralmente utilizados para guiar a busca atravs da sequncia de

    palavras mais provvel [13].Outro problema encontrado na tarefa de reconhecimento de fala contnua o

    procedimento de decodificao da locuo. Este, em sistemas de reconhecimento de fala

    contnua com vocabulrio extenso, tem um custo computacional elevadssimo, fazendo

    com que seja necessrio buscar maneiras inteligentes de guiar o processo de busca. Este

    tpico ser abordado com mais detalhes na seo seguinte.

    2.1. Arquiteturas para reconhecimento de fala.

    Atualmente, os algoritmos mais populares na rea de reconhecimento de fala

    baseiam-se em mtodos estatsticos. Dentre estes, dois mtodos tm se destacado: as

    redes neurais artificiais (Artificial Neural Networks, ANN) [49][54] e os modelos

    ocultos de Markov (Hidden Markov Models, HMM) [5][3][29][40]. Mais recentemente,

    implementaes hbridas que tentam utilizar as caractersticas mais favorveis de cada

    um destes mtodos tambm tm obtido bons resultados [45].

    2.2. Unidades fundamentais.

    Em sistemas de vocabulrio pequeno (algumas dezenas de palavras), comum

    utilizar-se as palavras como unidades fundamentais. Para um treinamento adequado

    destes sistemas, deve-se ter um grande nmero de exemplos de cada palavra. Entretanto,

    para sistemas com vocabulrios maiores, a disponibilidade de um grande nmero de

    exemplos de cada palavra torna-se invivel. A utilizao de sub-unidades fonticas, tais

    como fonemas, slabas, demisslabas, etc, uma alternativa bastante razovel, pois agora

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    26/152

    12 O problema do reconhecimento de fala.

    necessrio ter vrios exemplos de cada sub-unidade, e no vrios exemplos de cada

    palavra.

    Dois critrios bastante importantes para uma boa escolha de sub-unidades so[30]:

    consistncia: exemplos diferentes de uma unidade devem ter caractersticas

    similares.

    treinabilidade: devem existir exemplos de treinamento suficientes de cada sub-

    unidade para criar um modelo robusto.

    Sub-unidades maiores tais como slabas, demissslabas, difones, etc, so

    consistentes, mas difceis de treinar, enquanto que unidades menores, tais como os

    fones, so treinveis, mas inconsistentes.

    Uma alternativa que mostrou ser bastante atrativa a de fones dependentes de

    contexto [46]. Estas unidades so bastante consistentes, pois levam em considerao o

    efeito de coarticulao com os fones vizinhos.

    Os fones dependentes de contexto, como o nome sugere, modelam o fone em seu

    contexto. Um contexto geralmente refere-se ao fones imediatamente vizinhos direita e

    esquerda. Um fone dependente do contexto esquerda aquele modificado pelo fone

    imediatamente anterior, enquanto que um fone dependente do contexto direita aquele

    modificado pelo fone imediatamente posterior.

    O modelo trifone leva em considerao tanto o contexto esquerda como o

    contexto direita; deste modo, se dois fones tm a mesma identidade mas contextos

    esquerda e/ou direita diferentes, ento so considerados trifones distintos.

    Estes modelos so em geral insuficientemente treinados devido sua grande

    quantidade. Entretanto, como os modelos de trifones so modelos de fones especficos,

    podem ser interpolados com modelos de fones independentes de contexto, fones

    dependentes de contexto esquerda, e fones dependentes de contexto direita, que so

    modelos menos consistentes, mas melhor treinados.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    27/152

    O problema do reconhecimento de fala. 13

    2.3. Modelos Ocultos de Markov (HMMs).

    A histria dos HMMs precede seu uso no processamento de voz e somente mais

    tarde, gradualmente, foi se tornando bem conhecido e usado no campo da fala. A

    introduo dos HMMs no campo da voz usualmente creditada aos trabalhos

    independentes de Baker na Carnegie Mellon University [5] e Jelinek e colegas na IBM

    [26].

    Os HMMs podem ser classificados em modelos discretos, contnuos e semi-

    contnuos, de acordo com a natureza dos elementos na matriz de emisso de smbolos

    (b), que so funes de distribuio [41].

    Nos modelos discretos, as distribuies so definidas em espaos finitos. Neste

    caso, as observaes so vetores de smbolos de um alfabeto finito de N elementos

    distintos.

    Outra possibilidade definir distribuies como densidades de probabilidade em

    espaos de observao contnuos (modelos contnuos). Neste caso, devem ser impostas

    fortes restries forma funcional das distribuies, de modo a se obter um nmero

    razovel de parmetros a serem estimados. A estratgia mais popular caracterizar astransies do modelo atravs de misturas de densidades que tenham uma forma

    paramtrica simples (por exemplo Gaussianas ou Laplacianas), e que possam ser

    caracterizadas pelo vetor mdia e pela matriz de covarincia. De modo a modelar

    distribuies complexas desta maneira pode ser necessrio usar um grande nmero

    destas funes em cada mistura. Isto pode requerer um conjunto de treinamento muito

    grande para uma estimao robusta dos parmetros das distribuies.

    Nos modelos semicontnuos, todas as misturas so expressas em termos de um

    conjunto comum de densidades base. As diferentes misturas so caracterizadas somente

    atravs de fatores de ponderao diferentes.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    28/152

    14 O problema do reconhecimento de fala.

    2.4. Modelo de durao de palavras.

    A idia de se utilizar um modelo de durao de palavras penalizar hipteses

    levantadas pelo decodificador que estejam fora da durao mdia (em segundos, por

    exemplo) da realizao de uma dada palavra [40]. Por exemplo, se o decodificador

    reconheceu a palavra casa e atribuiu a ela uma durao de 20 segundos, obviamente

    esta hiptese deve ser severamente punida, pois est muito longe da realidade.

    Para isto, devemos conhecer a priori a durao mdia de cada uma das palavras

    que constituem o vocabulrio do sistema de reconhecimento. Em sistemas dependentes

    do locutor, esta estimativa pode ser razoavelmente precisa, mas para sistemas

    independentes de locutor, torna-se um problema srio estimar a durao mdia de cada

    palavra. Alm disso, para sistemas com vocabulrio grande, a determinao da durao

    mdia de cada uma das palavras pode se tornar invivel.

    2.5. Algoritmos de decodificao.

    A decodificao um processo de busca no qual uma sequncia de vetores

    correspondentes a caractersticas acsticas do sinal de voz comparada com modelos de

    palavras. De uma maneira geral, o sinal de voz e suas transformaes no fornecem uma

    indicao clara das fronteiras entre palavras nem do nmero total de palavras em uma

    dada locuo, de modo que a determinao destas parte do processo de decodificao.

    Neste processo, todos os modelos das palavras so comparados com uma sequncia de

    vetores acsticos.

    Os algoritmos mais utilizados nesta fase do reconhecimento so todos baseados

    no algoritmo de Viterbi e, dentre eles, podemos citar: Level Building [35], One Step

    [36], Stack Decoding [24], entre outros.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    29/152

    O problema do reconhecimento de fala. 15

    Estes modelos crescem com o vocabulrio, e podem gerar espaos de busca

    extremamente grandes, o que torna o processo de busca bastante oneroso em termos

    computacionais, e portanto lento.Algumas estratgias para diminuir o custo computacional nesta etapa envolvem

    procedimentos de poda, tais como o Viterbi Beam Search [41].

    Deve-se acrescentar que esta etapa do reconhecimento responsvel por

    praticamente 100% do esforo computacional de um sistema de reconhecimento de fala

    contnua e, portanto, a que determina a velocidade final de reconhecimento.

    2.6. Modelos de linguagem.

    Um sistema de reconhecimento de fala converte o sinal acstico observado em

    sua representao ortogrfica correspondente. O sistema faz a sua escolha a partir de um

    vocabulrio finito de palavras que podem ser reconhecidas. Por simplicidade, assume-se

    que uma palavra identificada somente por sua pronncia 1.

    Foi conseguido um progresso dramtico na resoluo do problema de

    reconhecimento de fala atravs do uso de um modelo estatstico da distribuio conjunta

    ( )OWp , da sequncia W de palavras pronunciadas e da sequncia de informao

    acstica observada O. Este mtodo chamado de modelo de fonte-canal. Neste mtodo,

    o sistema determina uma estimativa $W da identidade da sequncia de palavras

    pronunciadas a partir da evidncia acstica observada O usando a distribuio a

    posteriori ( )p W O| . Para minimizar a taxa de erro, o sistema escolhe a sequncia de

    palavras que maximiza a distribuio a posteriori:

    1 Por exemplo, a palavra macaco considerada uma palavra s, embora possa ter mais

    de um significado (animal ou objeto).

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    30/152

    16 O problema do reconhecimento de fala.

    ( )( ) ( )

    ( )$ arg | arg

    |W max p W O max

    p W p OW

    p OW W= = (1)

    onde ( )p W a probabilidade da sequncia de n palavras We ( )p O W| a probabilidade

    de observar a evidncia acstica O quando a sequncia W pronunciada. A distribuio

    a priori ( )p W de quais palavras poderiam ter sido pronunciadas (a fonte) refere-se ao

    modelo de linguagem. O modelo da probabilidade de observao ( )p O W| (o canal)

    chamado de modelo acstico.

    2.6.1. Modelos de linguagem n-gram.

    Para uma dada sequncia de palavras { }W w wn= 1 ,..., de n palavras, pode-se

    reescrever a probabilidade do modelo de linguagem como:

    ( ) ( ) ( )== = n

    iiin wwwPwwPWP 1 101 ,...,|,..., (2)

    onde w0 escolhido de forma conveniente para lidar com a condio inicial. A

    probabilidade da prxima palavra wi depende da histria ( )121 ,...,, = ii wwwh das

    palavras que j foram pronunciadas. Com esta fatorao, a complexidade do modelo de

    linguagem cresce exponencialmente com o comprimento da histria. De modo a obter

    um modelo mais prtico e parcimonioso, a histria de palavras pronunciadas truncada,

    de modo que apenas alguns termos so utilizados para calcular a probabilidade da

    prxima palavra seguir a palavra atual.

    Os modelo mais bem sucedidos das ltimas duas dcadas so os modelos n-

    gram, onde somente as n palavras mais recentes da histria so usadas para condicionar

    a probabilidade da prxima palavra. O desenvolvimento a seguir refere-se ao caso

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    31/152

    O problema do reconhecimento de fala. 17

    particular de gramticas bigrama (n = 2), A probabilidade de uma sequncia de palavras

    torna-se:

    ( ) ( )=

    n

    i

    ii wwPWP1

    1| (3)

    Para estimar as probabilidades bigrama, pode-se usar um grande corpus de textos

    para estimar as respectivas frequncias bigrama:

    ( )1

    12122 |

    c

    cwwf = (4)

    onde 12c o nmero de vezes que a sequncia de palavras { }21 , ww observada e 1c o

    nmero de vezes que 1w observada. Para um vocabulrio de Vpalavras existem V2

    bigramas possveis, o que para um vocabulrio de 20000 palavras significa 400 milhes

    de bigramas. Muitos destes bigramas no sero observados no corpus de treinamento, e

    deste modo estes bigramas no observados iro ter probabilidade zero quando se usa afrequncia bigrama como uma estimativa da probabilidade bigrama. Para resolver este

    problema, necessrio uma estimativa suavizada da probabilidade de eventos no

    observados. Isto pode ser feito pela interpolao linear das frequncias bigrama e

    unigram e uma distribuio uniforme no vocabulrio.

    ( ) ( ) ( )V

    wfwwfwwp1

    || 0211122212 ++= (5)

    onde ( )f2 e ( )f1 so estimadas pela razo das contagens bigrama e unigram

    apropriadas. Os pesos (0, 1 e2) da interpolao linear so estimados a partir de dados

    de validao: maximizando a probabilidade de novos dados diferentes daqueles usados

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    32/152

    18 O problema do reconhecimento de fala.

    para estimar as frequncias n-gram. O algoritmo forward-backwardpode ser usado para

    resolver este problema de estimao de mxima verossimilhana.

    No trabalho de modelamento de linguagem tm sido usadas bases de dados deum milho a 500 milhes de palavras, correspondendo a vocabulrios de 1000 a 267000

    palavras distintas, para construir modelos trigrama [13]. Para gramticas do tipo bigrama

    as necessidades so um pouco menores, mas ainda astronmicas.

    2.6.2. Perplexidade.

    Na comparao de modelos de linguagem, importante ser capaz de quantificar a

    dificuldade que estes impem ao sistema de reconhecimento. Um modo de se fazer isso

    utiliz-los em um sistema de reconhecimento e determinar qual deles fornece a menor

    taxa de erro. Este ainda a melhor maneira de avaliar um modelo de linguagem, embora

    seja um mtodo altamente custoso.

    Os modelos de linguagem tendem a minorar as incertezas (diminuir a entropia)

    do contedo das sentenas e facilitar o reconhecimento. Por exemplo, se existem, em

    mdia, muito poucas palavras que podem seguir uma dada palavra em um modelo delinguagem, o sistema de reconhecimento ter menos opes para verificar, e o

    desempenho ser melhor do que se existissem muitas palavras possveis. Este exemplo

    sugere que uma medida conveniente da dificuldade de um modelo de linguagem deva

    envolver alguma medida do nmero mdio de palavras que possam seguir outras. Se o

    modelo de linguagem for visto como um grafo, com terminais associados a transies

    entre palavras, por exemplo, ento esta medida estaria relacionada com o fator de

    ramificao mdio em todos os pontos de deciso do grafo. Grosseiramente falando, esta

    a quantidade medida pela perplexidade, formalizada a seguir.

    Um modelo estocstico formal de linguagem gera sequncias terminais com

    certas probabilidades. Estas sequncias terminais podem ser vistas como realizaes de

    um processo estocstico estacionrio discreto cujas variveis aleatrias assumem valores

    discretos. Estes valores discretos correspondem aos terminais individuais, e o tempo

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    33/152

    O problema do reconhecimento de fala. 19

    indica simplesmente a posio do terminal aleatrio na sequncia de palavras. Por

    simplicidade, vamos assumir que os terminais correspondam a palavras, e este processo

    aleatrio ser indicado por w . Se existem Wpalavras possveis, Www ,...,1 , a entropiaassociada com este processo aleatrio ou fonte dada por

    ( ) ( )( ){ }

    ( )( ) ( )( )iW

    ii

    i

    wwPwwP

    wwPEwH

    = ==

    ==

    =2

    1

    2

    log

    log(6)

    onde ( )w uma varivel aleatria arbitrria em w se a fonte tem variveis aleatriasindependentes e identicamente distribudas. Se no, a entropia dada por

    ( ) ( ){ }

    ( ) ( )NNw

    NN

    N

    NN

    N

    wwPwwPN

    wwPEN

    wH

    N1111

    11

    log1

    lim

    log1

    lim

    1

    = ==

    ==

    (7)

    onde Nw1 denota a sequncia de variveis aleatrias ( ) ( )Nww ,...,1 , eNw1 denota a

    realizao parcial ( ) ( )Nww ,...,1 , e a soma tomada sobre todas estas realizaes. Desde

    que as palavras em um modelo de linguagem no so independentes e nem

    equiprovveis, usamos (7) ao invs de (6). Para uma fonte ergdica, a entropia pode ser

    calculada utilizando-se uma mdia temporal

    ( ) ( )NN

    NwwP

    NwH 112log1lim == (8)

    Na prtica, quanto mais longa a sentena (N maior) utilizada para estimar H,

    melhor ser a estimativa; Hrepresenta o nmero mdio de bits de informao inerente a

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    34/152

    20 O problema do reconhecimento de fala.

    uma palavra no modelo de linguagem. Isto significa que, em mdia, ( )wH bits precisam

    ser extrados dos dados acsticos para reconhecer uma palavra.

    As probabilidades NN

    wwP 11 = so desconhecidas e precisam ser estimadas apartir de dados de treinamento (que podem ser vitos como exemplos de produes do

    modelo de linguagem). Chamando as estimativas de NN wwP 11 = , e a medida de

    entropia resultante de ( )wH , temos

    ( ) ( )NNN

    wwPN

    wH 112log

    1lim ==

    (9)

    Pode-se mostrar que HH se w for um processo ergdico.

    Embora a entropia fornea uma medida de dificuldade perfeitamente vlida, na

    rea de processamento de fala, prefere-se usar a perplexidade, definida como

    ( ) ( )

    ( )N N

    wHdef

    wP

    wQ

    1

    12 = (10)

    para algum N grande. Para verificar o sentido desta medida, note que se o modelo de

    linguagem tem Wpalavras equiprovveis que ocorrem independentemente em qualquer

    sequncia de palavras, segue de (6) que a quantidade de entropia em qualquer sequncia

    dada por

    ( ) WwH 2log= (11)

    O tamanho do vocabulrio neste caso est relacionado com a entropia atravs da

    seguinte expresso:

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    35/152

    O problema do reconhecimento de fala. 21

    ( )wHW 2= (12)

    Comparando (12) e (10), pode-se ver que a perplexidade de um modelo delinguagem pode ser interpretada como o tamanho do vocabulrio (nmero de terminais)

    em outro modelo de linguagem com palavras equiprovveis e independentes, que seja

    igualmente difcil de reconhecer. Portanto a perplexidade indica um fator de ramificao

    mdio de um modelo de linguagem modelado por w .

    A perplexidade de um modelo de linguagem depende do domnio de discurso. Na

    Tabela 2 tem-se um quadro comparativo para diversas aplicaes [13] :

    Tabela 2: Perplexidades tpicas para vrios domnios.

    Domnio PerplexidadeRadiologia 20

    Medicina de emergncia 60Jornalismo 105Fala geral 247

    2.7. Estado da arte.

    O desempenho dos sistemas de reconhecimento de fala tipicamente descrito em

    termos de taxa de erros de palavra E, definida como [41]:

    ES I D

    N=

    + +100 (13)

    onde N o nmero total de palavras no conjunto de teste, S, Ie D so o nmero total de

    substituies, inseres e delees, respectivamente.

    A ltima dcada tem testemunhado um progresso significativo na tecnologia de

    reconhecimento de fala. As taxas de erro de palavra caem de um fator de 2 a cada dois

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    36/152

    22 O problema do reconhecimento de fala.

    anos. Foi feito um progresso substancial na tecnologia bsica, o que levou a vencer as

    barreira de independncia de locutor, fala contnua e vocabulrios extensos.

    Existem vrios fatores que contriburam para este rpido progresso. A chegada da era do HMM. O HMM poderoso no sentido de que, com a

    disponibilidade de dados de treinamento, os parmetros do modelo podem ser

    treinados automaticamente para fornecer um desempenho timo.

    Foi feito um grande esforo no sentido de desenvolver grandes bases de dados de

    fala para o desenvolvimento, treinamento e avaliao de sistemas.

    Estabelecimento de normas de avaliao de desempenho. At uma dcada atrs, os

    pesquisadores treinavam e testavam seus sistemas usando dados coletadoslocalmente, e no foram muito cuidadosos em delinear os conjuntos de treinamento e

    testes. Consequentemente, era muito difcil comparar o desempenho dos vrios

    sistemas, e ainda, o desempenho de um sistema era geralmente degradado quando

    este era apresentado a dados novos. A recente disponibilidade de grandes bases de

    dados no domnio pblico, associada especificao de padres de avaliao,

    resultou em uma documentao uniforme de resultados de testes, contribuindo para

    uma maior confiabilidade na monitorao dos progressos alcanados. Os avanos na tecnologia dos computadores influenciaram indiretamente o progresso

    nesta rea. A disponibilidade de computadores rpidos com grandes capacidades de

    memria permitiu aos pesquisadores realizar vrias experincias em larga escala e

    em um curto espao de tempo. Isto significa que o intervalo de tempo entre uma

    idia e a sua implementao e avaliao foi bastante reduzido. De fato, sistemas de

    reconhecimento de fala com desempenho razovel podem rodar em

    microcomputadores comuns em tempo real, sem hardware adicional, um fatoinimaginvel a alguns anos atrs.

    Talvez a tarefa mais popular, e potencialmente mais til, com baixa perplexidade

    (PP = 11) o reconhecimento de dgitos conectados. Para o ingls americano, o

    reconhecimento independente de locutor de sequncias de dgitos pronunciados de

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    37/152

    O problema do reconhecimento de fala. 23

    forma contnua e restringido largura de banda telefnica pode alcanar uma taxa de

    erro de 0,3% quando o comprimento da sequncia conhecido.

    Uma das tarefas de mdia perplexidade mais conhecidas a de 1000 palavraschamada de Resource Management, na qual podem-se fazer indagaes sobre vrios

    navios no oceano Pacfico. O melhor desempenho independente de locutor nesta tarefa

    de menos de 4%, usando um modelo de linguagem de pares de palavras que limita as

    palavras possveis que seguem uma dada palavra (PP = 60). Mais recentemente, os

    pesquisadores comearam a estudar a questo do reconhecimento de fala espontnea.

    Por exemplo, no domnio do Servio de Informao de Viagens Areas (Air Travel

    Information Service, ATIS), foram relatadas taxas de erros de menos de 3% para um

    vocabulrio de aproximadamente 2000 palavras e um modelo de linguagem bigrama

    com uma perplexidade por volta de 15.

    Tarefas com alta perplexidade, com vocabulrios de milhares de palavras, so

    destinadas principalmente para aplicaes de ditado. Depois de trabalhar em sistemas de

    palavras isoladas, dependentes de locutor, por muitos anos, a comunidade tem voltado

    suas atenes desde 1992 para o reconhecimento de fala contnua para grandes

    vocabulrios (20.000 palavras ou mais), alta perplexidade (PP 200), independente de

    locutor. O melhor sistema em 1997 conseguiu uma taxa de erro de 9,9% em testesrealizados regularmente nos EUA atravs do Departamento de Defesa. [39].

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    38/152

    24 Base de dados.

    3.Base de dados.

    3.1. Introduo.

    A linguagem falada a forma mais natural de comunicao humana. Sua

    estrutura moldada pelas estruturas fonolgicas, sintticas e prosdicas da lngua, do

    ambiente acstico, do contexto em que a fala est sendo produzida (por exemplo, as

    pessoas falam de maneira diferente em ambientes ruidosos e silenciosos), e do canal

    atravs do qual viaja (telefone, microfone, diretamente pelo ar, etc.).

    A fala produzida de maneira diferente por cada pessoa, sendo as variaes

    devidas ao dialeto, forma e tamanho do trato vocal, ritmo de pronncia, entre outros

    fatores. Ainda, os padres de fala so modificados pelo ambiente fsico, contexto social,

    e estado fsico e emocional das pessoas.

    As tecnologias mais promissoras na rea de reconhecimento de fala (redes

    neurais e HMMs) utilizam mtodos de modelagem estatstica que aprendem por

    exemplos, exigindo conjuntos de dados de treinamento extremamente grandes, que

    cubram todas estas variaes.O efeito causado por variveis no modeladas ou mal modeladas (tais como

    diferenas de canal ou microfones, palavras fora do vocabulrio, sub-unidades fonticas

    mal treinadas) no desempenho dos sistemas de reconhecimento de fala devastador.

    Deste modo, para fornecer exemplos em nmero suficiente para que os mtodos

    estatsticos funcionem adequadamente, a base de dados precisa ser extremamente

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    39/152

    Base de dados. 25

    grande e, consequentemente, custosa, tanto em termos de trabalho como em termos

    financeiros.

    Estes altos custos s podem ser arcados por um esforo conjunto de empresas,instituies de pesquisa e agncias financiadoras, de modo a evitar duplicao de

    esforos e distribuir as tarefas. Para envolver um nmero maior de agentes neste

    processo, necessrio que este material no seja direcionado a um sistema ou tarefa

    especficos, mas atender as necessidades de vrios grupos e linhas de pesquisa e

    desenvolvimento, em diversas reas do conhecimento (sntese e reconhecimento de fala,

    estudos fonticos, estudos lingusticos, etc.).

    Na Europa, o projeto EUROM_1 congregou esforos de 8 pases europeus: Itlia,

    Inglaterra, Alemanha, Holanda, Dinamarca, Sucia, Noruega e Frana, com a adeso

    posterior de Grcia, Espanha e Portugal. A base de dados foi criada com o mesmo

    nmero de locutores (30 homens e 30 mulheres), escolhidos atravs dos mesmos

    critrios e gravados em condies acsticas semelhantes, e no mesmo formato.

    Ainda, em Portugal, foi criada uma base de dados chamada BD-PUBLICO (Base

    de Dados em Portugus eUropeu, vocaBulrio Largo, Independente do orador e fala

    COntnua), com aproximadamente 10 milhes de palavras em aproximadamente 156 mil

    frases, pronunciadas por 120 locutores (60 de cada sexo). Como no poderia deixar deser, esta base foi confeccionada atravs do esforo conjunto de instituies de pesquisa,

    rgos governamentais e tambm empresas do setor privado.

    Nos EUA tambm foi feito um grande esforo neste sentido, e j existem

    disponveis no domnio pblico, vrias bases de dados (TIMIT, TI-DIGITS,

    SWITCHBOARD, etc.) para desenvolvimento e teste de sistemas.

    A disponibilidade destas bases impulsionou de forma expressiva o

    desenvolvimento da tecnologia de fala, no s devido ao fato de os centros de pesquisa

    no terem que criar suas prprias bases de dados, um trabalho por si s extremamente

    rduo, caro e demorado, como tambm pela possibilidade de comparar os resultados de

    cada nova idia de uma forma estatisticamente significativa.

    No caso do Brasil este tipo de consrcio ainda no foi sequer cogitado, e os

    pesquisadores tm que desenvolver seus trabalhos como os americanos faziam h 20

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    40/152

    26 Base de dados.

    anos atrs: com bases caseiras e pequenas, que tentam cobrir os fenmenos mais

    significativos da lngua falada, na maioria dos casos sem sucesso.

    3.2. Encaminhamentos futuros.

    Os desafios em linguagem falada so muitos. Um desafio bsico est na

    definio da metodologia - como projetar bases de dados compactas que possam ser

    utilizadas em vrias aplicaes; como projetar bases de dados que possam ser

    comparadas em vrias lnguas; como selecionar locutores para que se tenha uma

    populao representativa em relao a vrios fatores, tais como sotaque, dialeto, e modo

    de pronncia; como selecionar as frases a serem pronunciadas de modo a cobrir todas as

    aplicaes; como selecionar um conjunto de dados de teste estatisticamente

    representativo para a avaliao dos sistemas.

    Outro desafio desenvolver padres para transcrever as locues em diferentes

    nveis e entre lnguas diferentes: estabelecer conjuntos de smbolos, convenes de

    alinhamento, definir nveis de transcrio (acstica, fontica, de palavras, e outros),

    convenes para prosdia e tom, convenes para controle de qualidade das transcries

    (por exemplo vrias pessoas transcrevendo as mesmas locues para uma estatstica

    confivel). Tambm seria interessante classificar as gravaes de acordo com o

    ambiente em que foram feitas, assim como o canal utilizado (ambientes silenciosos ou

    ruidosos, com msica ambiente, gravaes feitas atravs da linha telefnica, etc.).

    No caso brasileiro, ainda necessrio juntar os esforos para obter pelo menos

    uma base de dados padro, para que os pesquisadores possam comparar mtodos e

    resultados, e assim evitar duplicaes de esforos.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    41/152

    Base de dados. 27

    3.3. Projeto e confeco da base de dados.

    Com dito anteriormente, no se tem disponvel para a lngua portuguesa uma

    base de dados de referncia sobre a qual se possa desenvolver e testar o desempenho dos

    sistemas de reconhecimento de fala, tornando-se necessrio confeccionar nossas prprias

    bases de dados.

    Por um lado, isto significa um grande dispndio de tempo e trabalho, que

    poderiam ser utilizados na elaborao, desenvolvimento e avaliao de novas idias. Por

    outro lado, o planejamento e a confeco de uma base de dados traz uma compreenso

    valiosa da forma com que as pessoas interagem com um sistema de reconhecimento de

    fala. As variaes de pronncia e qualidade de voz devido presena de um microfone,

    condio scio-cultural, regio de origem, estado emocional e at hora do dia ficam

    bem claras quando se confecciona uma base de dados relativamente grande.

    Os trabalhos de confeco da base de dados consistiram de:

    escolha das frases

    escolha dos locutores

    gravao das locues

    transcrio fontica

    3.3.1. Escolha das frases.

    As frases foram escolhidas segundo o trabalho realizado por Alcaim et. al. [1].

    Neste, foram criadas 20 listas de 10 frases foneticamente balanceadas, segundo o

    portugus falado no Rio de Janeiro, listadas no Apndice A. Nestas listas, contou-se 694

    palavras distintas.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    42/152

    28 Base de dados.

    O termo foneticamente balanceado, neste caso, significa que a lista de frases

    gerada tem uma distribuio fontica similar quela encontrada na fala espontnea. Esta

    distribuio foi levantada a partir da transcrio fontica de gravaes de inquritos,obtidas a partir do projeto NURC-RJ (Projeto de Estudo da Norma Lingustica Urbana

    culta na cidade do Rio de Janeiro) [10].

    3.3.2. Locutores.

    Para a confeco da base de dados, foram selecionados 40 locutores adultos,

    sendo 20 homens e 20 mulheres. A maioria dos locutores nasceu no interior do estado de

    So Paulo, embora alguns sejam nativos de outros estados (Pernambuco, Cear, Paran e

    Amazonas). A maioria tem o nvel superior, e todos tem pelo menos o segundo grau

    completo. Um resumo informativo de cada um dos locutores pode ser encontrado no

    Apndice B.

    Os locutores foram divididos igualmente em 5 grupos, ou seja, 4 homens e 4

    mulheres para cada grupo. Para cada grupo foram designadas 4 das 20 listas da base de

    dados da seguinte forma: as primeiras 4 listas para o primeiro grupo, as 4 seguintes parao segundo grupo, e assim por diante. Desta forma, cada locutor pronunciou no total 40

    frases, e cada frase foi repetida por 8 locutores diferentes.

    Um locutor extra do sexo masculino completa a base de dados. Este locutor

    pronunciou todas as 200 frases, repetindo-as 3 vezes. Estas locues foram utilizadas

    para testes com dependncia de locutor.

    3.3.3. Gravaes.

    As gravaes foram realizadas em ambiente relativamente silencioso, com um

    microfone direcional de boa qualidade, utilizando uma placa de som SoundBlaster AWE

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    43/152

    Base de dados. 29

    64. A taxa de amostragem utilizada foi de 11,025 kHz, e resoluo de 16 bits. Os dados

    foram armazenados em formato Windows PCM (WAV).

    3.3.4. Transcrio Fontica.

    A transcrio fontica foi feita manualmente para cada locuo, utilizando

    programa de visualizao grfica do espectrograma e forma de onda do sinal, e fones de

    ouvido para audio da mesma.

    As sub-unidades utilizadas nesta tarefa so mostradas na Tabela 3. importante

    frisar que os fones utilizados na transcrio fontica deste trabalho e daquele realizado

    por Alcaim et al [1] no so os mesmos. No presente trabalho foi utilizado um conjunto

    menor de sub-unidades fonticas, resultante da fuso de algumas classes propostas em

    [1], principalmente entre as vogais.

    Mesmo com estas restries, pode-se observar que, de uma forma geral, o

    levantamento dos fones a partir da transcrio fontica da base de dados gravada

    acompanhou a distribuio encontrada em [1]. Entretanto, a comparao da frequncia

    relativa da ocorrncia dos fones mostra algumas diferenas significativas, possivelmentedecorrentes das variaes regionais de pronncia dos locutores. Na Figura 1, tem-se um

    histograma comparativo para a ocorrncia dos fones em ambos os casos.

    Considerando que a maioria dos locutores selecionados para este trabalho tem

    origem no estado de So Paulo, pode-se considerar que uma base paulista, e como o

    trabalho do Prof. Alcaim foi realizado somente com locutores cariocas, pode-se

    considerar que uma base carioca. Assim, com ressalvas, pode-se fazer algumas

    comparaes interessantes:

    a diferena de pronncia do s entre consoantes bem visvel se observarmos os

    histogramas correspondentes aos fones s e x.

    idem para os fones z e j

    idem para os fones r e rr.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    44/152

    30 Base de dados.

    Tabela 3: sub-unidades acsticas utilizadas na transcrio fontica das locues, com exemplos efrequncias relativas de ocorrncia, segundo Alcaim et. al. [1] e aquelas encontradas natranscrio fontica da base de dados coletada. Tambm so listados os nmeros de ocorrnciasobservados para cada sub-unidade.

    Fone Smboloutilizado

    Exemplo Frequncia Relativa (%) Nmero de

    Alcaim et. al. Observada ocorrnciasa a aafro 12,94 13,91 6031e e elevador 4,82 2,15 933 E p ele 1,91 6,35 2785i i s ino 8,57 1,90 821j y fu i 3,13 0,95 410o o b olo 2,71 4,14 1798 O b ola 1,00 6,23 2691

    u u lua 8,69 2,57 1124~ an ma 2,12 4,04 1773e~ en s enta 2,30 1,16 501

    i~ in p into 3,23 0,69 296 on s ombra 0,75 8,41 3648u~ un um 2,50 1,98 860b b bela 1,09 1,18 511d d ddiva 2,64 3,14 1346dZ D diferente 1,92 1,49 665f f feira 1,46 1,44 625g g gorila 0,93 0,87 378Z j jil 1,32 0,75 325k k cachoeira 4,19 3,63 1575l l leo 1,72 1,91 830 L lhama 0,21 0,35 152m m montanha 4,12 3,77 1637n n nvoa 2,40 2,26 982 N inhame 0,68 0,42 185p p poente 2,29 2,49 1081r r ce ra 3,58 4,05 1759r rr ce rrado 2,06 0,89 363

    R R ca r ta - 1,32 598s s sapo 4,18 6,52 2832t t tempes tade 3,94 4,02 1737tS T tigela 1,44 1,20 531v v v ero 1,23 1,51 656S x ch ave 2,12 0,32 132z z z abumba 1,81 1,96 859

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    45/152

    Base de dados. 31

    0

    2

    4

    6

    8

    10

    12

    14

    16

    a

    an

    e

    E

    en

    i

    y

    in

    o

    O

    on

    u

    un

    b

    d

    D

    f

    g

    j

    k

    l

    L

    m

    n

    N

    p

    r

    rr

    R

    s

    t

    T

    v

    x

    z

    fones

    frequnciarelativa(%)

    a b

    Figura 1: Histograma comparativo da ocorrncia de fones nos trabalhos atual a) e os realizadosem [1] b).

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    46/152

    32 Modelos Ocultos de Markov.

    4.Modelos Ocultos de Markov.

    A teoria relativa aos modelos ocultos de Markov j bem conhecida e

    extensivamente documentada. Desta forma, neste captulo so apresentados apenas

    alguns conceitos bsicos e notaes importantes para a compreenso das sees

    posteriores. Textos com explicaes bastante claras e precisas podem ser encontrados

    em [40] e [15].

    Em um sistema estatstico de reconhecimento de fala contnua, geralmente as

    palavras do vocabulrio so representadas atravs de um conjunto de modelos

    probabilsticos de unidades lingusticas elementares (por exemplo fones). Uma

    sequncia de parmetros acsticos, extrados de uma locuo, vista como uma

    realizao de uma concatenao de processos elementares descritos por ModelosOcultos de Markov (em ingls, Hidden Markov Models, HMM). Um HMM uma

    composio de dois processos estocsticos, uma cadeia de Markov oculta, relacionada

    variao temporal, e um processo observvel, relacionado variabilidade espectral. Esta

    combinao provou ser poderosa para lidar com as fontes mais importantes de

    ambiguidade, e flexvel o suficiente para permitir a realizao de sistemas de

    reconhecimento com dicionrios extremamente grandes (dezenas de milhares de

    palavras) [13].

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    47/152

    Modelos Ocultos de Markov. 33

    4.1. Estrutura de um HMM.

    Um HMM definido como um par de processos estocsticos (X,Y). O processo

    X uma cadeia de Markov de primeira ordem, e no diretamente observvel, enquanto

    que o processo Y uma sequncia de variveis aleatrias que assumem valores no

    espao de parmetros acsticos (observaes).

    Um HMM gera sequncias de observaes pulando de um estado para outro,

    emitindo uma observao a cada salto. Em geral, para o reconhecimento de fala,

    utilizado um modelo simplificado de HMM conhecido como modelo left-right, ou

    modelo de Bakis [15], no qual a sequncia de estados associada ao modelo tem a

    propriedade de, medida que o tempo aumenta, o ndice do estado aumenta (ou

    permanece o mesmo), isto , o sistema caminha da esquerda para a direita no modelo

    (veja Figura 2)

    Figura 2: modelo de Bakis para um HMM left-right de 5 estados

    So usadas duas formas ligeiramente diferentes para os HMMs. Uma delas

    usualmente (mas nem sempre) utilizada no processamento acstico (modelamento do

    sinal) emite uma observao no instante de chegada ao estado. A outra forma ,

    geralmente utilizada em processamento de linguagem, emite uma observao durante a

    transio. A forma de estado emissor tambm chamada de mquina de Moore na teoria

    de autmatos, enquanto que a forma de transio emissora uma mquina de Mealy

    [20]. Neste trabalho, seguindo a tendncia geral, foi utilizada a forma de Moore. Na

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    48/152

    34 Modelos Ocultos de Markov.

    Figura 3 tem-se um exemplo de cada uma destas formas para um modelo HMM left-

    rightde 3 estados.

    bi[ ]

    a)

    ai i

    i j k

    b)

    a bi i i i

    , [ ]

    i j k

    aj j

    ak k

    ai j

    aj k

    ai k

    ak l

    bj[ ] b

    k[ ]

    a bj j j j

    , [ ] a bk k k k

    , [ ]

    a bi j i j

    , [ ] a bj k j k

    , [ ]

    a bi k i k

    , [ ]

    a bk l k l

    , [ ]

    Figura 3: formas de Moore a) e Mealy b) para um HMM com 3 estados.

    Na tarefa de reconhecimento de fala, geralmente so adotadas duas

    simplificaes da teoria de modelos de Markov, que podem ser formalizadas da seguinte

    maneira [15]:

    Hiptese de Markov de primeira ordem: a histria no tem influncia na evoluofutura da cadeia se o presente especificado.

    Hiptese de independncia das sadas: nem a evoluo da cadeia nem as

    observaes passadas influenciam a observao atual se a ltima transio da cadeia

    especificada.

    Estas duas hipteses podem ser escritas da seguinte maneira: seja Yy a

    varivel que representa as observaes e Xji, as variveis que representam os

    estados do modelo. Ento, o modelo pode ser representado pelos seguintes parmetros:

    { }X jiaAij ,| (14)

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    49/152

    Modelos Ocultos de Markov. 35

    ( ){ }YX yiybBi ,| (15)

    { }X ii | (16)

    onde A a matriz com as probabilidades de transio, B a matriz de densidades de

    probabilidade de emisso dos smbolos de sada, e a matriz de probabilidades

    iniciais, com as seguintes definies

    ( )iXjXPa ttij == 1| (17)

    ( ) ( )jXyYpyb ttj == | (18)

    ( )iXPi = 0 (19)

    4.2. Tipos de HMMs.

    Os HMMs podem ser classificados de acordo com a natureza dos elementos da

    matriz B, que so funes densidade de probabilidade.

    Nos HMMs discretos as densidades de probabilidades so definidas em espaos

    finitos. Neste caso, as observaes so vetores de smbolos de um alfabeto finito de N

    elementos diferentes.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    50/152

    36 Modelos Ocultos de Markov.

    Outra possibilidade definir as densidades de probabilidade em espaos de

    observao contnuos. Neste caso necessrio impor severas restries na forma

    funcional das densidades de modo a ter um nmero manipulvel de parmetrosestatsticos para estimar. A aproximao mais popular consiste em caracterizar as

    densidades de emisso do modelo como misturas de densidades base g de uma famlia G

    com uma forma paramtrica simples. As densidades base g G so geralmente

    Gaussianas ou Laplacianas, e podem ser parametrizadas pelo vetor mdia e pela matriz

    de covarincia. HMMs com este tipo de distribuio so chamados de HMMs

    contnuos. De modo a modelar distribuies complexas desta maneira necessrio usar

    um grande nmero de densidades base em cada mistura. Os problemas que surgem

    quando o corpus de treinamento no suficientemente grande podem ser aliviados pelo

    compartilhamento de distribuies entre emisses de estados diferentes [23].

    Nos modelos semicontnuos, todas as misturas so expressas em termos de um

    conjunto comum Cde densidades base. Neste caso, as misturas so diferenciadas pelos

    pesos atribudos a cada uma das funes base de C.

    O clculo das probabilidades com modelos discretos mais rpido do que com

    modelos contnuos, embora seja possvel acelerar o clculo das misturas de densidades

    aplicando a quantizao vetorial nas gaussianas das misturas [15].Levando em considerao o grande apetite por exemplos de treinamento dos

    modelos contnuos e o fato de a base de dados utilizada ser relativamente pequena,

    optou-se por utilizar a forma discreta neste trabalho.

    4.3. Treinamento dos HMMs.

    A estimao dos parmetros dos HMMs, como em todos os sistemas

    estocsticos, baseada em exemplos de treinamento e geralmente feita utilizando o

    algoritmo forward-backward[40], tambm conhecido como algoritmo Baum-Welch.

    O critrio utilizado para a reestimao dos parmetros o de mxima

    verossimilhana ML (Maximum Likelihood), que consiste em aumentar, a cada poca de

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    51/152

    Modelos Ocultos de Markov. 37

    treinamento, a probabilidade a posteriori, ou seja, a probabilidade do modelo gerar a

    sequncia de observaes.

    4.4. Reconhecimento de fala utilizando HMMs.

    Dada uma locuo de entrada, um sistema de reconhecimento de fala gera

    hipteses de palavras ou sequncias de palavras. Destas hipteses pode resultar uma

    nica sequncia de palavras, uma coleo de n melhores sequncias de palavras, ou uma

    trelia de hipteses de palavras parcialmente superpostas. Isto feito num processo de

    busca no qual se compara uma sequncia de vetores de caractersticas acsticas com os

    modelos das palavras que esto no vocabulrio do sistema.

    Em geral, o sinal de fala e suas transformaes no exibem indicaes claras

    sobre as fronteiras das palavras, de modo que a deteco destas fronteiras faz parte do

    processo de gerao de hipteses realizado no procedimento de busca. No procedimento

    de gerao de hipteses, todos os modelos de palavras so comparados com uma

    sequncia de vetores acsticos. Em um sistema probabilstico, a comparao entre uma

    sequncia acstica e um modelo envolve o clculo da probabilidade que o modelo

    associa a uma dada sequncia. Neste processo, as seguintes quantidades so utilizadas:

    ( )iTt ,1y : probabilidade de observar a sequncia de observao parcial y1

    t 2 e estar

    no estado i no instante t(sendo que a sequncia de observao total dada por T1y )

    ( ) ( )( )

    >====

    0,,0,,

    11

    01

    tiXP

    tiXPi ttt

    Tt

    yYy (20)

    2 A notao khy refere-se sequncia de vetores acsticos [ ]khh yyy ,...,, 1+ . Esta notao

    ser utilizada daqui em diante.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    52/152

    38 Modelos Ocultos de Markov.

    ( )iTt

    ,1y : probabilidade de observar a sequncia de observao parcial y tT

    +1 dado

    que o modelo est no estado i no instante t.

    ( ) ( )

    =====

    0,,max

    0,,

    111

    0

    0

    11

    0

    tXP

    tiXPi tt

    tt

    Tt

    tyYi,=iXy 1-t0

    i

    (22)

    As variveis e podem ser utilizadas para calcular a probabilidade de emisso

    total WP T |1y atravs das expresses

    ( ) ( )

    ( )=

    ==

    i

    Ti

    i

    TT

    TT

    i

    iP

    ,

    ,

    10

    111

    y

    yyY

    (23)

    Uma aproximao para calcular esta probabilidade consiste em seguir somente o

    caminho de mxima probabilidade. Isto pode ser feito utilizando-se a quantidade :

    iPT

    Ti

    TT ,max 111 yyY == (24)

    Esta aproximao corresponde ao algoritmo de Viterbi.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    53/152

    Modelos Ocultos de Markov. 39

    O clculo das probabilidades acima realizado em uma estrutura em forma de

    trelia, mostrada na Figura 4. Por simplicidade, pode-se assumir na figura que o HMM

    representa uma palavra e que o sinal de entrada corresponde pronncia de uma nicapalavra.

    aii

    ak

    k

    ajk

    aij

    ajj

    a b yk k k

    ( )1

    a b yi i i

    ( )1

    a b yj j j

    ( )1

    i

    j

    k

    t= 1 t= 2 t= 3 t= 4

    bi

    []

    bj

    []

    bk

    []

    ab

    y

    jk

    k

    (

    )1

    ab

    y

    i j

    j(

    )1

    a b yk k k

    ( )2

    a b yk k k

    ( )3

    a b yk k k

    ( )4

    ab

    y

    jk

    k

    (

    )2

    ab

    y

    jk

    k

    (

    )3

    ab

    y

    jk

    k

    (

    )4

    a b yj j j

    ( )2

    a b yj j j

    ( )3

    a b yj j j

    ( )4

    ab

    y

    i j

    j(

    )2

    ab

    y

    i j

    j(

    )3

    ab

    y

    i j

    j(

    )4

    a b yi i i

    ( )2

    a b yi i i

    ( )3

    a b yi i i

    ( )4

    y1

    y2

    y3

    y4

    Figura 4: Exemplo de funcionamento do algoritmo de Viterbi.

    Cada coluna da trelia armazena os valores das verossimilhanas acumuladas em

    cada estado do HMM para todos os instantes de tempo, e todo intervalo entre duascolunas consecutivas corresponde a um quadro 3 de entrada.

    As setas na trelia representam transies no modelo que correspondem a

    possveis caminhos no modelo do instante inicial at o final. O clculo realizado por

    colunas, atualizando as probabilidades dos ns a cada quadro, utilizando frmulas de

    recurso as quais envolvem os valores de uma coluna adjacente, as probabilidades de

    transio dos modelos, e os valores das densidades de sada para o quadro

    correspondente. Para os coeficientes , o clculo comea na primeira coluna

    esquerda, cujos valores iniciais so dados por i , e termina na ltima coluna direita,

    com a probabilidade final dada pela equao (20).

    3 Um quadro definido como o intervalo de tempo em que gerado um vetor de

    parmetros acsticos. Valores tpicos esto entre 10 e 20 ms.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    54/152

    40 Modelos Ocultos de Markov.

    O algoritmo usado para calcular os coeficientes conhecido como algoritmo

    de Viterbi, e pode ser visto como uma aplicao de programao dinmica para

    encontrar o caminho de mxima verossimilhana em um grafo. A frmula de recurso dada por:

    ( ) ( ) ( )

    >=

    = 0,,max

    0,,

    111 tybaj

    ti

    tiji

    T

    tj

    iT

    t yy

    (25)

    Monitorando o estado j que fornece a maior probabilidade na frmula de

    recurso acima, possvel, no final da sequncia de entrada, recuperar a sequncia de

    estados visitada pelo melhor caminho, realizando ento um tipo de alinhamento

    temporal dos quadros de entrada com os estados do modelo.

    Todos estes algoritmos tm uma complexidade ( )O MT , onde M o nmero de

    transies no nulas e To comprimento da sequncia de entrada. Mpode ser no mximo

    igual a S 2 , onde S o nmero de estados no modelo, mas geralmente muito menor,

    uma vez que a matriz de probabilidades de transio geralmente esparsa. De fato, nos

    modelos left-right, uma escolha comum fazer 2,0 >= ijaij , como no caso ilustrado

    na Figura 2.

    Geralmente, o reconhecimento baseado em um processo de busca que leva em

    conta todas as segmentaes possveis da sequncia de entrada em palavras, e as

    probabilidades a priori que o modelo de linguagem associa a sequncias de palavras.

    Podem ser obtidos bons resultados com modelos de linguagem simples tais como

    probabilidades bigrama ou trigrama [13].

    4.4.1. Viterbi Beam Search.

    O tamanho do espao de busca cresce de acordo com o nmero de palavras no

    vocabulrio. Para sistemas de ditado, onde so comuns vocabulrios de dezenas de

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    55/152

    Modelos Ocultos de Markov. 41

    milhares de palavras, o espao de busca torna-se to grande que o custo computacional

    torna-se proibitivo. Entretanto a distribuio irregular das probabilidades nos diferentes

    caminhos pode ajudar. O que acontece que, quando o nmero de estados grande, emcada instante de tempo, uma grande parte destes estados tm uma verossimilhana

    acumulada que muito menor do que a verossimilhana mxima, de modo que

    bastante improvvel que um caminho que passe por um destes estados venha a ser o

    melhor ao final da locuo.

    Esta considerao leva a uma tcnica de reduo da complexidade chamada de

    Beam Search [15], que consiste em desprezar, em cada instante de tempo, os estados

    cuja verossimilhana acumulada seja menor do que a verossimilhana mxima menos

    um dado limiar. Desta maneira, os clculos necessrios para expandir ns ruins so

    evitados. Est claro pela natureza do critrio de poda desta tcnica de reduo que ela

    pode causar a perda do melhor caminho. Na prtica, uma boa escolha do limiar de poda

    resulta em um ganho de velocidade de uma ordem de magnitude, introduzindo uma

    quantidade desprezvel de erros de busca.

  • 8/7/2019 Tese-Doutorado-Carlos_Alberto_Ynoguti

    56/152

    42 Algoritmos de Busca.

    5.Algoritmos de Busca.

    5.1. Introduo.

    O reconhecimento de fala contnua difere do reconhecimento de palavras

    isoladas no modo com que o usurio deve pronunciar as palavras. No reconhecimento de

    palavras isoladas necessrio que o locutor efetue pausas breves entre as palavras de

    modo que o sistema possa determinar as fronteiras entre estas de forma precisa. J em

    fala contnua, o locutor pode falar de modo natural, sem efetuar pausas entre as

    palavras. Neste caso, a determinao das fronteiras entre as palavras e consequentemente

    do nmero de palavras na locuo fica a cargo do sistema de reconhecimento.

    A premissa bsica do reconhecimento de fala contnua que o reconhecimento

    baseado em modelos de palavras (possivelmente formadas a partir da concatenao de

    sub-unidades fonticas para os casos de grandes vocabulrios). Uma vez definidos os

    modelos das palavras, o problema do reconhecimento resume-se em encontrar a