Faculdade Associada de Ariqueme1

FACULDADE ASSOCIADA DE ARIQUEMES - FAAR

DANILO BOTELHO LIMA

ESTUDO DE APLICAÇÕES TECNOLÓGICAS EM RECONHECIMENTO DE VOZ

Ariquemes/RO2009

DANILO BOTELHO LIMA


Trabalho de conclusão de curso apresentado como parte dos requisitos para obtenção do grau de Bacharel em Sistemas de Informação da Faculdade Associdada de Ariqueme - FAAR.

Orientador: Paulo Alexandre Serra Coucello Fonseca

Ariquemes/RO2009

DANILO BOTELHO LIMA


Trabalho de conclusão apresentado como requisito para obtenção do grau de Bacharel, no curso de Sistemas de Informação da IES Faculdade Associada de Ariquemes - FAAR, sob apreciação da seguinte Banca Examinadora:

Aprovado em 30 de novembro de 2010

_______________________________________________________________Prof. Ms. Carlos André Santana (UFAC)

_______________________________________________________________Profª. Ms. Joana Rosa Lima (UNINORTE)

_______________________________________________________________Prof. Dr. Paulo Henrique de Souza (UNINORTE)

Aos meus pais Jesus Elias Costa Lima e Cléia Sandes Botelho Lima que são meu maior incentivo e exemplo de vida. Aos professores e amigos mais próximos que, direta ou indiretamente me apoiaram nesta jornada.

AGRADECIMENTOS

Primeiramente a Deus por conceder esta oportunidade ímpar em minha vida.

Ao Prof. e Mestre Paulo Alexandre Serra Coucello Fonseca pela orientação e apoio

na elaboração deste trabalho e à Prof.ª Jakline Brandhuber Moura pelo auxílio e

colaboração. Ao Prof. e Cordenador Rogério Pereira dos Santos pela dedicação ao

curso de Sistemas de Informação. Aos meus amigos Altamir Mello e Ramison Vilela

pelo apoio e auxílio com a metodologia empregada neste.

"Nem tudo que se enfrenta pode ser modificado,

mas nada pode ser modificado até que seja

enfrentado." (James Baldwin)

RESUMO

De uma forma clara, sucinta e objetiva, este trabalho visa demonstrar as tecnologias

de processamento de voz, área pertencente à Inteligência Artificial. Descrever os

processos históricos e a evolução do processamento de voz, as dificuldades iniciais,

definições, benefícios, vantagens, seu desenvolvimento e aprimoramento, bem

como as restrições e problemas enfrentados. Também será abordado o fato de o

reconhecimento de voz estar cada dia mais presente no atual cotidiano, tornando

mais prática e eficiente a resolução de problemas utilizando determinada tecnologia.

Este trabalho apresentará as tecnologias utilizadas dentro do processamento de voz,

como o reconhecimento e sintetização da fala, as áreas onde determinadas

tecnologias estão sendo aplicadas, bem como alguns softwares comercializados e,

posteriormente, uma análise e comparação dos mesmos. O reconhecimento de voz

também torna possível o acesso a computadores e dispositivos tecnológicos para

indivíduos portadores de deficiências físicas, inserindo-os no mercado de trabalho.

Também é demonstrado como o processamento de voz é aplicado em sistemas de

segurança através do reconhecimento de locutor, tornando mais seguro e confiável

o acesso a locais e departamentos restritos. O reconhecimento de voz é real e está

cada dia mais presente em nosso meio. Através deste trabalho, por meio de

pesquisa bibliográfica, procurou-se reunir dados de vários autores, dentre livros e

artigos publicados na web, para que se pudesse ter o máximo de informação

possível sobre o assunto, explanados de maneira concisa e de fácil entendimento.

Palavras-chave: Reconhecimento de voz. Sintetizador. Inteligência Artificial

ABSTRACT

In a clear, concise and objective way, this work aims to demonstrate the technology

of voice processing, an area belonging to Artificial Intelligence. Describe the historical

processes and evolution of voice processing, the initial difficulties, definitions,

benefits, advantages, its development and improvement as well as the constraints

and problems faced. It will address the fact that speech recognition will be

increasingly present in today's daily, making the resolution of problems more

practical and efficient using a particular technology. This work will present the

technologies used in voice processing such as recognition and speech synthesis, the

areas where certain technologies are being applied as well as some commercialized

softwares and, later, an analysis and comparison of the same ones. Speech

recognition also makes possible the access to computers and technological devices

for individuals with disabilities, by placing them in the labor market. It is also shown

as the voice processing is applied to security systems through the recognition of the

speaker, making the access to restricted sites and departments more reliable and

secure. Speech recognition is real and its each day more present in our way of living.

Through this work, by means of bibliographical research, sought to gather data of

some authors, amongst books and articles published in web, so that it reaches the

maximum of possible information on the subject, ones explained in concise way and

easy agreement.

Key words: Voice Recognition. Synthesizer. Artificial Intelligence

LISTA DE FIGURAS

Figura 1 - Configurando o padrão de voz do IBM Via Voicer.....................................19

Figura 2 - Box do IBM Via Voice 09...........................................................................23

LISTA DE TABELAS

Tabela 1 - Índice de acertos no reconhecimento de voz - Unidades da Federação. .15

LISTA DE QUADROS

Quadro 1 - Nível de precisão dos tipos de reconhecimentos biométricos.................13

LISTA DE ABREVIATURAS E SIGLAS

ANVISA: Agência Nacional de Vigilância SanitáriaEMBRAPA: Empresa Brasileira de Pesquisa AgropecuáriaIBGE: Instituto Brasileiro de Geografia e EstatísticaIFAC: Instituto Federal do AcreINCRA: Instituto Nacional de Colonização e Reforma AgráriaINEP: Instituto Nacional de Estudo e PesquisaINPI: Instituto Nacional da Propriedade IndustrialSINAES: Sistema Nacional de Avaliação do Ensino SuperiorUFAC: Universidade Federal do AcreUNINORTE:

União Educacional do Norte

SUMÁRIO

1 INTRODUÇÃO........................................................................................................13

2 INTELIGÊNCIA ARTIFICIAL...................................................................................15

2.1 SISTEMAS BASEADO EM CONHECIMENTO....................................................16

2.2 TRADUÇÕES AUTOMÁTICAS...........................................................................16

3 RECONHECIMENTO DE VOZ...............................................................................18

3.1 DEFINIÇÕES.......................................................................................................19

3.2 CONVERTENDO VOZ PARA DADOS................................................................20

4 SISTEMAS DE RECONHECIMENTO DE VOZ......................................................21

4.1 BENEFÍCIOS E VANTAGENS.............................................................................21

4.1.1 Vantagens do modelo oculto de Markov...........................................................21

4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ..............................................22

4.2.1 Ruídos..............................................................................................................22

4.2.2 Capacidade de processamento........................................................................23

5 APLICAÇÕES.........................................................................................................24

5.1 TELECOMUNICAÇÕES......................................................................................24

5.2 SEGURANÇA......................................................................................................25

5.2.1 Reconhecimento de locutor..............................................................................26

5.2.2 Variação intra e inter locutor.............................................................................26

6 AVALIAÇÃO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ..................27

6.1 IBM VIA VOICE....................................................................................................27

7 CONCLUSÃO.........................................................................................................29

REFERÊNCIAS.........................................................................................................31

1 INTRODUÇÃO

As tecnologias em processamento de voz estão a cada dia mais presentes

no cotidiano. Cada vez mais, vê-se que as interfaces homem-máquina estão se

aprimorando e se adaptando a atual realidade, e às facilidades que nos acercam,

quer seja no âmbito profissional ou pessoal. O grande aumento da interação do

usuário com tais tecnologias demonstram a crescente aceitação do público e a

abertura para grandes investimentos nesta área.

Dentro do campo da Inteligência Artificial1, os sistemas que se utilizam do

processamento de voz, se destacam por tornar mais rápidas as resoluções de

problemas que facilmente podem ser sanados por simples comandos através da

fala. O reconhecimento de voz é real e passou a ser um dos tópicos mais utilizados

no seio de novas tecnologias. De fato, muitas aplicações estão a surgir ou sendo

desenvolvidas no mercado. Um dos exemplos mais populares, com a qual, a grande

maioria já teve contato, é a tecnologia de chamada de voz, presente em diversos

dos novos modelos de celulares comercializados em todo o país. Mas o principal

anseio dos usuários, quando se fala em reconhecimento de voz, ainda é a

possibilidade de se emitir comandos para seus computadores, ordenando-lhe

tarefas, executando programas, ou simplesmente transcrevendo narrativas e textos

para processadores de texto, tudo através da fala.

Vê-se que o reconhecimento de voz como interface de atendimento exibe

uma série de vantagens sobre as demais tecnologias já existentes no mercado.

Também analisa-se como determinadas tecnologias implementadas em serviços de

atendimento podem ser de grande valia para a utilização de portadores de

deficiência visual, como os populares serviços de auto-atendimento. Pessoas que

possuem deficiências que os impedem de digitar também já adotaram sistemas de

reconhecimento de voz. Se um usuário não pode usar suas mãos, ou nos casos em

que não é possível ou conveniente usar um teclado Braille, esses sistemas permitem

que eles se expressem ditando textos e que tenham controle sobre várias das

funções do computador.

Em se tratando de segurança da informação, a Inteligência Artificial, através

do reconhecimento da fala, mais uma vez, sai na frente. Nota-se que tal vantagem

1 Área da computação que se dedica a estudar o comportamento do cérebro humano. (SOUZA, 2001, p. 06)

13

se deve, entre outros, ao fato da fala ser inerente ao ser humano, simples e natural,

assim como é a utilização do reconhecimento de voz. Além disso, as informações

que são obtidas por máquinas que se utilizam de determinada tecnologia, são

introduzidas em seu sistema de forma direta, eliminando qualquer tipo de interface

pessoal, eliminando conseqüentemente o risco de se introduzir erroneamente os

dados e informações obtidos.

14

2 INTELIGÊNCIA ARTIFICIAL

Russel e Norvig (2004) definem que a Inteligência Artificial (IA) é umas das

ciências existentes mais recentes que, atualmente, abrange uma grande variedade

de subcampos que vão desde atividades de uso geral, como aprendizado e

percepção, chegando a tarefas bem mais específicas como demonstração de

teoremas matemáticos, diagnósticos de doenças e jogos de xadrez.

Os primeiros anos da IA, apesar de forma limitada, foram repletos de

sucesso, levando-se em consideração os primitivos computadores da época, bem

como suas ferramentas de programação e o fato de que apenas alguns anos antes

os computadores eram vistos como meros objetos que efetuavam operações

aritméticas, nada mais, causando espanto a idéia de que um computador pudesse

realizar qualquer atividade que fosse remotamente inteligente.

Quadro 1 - Nível de precisão dos tipos de reconhecimentos biométricos

Tipos de biometria Nível de precisãoReconhecimento de voz AltoReconhecimento de mão MédiaReconhecimento da íris AltoReconhecimento da digital AltoFonte: Revista YYYYY, 2009

O primeiro trabalho reconhecido dentro da IA foi realizado por Warren

McCulloch e Walter Pitts no ano de 1943. Ambos propuseram um modelo de

neurônios artificiais, no qual, cada um se caracteriza por estar “ligado” ou

“desligado”, tendo seus estados alterados pela estimulação de um número suficiente

de neurônios vizinhos. Sendo assim, seu estado era considerado concreto conforme

o estímulo adequado. Como exemplo, eles mostraram que através de determinada

rede de neurônios conectados poderiam calcular qualquer função computável. E

foram mais além. McCulloch e Pitts sugeriram que se determinadas redes fossem

definidas de forma adequada, elas seriam capazes de “aprender” e não somente

executar uma seqüência de comandos lógicos. Donald Hebb, demonstrou em 1949,

uma regra simples de atualização utilizada para modificar as intensidades de

conexão que ocorrem entre os neurônios. Aprendizagem de Hebb, como hoje é

chamada a sua regra, continua a ser um modelo influente nos dias atuais.

15

2.1 SISTEMAS BASEADO EM CONHECIMENTO

Para Ganascia (1997), ainda que no início do século XX, o confronto entre

homem e máquina parecesse mais como um confronto corpo a corpo, um conflito

entre capacidades mentais, sabe-se que os computadores sempre precisarão de um

suporte físico. Do mesmo modo que, para conduzir um veículo, deve-se saber que

um pedal permite acelerar, outro pedal frear ou embrear, sem que seja necessário

conhecer todas as operações mecânicas envolvidas, para comandar um

computador, não se tem como pré-requisito conhecer todos os detalhes do processo

eletrônico em jogo. Constituídos por um enorme número de componentes, os

computadores têm na sua composição, formas muitas vezes complexas, tão

complicadas que seus usuários não poderiam visualizar o conjunto em mente a todo

instante. Por isso, através do pensamento, para facilitar o acesso aos computadores,

procurou-se o equivalente ao que representam os pedais do automóvel, assimilando

a máquina como um órgão dotado de capacidades lógicas, que tem seus comandos

efetuados por intermédio de um conjunto de instruções. Baseado nisto, pode-se

notar que as máquinas consideram somente o texto, e nunca o espírito. Não existem

mensagens escritas em suas entrelinhas e nenhuma liberdade para margens

brancas do texto, apenas ordens, comandos e execuções. Assim sendo,

imaginamos que o homem ser entregue às maquinas, sem a mediação de

especialistas em informática ou em inteligência artificial, poderia reverter-se de

sonho a pesadelo.

2.2 TRADUÇÕES AUTOMÁTICAS

Sommerville (2007) define que o termo “Software” não está somente

relacionado aos programas de computador, dele também fazem parte outros

quesitos como os dados da documentação e as configurações necessárias pra que

ele possa funcionar adequadamente. Segundo Russel e Norvig (2004), com relação

às traduções, algumas das dificuldades que surgiram se deve ao fato de que a

maioria dos primeiros softwares continham nenhum, ou quase nenhum

conhecimento sobre o assunto, obtendo sucesso apenas por meio de simples

manipulações táticas. No tocante aos primeiros esforços de tradução por máquina,

têm-se uma típica história na tentativa de acelerar a tradução de determinados

16

documentos científicos russos depois do lançamento do Sputnik em 1957. Pensava-

se inicialmente que somente as transformações sintáticas simples relacionadas às

gramáticas russas e inglesas, juntamente com a utilização de um dicionário

eletrônico para a substituição de palavras seriam suficientes para manter os

significados exatos das orações. Entretanto, para estabelecer o conteúdo das

sentenças e solucionar possíveis problemas de ambigüidades, a tradução acaba por

exigir um conhecimento geral sobre o assunto em questão. Um relatório criado em

1966 por um conselho consultivo, descobriu que “não existe nenhum sistema de

tradução automática para texto científico em geral, e não existe nenhuma

perspectiva imediata nesse sentido.”

Outra dificuldade encontrada foi a impossibilidade de sanar muitos dos

problemas que a IA estaria buscando resolver. A grande maioria dos primeiros

programas de inteligência artificial resolvia os problemas apenas se utilizando do

experimento entre diferentes combinações de passos até encontrar a possível

solução. Inicialmente tal estratégia funcionou, pois havia um número muito pequeno

de possíveis ações e as seqüências de soluções mantinham-se muito curtas. Antes

de se desenvolver a teoria da complexidade computacional, existia uma crença geral

que para a resolução de problemas maiores era apenas uma questão de haver

hardwares com maior capacidade de memória e mais rápidos. Mas é claro que tal

definição foi logo ofuscada quando os pesquisadores perceberam que para provar

determinados teoremas, era necessário se envolver em mais que algumas dezenas

de fatos. Sabe-se que nos dias atuais, muitas ferramentas para a tradução

automática de textos continuam incompletas e imperfeitas, todavia, são amplamente

utilizadas na internet e até mesmo para ajuda na tradução de documentos técnicos,

comercias e governamentais.

17

3 RECONHECIMENTO DE VOZ

Com o avanço da tecnologia atual e a descoberta de novos padrões houve a

necessidade de se adequar a estes, uma vez que a obtenção de dados e

informações está cada vez mais acessível ao usuário final. As novas tecnologias

fazem parte do atual cotidiano e em conseqüência disto, houve uma adequação

tanto por parte dos meios de comunicação quanto dos usuários destas. Com isto, a

busca de aperfeiçoamento na utilização destas determinadas tecnologias assumiu

relevância neste contexto.

Tabela 1 - Índice de acertos no reconhecimento de voz - Unidades da Federação

Estados do Brasil Número de pessoas Percentual de acertosBahia 230 89%Minas Gerais 267 87%Espírito Santo 197 91%Rondônia 203 92%Mato Grosso 200 90%Fonte: Revista XXXX, 2009

Segundo Guilhoto e Souza (2002), o processamento de voz pertencente à

área da I.A surgiu a partir da idéia do usuário emitir ordens e comandos ao

computador através da fala. Há alguns anos era considerada obra de ficção

científica, porém, no final da década de 1950, já havia instituições de pesquisa que

estudavam meios de se fazer com que a voz fosse processada pelo computador e

antes mesmo que a internet alcançasse sua popularidade, as empresas já

comercializavam programas com tecnologia de voz para PC’s. Algumas dificuldades

foram vencidas ao longo dos anos, os produtos que trabalhavam com

reconhecimento de voz eram muito caros, complexos e pouco precisos naquilo que

se propunham.

Com o reconhecimento de voz, não só os computadores passarão a ter seu uso facilitado, mas também eletrodomésticos, elevadores, bancos e automóveis. Programas que possibilitam aos computadores reconhecer a voz humana tiveram um avanço notável nos últimos anos. Pode não estar longe o dia em que o computador será capaz de entender sua pergunta - ou pelo menos de pedir que você a repita. Isso não quer dizer que o computador compreende o que falamos. Apenas que ele já é capaz de ouvir e transcrever um texto com um grande índice de acerto. Compreender a fala transcrita envolve uma inteligência que a máquina não tem. (ROSA; SILVA, 1999, p. 05)

18

Esta evolução é evidente. Note-se que em diversas áreas, já é comum o uso

de softwares que se utilizam da tecnologia do reconhecimento e processamento da

fala. Segundo Grabianowski (2006), ao se ligar para o serviço de atendimento ao

consumir (SAC) da maioria das grandes empresas, já não são pessoas que

atendem. Ao invés disto, depara-se com gravações automáticas que instruem a

pressionar diferentes botões para escolher entre as opções disponíveis no menu.

Porém, muitas destas empresas já evoluíram neste aspecto, solicitando que o

utilizador “fale” a opção desejada ao invés de digitar, que torna determinado sistema

possível através de um software de reconhecimento de voz.

3.1 DEFINIÇÕES

O uso do reconhecimento de voz é empregado em diversas tecnologias. São

quatro as principais áreas do processamento de voz, divididas entre comandos por

voz, fala natural, síntese de voz e autenticação de voz. Guilhoto e Souza (2002)

descrevem sucintamente cada área:

Comando de voz: caracteriza-se pelo reconhecimento de palavras

isoladas ou apenas um curto trecho de fala, fazendo com que o sistema

identifique que tipo de ação deverá tomar. Este método se torna o mais

simples, uma vez que é mais fácil para o sistema reconhecer palavras

isoladas e associá-las aos comandos disponíveis ao usuário. Tem-se, por

exemplo, o já citado SAC, onde ao invés de utilizar botões, o usuário

define suas escolhas utilizando-se da voz.

Fala natural: é o reconhecimento da fala contínua, envolvendo uma ou

mais frases, contendo palavras que formam sentido dentro de um

contexto. Sendo reconhecida a fala do utilizador, ela então é convertida

em texto. Uma utilização comum para este tipo de reconhecimento de voz

é a transcrição de documentos ditados para processadores de texto ou

para softwares de email.

Autenticação de voz: permite que determinada pessoa tenha acesso a

determinadas funções através do reconhecimento da voz, baseando-se

no fato de que a voz é única para cada pessoa e assim pode ser usada

para identificá-la.

19

Grabianowski (2006) relata que mesmo os sistemas de reconhecimento de

voz tenham sido criados há mais de 10 anos, eles ainda enfrentam a escolha entre a

fala discreta e a fala contínua. Para o sistema, é mais fácil entender as palavras

ditas separadamente, com uma pausa entre cada uma delas. Porém, como os

usuários preferem a fala contínua, como em uma conversa normal, a maioria dos

sistemas modernos é capaz de compreendê-la.

3.2 CONVERTENDO VOZ PARA DADOS

Para que um computador possa entender a voz do usuário ela deverá ser

convertida em dados. Guilhoto e Souza (2002) entendem que o reconhecimento de

voz utiliza-se de diversas técnicas para reconhecer a voz humana. Transformam-se

os sinais de áudio que passam por diversas etapas, pelas quais são aplicados vários

métodos matemáticos e estatísticos de forma que o computador possa compreender

o que está a ser ditado. Segundo Grabianowski (2006), para que a fala seja

convertida em um texto exibido na tela ou em comando para o computador, ela terá

que sofrer vários tratamentos. Ao falar, o usuário cria vibrações no ar. O conversor

analógico-digital (ADC) então traduz a onda analógica em dados digitais que podem

ser compreendidos pelo computador ao digitalizar o som, retirando medidas precisas

em intervalos freqüentes dentro da onda. O sistema remove ruídos indesejáveis ao

filtrar o som digitalizado que pode ser separado em diferentes faixas de freqüência.

“A freqüência é o comprimento de onda das ondas sonoras e nós a percebemos

como diferenças na altura”. (GRABIANOWSKI, 2006).

O ADC ajusta o volume em um nível constante para padronizar o som.

Grabianowski (2006) ainda complementa que para se ter uma idéia da complexidade

de todo esse sistema, o som ainda pode ser alinhado temporariamente, pois como

as pessoas nem sempre falam com mesma velocidade, o som deverá ser ajustado

para corresponder com a mesma velocidade dos modelos de som que estão

armazenados na memória do sistema.

20

4 SISTEMAS DE RECONHECIMENTO DE VOZ

De acordo com Braga (2006), devido ao grande avanço com os algoritmos

disponíveis para modelar os possíveis problemas de reconhecimento de fala, e

também devido ao relativo barateamento dos sistemas de alto desempenho, hoje é

possível ver aparelhos já comercializados com o sistema de reconhecimento de fala,

principalmente em celulares.

4.1 BENEFÍCIOS E VANTAGENS

Embora já citados alguns benefícios, pode-se notar que eles aumentam com

o passar do tempo, devido ao fato de se descobrir novas soluções para problemas

rotineiros no reconhecimento da fala e pelo aprimoramento na utilização desta

técnica em diversas áreas.

A principal meta no tocante às pesquisas na área de reconhecimento de fala,

segundo Braga (2006), é o desenvolvimento de um modelo que tenha a capacidade

de decodificar a fala humana com uma taxa de acerto alta, sem a dependência de

um treinamento com o usuário e que possa se adaptar automaticamente a qualquer

tipo de ambiente, fazendo assim com que seja possível uma comunicação mais

amigável e natural entre homem e máquina, como a utilizada entre os seres

humanos.

4.1.1 Vantagens do modelo oculto de Markov

Vários são os métodos utilizados para efetuar o reconhecimento de fala.

Braga (2006) entende que os principais métodos utilizados são baseados nos

Modelos Ocultos de Markov (HMM’s), Modelos de Mistura Gaussiana (GMM’s) e

Redes Neurais Artificiais (RNA’s), sendo que a utilização se cada método depende

principalmente da modalidade que o texto está associado ao problema.

Por ser uma característica biométrica, a voz pode possuir uma grande

variação entre um locutor e outro. Assim como o reconhecimento de voz

independente de locutor sofre algumas dificuldades para se processar a voz, o

reconhecimento de locutor também lida com algumas delas.

Outras dificuldades como ruídos, falas simultâneas e qualidade de hardware

21

que se fazem presentes nos sistemas de reconhecimento de voz independentes de

locutor também são enfrentados por sistemas de reconhecimento de locutor,

dificultando a identificação do indivíduo.

“As HMMs têm demonstrado melhores resultados em aplicações

dependentes de texto, enquanto que os GMMs e as RNAs têm melhores resultados

em aplicações independentes de texto” (BRAGA, 2006).

4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ

Sabe-se que ainda não existe nenhum sistema de reconhecimento de voz

que funcione perfeitamente, sem erros. De acordo com Grabianowski (2006), são

vários os fatores que podem reduzir a precisão na hora de reconhecer a fala do

usuário. Porém, alguns destes fatores continuam a melhorar conforme a tecnologia

avança e se desenvolve, enquanto que outros podem ser significativamente

reduzidos ou até mesmo corrigidos completamente pelo usuário.

4.2.1 Ruídos

Segundo Grabianowski (2006), para o programa reconhecer o que está a ser

dito, ele precisa escutar e diferenciar as palavras pronunciadas. Porém, se algum

tipo de ruído for inserido junto ao som captado, isso poderá interferir no processo de

reconhecimento. Grabianowski (2006) segue com tal entendimento ao citar:

O ruído pode vir de várias fontes diferentes, incluindo o alto ruído de fundo de um escritório. Recomenda-se que os usuários trabalhem em uma sala silenciosa e com um microfone de qualidade posicionado bem próximo de suas bocas. Placas de som, que fornecem a entrada pela qual o microfone envia o sinal para o computador, de baixa qualidade geralmente não têm proteção o bastante contra os sinais elétricos produzidos por outros componentes do computador, e isso pode introduzir zumbidos ou assovios no sinal. (GRABIANOWSKI, 2006, p. 104)

Como a captação da fala do usuário é uma das etapas mais importantes

para posteriormente processá-la, o uso de bons equipamentos de hardware é

fundamental, como por exemplo, a utilização de headsets ou de um microfone de

alta qualidade, capaz de cancelar ruídos. Assim, os sistemas baseados em regras

não obtiveram muito sucesso, pois não conseguiam lidar com tais variações.

22

4.2.2 Capacidade de processamento

Os PCs atuais mais rápidos ainda podem ter dificuldades com comandos ou

frases complicadas, o que diminui significativamente o tempo de resposta. Além

disso, as listas de vocabulário de que os programas precisam também ocupam uma

grande quantidade de espaço no disco rígido.

Figura 1 - Configurando o padrão de voz do IBM Via Voicer

Fonte: http://www.clubedohardware.com.br

Felizmente, o armazenamento em disco e a velocidade dos processadores

são áreas que avançam muito rapidamente.

23

5 APLICAÇÕES

Na atualidade, inúmeras são as aplicações que envolvem o reconhecimento

e processamento da fala, e a cada dia surgem novas áreas que se beneficiam de tal

técnica. Para Guilhoto e Souza (2002), um bom exemplo é a área da saúde, onde se

obtem sucesso com a redução das despesas e aumento significativo da eficiência. O

reconhecimento de voz aqui pode ajudar equipes médicas no que se refere a

eliminar a necessidade de transcrever manualmente seus relatórios, ao se utilizar de

um pequeno aparelho portátil que funciona como um gravador, enquanto se procede

ao diagnóstico de seus pacientes.

Reconhecimento de voz;

Reconhecimento de íris;

Reconhecimento de mão;

Reconhecimento de face;

Para Ynoguti (1999), algumas das principais áreas em que são aplicados os

sistemas de reconhecimento de fala são: transcrição de textos através do ditado,

interfaces para computadores pessoais, serviços de telecomunicações e aplicações

industriais especiais. Segundo Ynoguti (1999), o principal fator contribuinte para o

sucesso comercial é o aumento na produtividade, que tem sido proporcionado

através de determinados sistemas de reconhecimento que auxiliam ou substituem

operadores humanos.

5.1 TELECOMUNICAÇÕES

É vasta a utilização de sistemas de reconhecimento e processamento de voz

na área da telecomunicação. Tais sistemas estão presentes, tanto na área pessoal,

onde o usuário pode realizar chamadas através de comandos de voz, como na área

profissional onde as empresas de telefonia e os grandes centros de atendimento ao

consumidor se utilizam deste sistema para reconhecer as opções desejadas pelos

clientes e então direcioná-los para os departamentos certos.

Valiati (2000) cita que determinados serviços representam um campo

bastante rentável na área das telecomunicações. As tecnologias de reconhecimento

24

incluem, além da discagem pela voz, serviços como direcionamento de chamadas,

chamada por cartão e a grande maioria dos serviços pagos das prestadoras. Ainda

dentro da área de telecomunicação, Valiati (2000) descreve ainda outros exemplos:

Dentre os vários serviços fornecidos destaca-se a utilização de páginas amarelas, onde o usuário requisita o nome de uma empresa,o produto ou o nome promocional e o sistema se encarrega de fornecer o número, como também já possibilita a realização da ligação direta com a empresa. Outro serviço permite que sejam realizadas ligações de qualquer telefone, bastando ao usuário informar um número de identificação, previamente, fornecido pela operadora, possibilitando que tenha acesso às suas ligações que estão em sua secretária eletrônica, como também realize ligações de sua própria linha telefônica, não sendo necessário pra isto saber todo o número da pessoa com quem deseja entrar em contato, mas somente fornecer um apelido previamente cadastrado. (VALIATI, 2000, p. 78)

Para Ynoguti (1999), por ser um meio de comunicação extremamente

difundido, o reconhecimento de fala baseado na rede telefônica oferece grande

potencial. E devido a esta difusão, tecnicamente pode-se colocar, ser a área mais

complexa para o reconhecimento de voz, devido à impossibilidade de controle de

suas condições de uso. Tais problemas de devem à enorme e imprevisível

população de usuários, à diferença nos microfones dos aparelhos utilizados e à

possível presença de ruídos de canal e banda estreita. Para Ynoguti (1999), os

sistemas de reconhecimento mais bem sucedidos, são os que trabalham com

vocabulários extremamente limitados, em torno de 10 a 20 palavras. Para um

sistema ser útil, não significa que ele tenha que ter um vocabulário enorme, pois

existem sistemas extremamente úteis e que trabalham com apenas duas palavras:

“sim” e “não”.

5.2 SEGURANÇA

Outra aplicação onde o reconhecimento de voz se torna muito útil é nos

sistemas de segurança, onde o aplicativo pode analisar determinada amostra de voz

e identificar o indivíduo que a produziu, baseado no fato de que as características

físicas do usuário proporcionam à sua voz características únicas.

Para tratar as variações acústicas, é realizado um tratamento das mesmas

com o uso de uma adaptação dinâmica de parâmetros, a utilização de múltiplos

microfones e o processamento de sinal. Para a parametrização dos sinais, Ynoguti

25

(1999) relata que os pesquisadores desenvolveram representações para enfatizar

características que são independentes do locutor e desprezar as características que

são dependentes do locutor. O treinamento de modelos fonéticos separados para

fonemas em diferentes contextos é a solução para resolver os efeitos de contexto

lingüístico em termos fonético-acústicos, sendo descritos como modelamento

acústico dependente de contexto.

5.2.1 Reconhecimento de locutor

De acordo com Pegoraro (2000), a voz é uma característica biométrica, e

por ter suas informações fonético-linguísticas detectadas e classificadas pelos

sistemas de reconhecimento da fala, pode ser perfeitamente empregada em

aplicativos de reconhecimento do locutor através das informações que carrega.

Atualmente, a maioria dos sistemas de controle de acesso a redes de

computadores, transações bancárias ou departamentos protegidos, se utilizam de

senhas alfanuméricas para a identificação do usuário, ou mesmo números de

identificação pessoal. Porém, indivíduos que não estão autorizados a possuir tais

senhas podem obtê-las e utilizá-las sem o consentimento do cliente cadastrado, ou

até mesmo, pode o próprio cliente, perder ou esquecer determinadas senhas, e é

baseado neste e em outros fatores que os sistemas que se utilizam de

características físicas e únicas ao usuário, se tornam mais seguros do que sistemas

que utilizam senhas, uma vez que as características biométricas não podem ser

emprestadas, perdidas ou roubadas.

5.2.2 Variação intra e inter locutor

Por ser uma característica biométrica, a voz pode possuir uma grande

variação entre um locutor e outro. Assim como o reconhecimento de voz

independente de locutor sofre algumas dificuldades para se processar a voz, o

reconhecimento de locutor também lida com algumas delas.

Outras dificuldades como ruídos, falas simultâneas e qualidade de hardware

que se fazem presentes nos sistemas de reconhecimento de voz independentes de

locutor também são enfrentados por sistemas de reconhecimento de locutor,

dificultando a identificação do indivíduo.

26

6 AVALIAÇÃO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ

O mercado para o processamento e reconhecimento da fala é promissor e

vem sendo disputado por gigantes como a IBM e Microsoft. Muitas empresas

investem em softwares cada vez mais eficazes e precisos, que aos poucos vão

aparecendo nas prateleiras das lojas no ramo de informática e tecnologia. Hoje é

possível adquirir sistemas operacionais com a tecnologia já integrada, como é o

caso da Microsoft que disponibiliza o reconhecimento de fala nativo em seu sistema

operacional Windows, desde a versão XP, tendo sido consideravelmente aprimorada

em sua última versão comercial, o Windows 7.

6.1 IBM VIA VOICE

O IBM ViaVoice é o software de reconhecimento e sintetização de voz da

IBM, capaz de reconhecer a fala do usuário, convertendo voz para texto, que pode

posteriormente ser manuseado em softwares editores de texto como o WordPad, o

Microsoft Word ou no seu próprio editor e depois efetuar a leitura do mesmo ou

outros arquivos de texto já existentes em seu computador. Em se tratando de

praticidade, o IBM ViaVoice é uma verdadeira revolução para pessoas que

trabalham com digitação, ou simplesmente desejam criar textos de maneira mais

rápida.

Figura 2 - Box do IBM Via Voice 09

Fonte: http://www.ibm.com.br/viavoice

O IBM ViaVoice funciona através de comandos de fala, permitindo que se

controle o computador, abrindo e fechando pastas ou executando programas e

27

arquivos através da voz. Também permite que se faça uso do texto ditado em

diversos programas como editores de texto, editores de e-mail e browsers,

proporcionando assim a possibilidade de se acessar a internet ou editar e envias e-

mails com mais comodidade e facilidade. Sua instalação é relativamente simples e

não requer conhecimento avançado na área. Depois de instalado, o software

necessita realizar alguns ajustes de hardware, porém, ao invés de menus de

configuração extensos e complicados, o assistente o guia por algumas etapas de

fácil compreensão, que auxiliarão o usuário a configurar o microfone, definir

componentes de áudio, ajustar o fone, testar a reprodução de áudio e coletar

informações dentre outras configurações.

28

7 CONCLUSÃO

O processamento de voz está presente em diversas áreas tecnológicas que

vão desde a telecomunicação ao acesso a ambientes restritos por meio do

reconhecimento biométrico do locutor através da fala. Sendo assim, hoje já existe a

necessidade de uma adequação por parte dos usuários e dos meios de

comunicação para a utilização das mesmas. O que antes era somente tema de

filmes de ficção científica, hoje é real, e passou a ser um dos tópicos mais discutidos

em meio às novas tecnologias. Muitos softwares estão a surgir, ou sendo

desenvolvidos no mercado, a se aprimorar e a se adaptar à atual realidade e

necessidade do consumidor final.

Este trabalho objetivou esclarecer as definições do processamento de voz,

bem como as áreas de atuação da tecnologia, padrões utilizados, benefícios,

vantagens, dificuldades e restrições enfrentadas e sua evolução e aprimoramento.

Também foram demonstrados diversos exemplos onde o processamento de voz

obteve ganhos significativos, tanto no âmbito pessoal, quanto profissional. Uma vez

que o ser humano fala, em média, sete vezes mais rápido do que escreve, a

conversão da fala para texto traz enormes benefícios em rapidez e eficiência,

fazendo com que o reconhecimento de voz permita ao usuário ditar textos que são

transcritos para softwares processadores de texto e posteriormente podendo utilizar-

se dos dados transcritos para outras finalidades como, por exemplo, a impressão de

relatórios ou o envio de e-mails.

Foi demonstrado também como o reconhecimento da fala torna possível o

acesso a computadores por indivíduos portadores de deficiências físicas ou com

dificuldades para digitar, que antes os impossibilitavam de serem inseridos no

mercado de trabalho. Como a voz é uma característica biométrica do ser humano,

única e inerente a ele, o reconhecimento de locutor torna possível o acesso às

informações ou ambientes restritos por meio do reconhecimento da fala do usuário,

sendo um grande aliado da segurança da informação.

Viu-se que as tecnologias que trabalham com o processamento da fala têm

inúmeras aplicações2, fazendo com que haja um aumento substancial na produção

de aparelhos e equipamentos compatíveis com essa tecnologia, como os aparelhos

celulares que possibilitam ao usuário realizar chamadas apenas falando o nome da

2 Teste de funcionalidade das notas

29

pessoa com quem deseja falar, tornando assim a tecnologia cada dia mais acessível

e presente na vida das pessoas. Também foi realizada a análise de softwares que já

estão disponíveis no mercado, que se utilizam da tecnologia de processamento de

voz, como o reconhecimento de voz para execução de comandos para o

computador, sintetizadores de voz e sistemas operacionais com a tecnologia já

nativa de fábrica.

Através do processamento de voz, o usuário também tem a possibilidade de

ter seus textos e documentos ditados em voz alta por meio dos sintetizadores de

voz, ficando livre para realizar outras atividades enquanto ouve suas notícias diárias,

e-mails, ou simplesmente revisa um relatório.

Muito ainda se espera do processamento de voz, e muito ainda se tem a

desenvolver e crescer neste ramo, mas apesar de não ter alcançado o seu potencial

máximo, e ainda passar por algumas dificuldades, tanto de desenvolvimento quanto

de implantação, o reconhecimento de voz já se faz presente no atual cotidiano,

tornando mais fácil e rápida a execução de determinadas tarefas, trazendo conforto

e agilidade para o usuário final.

30

REFERÊNCIAS

A SOCIEDADE Brasileira. O Rio Branco, Rio Branco, 31 mar. 2008. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 31 mar. 2011.

ALVARENGA, Pedro; et. al. Operações em ponto flutuante. In: CONGRESSO NACIONAL DE PROGRESSO DA CIÊNCIA. 2010, Jaru. Resumos eletrônicos... Jaru: Unicentro, 2011. 1 CD-ROM.

AVALON SISTEMAS. Teste de Software. SQL Magazine. São Paulo; n. 4, p. 20-32, mar. 2010.

AZEVEDO, Lara Santos; LIRA, Gustavo. Os conhecimentos da Internet. SQL Magazine. Rio de Janeiro; n. 4, mar. 2009. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 30 mar. 2011.

BARRETO, Sebastião Lima; et. al. Aplicações Web com Php. Rio Branco: Ática, 1990.

BOTELHO, Eduardo. Teste de aplicação. In: SENA, João. Teste de Software. 3 ed. Rio de Janeiro: Erica, 2010. p. 30-40.

BRUNORO, Dharis. Sistema de Controle de Combustível: Um estudo de caso na Polícia Civil do Estado do Acre. 2009. 134 f. Monografia (Especialização em Sistemas de Informação)-União Educacional do Norte, Ariquemes, 2009.

DESENVOLVIMENTO WEB com ASPNET. A Gazeta, Rio Branco, p. 22, 30 mar. 2011.

EXÉRCITO BRASILEIRO. Técnicas de Batalha. In: LIMA, Eduardo Costa. Guerras nos tempos modernos. São Paulo: Ática, 2010. p. 30-50.

GONÇALVES, Silvana Andrade. Webcast: Educação na Internet. 2010. 230 f. Tese (Doutorado)-Programa de Pós-Graduação em Ciência da Computação-UFAC, Rio Branco, 2010. 1 CD-ROM.

LIMA, Carlos André; LIMA, Jorge André; FILHO, Maurício. Pilotagem Noturna. 4 Rodas. São Paulo; n. 30, p. 34-36, jan. 2010.

LIMA, Eduardo Costa; RANGEL, Pedro Paulo. Comissão Própria de Avaliação. In: SOUZA, Edison da Silva. Reconhecimentos de Cursos. 3 ed. Rio de Janeiro: Érica, 2010. p. 40-50.

LIMA, Rosa Teixeira. Fisiologia do exercício. 2009. 100 f. Trabalho de conclusão de curso (Graduação em Educação Física)-Universidade Federal do Acre, Ariquemes, 2009.

NASCIMENTO, João Paulo. Teste de JUnit. Rio Branco: Ática, 2011.

O DESEMPREGO na cidade grande. A Gazeta, Rio Branco, p. 7, 31 mar. 2000.

31

ORDEM DOS ADVOGADOS DO BRASIL. Direito dos trabalhadores rurais. Disponível em: <http://www.oab.gov.br>. Acesso em: 30 mar. 2011.

RAPOSO, Eduardo Pereira; SANTOS, Sonia Maria; OLIVEIRA, José Ribamar. Como trabalhar o motivacional. Rio de Janeiro: Érica, 2010.

SANTOS, Laisa Valentina Botelho. Como chorar até conseguir o que quer. Disponível em: <http://www.euconsigo.com.br/laisa>. Acesso em: 20 jan. 2011.

SANTOS, Marcelo Douglas Silva dos. Cuidado com os virus de computador. A Gazeta, Rio Branco, 28 mar. 2011. Tecnologia, p. 3

SANTOS, Marcelo Douglas Silva dos. EstiloFácil. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. 20., 2011, Fernando de Noronha. Anais... Fernando de Noronha: UFPE, 2011. p. 30-40.

SANTOS, Marcelo; SANTANA, Carlos André. Teste. 2 ed. Rio Branco: AC, 2010.

SANTOS, Maria Rosa Silva dos. Exploração sexual da criança na vida escolar. 2007. 100 f. Trabalho de conclusão de curso (Graduação em Pedagogia)-Universidade Federal de Rondônia, Jaru, 2007.

SANTOS, Maria Rosa. Teste dos Testes. 2010. 145 f. Dissertação (Mestrado)-Programa de Pós-Graduação em Sistemas de Informação-União Educacional do Norte, Rio Branco, 2010. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 30 mar. 2011.

SANTOS, Sonia Maria Silva dos. A política no campo. 2009. 160 f. Dissertação (Mestrado)-Programa de Pós-Graduação em Ciências Políticas-Universidade Federal do Acre, Rio Branco, 2009. Disponível em: <www.ufac.br/mestrado/cp>. Acesso em: 24 abr. 2011.

SANTOS, Sonia Maria Silva dos; et. al. As sete leis da informação. In: SILVA, Gilberto Eduardo Armindo da. Sistemas de Informações Gerenciais. 3 ed. Rio de Janeiro: Erica, 2010. p. 32-35.

SECRETARIA DE SAÚDE DO ESTADO DO ACRE. Manual de primeiros socorros. 4 ed. Rio Branco: AC, 2010.

SECRETARIA DE TECNOLOGIA DO ESTADO DO ACRE. Governo Digital. SQL Magazine. São Paulo; n. 4, p. 10-12, mar. 2010.

SILVA, Gilberto Eduardo da; SANTOS, Marcelo Douglas Silva dos. Os limites pedagógicos do paradigma da qualidade total na educação. In: CONGRESSO DE INICIAÇÃO CIENTÍFICA DA UFAC. 2010, Rio Branco. Anais eletrônicos... Rio Branco: UFAC, 2010. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 20 mar. 2011.

SILVA, Washington. Desenvolvimento com SQL Server. Disponível em:

32

<http://www.devmedia.com.br>. Acesso em: 1 mar. 2011.

SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. Xml como programar. 3 ed. Rio de Janeiro: Érica, 2010.

TOPOLNIAK, Luciano; SILVA, Gilberto Eduardo da. Computação em nuvem. O Rio Branco, Rio Branco, 20 fev. 2010. Disponível em: <http://www.oriobranco.net>. Acesso em: 20 mai. 2011.

UNIÃO EDUCACIONAL DO NORTE. Educação Digital. Escola. São Paulo; n. 45, mar. 2011. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 29 mar. 2011.

UNIÃO EDUCACIONAL DO NORTE. Sistemas de Informações Gerenciais. Rio de Janeiro: Érica, 1998.

UNIVERSIDADE FEDERAL DO ACRE. Educação para adultos. Disponível em: <http://www.ufac.br>. Acesso em: 30 mar. 2011.

33

Documents

Faculdade Associada de Ariqueme1