Upload
valdicley
View
216
Download
0
Embed Size (px)
DESCRIPTION
Faculdade Associada de Ariqueme1
Citation preview
FACULDADE ASSOCIADA DE ARIQUEMES - FAAR
DANILO BOTELHO LIMA
ESTUDO DE APLICAÇÕES TECNOLÓGICAS EM RECONHECIMENTO DE VOZ
Ariquemes/RO2009
DANILO BOTELHO LIMA
ESTUDO DE APLICAÇÕES TECNOLÓGICAS EM RECONHECIMENTO DE VOZ
Trabalho de conclusão de curso apresentado como parte dos requisitos para obtenção do grau de Bacharel em Sistemas de Informação da Faculdade Associdada de Ariqueme - FAAR.
Orientador: Paulo Alexandre Serra Coucello Fonseca
Ariquemes/RO2009
DANILO BOTELHO LIMA
ESTUDO DE APLICAÇÕES TECNOLÓGICAS EM RECONHECIMENTO DE VOZ
Trabalho de conclusão apresentado como requisito para obtenção do grau de Bacharel, no curso de Sistemas de Informação da IES Faculdade Associada de Ariquemes - FAAR, sob apreciação da seguinte Banca Examinadora:
Aprovado em 30 de novembro de 2010
_______________________________________________________________Prof. Ms. Carlos André Santana (UFAC)
_______________________________________________________________Profª. Ms. Joana Rosa Lima (UNINORTE)
_______________________________________________________________Prof. Dr. Paulo Henrique de Souza (UNINORTE)
Aos meus pais Jesus Elias Costa Lima e Cléia Sandes Botelho Lima que são meu maior incentivo e exemplo de vida. Aos professores e amigos mais próximos que, direta ou indiretamente me apoiaram nesta jornada.
AGRADECIMENTOS
Primeiramente a Deus por conceder esta oportunidade ímpar em minha vida.
Ao Prof. e Mestre Paulo Alexandre Serra Coucello Fonseca pela orientação e apoio
na elaboração deste trabalho e à Prof.ª Jakline Brandhuber Moura pelo auxílio e
colaboração. Ao Prof. e Cordenador Rogério Pereira dos Santos pela dedicação ao
curso de Sistemas de Informação. Aos meus amigos Altamir Mello e Ramison Vilela
pelo apoio e auxílio com a metodologia empregada neste.
"Nem tudo que se enfrenta pode ser modificado,
mas nada pode ser modificado até que seja
enfrentado." (James Baldwin)
RESUMO
De uma forma clara, sucinta e objetiva, este trabalho visa demonstrar as tecnologias
de processamento de voz, área pertencente à Inteligência Artificial. Descrever os
processos históricos e a evolução do processamento de voz, as dificuldades iniciais,
definições, benefícios, vantagens, seu desenvolvimento e aprimoramento, bem
como as restrições e problemas enfrentados. Também será abordado o fato de o
reconhecimento de voz estar cada dia mais presente no atual cotidiano, tornando
mais prática e eficiente a resolução de problemas utilizando determinada tecnologia.
Este trabalho apresentará as tecnologias utilizadas dentro do processamento de voz,
como o reconhecimento e sintetização da fala, as áreas onde determinadas
tecnologias estão sendo aplicadas, bem como alguns softwares comercializados e,
posteriormente, uma análise e comparação dos mesmos. O reconhecimento de voz
também torna possível o acesso a computadores e dispositivos tecnológicos para
indivíduos portadores de deficiências físicas, inserindo-os no mercado de trabalho.
Também é demonstrado como o processamento de voz é aplicado em sistemas de
segurança através do reconhecimento de locutor, tornando mais seguro e confiável
o acesso a locais e departamentos restritos. O reconhecimento de voz é real e está
cada dia mais presente em nosso meio. Através deste trabalho, por meio de
pesquisa bibliográfica, procurou-se reunir dados de vários autores, dentre livros e
artigos publicados na web, para que se pudesse ter o máximo de informação
possível sobre o assunto, explanados de maneira concisa e de fácil entendimento.
Palavras-chave: Reconhecimento de voz. Sintetizador. Inteligência Artificial
ABSTRACT
In a clear, concise and objective way, this work aims to demonstrate the technology
of voice processing, an area belonging to Artificial Intelligence. Describe the historical
processes and evolution of voice processing, the initial difficulties, definitions,
benefits, advantages, its development and improvement as well as the constraints
and problems faced. It will address the fact that speech recognition will be
increasingly present in today's daily, making the resolution of problems more
practical and efficient using a particular technology. This work will present the
technologies used in voice processing such as recognition and speech synthesis, the
areas where certain technologies are being applied as well as some commercialized
softwares and, later, an analysis and comparison of the same ones. Speech
recognition also makes possible the access to computers and technological devices
for individuals with disabilities, by placing them in the labor market. It is also shown
as the voice processing is applied to security systems through the recognition of the
speaker, making the access to restricted sites and departments more reliable and
secure. Speech recognition is real and its each day more present in our way of living.
Through this work, by means of bibliographical research, sought to gather data of
some authors, amongst books and articles published in web, so that it reaches the
maximum of possible information on the subject, ones explained in concise way and
easy agreement.
Key words: Voice Recognition. Synthesizer. Artificial Intelligence
LISTA DE FIGURAS
Figura 1 - Configurando o padrão de voz do IBM Via Voicer.....................................19
Figura 2 - Box do IBM Via Voice 09...........................................................................23
LISTA DE TABELAS
Tabela 1 - Índice de acertos no reconhecimento de voz - Unidades da Federação. .15
LISTA DE QUADROS
Quadro 1 - Nível de precisão dos tipos de reconhecimentos biométricos.................13
LISTA DE ABREVIATURAS E SIGLAS
ANVISA: Agência Nacional de Vigilância SanitáriaEMBRAPA: Empresa Brasileira de Pesquisa AgropecuáriaIBGE: Instituto Brasileiro de Geografia e EstatísticaIFAC: Instituto Federal do AcreINCRA: Instituto Nacional de Colonização e Reforma AgráriaINEP: Instituto Nacional de Estudo e PesquisaINPI: Instituto Nacional da Propriedade IndustrialSINAES: Sistema Nacional de Avaliação do Ensino SuperiorUFAC: Universidade Federal do AcreUNINORTE:
União Educacional do Norte
SUMÁRIO
1 INTRODUÇÃO........................................................................................................13
2 INTELIGÊNCIA ARTIFICIAL...................................................................................15
2.1 SISTEMAS BASEADO EM CONHECIMENTO....................................................16
2.2 TRADUÇÕES AUTOMÁTICAS...........................................................................16
3 RECONHECIMENTO DE VOZ...............................................................................18
3.1 DEFINIÇÕES.......................................................................................................19
3.2 CONVERTENDO VOZ PARA DADOS................................................................20
4 SISTEMAS DE RECONHECIMENTO DE VOZ......................................................21
4.1 BENEFÍCIOS E VANTAGENS.............................................................................21
4.1.1 Vantagens do modelo oculto de Markov...........................................................21
4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ..............................................22
4.2.1 Ruídos..............................................................................................................22
4.2.2 Capacidade de processamento........................................................................23
5 APLICAÇÕES.........................................................................................................24
5.1 TELECOMUNICAÇÕES......................................................................................24
5.2 SEGURANÇA......................................................................................................25
5.2.1 Reconhecimento de locutor..............................................................................26
5.2.2 Variação intra e inter locutor.............................................................................26
6 AVALIAÇÃO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ..................27
6.1 IBM VIA VOICE....................................................................................................27
7 CONCLUSÃO.........................................................................................................29
REFERÊNCIAS.........................................................................................................31
1 INTRODUÇÃO
As tecnologias em processamento de voz estão a cada dia mais presentes
no cotidiano. Cada vez mais, vê-se que as interfaces homem-máquina estão se
aprimorando e se adaptando a atual realidade, e às facilidades que nos acercam,
quer seja no âmbito profissional ou pessoal. O grande aumento da interação do
usuário com tais tecnologias demonstram a crescente aceitação do público e a
abertura para grandes investimentos nesta área.
Dentro do campo da Inteligência Artificial1, os sistemas que se utilizam do
processamento de voz, se destacam por tornar mais rápidas as resoluções de
problemas que facilmente podem ser sanados por simples comandos através da
fala. O reconhecimento de voz é real e passou a ser um dos tópicos mais utilizados
no seio de novas tecnologias. De fato, muitas aplicações estão a surgir ou sendo
desenvolvidas no mercado. Um dos exemplos mais populares, com a qual, a grande
maioria já teve contato, é a tecnologia de chamada de voz, presente em diversos
dos novos modelos de celulares comercializados em todo o país. Mas o principal
anseio dos usuários, quando se fala em reconhecimento de voz, ainda é a
possibilidade de se emitir comandos para seus computadores, ordenando-lhe
tarefas, executando programas, ou simplesmente transcrevendo narrativas e textos
para processadores de texto, tudo através da fala.
Vê-se que o reconhecimento de voz como interface de atendimento exibe
uma série de vantagens sobre as demais tecnologias já existentes no mercado.
Também analisa-se como determinadas tecnologias implementadas em serviços de
atendimento podem ser de grande valia para a utilização de portadores de
deficiência visual, como os populares serviços de auto-atendimento. Pessoas que
possuem deficiências que os impedem de digitar também já adotaram sistemas de
reconhecimento de voz. Se um usuário não pode usar suas mãos, ou nos casos em
que não é possível ou conveniente usar um teclado Braille, esses sistemas permitem
que eles se expressem ditando textos e que tenham controle sobre várias das
funções do computador.
Em se tratando de segurança da informação, a Inteligência Artificial, através
do reconhecimento da fala, mais uma vez, sai na frente. Nota-se que tal vantagem
1 Área da computação que se dedica a estudar o comportamento do cérebro humano. (SOUZA, 2001, p. 06)
13
se deve, entre outros, ao fato da fala ser inerente ao ser humano, simples e natural,
assim como é a utilização do reconhecimento de voz. Além disso, as informações
que são obtidas por máquinas que se utilizam de determinada tecnologia, são
introduzidas em seu sistema de forma direta, eliminando qualquer tipo de interface
pessoal, eliminando conseqüentemente o risco de se introduzir erroneamente os
dados e informações obtidos.
14
2 INTELIGÊNCIA ARTIFICIAL
Russel e Norvig (2004) definem que a Inteligência Artificial (IA) é umas das
ciências existentes mais recentes que, atualmente, abrange uma grande variedade
de subcampos que vão desde atividades de uso geral, como aprendizado e
percepção, chegando a tarefas bem mais específicas como demonstração de
teoremas matemáticos, diagnósticos de doenças e jogos de xadrez.
Os primeiros anos da IA, apesar de forma limitada, foram repletos de
sucesso, levando-se em consideração os primitivos computadores da época, bem
como suas ferramentas de programação e o fato de que apenas alguns anos antes
os computadores eram vistos como meros objetos que efetuavam operações
aritméticas, nada mais, causando espanto a idéia de que um computador pudesse
realizar qualquer atividade que fosse remotamente inteligente.
Quadro 1 - Nível de precisão dos tipos de reconhecimentos biométricos
Tipos de biometria Nível de precisãoReconhecimento de voz AltoReconhecimento de mão MédiaReconhecimento da íris AltoReconhecimento da digital AltoFonte: Revista YYYYY, 2009
O primeiro trabalho reconhecido dentro da IA foi realizado por Warren
McCulloch e Walter Pitts no ano de 1943. Ambos propuseram um modelo de
neurônios artificiais, no qual, cada um se caracteriza por estar “ligado” ou
“desligado”, tendo seus estados alterados pela estimulação de um número suficiente
de neurônios vizinhos. Sendo assim, seu estado era considerado concreto conforme
o estímulo adequado. Como exemplo, eles mostraram que através de determinada
rede de neurônios conectados poderiam calcular qualquer função computável. E
foram mais além. McCulloch e Pitts sugeriram que se determinadas redes fossem
definidas de forma adequada, elas seriam capazes de “aprender” e não somente
executar uma seqüência de comandos lógicos. Donald Hebb, demonstrou em 1949,
uma regra simples de atualização utilizada para modificar as intensidades de
conexão que ocorrem entre os neurônios. Aprendizagem de Hebb, como hoje é
chamada a sua regra, continua a ser um modelo influente nos dias atuais.
15
2.1 SISTEMAS BASEADO EM CONHECIMENTO
Para Ganascia (1997), ainda que no início do século XX, o confronto entre
homem e máquina parecesse mais como um confronto corpo a corpo, um conflito
entre capacidades mentais, sabe-se que os computadores sempre precisarão de um
suporte físico. Do mesmo modo que, para conduzir um veículo, deve-se saber que
um pedal permite acelerar, outro pedal frear ou embrear, sem que seja necessário
conhecer todas as operações mecânicas envolvidas, para comandar um
computador, não se tem como pré-requisito conhecer todos os detalhes do processo
eletrônico em jogo. Constituídos por um enorme número de componentes, os
computadores têm na sua composição, formas muitas vezes complexas, tão
complicadas que seus usuários não poderiam visualizar o conjunto em mente a todo
instante. Por isso, através do pensamento, para facilitar o acesso aos computadores,
procurou-se o equivalente ao que representam os pedais do automóvel, assimilando
a máquina como um órgão dotado de capacidades lógicas, que tem seus comandos
efetuados por intermédio de um conjunto de instruções. Baseado nisto, pode-se
notar que as máquinas consideram somente o texto, e nunca o espírito. Não existem
mensagens escritas em suas entrelinhas e nenhuma liberdade para margens
brancas do texto, apenas ordens, comandos e execuções. Assim sendo,
imaginamos que o homem ser entregue às maquinas, sem a mediação de
especialistas em informática ou em inteligência artificial, poderia reverter-se de
sonho a pesadelo.
2.2 TRADUÇÕES AUTOMÁTICAS
Sommerville (2007) define que o termo “Software” não está somente
relacionado aos programas de computador, dele também fazem parte outros
quesitos como os dados da documentação e as configurações necessárias pra que
ele possa funcionar adequadamente. Segundo Russel e Norvig (2004), com relação
às traduções, algumas das dificuldades que surgiram se deve ao fato de que a
maioria dos primeiros softwares continham nenhum, ou quase nenhum
conhecimento sobre o assunto, obtendo sucesso apenas por meio de simples
manipulações táticas. No tocante aos primeiros esforços de tradução por máquina,
têm-se uma típica história na tentativa de acelerar a tradução de determinados
16
documentos científicos russos depois do lançamento do Sputnik em 1957. Pensava-
se inicialmente que somente as transformações sintáticas simples relacionadas às
gramáticas russas e inglesas, juntamente com a utilização de um dicionário
eletrônico para a substituição de palavras seriam suficientes para manter os
significados exatos das orações. Entretanto, para estabelecer o conteúdo das
sentenças e solucionar possíveis problemas de ambigüidades, a tradução acaba por
exigir um conhecimento geral sobre o assunto em questão. Um relatório criado em
1966 por um conselho consultivo, descobriu que “não existe nenhum sistema de
tradução automática para texto científico em geral, e não existe nenhuma
perspectiva imediata nesse sentido.”
Outra dificuldade encontrada foi a impossibilidade de sanar muitos dos
problemas que a IA estaria buscando resolver. A grande maioria dos primeiros
programas de inteligência artificial resolvia os problemas apenas se utilizando do
experimento entre diferentes combinações de passos até encontrar a possível
solução. Inicialmente tal estratégia funcionou, pois havia um número muito pequeno
de possíveis ações e as seqüências de soluções mantinham-se muito curtas. Antes
de se desenvolver a teoria da complexidade computacional, existia uma crença geral
que para a resolução de problemas maiores era apenas uma questão de haver
hardwares com maior capacidade de memória e mais rápidos. Mas é claro que tal
definição foi logo ofuscada quando os pesquisadores perceberam que para provar
determinados teoremas, era necessário se envolver em mais que algumas dezenas
de fatos. Sabe-se que nos dias atuais, muitas ferramentas para a tradução
automática de textos continuam incompletas e imperfeitas, todavia, são amplamente
utilizadas na internet e até mesmo para ajuda na tradução de documentos técnicos,
comercias e governamentais.
17
3 RECONHECIMENTO DE VOZ
Com o avanço da tecnologia atual e a descoberta de novos padrões houve a
necessidade de se adequar a estes, uma vez que a obtenção de dados e
informações está cada vez mais acessível ao usuário final. As novas tecnologias
fazem parte do atual cotidiano e em conseqüência disto, houve uma adequação
tanto por parte dos meios de comunicação quanto dos usuários destas. Com isto, a
busca de aperfeiçoamento na utilização destas determinadas tecnologias assumiu
relevância neste contexto.
Tabela 1 - Índice de acertos no reconhecimento de voz - Unidades da Federação
Estados do Brasil Número de pessoas Percentual de acertosBahia 230 89%Minas Gerais 267 87%Espírito Santo 197 91%Rondônia 203 92%Mato Grosso 200 90%Fonte: Revista XXXX, 2009
Segundo Guilhoto e Souza (2002), o processamento de voz pertencente à
área da I.A surgiu a partir da idéia do usuário emitir ordens e comandos ao
computador através da fala. Há alguns anos era considerada obra de ficção
científica, porém, no final da década de 1950, já havia instituições de pesquisa que
estudavam meios de se fazer com que a voz fosse processada pelo computador e
antes mesmo que a internet alcançasse sua popularidade, as empresas já
comercializavam programas com tecnologia de voz para PC’s. Algumas dificuldades
foram vencidas ao longo dos anos, os produtos que trabalhavam com
reconhecimento de voz eram muito caros, complexos e pouco precisos naquilo que
se propunham.
Com o reconhecimento de voz, não só os computadores passarão a ter seu uso facilitado, mas também eletrodomésticos, elevadores, bancos e automóveis. Programas que possibilitam aos computadores reconhecer a voz humana tiveram um avanço notável nos últimos anos. Pode não estar longe o dia em que o computador será capaz de entender sua pergunta - ou pelo menos de pedir que você a repita. Isso não quer dizer que o computador compreende o que falamos. Apenas que ele já é capaz de ouvir e transcrever um texto com um grande índice de acerto. Compreender a fala transcrita envolve uma inteligência que a máquina não tem. (ROSA; SILVA, 1999, p. 05)
18
Esta evolução é evidente. Note-se que em diversas áreas, já é comum o uso
de softwares que se utilizam da tecnologia do reconhecimento e processamento da
fala. Segundo Grabianowski (2006), ao se ligar para o serviço de atendimento ao
consumir (SAC) da maioria das grandes empresas, já não são pessoas que
atendem. Ao invés disto, depara-se com gravações automáticas que instruem a
pressionar diferentes botões para escolher entre as opções disponíveis no menu.
Porém, muitas destas empresas já evoluíram neste aspecto, solicitando que o
utilizador “fale” a opção desejada ao invés de digitar, que torna determinado sistema
possível através de um software de reconhecimento de voz.
3.1 DEFINIÇÕES
O uso do reconhecimento de voz é empregado em diversas tecnologias. São
quatro as principais áreas do processamento de voz, divididas entre comandos por
voz, fala natural, síntese de voz e autenticação de voz. Guilhoto e Souza (2002)
descrevem sucintamente cada área:
Comando de voz: caracteriza-se pelo reconhecimento de palavras
isoladas ou apenas um curto trecho de fala, fazendo com que o sistema
identifique que tipo de ação deverá tomar. Este método se torna o mais
simples, uma vez que é mais fácil para o sistema reconhecer palavras
isoladas e associá-las aos comandos disponíveis ao usuário. Tem-se, por
exemplo, o já citado SAC, onde ao invés de utilizar botões, o usuário
define suas escolhas utilizando-se da voz.
Fala natural: é o reconhecimento da fala contínua, envolvendo uma ou
mais frases, contendo palavras que formam sentido dentro de um
contexto. Sendo reconhecida a fala do utilizador, ela então é convertida
em texto. Uma utilização comum para este tipo de reconhecimento de voz
é a transcrição de documentos ditados para processadores de texto ou
para softwares de email.
Autenticação de voz: permite que determinada pessoa tenha acesso a
determinadas funções através do reconhecimento da voz, baseando-se
no fato de que a voz é única para cada pessoa e assim pode ser usada
para identificá-la.
19
Grabianowski (2006) relata que mesmo os sistemas de reconhecimento de
voz tenham sido criados há mais de 10 anos, eles ainda enfrentam a escolha entre a
fala discreta e a fala contínua. Para o sistema, é mais fácil entender as palavras
ditas separadamente, com uma pausa entre cada uma delas. Porém, como os
usuários preferem a fala contínua, como em uma conversa normal, a maioria dos
sistemas modernos é capaz de compreendê-la.
3.2 CONVERTENDO VOZ PARA DADOS
Para que um computador possa entender a voz do usuário ela deverá ser
convertida em dados. Guilhoto e Souza (2002) entendem que o reconhecimento de
voz utiliza-se de diversas técnicas para reconhecer a voz humana. Transformam-se
os sinais de áudio que passam por diversas etapas, pelas quais são aplicados vários
métodos matemáticos e estatísticos de forma que o computador possa compreender
o que está a ser ditado. Segundo Grabianowski (2006), para que a fala seja
convertida em um texto exibido na tela ou em comando para o computador, ela terá
que sofrer vários tratamentos. Ao falar, o usuário cria vibrações no ar. O conversor
analógico-digital (ADC) então traduz a onda analógica em dados digitais que podem
ser compreendidos pelo computador ao digitalizar o som, retirando medidas precisas
em intervalos freqüentes dentro da onda. O sistema remove ruídos indesejáveis ao
filtrar o som digitalizado que pode ser separado em diferentes faixas de freqüência.
“A freqüência é o comprimento de onda das ondas sonoras e nós a percebemos
como diferenças na altura”. (GRABIANOWSKI, 2006).
O ADC ajusta o volume em um nível constante para padronizar o som.
Grabianowski (2006) ainda complementa que para se ter uma idéia da complexidade
de todo esse sistema, o som ainda pode ser alinhado temporariamente, pois como
as pessoas nem sempre falam com mesma velocidade, o som deverá ser ajustado
para corresponder com a mesma velocidade dos modelos de som que estão
armazenados na memória do sistema.
20
4 SISTEMAS DE RECONHECIMENTO DE VOZ
De acordo com Braga (2006), devido ao grande avanço com os algoritmos
disponíveis para modelar os possíveis problemas de reconhecimento de fala, e
também devido ao relativo barateamento dos sistemas de alto desempenho, hoje é
possível ver aparelhos já comercializados com o sistema de reconhecimento de fala,
principalmente em celulares.
4.1 BENEFÍCIOS E VANTAGENS
Embora já citados alguns benefícios, pode-se notar que eles aumentam com
o passar do tempo, devido ao fato de se descobrir novas soluções para problemas
rotineiros no reconhecimento da fala e pelo aprimoramento na utilização desta
técnica em diversas áreas.
A principal meta no tocante às pesquisas na área de reconhecimento de fala,
segundo Braga (2006), é o desenvolvimento de um modelo que tenha a capacidade
de decodificar a fala humana com uma taxa de acerto alta, sem a dependência de
um treinamento com o usuário e que possa se adaptar automaticamente a qualquer
tipo de ambiente, fazendo assim com que seja possível uma comunicação mais
amigável e natural entre homem e máquina, como a utilizada entre os seres
humanos.
4.1.1 Vantagens do modelo oculto de Markov
Vários são os métodos utilizados para efetuar o reconhecimento de fala.
Braga (2006) entende que os principais métodos utilizados são baseados nos
Modelos Ocultos de Markov (HMM’s), Modelos de Mistura Gaussiana (GMM’s) e
Redes Neurais Artificiais (RNA’s), sendo que a utilização se cada método depende
principalmente da modalidade que o texto está associado ao problema.
Por ser uma característica biométrica, a voz pode possuir uma grande
variação entre um locutor e outro. Assim como o reconhecimento de voz
independente de locutor sofre algumas dificuldades para se processar a voz, o
reconhecimento de locutor também lida com algumas delas.
Outras dificuldades como ruídos, falas simultâneas e qualidade de hardware
21
que se fazem presentes nos sistemas de reconhecimento de voz independentes de
locutor também são enfrentados por sistemas de reconhecimento de locutor,
dificultando a identificação do indivíduo.
“As HMMs têm demonstrado melhores resultados em aplicações
dependentes de texto, enquanto que os GMMs e as RNAs têm melhores resultados
em aplicações independentes de texto” (BRAGA, 2006).
4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ
Sabe-se que ainda não existe nenhum sistema de reconhecimento de voz
que funcione perfeitamente, sem erros. De acordo com Grabianowski (2006), são
vários os fatores que podem reduzir a precisão na hora de reconhecer a fala do
usuário. Porém, alguns destes fatores continuam a melhorar conforme a tecnologia
avança e se desenvolve, enquanto que outros podem ser significativamente
reduzidos ou até mesmo corrigidos completamente pelo usuário.
4.2.1 Ruídos
Segundo Grabianowski (2006), para o programa reconhecer o que está a ser
dito, ele precisa escutar e diferenciar as palavras pronunciadas. Porém, se algum
tipo de ruído for inserido junto ao som captado, isso poderá interferir no processo de
reconhecimento. Grabianowski (2006) segue com tal entendimento ao citar:
O ruído pode vir de várias fontes diferentes, incluindo o alto ruído de fundo de um escritório. Recomenda-se que os usuários trabalhem em uma sala silenciosa e com um microfone de qualidade posicionado bem próximo de suas bocas. Placas de som, que fornecem a entrada pela qual o microfone envia o sinal para o computador, de baixa qualidade geralmente não têm proteção o bastante contra os sinais elétricos produzidos por outros componentes do computador, e isso pode introduzir zumbidos ou assovios no sinal. (GRABIANOWSKI, 2006, p. 104)
Como a captação da fala do usuário é uma das etapas mais importantes
para posteriormente processá-la, o uso de bons equipamentos de hardware é
fundamental, como por exemplo, a utilização de headsets ou de um microfone de
alta qualidade, capaz de cancelar ruídos. Assim, os sistemas baseados em regras
não obtiveram muito sucesso, pois não conseguiam lidar com tais variações.
22
4.2.2 Capacidade de processamento
Os PCs atuais mais rápidos ainda podem ter dificuldades com comandos ou
frases complicadas, o que diminui significativamente o tempo de resposta. Além
disso, as listas de vocabulário de que os programas precisam também ocupam uma
grande quantidade de espaço no disco rígido.
Figura 1 - Configurando o padrão de voz do IBM Via Voicer
Fonte: http://www.clubedohardware.com.br
Felizmente, o armazenamento em disco e a velocidade dos processadores
são áreas que avançam muito rapidamente.
23
5 APLICAÇÕES
Na atualidade, inúmeras são as aplicações que envolvem o reconhecimento
e processamento da fala, e a cada dia surgem novas áreas que se beneficiam de tal
técnica. Para Guilhoto e Souza (2002), um bom exemplo é a área da saúde, onde se
obtem sucesso com a redução das despesas e aumento significativo da eficiência. O
reconhecimento de voz aqui pode ajudar equipes médicas no que se refere a
eliminar a necessidade de transcrever manualmente seus relatórios, ao se utilizar de
um pequeno aparelho portátil que funciona como um gravador, enquanto se procede
ao diagnóstico de seus pacientes.
Reconhecimento de voz;
Reconhecimento de íris;
Reconhecimento de mão;
Reconhecimento de face;
Para Ynoguti (1999), algumas das principais áreas em que são aplicados os
sistemas de reconhecimento de fala são: transcrição de textos através do ditado,
interfaces para computadores pessoais, serviços de telecomunicações e aplicações
industriais especiais. Segundo Ynoguti (1999), o principal fator contribuinte para o
sucesso comercial é o aumento na produtividade, que tem sido proporcionado
através de determinados sistemas de reconhecimento que auxiliam ou substituem
operadores humanos.
5.1 TELECOMUNICAÇÕES
É vasta a utilização de sistemas de reconhecimento e processamento de voz
na área da telecomunicação. Tais sistemas estão presentes, tanto na área pessoal,
onde o usuário pode realizar chamadas através de comandos de voz, como na área
profissional onde as empresas de telefonia e os grandes centros de atendimento ao
consumidor se utilizam deste sistema para reconhecer as opções desejadas pelos
clientes e então direcioná-los para os departamentos certos.
Valiati (2000) cita que determinados serviços representam um campo
bastante rentável na área das telecomunicações. As tecnologias de reconhecimento
24
incluem, além da discagem pela voz, serviços como direcionamento de chamadas,
chamada por cartão e a grande maioria dos serviços pagos das prestadoras. Ainda
dentro da área de telecomunicação, Valiati (2000) descreve ainda outros exemplos:
Dentre os vários serviços fornecidos destaca-se a utilização de páginas amarelas, onde o usuário requisita o nome de uma empresa,o produto ou o nome promocional e o sistema se encarrega de fornecer o número, como também já possibilita a realização da ligação direta com a empresa. Outro serviço permite que sejam realizadas ligações de qualquer telefone, bastando ao usuário informar um número de identificação, previamente, fornecido pela operadora, possibilitando que tenha acesso às suas ligações que estão em sua secretária eletrônica, como também realize ligações de sua própria linha telefônica, não sendo necessário pra isto saber todo o número da pessoa com quem deseja entrar em contato, mas somente fornecer um apelido previamente cadastrado. (VALIATI, 2000, p. 78)
Para Ynoguti (1999), por ser um meio de comunicação extremamente
difundido, o reconhecimento de fala baseado na rede telefônica oferece grande
potencial. E devido a esta difusão, tecnicamente pode-se colocar, ser a área mais
complexa para o reconhecimento de voz, devido à impossibilidade de controle de
suas condições de uso. Tais problemas de devem à enorme e imprevisível
população de usuários, à diferença nos microfones dos aparelhos utilizados e à
possível presença de ruídos de canal e banda estreita. Para Ynoguti (1999), os
sistemas de reconhecimento mais bem sucedidos, são os que trabalham com
vocabulários extremamente limitados, em torno de 10 a 20 palavras. Para um
sistema ser útil, não significa que ele tenha que ter um vocabulário enorme, pois
existem sistemas extremamente úteis e que trabalham com apenas duas palavras:
“sim” e “não”.
5.2 SEGURANÇA
Outra aplicação onde o reconhecimento de voz se torna muito útil é nos
sistemas de segurança, onde o aplicativo pode analisar determinada amostra de voz
e identificar o indivíduo que a produziu, baseado no fato de que as características
físicas do usuário proporcionam à sua voz características únicas.
Para tratar as variações acústicas, é realizado um tratamento das mesmas
com o uso de uma adaptação dinâmica de parâmetros, a utilização de múltiplos
microfones e o processamento de sinal. Para a parametrização dos sinais, Ynoguti
25
(1999) relata que os pesquisadores desenvolveram representações para enfatizar
características que são independentes do locutor e desprezar as características que
são dependentes do locutor. O treinamento de modelos fonéticos separados para
fonemas em diferentes contextos é a solução para resolver os efeitos de contexto
lingüístico em termos fonético-acústicos, sendo descritos como modelamento
acústico dependente de contexto.
5.2.1 Reconhecimento de locutor
De acordo com Pegoraro (2000), a voz é uma característica biométrica, e
por ter suas informações fonético-linguísticas detectadas e classificadas pelos
sistemas de reconhecimento da fala, pode ser perfeitamente empregada em
aplicativos de reconhecimento do locutor através das informações que carrega.
Atualmente, a maioria dos sistemas de controle de acesso a redes de
computadores, transações bancárias ou departamentos protegidos, se utilizam de
senhas alfanuméricas para a identificação do usuário, ou mesmo números de
identificação pessoal. Porém, indivíduos que não estão autorizados a possuir tais
senhas podem obtê-las e utilizá-las sem o consentimento do cliente cadastrado, ou
até mesmo, pode o próprio cliente, perder ou esquecer determinadas senhas, e é
baseado neste e em outros fatores que os sistemas que se utilizam de
características físicas e únicas ao usuário, se tornam mais seguros do que sistemas
que utilizam senhas, uma vez que as características biométricas não podem ser
emprestadas, perdidas ou roubadas.
5.2.2 Variação intra e inter locutor
Por ser uma característica biométrica, a voz pode possuir uma grande
variação entre um locutor e outro. Assim como o reconhecimento de voz
independente de locutor sofre algumas dificuldades para se processar a voz, o
reconhecimento de locutor também lida com algumas delas.
Outras dificuldades como ruídos, falas simultâneas e qualidade de hardware
que se fazem presentes nos sistemas de reconhecimento de voz independentes de
locutor também são enfrentados por sistemas de reconhecimento de locutor,
dificultando a identificação do indivíduo.
26
6 AVALIAÇÃO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ
O mercado para o processamento e reconhecimento da fala é promissor e
vem sendo disputado por gigantes como a IBM e Microsoft. Muitas empresas
investem em softwares cada vez mais eficazes e precisos, que aos poucos vão
aparecendo nas prateleiras das lojas no ramo de informática e tecnologia. Hoje é
possível adquirir sistemas operacionais com a tecnologia já integrada, como é o
caso da Microsoft que disponibiliza o reconhecimento de fala nativo em seu sistema
operacional Windows, desde a versão XP, tendo sido consideravelmente aprimorada
em sua última versão comercial, o Windows 7.
6.1 IBM VIA VOICE
O IBM ViaVoice é o software de reconhecimento e sintetização de voz da
IBM, capaz de reconhecer a fala do usuário, convertendo voz para texto, que pode
posteriormente ser manuseado em softwares editores de texto como o WordPad, o
Microsoft Word ou no seu próprio editor e depois efetuar a leitura do mesmo ou
outros arquivos de texto já existentes em seu computador. Em se tratando de
praticidade, o IBM ViaVoice é uma verdadeira revolução para pessoas que
trabalham com digitação, ou simplesmente desejam criar textos de maneira mais
rápida.
Figura 2 - Box do IBM Via Voice 09
Fonte: http://www.ibm.com.br/viavoice
O IBM ViaVoice funciona através de comandos de fala, permitindo que se
controle o computador, abrindo e fechando pastas ou executando programas e
27
arquivos através da voz. Também permite que se faça uso do texto ditado em
diversos programas como editores de texto, editores de e-mail e browsers,
proporcionando assim a possibilidade de se acessar a internet ou editar e envias e-
mails com mais comodidade e facilidade. Sua instalação é relativamente simples e
não requer conhecimento avançado na área. Depois de instalado, o software
necessita realizar alguns ajustes de hardware, porém, ao invés de menus de
configuração extensos e complicados, o assistente o guia por algumas etapas de
fácil compreensão, que auxiliarão o usuário a configurar o microfone, definir
componentes de áudio, ajustar o fone, testar a reprodução de áudio e coletar
informações dentre outras configurações.
28
7 CONCLUSÃO
O processamento de voz está presente em diversas áreas tecnológicas que
vão desde a telecomunicação ao acesso a ambientes restritos por meio do
reconhecimento biométrico do locutor através da fala. Sendo assim, hoje já existe a
necessidade de uma adequação por parte dos usuários e dos meios de
comunicação para a utilização das mesmas. O que antes era somente tema de
filmes de ficção científica, hoje é real, e passou a ser um dos tópicos mais discutidos
em meio às novas tecnologias. Muitos softwares estão a surgir, ou sendo
desenvolvidos no mercado, a se aprimorar e a se adaptar à atual realidade e
necessidade do consumidor final.
Este trabalho objetivou esclarecer as definições do processamento de voz,
bem como as áreas de atuação da tecnologia, padrões utilizados, benefícios,
vantagens, dificuldades e restrições enfrentadas e sua evolução e aprimoramento.
Também foram demonstrados diversos exemplos onde o processamento de voz
obteve ganhos significativos, tanto no âmbito pessoal, quanto profissional. Uma vez
que o ser humano fala, em média, sete vezes mais rápido do que escreve, a
conversão da fala para texto traz enormes benefícios em rapidez e eficiência,
fazendo com que o reconhecimento de voz permita ao usuário ditar textos que são
transcritos para softwares processadores de texto e posteriormente podendo utilizar-
se dos dados transcritos para outras finalidades como, por exemplo, a impressão de
relatórios ou o envio de e-mails.
Foi demonstrado também como o reconhecimento da fala torna possível o
acesso a computadores por indivíduos portadores de deficiências físicas ou com
dificuldades para digitar, que antes os impossibilitavam de serem inseridos no
mercado de trabalho. Como a voz é uma característica biométrica do ser humano,
única e inerente a ele, o reconhecimento de locutor torna possível o acesso às
informações ou ambientes restritos por meio do reconhecimento da fala do usuário,
sendo um grande aliado da segurança da informação.
Viu-se que as tecnologias que trabalham com o processamento da fala têm
inúmeras aplicações2, fazendo com que haja um aumento substancial na produção
de aparelhos e equipamentos compatíveis com essa tecnologia, como os aparelhos
celulares que possibilitam ao usuário realizar chamadas apenas falando o nome da
2 Teste de funcionalidade das notas
29
pessoa com quem deseja falar, tornando assim a tecnologia cada dia mais acessível
e presente na vida das pessoas. Também foi realizada a análise de softwares que já
estão disponíveis no mercado, que se utilizam da tecnologia de processamento de
voz, como o reconhecimento de voz para execução de comandos para o
computador, sintetizadores de voz e sistemas operacionais com a tecnologia já
nativa de fábrica.
Através do processamento de voz, o usuário também tem a possibilidade de
ter seus textos e documentos ditados em voz alta por meio dos sintetizadores de
voz, ficando livre para realizar outras atividades enquanto ouve suas notícias diárias,
e-mails, ou simplesmente revisa um relatório.
Muito ainda se espera do processamento de voz, e muito ainda se tem a
desenvolver e crescer neste ramo, mas apesar de não ter alcançado o seu potencial
máximo, e ainda passar por algumas dificuldades, tanto de desenvolvimento quanto
de implantação, o reconhecimento de voz já se faz presente no atual cotidiano,
tornando mais fácil e rápida a execução de determinadas tarefas, trazendo conforto
e agilidade para o usuário final.
30
REFERÊNCIAS
A SOCIEDADE Brasileira. O Rio Branco, Rio Branco, 31 mar. 2008. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 31 mar. 2011.
ALVARENGA, Pedro; et. al. Operações em ponto flutuante. In: CONGRESSO NACIONAL DE PROGRESSO DA CIÊNCIA. 2010, Jaru. Resumos eletrônicos... Jaru: Unicentro, 2011. 1 CD-ROM.
AVALON SISTEMAS. Teste de Software. SQL Magazine. São Paulo; n. 4, p. 20-32, mar. 2010.
AZEVEDO, Lara Santos; LIRA, Gustavo. Os conhecimentos da Internet. SQL Magazine. Rio de Janeiro; n. 4, mar. 2009. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 30 mar. 2011.
BARRETO, Sebastião Lima; et. al. Aplicações Web com Php. Rio Branco: Ática, 1990.
BOTELHO, Eduardo. Teste de aplicação. In: SENA, João. Teste de Software. 3 ed. Rio de Janeiro: Erica, 2010. p. 30-40.
BRUNORO, Dharis. Sistema de Controle de Combustível: Um estudo de caso na Polícia Civil do Estado do Acre. 2009. 134 f. Monografia (Especialização em Sistemas de Informação)-União Educacional do Norte, Ariquemes, 2009.
DESENVOLVIMENTO WEB com ASPNET. A Gazeta, Rio Branco, p. 22, 30 mar. 2011.
EXÉRCITO BRASILEIRO. Técnicas de Batalha. In: LIMA, Eduardo Costa. Guerras nos tempos modernos. São Paulo: Ática, 2010. p. 30-50.
GONÇALVES, Silvana Andrade. Webcast: Educação na Internet. 2010. 230 f. Tese (Doutorado)-Programa de Pós-Graduação em Ciência da Computação-UFAC, Rio Branco, 2010. 1 CD-ROM.
LIMA, Carlos André; LIMA, Jorge André; FILHO, Maurício. Pilotagem Noturna. 4 Rodas. São Paulo; n. 30, p. 34-36, jan. 2010.
LIMA, Eduardo Costa; RANGEL, Pedro Paulo. Comissão Própria de Avaliação. In: SOUZA, Edison da Silva. Reconhecimentos de Cursos. 3 ed. Rio de Janeiro: Érica, 2010. p. 40-50.
LIMA, Rosa Teixeira. Fisiologia do exercício. 2009. 100 f. Trabalho de conclusão de curso (Graduação em Educação Física)-Universidade Federal do Acre, Ariquemes, 2009.
NASCIMENTO, João Paulo. Teste de JUnit. Rio Branco: Ática, 2011.
O DESEMPREGO na cidade grande. A Gazeta, Rio Branco, p. 7, 31 mar. 2000.
31
ORDEM DOS ADVOGADOS DO BRASIL. Direito dos trabalhadores rurais. Disponível em: <http://www.oab.gov.br>. Acesso em: 30 mar. 2011.
RAPOSO, Eduardo Pereira; SANTOS, Sonia Maria; OLIVEIRA, José Ribamar. Como trabalhar o motivacional. Rio de Janeiro: Érica, 2010.
SANTOS, Laisa Valentina Botelho. Como chorar até conseguir o que quer. Disponível em: <http://www.euconsigo.com.br/laisa>. Acesso em: 20 jan. 2011.
SANTOS, Marcelo Douglas Silva dos. Cuidado com os virus de computador. A Gazeta, Rio Branco, 28 mar. 2011. Tecnologia, p. 3
SANTOS, Marcelo Douglas Silva dos. EstiloFácil. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. 20., 2011, Fernando de Noronha. Anais... Fernando de Noronha: UFPE, 2011. p. 30-40.
SANTOS, Marcelo; SANTANA, Carlos André. Teste. 2 ed. Rio Branco: AC, 2010.
SANTOS, Maria Rosa Silva dos. Exploração sexual da criança na vida escolar. 2007. 100 f. Trabalho de conclusão de curso (Graduação em Pedagogia)-Universidade Federal de Rondônia, Jaru, 2007.
SANTOS, Maria Rosa. Teste dos Testes. 2010. 145 f. Dissertação (Mestrado)-Programa de Pós-Graduação em Sistemas de Informação-União Educacional do Norte, Rio Branco, 2010. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 30 mar. 2011.
SANTOS, Sonia Maria Silva dos. A política no campo. 2009. 160 f. Dissertação (Mestrado)-Programa de Pós-Graduação em Ciências Políticas-Universidade Federal do Acre, Rio Branco, 2009. Disponível em: <www.ufac.br/mestrado/cp>. Acesso em: 24 abr. 2011.
SANTOS, Sonia Maria Silva dos; et. al. As sete leis da informação. In: SILVA, Gilberto Eduardo Armindo da. Sistemas de Informações Gerenciais. 3 ed. Rio de Janeiro: Erica, 2010. p. 32-35.
SECRETARIA DE SAÚDE DO ESTADO DO ACRE. Manual de primeiros socorros. 4 ed. Rio Branco: AC, 2010.
SECRETARIA DE TECNOLOGIA DO ESTADO DO ACRE. Governo Digital. SQL Magazine. São Paulo; n. 4, p. 10-12, mar. 2010.
SILVA, Gilberto Eduardo da; SANTOS, Marcelo Douglas Silva dos. Os limites pedagógicos do paradigma da qualidade total na educação. In: CONGRESSO DE INICIAÇÃO CIENTÍFICA DA UFAC. 2010, Rio Branco. Anais eletrônicos... Rio Branco: UFAC, 2010. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 20 mar. 2011.
SILVA, Washington. Desenvolvimento com SQL Server. Disponível em:
32
<http://www.devmedia.com.br>. Acesso em: 1 mar. 2011.
SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. Xml como programar. 3 ed. Rio de Janeiro: Érica, 2010.
TOPOLNIAK, Luciano; SILVA, Gilberto Eduardo da. Computação em nuvem. O Rio Branco, Rio Branco, 20 fev. 2010. Disponível em: <http://www.oriobranco.net>. Acesso em: 20 mai. 2011.
UNIÃO EDUCACIONAL DO NORTE. Educação Digital. Escola. São Paulo; n. 45, mar. 2011. Disponível em: <http://www.uninorteac.com.br>. Acesso em: 29 mar. 2011.
UNIÃO EDUCACIONAL DO NORTE. Sistemas de Informações Gerenciais. Rio de Janeiro: Érica, 1998.
UNIVERSIDADE FEDERAL DO ACRE. Educação para adultos. Disponível em: <http://www.ufac.br>. Acesso em: 30 mar. 2011.
33