Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes
Preview:
Citation preview
- Slide 1
- Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos
Fagundes
- Slide 2
- Motivao Comunicaes de voz permanecer o meio predominante de
comunicao humana. Proporciona a transmisso de sinais de fala com
boa qualidade atravs de canais de comunicao com banda estreita. O
sistema CELP o ncleo da maioria dos sistema celular, e sistemas de
comunicao de banda estreita(VoIP).
- Slide 3
- SINAIS DA FALA Fala produzido por um sinal de excitao gerada em
nossa garganta, o que modificado por ressonncias produzidas por
diferentes formatos de nosso trato vocal, nasal e da faringe.
- Slide 4
- Vogais e Consoantes Este sinal de excitao pode ser a vibrao
glotal produzido pela abertura e fechamento peridico cordas vocais
o que cria voz sonora, como as vogais ou apenas o fluxo continuo de
ar empurrado por nossos pulmes, que cria a fala no articulada, tais
como o consoantes, ou mesmo uma combinao de ambos ao mesmo
tempo
- Slide 5
- Anatomia da voz As trs estruturas mais importantes so os pulmes
as cordas vocais e a laringe. A fonte de energia para a gerao de
sons provida pelo diafragma e msculos abdominais que pressionam os
pulmes e geram um fluxo de ar controlado que passa pelas cordas
vocais. O mecanismo de produo da voz apresenta uma resposta
limitada em freqncia, com limite por volta de 10kHz. 95% da energia
do sinal de voz esta concentrada na faixa de freqncia entre 300 e
3400 Hz, pode se limitar o canal a esta banda com uma perda
tolervel em qualidade.
- Slide 6
- Anatomia do voz Quando o ar vibrante entra na glote h uma
mudana na resistncia do ar (ao abrir ou fechar a continuidade da
traquia) e isso faz o processo de modulao da voz.
- Slide 7
- Anatomia da voz O som produzido quando a glote, que uma
abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar
interrompido e assim se cria uma seqncia de impulsos que possuem
algumas freqncias bsicas chamadas de tom (pitch). Nos homens estas
freqncias esto entre 80 e 160Hz e nas mulheres entre 180 e
320Hz.
- Slide 8
- Vogais e consoantes Exemplos de sons do tipo VOICED so as 5
vogais, das quais notam-se claras diferenas no pitch e na formant
do sinal ao comparar o som da vogal A com o som da vogal I
dispostas nas figuras abaixo:
- Slide 9
- Vogais e consoantes
- Slide 10
- Vogais e Consoantes J os sons do tipo UNVOICED, so bem
caracterizados atravs do exemplo do fonema S, que consta abaixo.
Sons deste tipo so descritos atravs de AWGN Aditive White Gaussian
Noise, e possui amplitude praticamente constante em todo
espectro.
- Slide 11
- Pitch e formantes O componente peridica da excitao glotal
caracterizado pela sua freqncia fundamental F0 [Hz], chamado pitch.
As freqncias de ressonncia o trato vocal, oral e da faringe so
chamados formantes. No espectro de um quadro de fala, o pitch
aparece como picos estreitos na fundamental e harmnicas Formantes
aparecem como picos largos do envelope do espectro
- Slide 12
- Pitch e formantes
- Slide 13
- Codecs existentes Comparao rudimentar de alguns dos esquemas de
codec existens na atualidade em termos de qualidade de voz e
bitrate.
- Slide 14
- Evoluo dos algoritmos
- Slide 15
- Linear Predictive Code Anlise de predio linear de sinais de voz
o ncleo da maioria dos sistemas de codificao parametricos de voz
(Celulares, VoIP, e etc). Um modelo simples de sntese da voz que
tem sido usado em processamento de fala para vrias aplicaes de
codificao.
- Slide 16
- Modelo do aparelho fonador Este modelo do sistema inspirado no
mecanismo humano de produo da fala. Voz sonora produzida pela
exitao do filtro do trato vocal com pulsos quasi-peridica do glote.
A periodicidade da voz sonora devido vibrao cordas vocais. Fala no
articulada (no vozeada) produzido forando o ar atravs de uma
constrio no trato vocal.
- Slide 17
- Linear Predictive Coding O trato vocal geralmente representado
por filtro digital de dcima ordem do tipo somente plos, como
mostrado no modelo LPC da fala. A fala produzida pela excitao do
filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote
E a fala no articulada gerada usando o estmulo rudo aleatrio ou
pseudo-branco. Os coeficientes do filtro e os parmetros de excitao
so geralmente determinadas a cada 20 ms ou menos.
- Slide 18
- Codificador LPC
- Slide 19
- Decodificador LPC
- Slide 20
- Comparao entre real e LPC
- Slide 21
- LINEAR PREDICTIVE CODING O filtro digital para aplicaes do
linear predictive coding caracterizado pela seguinte equao de
diferenas. Os parmetros de a i so os coeficientes do filtro e
controlam as caractersticas de freqncia de resposta do filtro.
Estes so determinados pela analise LPC.
- Slide 22
- Analise LPC
- Slide 23
- Derivao do algoritimo LPC O objetivo do LPC minimizar a
informao contida no sinal de exitao. Os parametros de predio a i so
desconhecidos e so determinadas pela minimizao Erro quadratico
medio (MSE) do sinal de exitao (e(n)).
- Slide 24
- O sinal de excitao (e(n)) pode ser gerado apartir de um sinal
de voz (s(n)) atraves da convoluo com o filtro LPC inverso, o qual
um filtro FIR, com coeficientes a i (a determinar) Derivao do
algoritimo LPC
- Slide 25
- Isto feito tomando a deriva do sinal de energia da exitao a
cada uma dos coeficientes, e igualando a zero.
- Slide 26
- Derivao do algoritimo LPC Isto gera uma Matriz Toepliz, que
pode ser resolvida usando o algoritmo recursivo
Levinson-Durbin.
- Slide 27
- Fittro de sintese A predio dos parmetros a(i) tambm so usados
para formar o filtro digital somente plos para sntese de voz. Os
coeficientes do LPC so computados resolvendo o a matriz de
autorrelao, gerando o filtro:
- Slide 28
- Estruturas de Filtros All-Pole Filtro all-pole, forma direta.
Filtro lattice Tem a vantagem de ter maior imunidade a
quantizao
- Slide 29
- Estimao do ganho O valor do ganho a ser aplicado no sinal de
exitao escolhido determinado pelo valor RMS do sinal de exitao
ideal. O qual obtido na analise LPC, sendo o primeiro coeficiente d
matrix de autocorrelao
- Slide 30
- Seleo de sinal vozeado no vozeado Apartir do sinal de
autocorrelao do sinal (excluindo o valor R(0)) definido um limiar
de deciso. Usualmente 0,3 do valor normalizado do vetor.
- Slide 31
- Estimao periodo do Pitch A fala possui uma falsa periodicidade,
oque dificulta a estimativa do pitch Pode ser determinado apartir
do sinal de autocorrelao do sinal, procurando os valores de pico e
repties do sinal (na faixa de 20 a 160). Como visto nas figuras
abaixo.
- Slide 32
- Estimativa do pitch - Sinal no vozeado
- Slide 33
- Estimativa do pitch - Sinal vozeado
- Slide 34
- Code Excited Linear Prediction Explora melhor a idia de
codificao anlise-por- sntese da fala, utilizando o conceito de
quantizao vetorial (VQ) para a seqncia de excitao. O codificador
seleciona uma sequncia de excitao de um codebook de seqncias
pr-definidas estocsticas.
- Slide 35
- CELP CELP, adicionalmente, aproveita a periodicidade de sons
vozeados e melhorar a eficincia do preditor. O filtro do preditor
de termo longo cascateado com o filtro de sntese, o que melhora a
eficincia do codebook O mais simples preditor de longo prazo
consiste de um filtro de um nico polo, o qual representa um simples
atraso com ganho ajustvel O mtodo de escolha dos vetores do
Codebook a analise por sntese
- Slide 36
- CELP : Analise por sintese O sistema varre cada um dos possveis
candidatos a sinal de excitao oriundos do gerador de excitao
Identifica o sinal que minimiza o erro entre o correspondente sinal
sintetizado e o sinal de fala da entrada O Decoder correspondente
simplesmente o gerador de excitao e o filtro de sintetizao.
- Slide 37
- CELP : Com filtro LTP Esta estrutura adiciona o filtro de
predio longa (LTP), o qual utilizado para aproveitar o fato de que
o sinal de exitao tem uma alta autocorrelao na frequencia do
pitch.
- Slide 38
- CELP : Estrutura Original A estrutura do codificador CELP
original tem como filtro LTP um filtro de um plo apenas. Essa adio
aproveita o fato de que o sinal de exitao apresenta uma alta
autocorelao na frequencia do pitch. Porem esse modelo
computacionalmente ineficiente.
- Slide 39
- CELP : Codebook Adaptativo Cada vetor do Codebook adaptativo
representa diferentes valores de pitch. Assim a busca pelos os
parmetros do filtro de predio longa so simplificados a busca de um
vetor no codebook adaptativo.
- Slide 40
- CELP : Estrutura final Retirar o efeito do frame anterior
deixado nas condies iniciais do filtro de sintese. Encontrar o
vetor do codebook Adaptativo que minimiza o Erro quadratico do
sinal sintetizado.E retirar o efeito desta exitao Encontrar o vetor
do codebook Fixo que minimiza o Erro quadratico do sinal
sintetizado.