10
1 Processamento de Sinais, Fala e Linguagem Ana L. C. Bazzan Instituto de Informática, UFRGS {[email protected]} Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 Roteiro ! Problemas do processamento da linguagem e da fala ! Corpus / Corpora ! Abordagens ! Autômato ! Modelo oculto de Markov ! Algoritmos ! Exemplos de aplicação ! Bibliografia Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 Problema do estudo das LN's ! Porque estudar proc. de linguagem? ! Qual a diferença entre estudar uma ling. natural (LN) e lógica clássica? / Porque é tão difícil estudar LN? ambiguidade no proc. sintático ambiguidade da LN metáforas (semântica) ! Comunicação entre HAL e os tripulantes da nave em "2001, uma odisseia no espaço" (inclui leitura de lábios) ! Objeto deste curso: somente parte fonética Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 Proc. de fala e linguagem ! métodos computacionais para processamento da ling. humana (falada e escrita): desde contagem de palavras até sist. de separação automática ("hifenação") e sist. de resposta automática (atendimento eletrônico, SAC, web) ! necessariamente conhecimento da linguagem (word count, wc não se incluem aqui) ! processo: análise do sinal acústico (ou similar em escrita), recuperação da sequência de palavras contidas no sinal, análise fonética e morfológica, análise semântica e resposta (sinal acústico ou escrito) Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 Exemplo ! 2001 Open the pod bay door, HAL (Dave) I'm afraid I can't do that (HAL) ! Características do diálogo cap. de usar formas coloquiais e contrações (can't) cap. de entender o pedido (ordem?) de Dave cap. de compreender o significado e consequência do pedido cap. de articular a resposta resp. educada (I'm afraid I can't) subst. de palavras (I can't do that ) Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 Processo ! 6 partes da linguística fonética e fonologia: estudo dos sons da língua morfologia: estudo dos componentes significativos das palavras (portas relaciona-se com porta) sintaxe: estudo das relações estruturais entre palavras semântica: estudo do significado pragmática: estudo de como a ling. é empregada para se atingir um dado objetivo discurso: estudo das unidades linguísticas maiores que a simples expressão verbal ou elocução (utterance)

Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

  • Upload
    lamlien

  • View
    221

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

1

Processamento de Sinais,Fala e Linguagem

Ana L. C. Bazzan

Instituto de Informática, UFRGS{[email protected]}

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Roteiro! Problemas do processamento da linguagem e da fala! Corpus / Corpora! Abordagens! Autômato! Modelo oculto de Markov! Algoritmos! Exemplos de aplicação! Bibliografia

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Problema do estudo das LN's! Porque estudar proc. de linguagem?! Qual a diferença entre estudar uma ling. natural (LN) e

lógica clássica? / Porque é tão difícil estudar LN?– ambiguidade no proc. sintático– ambiguidade da LN– metáforas (semântica)

! Comunicação entre HAL e os tripulantes da nave em"2001, uma odisseia no espaço" (inclui leitura de lábios)

! Objeto deste curso: somente parte fonética

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Proc. de fala e linguagem! métodos computacionais para processamento da ling.

humana (falada e escrita): desde contagem de palavrasaté sist. de separação automática ("hifenação") e sist. deresposta automática (atendimento eletrônico, SAC, web)

! necessariamente conhecimento da linguagem(word count, wc não se incluem aqui)

! processo: análise do sinal acústico (ou similar emescrita), recuperação da sequência de palavras contidasno sinal, análise fonética e morfológica, análisesemântica e resposta (sinal acústico ou escrito)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo! 2001

– Open the pod bay door, HAL (Dave)– I'm afraid I can't do that (HAL)

! Características do diálogo– cap. de usar formas coloquiais e contrações (can't)– cap. de entender o pedido (ordem?) de Dave– cap. de compreender o significado e consequência do pedido– cap. de articular a resposta– resp. educada (I'm afraid I can't)– subst. de palavras (I can't do that)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Processo! 6 partes da linguística

– fonética e fonologia: estudo dos sons da língua– morfologia: estudo dos componentes significativos das

palavras (portas relaciona-se com porta)– sintaxe: estudo das relações estruturais entre palavras– semântica: estudo do significado– pragmática: estudo de como a ling. é empregada para se

atingir um dado objetivo– discurso: estudo das unidades linguísticas maiores que a

simples expressão verbal ou elocução (utterance)

Page 2: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

2

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Processo! resolução de ambiguidades em cada nível

– fonético: por/pôr, two/to, four/for, eye/I– sintático e semântico: I made her duck

• cozinhei o pato dela• cozinhei pato para ela• fiz o pato dela• a transformei em pato• …

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Histórico! 40's - 50's: autômatos finitos, modelos probabilísticos,

teoria da informação, neurônio/perceptron! 1957 - 70's: teorias formais de linguagem, int. artificial,

redes Bayesianas, reconhecimento de caracteres,corpora (Brown corpus e outros), Chomsky

! 70's -1983:– paradigma estocástico: modelos de Markov / corpora– paradigma lógico: unificação (sintaxe)– entendimento da ling. natural: PLN e robótica, scripts– modelagem do discurso: speech-act, lógica BDI

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Histórico! 1983 - 1993: revival dos modelos baseados em

autômatos e dos modelos probabilísticos (IBM)! 1994 - 1999:

– tendência à unificação / métodos híbridos– web coloca novo desafio: busca e extração de informação

baseada em linguagem

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Estado da arte! programas comerciais

– previsão tempo (Canadá)• input: dados meteorológicos• output: boletim meteorológico em inglês e francês

– Babel Fish: tradução no AltaVista (> 106 consultas / dia)– inf. turística: perguntas em LN sobre restaurantes– tutor de leitura para melhorar alfabetização– avaliação de monografias de estudantes– "narração" em LN de um vídeo de jogo de futebol– predição de sequência de palavras (auxílio pessoas com

deficiência de fala)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Problema da Decodificação

sentençaoriginal

canalc/ ruído sentenças

possíveisdecodificadas

decodificação

1 n

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Métodos e Algoritmos! máquinas de estado, autômato finito! linguagens formais, lógica, gramáticas! teoria da probabilidade! busca e programação dinâmica! n-gram e modelo oculto de markov

Page 3: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

3

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams! predição da próxima palavra: tarefa ligada à

ambiguidade e ruído! exemplo:

– Telefonista, gostaria de fazer uma chamada …..[a cobrar, internacional, …]

– problema: encontrar as probabilidades associadas– uso: identificação de erros, ajuda à pessoas com deficiências

(afasia), atendimento automático! obs. das palavras ao redor (contexto fonético, não

sintático ou semântico!): I'll meet you in about 15minuets

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Corpora! corpus: conjunto de palavras usadas para contagem da

ocorrência de cada palavra (ou duplas, triplets, etc.)! exemplos: Brown corpus, Switchboard (transcrição de

conversas telefônicas), catálogo telefônico, conjunto dasobras de Sheakspeare, etc.

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams! processo

– calcular a prob. individual das palavras: corpora, dicionários– input: n-1 palavras anteriores– saída: n-ésima palavra– exemplo:

• "the" é aprox. 7% do Brown corpus enquanto que "rabbit"aparece 0,01%

• white …. (the ou rabbit ???)• é mais razoável olhar para as palavras em associação com

outras palavras vizinhas : p (rabbit | white)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams! prevêr prox. palavra baseado na "história" do texto

(estima a função de prob. p): p (wn | w1,…,wn-1)! não é possível encontrar a prob. de wn dadas todas as

palavras w1,…,wn-1 (porque ?)! hipótese de markov: as últimas (poucas) k-1 palavras

afetam a k-ésima palavra! ordem do modelo de markov:

– k = 1 (unigram) [ordem zero]– k = 2 (bigram) [ordem 1]– k = n (n-gram) [ordem n-1]

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams! exemplo 1

– S. engoliu a grande ….– S. swallowed the large green ….

• trad. não reproduz totalmente a idéia• em português: série de palavras masculinas seria eliminada

! exemplo 2– bigram (aprox. por 2 palavras)– p (rabbit | Just the other day I saw a white) ≈ p (rabbit | white)– p (rabbit | white) = C (white rabbit) / ∑w C (white <any w>) =

C (white rabbit) / C (white)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams! exemplo 3:

– Berkeley Restaurant Project• usuário faz perguntas sobre restaurantes em Berkeley, CA

– I'm looking for Cantonese food– I want to eat Chinese food for lunch

Page 4: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

4

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

N-grams! Uso para gerar texto

– treinar o modelo sobre um corpus– classificar todos n-grams de acordo com probabilidade– gerar um número randômico– pegar n-gram correspondente

! Poder dos n-grams: aumenta com a ordem

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Métricas sobre n-grams! Entropia:

– mede a quantidade de informação de uma gramática– dadas 2 gramáticas e 1 corpus, diz qual das gramáticas "casa"

com o corpus! função de um conj. χ (de palavras, letras, sinais, etc.) e

X é uma var. aleatória sobre χ! def.:

∑∈

⋅−=χx

xpxpXH )(log)()(

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Entropia! exemplo

– apostar em cavalos (8 por páreo)– enviar msg. c/ aposta (+ curta possível)– 8 cavalos com igual probabilidade => 3 bits– se prob. a priori de cada cavalo é: 1/2 (c1), 1/4 (c2), 1/8 (c3),

1/16 (c4), 1/64 (c5 a c8)– então H(x) sobre os 8 cavalos é:

– H(x) = 2 bits (média dos bits necessários)– codificação: 0 (c1), 10 (c2), 110 (c3), 1110 (c4), etc.

∑=

⋅−=8

1)(log)()(

iipipXH

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Entropia! entropia para uma sequência (gramática)

– seq. de palavras W={… w0, w1, w2, … , wn} da ling. L– neste caso X é definido sobre todas seqs. finitas de W com

tamanho b– exemplo:

• seja a seq. W1n = {w1 , w2, … , wn}

∑∈

⋅−=LnW

nnn WpWpwwwH

1

1121 )(log)(),...,,(

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Entropia! taxa de entropia (entropia por palavra) é a entropia da

seq. dividida pelo número de palavras:

! entropia de uma linguagem (proc. estocástico Lproduzindo seq. de palavras de compr. infinito):

∑∈

⋅−=LnW

nnnWpWp

nWH

n 1

111 )(log)(1)(1

)(1lim)( 1n

WHLH −=

Page 5: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

5

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Entropia! teorema de Shannon-McMillan-Breiman

! interpretação: em 1 seq. suficientemente longa depalavras, qq. outra sub-seq. estará contida; não énecessário somar sobre todas possíveis seqs.

)...(log1lim

),...,,(log),...,,(1lim

)(1lim)(

21

1

2121

1

nn

LnWnnn

nn

wwwpn

wwwpwwwpn

WHn

LH

=⋅−

=−=

∞→

∈∞→

∞→

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Perplexidade! segunda métrica: média ponderada do número de

escolhas associadas à uma variável aleatória! perplexidade ou perplexidade cruzada! dado por 2H

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Autômato Finito Ponderado! extensão do modelo autômato finito: cada arco

associado à probabilidades que indicam quão provável éo caminho

! concepção:– Cohen 1989: dicionários e regras (manuais) como as do

exemplo para diferentes formas de pronunciação (ou escrita)– probabilidades vêm da contagem sobre um corpus– outras propostas

! base:– Bayes: p(A|B) = [p(B|A) * p(A)] / p(B)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Autômato Finito: Formalismo! Definição:

– sequência de estados q = (q0 q1 q2 … qn) cada umcorrespondendo a um fonema

– conjunto de probabilidade de transição entre os estados:a = (a01 a12 a23 a34 … ) indicando a probabilidade de umfonema seguir um outro

– sequência observada (ou produzida) O = (o1 o2 o3 … on)– nodos = estados– arcos = probabilidades

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Problema da Decodificação! dada uma sequência O, um modelo de palavra w,

calcular qual palavra do modelo pode ter produzido O(ou seja p(O|w) * p(w) )

Page 6: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

6

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Algoritmo Forward

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Cálculo

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Algoritmo Viterbi! motivação:

– melhorar a eficiência do alg. forward:• para que calcular prob. em todos os caminhos?• para que calcular prob. para todas palavras?

– Viterbi considera todas palavras simultaneamente paracalcular o caminho mais provável

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Algoritmo Viterbi

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Entrada e Saída! entrada:

– autômato ponderado representando as palavras do modelo– conjunto de sequências observadas O = (o1 o2 o3 … on)

! saída:– sequência mais provável q = (q0 q1 q2 … qn) e sua

probabilidade

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Page 7: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

7

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Cálculo

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Segmentação de Palavras e Frases! AFP podem ser tb. usados em problemas de

segmentação em línguas como japonês, chinês ou emtexto falado

! representação de morfemas– cada palavra é representada por uma série de arcos

representando cada caracter da palavra seguido de um arcorepresentando a probabilidade da palavra

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! hidden markov model (HMM)! motivação: simplificações feitas no mod. do AFP

podem não ser válidas– input não é uma seq. de símbolos; na realidade a entrada é

ambigua– símbolos de entrada não correspondem exatamente aos

estados do autômato– em um HMM não se pode saber exatamente para qual estado

mover dado um símbolo pois este não determina o próximopasso de maneira única

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! definição formal:

– símbolos observados O (não necessariamente do mesmoalfabeto dos estados Q)

– conj. de estados ( Q = q1 q2 q3 … qn )– função de probabilidade de observação (B) cujos valores não

se limitam a zero e um (podem assumir qq. valor nesteintervalo): B = bi (ot) ou seja prob. da observ. ot ser gerada noestado i

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! definição formal (cont.):

– prob. de transição A = a01 a12 a23 … an1 … ann

– distr. inicial de prob. sobre os estados (π) de forma que π é aprob. de que o HMM se inicie no estado i (se πj=0, j não podeser um estado inicial)

– estados aceitos: conj. de estados legalmente aceitos

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Page 8: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

8

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! característica fundamental: não utiliza todo o espaço de

busca (todas sentenças possíveis) mas apenas as quetem alguma chance de parecer com a original

! seja O uma seq. de símbolos ou observações individuais(p. ex. discretizando o sinal acústico)

! qual é a sentença mais provável dentre as sentenças dalinguagem L dada uma entrada acústica O ? ou seja:

)|(maxarg OWpWLW∈

=)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! argmax f(x) retorna o x t.q. f(x) é máximo! para uma dada sentença W e uma sequência O, calcular

a sentença de prob. máxima:

)(

)()|(maxarg

Op

WpWOpW LW

⋅= ∈)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! p(O|W), p(W) e p(O) são mais fáceis de obter que

p(W|O):– p(W) vem do n-gram– p(O) pode ser ignorada (não muda para cada sentença e

portanto pode ser desprezada na maximização)! logo: a sentença W mais provável dada uma observ. O é

calculada pelo produto da sua prob. a priori p(W) pelaprob. do modelo acústico

)()|(maxarg WpWOpWLW

⋅=∈

)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Modelo Oculto de Markov! algoritmo forward para sentenças: intratável! alternativa: Viterbi

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Page 9: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

9

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exercício

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exemplo

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Exercício! calcular a prob. da seq. de estados {lemonade, iced_tea} na

seguinte maq. de refrigerante p(x1 … xn) = p(x1) . p(x2|x1) . p(x3|x1,x2) … p(xn|x1,x2…xn-1)

cola

start

i_tea

0.7

0.5

0.3

0.5

estado cola iced tea lemonade

cola 0.6 0.1 0.3icedtea

0.1 0.7 0.2

prob. de emissão

Resp.: 0.084 = 0.7*0.3*0.7*0.1+0.7*0.3*0.3*0.7+0.3*0.2*0.5*0.7+0.3*0.2*0.5*0.1

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Aplicações de HMM! 3 tipos de problemas:

– (1) dado um modelo µ=(A,B,π), como calcular (de modoeficiente) quão provável é uma certa observação [ p(O| µ) ] ?

– (2) dada uma observação O e um modelo µ, como escolheruma sequência de estados (x1 x2 … xn) que melhor expliqueestas observações?

– (3) dada uma sequência O e um conj. de possíveis modelos(obtidos através da variação de parâmetros A,B,π de µ), comoencontrar o modelo que melhor explica os dados observados?

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Aplicações de HMM! questões:

– qual é o melhor modelo? (prob. tipo 1)– qual o caminho seguido? (prob. tipo 2)– quais parâmetros? (prob. tipo 3)

Page 10: Problema do estudo das LN's Proc. de fala e linguagemfabricio/ftp/Aulas/Mestrado/IA/AnaBazzan/5004... · 3 Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001 N-grams!

10

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Resumo! representação de vários problemas associados à

linguagem como seq. de símbolos submetidos à canalcom ruídos que deve ser recuperada

! recuperação: considerar todas seqs. possíveis ordenadaspor sua prob. condicional (Bayes divide as probs. em apriori e prob. em si, obtida por treino do modelo)

! decodificação: encontrar a seq. original que gerou a seq.com ruído

! cálculo da "distância"entre 2 seqs.: minimum editsequence e posterior alinhamento

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Resumo! algoritmos:

– forward: modo eficiente de calcular a prob. de uma seq.observada dado um modelo representado por um autômato

– Viterbi: modo eficiente de solucionar o problema dadecodificação (considera todas strings possíveis e usa Bayespara calcular suas probabilidades de gerar a seq. observada)

! segmentação de palavras: alg. usado para segmentarseqs. expressando frases de línguas sem marcaçãoexplícita de palavras (japonês, chinês) ou texto falado

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Resumo! n-gram

– prob. condicional de uma palavra dadas as n-1 préviaspalavras

– prob. simples pode ser obtida em corpora e normalizadas– vantagem: inclui o conhecimento léxico– desvantagem: dependente do corpus usado para treinamento– métricas: entropia (quantidade de informação) e perplexidade

(para comparar 2 modelos probabilísticos)

Inf5004 Proc. Sinais, Fala e LInguagem Ana Lúcia C. Bazzan ©2001

Bibliografia! Russel and Norvig (1995): Art. Int. a Modern Approach

(Prentice Hall)! Jurafsky and Martin (2000): Speech and Language

Processing (Prentice Hall)! Manning and Schütze (1999, 2001): Foundations of

Statistical Natural Language Processing (MIT Press)! Cover and Thomas (1991): Elements of Information

Theory (Wiley)