Upload
danilo-sousa
View
61
Download
5
Embed Size (px)
Citation preview
© 2005, it - instituto de telecomunicações. Todos os direitos reservados.
Sara Candeias
Lab de Processamento de Fala Universidade de Coimbra, DEEC, Portugal
13 a 15 setembro 2012 São Carlos -‐ SP, Brasil
AS INTERFACES DA FALA A TEORIA LINGUÍSTICA E A LINGUÍSTICA TECNOLÓGICA
XI Encontro de Linguís2ca de Corpus
2
PLANO § A QUESTÃO: A TEORIA LINGUÍSTICA E A LINGUÍSTICA TECNOLÓGICA?
§ CONHECIMENTO LINGUÍSTICO E TECNOLOGIAS DA FALA:
§ ATITUDES
§ OBSTÁCULOS AO DIÁLOGO
§ CONSEQUÊNCIAS DA FALTA DE DIÁLOGO
§ A INTEGRAÇÃO
§ NECESSIDADES DO MERCADO
§ MUDANÇAS NECESSÁRIAS
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
3 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
"Every 2me I fire a linguist, the performance of the speech recognizer goes up"
Frederick Jelinek
A TEORIA LINGUÍSTICA E A LINGUÍSTICA TECNOLÓGICA
4
TECNOLOGIA DA FALA ABORDAGENS § Baseada no conhecimento teórico – human expert/knowleadge driven
A combinação de abordagens é possível?
§ Baseada em dados estaRsScos – machine learning/data driven
LINGUÍSTICA
ENGENHARIA
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
5
Can we leave it to the computer to learn
about speech or shall we insist on
developing our own insights in the many
dimensions of the speech code? (1983)
ELC2012 – São Carlos-‐SP, Brasil -‐ sept. 13-‐15, 2012
Gunnar Fant (1919-‐2009)
A TEORIA LINGUÍSTICA E A LINGUÍSTICA TECNOLÓGICA
6 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
UMA ATITUDE…
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
§ Baseada no conhecimento fonéSco-‐fonológico § Conhecimento formalizado como regras
FONETICISTA fornecedor de
conhecimento acerca do código de fala
7 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
OUTRA ATITUDE…
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
§ Baseada no conhecimento fonéSco-‐fonológico § Conhecimento formalizado como regras
FONETICISTA fornecedor de
conhecimento acerca do código de fala
Trabalho dispendioso, demorado, subje2vo, exigente, sem fim... POUCO EFICIENTE !?
8 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
OUTRA ATITUDE…
“in the last decades we have witnessed a decrease in the amount of phone=c knowldege used in ASR and TTS”
(2005)
Helmer S2k
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
9 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
OUTRA ATITUDE…
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
“The linguis=c approach soon lost terrain, in recogni=on applica=ons at least, to (nonlinguis=cally oriented) engineers who were less concerned with formal
linguis=c insights, trea=ng the signal as a paFern just like any other”
(2005)
William Barry
10 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
UMA OUTRA ATITUDE CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
§ Baseada na informação adquirida automaScamente de corpora: machine learning
§ Conhecimento dentro dos corpora
e2quetador (manual) de corpora FONETICISTA
11 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
UMA OUTRA ATITUDE…
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
§ Material anotado manualmente é a base: § para a caracterização estaRsSca da
fala § Para treinar sistemas de
eSquetagem automáSca para o reconhecimento de fala
§ Corpus-‐centric perspec=ve on spoken language
“Most manual annota=on focuses on the lexical level and seeks to derive labels and segmenta=on for the lower =ers (par=cularly segments) via automa=c methods” (Greenberg, 2005)
12 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
MUNDOS DIFERENTES…
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
§ PORQUE DECRESCEU O USO DE CONHECIMENTO LINGUÍSTICO EM TECNOLOGIA DA FALA AO LONGO DOS ANOS?
§ PORQUE A TRANSFERÊNCIA DE CONHECIMENTO LINGUÍSTICO PARA A TECNOLOGIA DE FALA É TÃO DIFÍCIL?
13 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
OBSTÁCULOS AO DIÁLOGO ENTRE LINGUÍSTICA (FONÉTICA) E TECNOLOGIA (ENGENHARIA)
§ A natureza do conhecimento fonéSco
§ A natureza abstrata dos modelos linguísScos
§ A falta de treino de interdisciplinaridade
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
14 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
A NATUREZA DO CONHECIMENTO FONÉTICO
OBSTÁCULOS AO DIÁLOGO
§ Menos detalhado em termos da natureza do sinal
§ Menos quanSficado
§ Menos necessitado de formalização lógica
“phone=cs does not provide ready-‐made quan=ta=ve models that can be plugged directly into a system”
(Strik, 2005: 177)
15 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
A NATUREZA DO CONHECIMENTO FONÉTICO
§ Menos detalhado em termos da natureza do sinal
§ Menos quanSficado
§ Menos necessitado de formalização lógica
§ Maioritariamente baseado em “fala de laboratório” devido à
necessidade de controlar variáveis num ambiente experimental
OBSTÁCULOS AO DIÁLOGO
16 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
A NATUREZA ABSTRATA DOS MODELOS LINGUÍSTICOS
§ Fonologia vs fonéSca
§ Sílaba
§ ...
OBSTÁCULOS AO DIÁLOGO
“Phonological systems like the ToBI approach only introduce a quan=sa=on error: the whole variety of F0 values available in
acous=cs is reduced to a mere binary opposi=on L vs. H, and to some few addi=onal, diacri=c dis=nc=ons”
(Batliner & Möbius, 2005)
17 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
A FALTA DE TREINO INTERDISCIPLINAR
OBSTÁCULOS AO DIÁLOGO
“a successful phone=cian working on a spoken language system will need some knowledge ofcomputers, algorithms, sta=s=cs and signal
processing” (Acero, 1995)
“linguist speech-‐technology engineer” “speech technology linguist”
(Barry et al., 2005)
18 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
“the phone=cs community has not focused on ques=ons most relevant for speech technology while the speech technology
community has not developed algorithms and data structures that are op=mally recep=ve for the incorpora=on of phone=c knowledge”
(van Santen, 2005)
CONSEQUÊNCIAS DA FALTA DE DIÁLOGO
§ Diferentes focos de interesse § Dificuldades em entender as necessidades ‘do outro’ § Tecnologia ‘imperfeita’
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
19 ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
CONSEQUÊNCIAS DA FALTA DE DIÁLOGO
§ Diferentes focos de interesse § Dificuldades em entender as necessidades ‘do outro’ § Tecnologia ‘imperfeita’
“The majority of the difficul=es I have had in the past when
coopera=ng with linguists stemmed from the fact that they gave me sugges=ons that were either very hard to incorporate in a computer program, or would probably not make any impact in overall system’s
performance.” (Acero, 1995)
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
20
A INTEGRAÇÃO
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
NECESSIDADES DE MERCADO
§ Fala sintéSca mais natural e expressiva
§ Modelação prosódica
§ Expressão de emoções
21
A INTEGRAÇÃO
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
NECESSIDADES DE MERCADO
§ Reconhecimento de fala espontânea
§ Muito dependente da disponibilidade de training data: corpora
de fala espontânea anotado a todos os níveis
§ Robustez com fala de crianças e de idosos, de não naSvos, fala
rápida, ‘adoentada’, sussurrada, ...
22
A INTEGRAÇÃO
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
NECESSIDADES DE MERCADO
§ Sistemas de fala com adequação comunicaSva
(pragmáSca)
§ Atos de fala (diálogos) e prosódia § Emoções e estados do falante
23
A INTEGRAÇÃO
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
MUDANÇAS NECESSÁRIAS
§ Treino de interdisciplinaridade entre foneScistas e engenheiros
§ Estruturas académicas capazes de promover a colaboração
interdisciplinar e o trabalho com a indústria
§ Indústrias capazes de considerar invesSr em projetos de
invesSgação e desenvolvimento a longo tempo
§ Mudanças na ‘mentalidade’ e na ‘cultura’
24
"Compu=ng power can not subs=tute
crucial knowledge" (Fant, 2004)
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
CONHECIMENTO LINGUÍSTICO NA TECNOLOGIA DA FALA
25
REFERÊNCIAS Fant, G. (1983). PhoneScs and speech technology. Speech Transmission Laboratory -‐ Quarterly Progress and Status
Report, 2-‐3, 20-‐35. Retrieved from hzp://www.speech.kth.se/prod/publicaSons/files/qpsr/1983/1983_24_2-‐3_020-‐035.pdf
Strik, H. (2005). Is phoneSc knowledge of any use for speech technology? In W. J. Barry & W. A. van Dommelen (Eds.), The integraSon of phoneSc knowledge in speech technology. (pp. 167-‐80). Dordrecht: Springer. Retrieved from hzp://lands.let.kun.nl/literature/strik.2005.1.pdf
Barry, W. J., Dommelen, W. A., & Koreman, J. (2005). PhoneSc knowledge in speech technology -‐ and phoneSc knowledge from speech technology? In W. J. Barry & W. A. van Dommelen (Eds.), The integraSon of phoneSc knowledge in speech technology. (pp. 1-‐12). Dordrecht: Springer. Retrieved from hzp://www.coli.uni-‐saarland.de/~koreman/PublicaSons/2005/Eurospeech2001.pdf
Greenberg, S. (2005). From here to uSlity -‐ melding phoneSc insight with speech technology. In W. J. Barry & W. A. van Dommelen (Eds.), The integraSon of phoneSc knowledge in speech technology. (pp. 107-‐32). Dordrecht: Springer. Retrieved from hzp://www.icsi.berkeley.edu/~steveng/PDF/PhoneSc_Insight.pdf
Batliner, A. & Möbius, B. (2005). Prosodic models, automaSc speech understanding, and speech synthesis: Towards the common ground? In W. J. Barry & W. A. van Dommelen (Eds.), The integraSon of phoneSc knowledge in speech technology. (pp. 21-‐44). Dordrecht: Springer.
Acero, A. (1995). The role of phoneScians in speech technology. In G. Bloothoo�, V. Hazan, D. Huber, & J. Llisterri (Eds.), European studies in phoneScs and speech communicaSon. (pp. 170-‐5). Utrecht: OTS PublicaSons. Retrieved from hzp://research.microso�.com/pubs/77752/Acero-‐PhoneScian.pdf
van Santen, J. P. H. (2005), PhoneSc knowledge in text-‐to-‐speech synthesis, in The integraSon of phoneSc knowledge in speech technology. (W. J. Barry & W. A. van Dommelen, editors), Dordrecht: Springer, 149-‐166.
Fant, G. (2004). More than half a century in phoneScs and speech research. In Speech acousScs and phoneScs: Selected wriSngs. (pp. 1-‐14). Dordrecht: Kluwer. (Original work published 2000) Retrieved from hzp://www.speech.kth.se/gunnarfant/halfcentury.pdf
ELC2012 – São Carlos-‐SP, Brasil -‐ set. 13-‐15, 2012
© 2005, it - instituto de telecomunicações. Todos os direitos reservados.
Sara Candeias [email protected]
Lab de Processamento de Fala Universidade de Coimbra, DEEC -‐ Portugal
13 a 15 setembro 2012 São Carlos -‐ SP, Brasil
XI Encontro de Linguís2ca de Corpus
AS INTERFACES DA FALA A TEORIA LINGUÍSTICA E A LINGUÍSTICA TECNOLÓGICA