Fine frequency error estimation theory - Dipartimento Infocominfocom.uniroma1.it/alef/doc/ri_5.doc · Web viewDipartimento INFOCOM - Universita’ di Roma La Sapienza. Decodifica

Dipartimento INFOCOM - Universita’ di Roma La Sapienza

Decodifica Audio - Video di volti parlanti mediante Modelli

di Markov Nascosti

Alessandro Falaschi

Rapporto Interno N.2 - Settore 4 Roma, 10 Novembre 1997

Tavola dei Contenuti

2

Introduzione3

I. - Formulazione Analitica4

II. - Base Dati5

III. - Creazione del Dizionario di Prototipi Acustici e Visemici7

IV. - Stima degli HMM Marginali8

IV.1 - Definizione della Sorgente Linguistica8

IV.2 - Inizializzazione degli HMM marginali9

IV.3 - Prerequisiti alla stima degli HMM10

IV.4 - Stima dei parametri degli HMM 11

IV.5 - Potatura della Matrice di Transizione12

IV.6 - Segmentazione della Base Dati nelle unita’ Audio-Video definite dagli HMM Marginali

13

V. - Compilazione dell’HMM Congiunto14

VI. - Sintesi della Sequenza di Animazione16

VII. - Risultati17

VIII. - Conclusioni e Prosecuzione della Ricerca20

3

Bibliografia20

Appendice A - Contenuto del DataBase utilizzato23

4

IntroduzioneE' ben noto che la conoscenza della proprieta' statistiche di un segnale puo' essere

sfruttata per ridurre la banda necessaria alla codifica dello stesso. Infatti, tali conoscenze permettono sia tecniche di codifica differenziale, che sfruttano la predittivita' del modello di segnale, sia di codifica parametrica, in cui il ricevitore sintetizza il segnale alimentando il modello di sorgente con i parametri estratti dal trasmettitore. Nel processo di comunicazione linguistica, la sorgente (il parlante) e' sottoposta a vincoli di duplice natura, interagenti tra loro: gli organi di fonazione, che danno luogo a ovvie restrizioni di natura fisiologico - articolatoria, e le parole del linguaggio, che condizionano la natura e la concatenazione delle unita' fonetico-linguistiche.

Le conoscenza statistico-strutturale del messagggio linguistico e’ sfruttata nelle tecniche di riconoscimento vocale mediante HMM (Hidden Markov Models ovvero Modelli di Markov Nascosti), in cui il problema e’ formulato come quello della ricezione ottima di messaggi trasmessi attraverso un canale rumoroso, e risolto applicando l'algoritmo di Viterbi a vettori di coefficienti di rappresentazioni spettrali a breve termine, calcolate a partire dal segnale audio, considerati come vettori di segnale ricevuto. Questi vettori, indicati come processo “di osservazione” sono posti in relazione statistica con le unita’ linguistiche, la cui produzione e’ assimilata alla evoluzione (non osservabile direttamente) di una sorgente di Markoviana, e che costituiscono il messaggio trasmesso. La stima delle statistiche delle osservazioni, condizionate agli stati dei modelli Markoviani, assieme a quelle delle matrici di transizione tra stati, costituisce quindi l’elemento che permette il processo di decodifica nei termini di una verifica di ipotesi, operata in termini di decisioni sequenziali a mezzo dell’algoritmo di Viterbi.

Le stesse metodologie di soluzione sono qui ora utilizzate (vedi Fig. 0) allo scopo di intraprendere un altro tipo di elaborazione linguistica, consistente nel produrre una rappresentazione animata di un volto umano stilizzato, i cui movimenti labiali siano sincroni e coerenti con il segnale audio (di parlato, ovviamente!) a disposizione. Si vuole cioe’ attuare ancora un processo di decodifica, in cui stavolta il messaggio (incognito) trasmesso e’ costituito dai movimenti articolatori del volto di un parlante, anziche’

Testo W(sequenzalinguistica)

SegnaleAcustico

Y

Canale dipronuncia(fonazione)

Testoriconosciuto

W’

Modello e alfabetolinguistico

P P w wi iW / 1

Riconoscitoredi Parlato

(algoritmo diViterbi)

Modello acustico(HMM)

P P y wi iY W/ /

Volto Parlante [V](sequenza

articolatoria.)

SegnaleAcustico

[Y]

Canale dipronuncia(fonazione)

ParametriArticolatoriSintetici V’

DecodificaAudio-Video(algoritmo di

Viterbi)

W

WW Y

W

Y W WY W

Y W' arg max arg max arg max ; PP P

PP

Fig. 0 - Formulazione statistica del riconoscimento vocale e sua applicazione alla decodifica Audio-Video.

Sopra: rappresentazione del processo di riconoscimento vocale come decodifica di massima verosimiglianza di un messaggio con statistiche note, osservato attraverso un canale di fonazione.

Nel mezzo: criterio di massima verosimiglianza adottato dal riconoscitore Sotto: trasposizione della tecnica di riconoscimento vocale al problema della

decodifica audio-video.dalla rappresentazione grafemica delle parole pronunciate.

Gli scopi della ricerca sono molteplici. Ai fini della trasmissione, la stima del processo articolatorio a partire da quello acustico puo’ essere impiegata per interpolare tra loro le immagini di un segnale di videoconferenza con bassa frequenza di quadro. Un’altra applicazione prevista e’ quella di generare una immagine sintetica raffigurante un volto parlante, ed integrare la stessa in sistemi di presentazione multimediale, in modo da accompagnare il commento vocale fornito dal

5

dispositivo informativo con l’animazione del volto, allo scopo di produrre nell’interattore una maggiore attenzione, una migliore comprensibilita’ delle informazioni, ed un maggior grado di accettazione del dispositivo informativo.

Il presente rapporto, dopo una breve introduzione alla teoria analitica alla base delle metodologie impiegate, espone dettagliatamente tutti i passi necessari per stimare i parametri del decodificatore audio-video, e riferisce a riguardo dei primi risultati ottenuti, allo scopo di costituire la documentazione del lavoro svolto e la base per i suoi successivi sviluppi.

In bibliografia sono infine riportati diversi riferimenti che possono costituire utile materiale di approfondimento: da [10] a [13] sono riportate tecniche per l’acquisizione di immagini ed in [14]-[17] vengono illustrate tecniche di elaborazione finalizzate all’estrazione di parametri articolatori. Il lavori [18]-[22] sono relativi a tecniche di sintesi di volti parlanti, quelli da [23] a [27] trattano dell’integrazione del segnale audio con quello video, mentre [28] e [29] illustrano tecniche di riconoscimento del parlato a partire dal segnale video.

I. - Formulazione Analitica

La teoria alla base della rappresentazione dei processi linguistici in termini di HMM viene esposta in modo completo in [1]-[2], mentre [3] costituisce la migliore documentazione dell’insieme di programmi realizzati dall’autore nell’ambito del proprio dottorato di ricerca. Pertanto, si esporra’ ora solamente la parte di teoria strettamente pertinente al nuovo caso in esame.

La metodologia si basa sulla stima dei parametri di due diversi "modelli Markoviani Nascosti Egodici" (EHMM, Ergodic Hidden Markov Model), che chiameremo modelli marginali, ognuno dei quali costituisce un modello di sorgente strutturata per i processi vettoriali le cui realizzazioni sono rappresentate rispettivamente dalle sequenze di parametri acustici a i ed articolatori v i . Terminata la fase di apprendimento, gli EHMM sono in grado di fornire (mediante esecuzione dell'algoritmo di Viterbi) la codifica delle osservazioni a i e v i in termini della sequenza di stati degli stessi (indicati con S i ed Qi per i modelli acustico e articolatorio rispettivamente) che rende massima la probabilita' congiunta con le osservazioni, ovvero

arg max , arg max / /S p a S p Sip a S p S Si

Sii i

Si

N

i i i i

0 11

arg max , arg max / /Q p v Q p Qip v Q p Q Qi

Qii i

Qi

N

i i i i

0 11

La stima dei parametri degli EHMM (probabilita’ di transizione p S Si i/ 1 e p Q Qi i/ 1 e densita’ di osservazione p a Si i/ e p v Qi i/ ) consente di individuare e caratterizzare le classi fonetiche e visemiche, nei termini delle densita' di probabilita' di osservazione condizionate agli stati dei modelli. Inoltre, la matrice di transizione tra gli stati dei modelli costituisce una rappresentazione dei vincoli fisiologici sulle possibili sequenze di eventi linguistici. Durante l’apprendimento, molte transizioni interne ai due modelli vengono eliminate del tutto applicando un criterio gia' sperimentato [4] e basato sul mantenere solo quelle per le quali risulta maggiore l’informazione mutua tra la coppia di stati connessi, riducendo cosi’ la sensibilita' dei modelli stimati rispetto agli eventi scarsamente rappresentativi presenti nei dati di apprendimento. Tutti questi argomenti sono l’oggetto del § IV.

Durante la fase di apprendimento, viene stimata anche la probabilita' condizionale della co-occorrenza di coppie di stati p S Qi i/ appartenenti ai due modelli, necessarie all’uso congiunto dei due EHMM marginali, per permettere la ricostruzione della sequenza di parametri articolatori v i a partire dalla sola osservazione di quelli acustici a i . In particolare, vengono assunte le seguenti posizioni:

6

1) - la probabilita' di osservare il vettore acustico a i e' condizionata al solo stato acustico S i : p a p a S Q v p a Si i i i i i i / , , /

2) - la probabilita' di trovarsi in uno stato acustico S i e' condizionata solo dallo stato articolatorio allo stesso istante: p S p S S Q Q p S Qi i i i i i i / , , /1 1

3) - la probabilita' di trovarsi in uno stato articolatorio Qi e' condizionata solo dallo stato articolatorio precedente: p Q p Q S S Q p Q Qi i i i i i i / , , /1 1 1 .

Sotto tali ipotesi, l'applicazione dell'algoritmo di Viterbi e' in grado di individuare la sequenza di stati articolatori Qi tale che

arg max,

, , arg max,

, /

arg max,

, / /

arg max,

/ / /

QS Q

p a S QS Q

p a S Q p Q

S Q ip a S Q p Q

ip Q Q

S Qp Q

ip a S p S Q p Q Q

i

i i

i i i

i i

i i i i

i i

N

i i i

N

i i

i i

N

i i i i i i

1 1

1

0 1

0 1

La sequenza video potra' dunque essere sintetizzata a partire dai valori medi dei parametri articolatori vi associati ad ognuno degli stati Qi decodificati.

Il risultato a cui siamo pervenuti puo’ essere ottenuto in modo equivalente considerando, anziche’ i due modelli marginali, un unico modello (che chiameremo CONGIUNTO) che ha origine dai due marginali a seguito della applicazione delle ipotesi sopra riportate. La compilazione di un unico modello congiunto e’ descritta al § V.

Si noti che, nella formulazione esposta, il modello congiunto e’ sostanzialmente equivalente ad un HMM articolatorio ai cui stati siano associate misture di densita’ di probabilita’ di osservazione acustica, con cefficienti delle misture date dai valori di probabilita’ degli stati dell’HMM acustico, condizionati agli stati dell’HMM articolatorio. La differenza e’ data dal fatto che, con la formulazione qui introdotta, le probabilita’ di transizione del modello congiunto possono essere modificate mediante la stessa metodologia di apprendimento usata per i modelli marginali, fornendo un risultato diverso e piu’ aderente al processo da rappresentare, rispetto a quello ottenibile con delle semplici misture. Quest’ultimo passaggio, sara’ oggetto di un lavoro futuro.

7

II. - Base DatiIl progetto si avvale di una base dati bimodale registrata presso lo C.S.E.L.T. il 7/3/95 e

composta da 551 parole pronunciate da un unico individuo. La base dati consiste in 12 coppie di directory, ognuna delle quali contiene la registrazione audio (campioni a 16 bit memorizzati a frequenza di 8 Khz) ed i valori di 4 parametri geometrici (H, W, LM e Lup definiti in Fig. 1) che rappresentano i riferimenti essenziali del volto che pronuncia le parole registrati nel file gemello, normalizzati tra [-1,+1], e memorizzati a frequenza di 50 frames/sec.

La base di dati originaria e’ stata innanzitutto convertita di formato, e quindi segmentata in files piu’ piccoli. I dati audio sono stati convertiti in formato .wav per poter essere riprodotti mediante schede sonore standard in ambiente windows, mentre i 4 files di parametri articolatori (relativi alla stessa pronuncia) sono stati raggruppati assieme in un unico file binario (mediante il programma CONVART.EXE) con il formato [2 byte con numero trame + 2 byte con numero di coefficienti + N.trame*N.coeff float].

La suddivisione originaria dei files e’ stata quindi resa piu’ “fine” includendo solo 5 parole per ogni file (in modo da rendere piu’ agevole il processo di stima di parametri degli HMM, e producendo un database bimodale i cui files hanno nome Cmmnn.EXT in cui EXT risulta pari a WAV per i files audio e NAC per quelli articolatori; mm e’ un mumero progressivo da 00 a 12 che fa riferimento alla numerazione del database originario, ed nn un numero progressivo che fa riferimento alla nuova suddivisione. I contenuti del nuovo database sono riportati in Appendice A. La suddivisione congiunta delle due categorie di parametri e’ operata mediante il programma RIDFILE.EXE, che fornisce una grafico dell’energia a breve termine calcolata a partire dal segnale audio, in base al quale si individuano le trame di inizio-fine dei nuovi files da creare. Lo stesso programma e’ inoltre usato per generare dei files di nome Cmmnn.seg che riportano al loro interno i frames di inizio e fine delle regioni contenenti segnale e quelle contenenti silenzio;

Fig.1 - Definizione dei parametri geometrici utilizzati nel database

8

SOX CONVART

RIDFILE

File Audio Raw

File Audio Segmentato .WAV

File Audio .WAV

Indici Segnale/Silenzio .SEG(rinominati in .SIG)

4 files di Parametri Articolatori

File Articolatori .NAC

File Articolatori Segmentati .NAC

MOUTH

Animazione con Audio Sincrono di Volto Parlante

TESTART

Verifica a Schemo buon esito

Fig.2 - Sequenza delle operazioni effettuate sui files del database originario

tale informazione verra’ poi usata sia nell’ambito del processo di quantizzazione vettoriale esposta in III, sia durante la fase di apprendimento degli HMM. La fig. 2 riassume la sequenza delle operazioni effettuate sui dati.

Il database bimodale ora descritto puo’ essere riprodotto dal programma windows MOUTH.EXE sviluppato nell’ambito di una borsa di studio Erasmus dallo studente Jose Joaquin Escudero [5].

III. - Creazione del Dizionario di Prototipi Acustici e Visemici

Gli HMM discussi in II necessitano, per essere utilizzati, di una stima iniziale dei parametri delle densita’ di osservazione dei processi acustico e articolatorio, ottenuta mediante un processo di quantizzazione vettoriale. L’algoritmo utilizzato e’ il quantizzatore di Lynde-Buzo-Gray [6] che opera direttamente sui coefficienti articolatori, mentre per il segnale acustico si opera prima una parametrizazione in forma di coefficienti Mel-Cepstrum [7] calcolando 9 coefficienti per ogni trama di 20 msec, e producendo dunque un file di nome Cmmnn.CEP dal formato [2 byte con numero trame + 2 byte con numero coefficienti + N.trame*N.coeff float] del tutto sincrono con il file di parametri articolatori Cmmnn.NAC. Le sequenze di coefficienti cepstrali possono essere rese in forma grafica mediante il programma CALMFC.EXE. La fig. 3 riassume la sequenza delle elaborazioni effettuate sui dati.

L’algoritmo di quantizzazione vettoriale viene eseguito mediante il programma CODESEG, e fornisce due codebook separati per le fasi di parlato e per quelle di silenzio, per entrambi i tipi di coefficienti utilizzati, calcolati sulle diverse classificazioni di segnale cosi’ come descritto nel file di segmentazione .SEG. I codebook contengono, oltre i vettori medi di ognuno dei cluster individuati, anche una stima della varianza degli elementi appartenenti ai cluster, in modo da fornire tutti i valori necesssari all’inizializzazione degli HMM ergodici. Il formato con cui vengono memorizzati i codebook e’ ASCII piano, ed e’ composto dalle informazioni:

1° riga N.di codeword N.di coefficientiper tutte le codeword

media varianza media varianza etc (per tutti i coefficienti)

Essendo il metodo di individuazione dei cluster di natura gerarchica, oltre al codebook delle dimensione richiesta (una potenza di due) vengono memorizzati su file anche tutti i codebook intermedi di dimensione inferiore, separati l’un l’altro da un riga vuota, di seguito al codebook di dimensione nominale, in ordine di dimensione decrescente. In tal modo, i risultati possono essere usati anche per inizializzare HMM di cardinalita’ ridotta, utili in fase di messa a

9

punto degli algoritmi. Ulteriori dettagli sulle caratteristiche statistiche delle classificazioni ottenibili per mezzo di quantizzazione vettoriale possono essere trovati su [8].

IV. - Stima degli HMM MarginaliLa fase di apprendimento degli HMM prevede una serie di passi preliminari necessari per

inizializzare le strutture di dati su cui operare l’apprendimento.

IV.1 - Definizione della Sorgente LinguisticaIl codice che realizza l’algoritmo di Viterbi e’ di natura la piu’ generale possibile, idoneo ad

un suo utilizzo in ambiti diversi, ovvero per riconoscimento di parole isolate, riconoscimento fonetico, o di parlato connesso. In questa prima fase viene generata (e memorizzata nel file WORDMOD) la struttura di dati che rappresenta la sintassi delle unita’ linguistiche adottate per il compito di riconoscimento, ossia i

CALMFC

Parametri Mel-CepstraliCmmnn.CEP

Parametri ArticolatoriCmmnn.NAC

CODESEG

Indici Segnale/SilenzioCmmnn.SEG

Elenco Nomi FileCmmnn.* Lista.FIL

File AudioCmmnn.WAV

CODESEG

Codebook PrototipiCepstrali di Parlato

ACU#.CDB

Codebook PrototipiCepstrali di Silenzio

ACU_.CDB

Codebook PrototipiArticolatori di Silenzio

ART_.CDB

Codebook PrototipiArticolatori di Parlato

ART#.CDB

SONAFILE

QVET QVET

CmmnnQ.CEP CmmnnQ.NACSONAFILE MOUTH


Verifica a Schemo buon esitoVerifica a Schemo buon esito

Fig.3 - Sequenza delle operazioni necessarie al calcolo dei codebook per inizializzare gli HMM

10

SEESOR

Stampa a video della fonotassi

Stringhe di esempiodel linguaggio

MAKESINT.STRTRAISOR Matrice di transizione sintattica

WORDMOD

Alfabeto dei simbolidi sorgente

PAROLE.DAT

Inizio

Fine

Voce#

a) b)Silenzio

_

Fig.4 - a) Relazioni tra i files che intervengono nella inizializzazione della fonotassib) Struttura della fonotassi memorizzata in WORDMOD

possibili modi di concatenazione delle suddette unita’, e che costituisce un livello macroscopico del modello di sorgente previsto dall’impostazione comunicazionistica alla soluzione del problema. Le unita’ linguisticheverranno poi a loro volta rappresentate da diversi HMM, che definiscono un ulteriore livello di strutturazione del modello di sorgente, questa volta relativa ad eventi di produzione acustica ed articolatoria. Gli stati della sintassi vengono contraddistinti mediante tre indici (il cui significato puo’ essere compreso andando ad esaminare la prima applicazione del riconoscitore [3]), e la grammatica stessa viene compilata (utilizzando il programma TRAISOR) mediante esempi di possibili sequenze (TRAISOR.STR). In Fig. 4a sono riportate le dipendenze tra i files ora descritti, a cui aggiungiamo un file (PAROLE.DAT) in cui viene descritto l’alfabeto dei simboli utilizzati; esiste inoltre un programma (SEESOR) che permette la visualizzazione della sintassi. In Fig 4b invece e’ schematizzata la struttura della sintassi risultante nel caso in esame; come si vede, vengono distinti solamente due unita’ a livello linguistico, ossia le fasi di parlato e quelle di silenzio, indicate rispettivamente con i simboli # e _. Ad ognuna di queste due unita’ verra’ fatto corrispondere un diverso HMM di tipo ergodico; le densita’ di probabilita’ di osservazione condizionate agli stati di questi ultimi caratterizzeranno dunque gli eventi acustici (od articolatori per il segnale visemico) che hanno luogo durante la produzione delle unita’ linguistiche.

IV.2 - Inizializzazione degli HMM marginaliDefiniamo innanzitutto cosa si intenda per HMM e come gli stessi siano derivabili dal

processo di crazione del codebook riportato precedentemente. La Fig. 5a mostra il diagramma di transizione di un EHMM a quattro stati; ogni transizione vedra’ assegnato un valore di probabilita’ (equamente distribuita in sede di inizializzazione) ed ogni stato avra’ assegnato un vettore di medie ed un vettore di varianze, calcolate durante la creazione dei codebook, che rappresentano i paramentri di una densita’ di probabilita’ mutivariata gaussiana a componenti ortogonali, e che rappresenta la descrizione statistica delle osservazioni (coefficienti cepstrum ovvero parametri geometrici) del fenomeno fisico associato ad un particolare stato. La fig. 5b mostra come gli EHMM possano essere “aumentati” con degli stati di ingresso ed uscita rappresentati con linee tratteggiate, privi questi di una densita’ di osservazione associata e per questo indicati spesso come “stati nulli”, in modo da ottenere i cosiddetti modelli “Left-to-Rigth” che possono essere utilizzati nell’ambito del modello di sorgente descritto al paragrafo precedente.Descriviamo ora i passi necessari alla creazione degli HMM Ergodici (EHMM) da utilizzare nel progetto, illustrati in Fig.6. Il programma CREAMOD effettua un dialogo a schermo in cui chiede, per ogni simbolo linguistico previsto, il nome del codebook da adottare. A partire da questi ultimi, provvede a generare i due file ACMOD. e FONMODG. che contengono, rispettivamente, le medie e varianze associate alle densita’ dei singoli stati, prelevate dai files di codebook, e le matrici di transizione degli HMM, che vengono inizializzate come equiprobabili. Esiste inoltre un programma (SEESPE) che permette di verificare il buon esito del processo di generazione degli HMM.

11

a) b)

p a Si i

i i

/

,

Stati senzadi densita’

di osservazione(NULLI)

pS Si i/ 1

Fig.5 - a) HMM Ergodico (caso acustico) b) Impiego dell’EHMM come modello Left-to-Right

SEESPE Verifica a Schemo buon esito

CREAMOD

HMM RisultantiACMOD.ACU

FONMODG.ACU

Codebook PrototipiCepstrali di Parlato e

di SilenzioACU#.CDBACU_.CDB

CREAMOD

HMM RisultantiACMOD.ART

FONMODG.ART

Codebook PrototipiArticolatori di Parlato

e di SilenzioART#.CDBART_.CDB

PAROLE.DATAlfabeto

linguistico

Fig.6 - Creazione degli HMM

IV.3 - Prerequisiti alla stima degli HMMPrima di procedere all’apprendimento dei singoli HMM acustico ed articolatorio, occorre

predisporre le informazioni necessarie al corretto allineamento del segnale di apprendimento con le unita’ linguistiche definite nell’ambito del modello di sorgente WORDMOD (voce e silenzio nel nostro caso). Cio’ viene realizzato mediante il programma TRAISOR (lo stesso utilizzato per la compilazione del Modello di Sorgente), a cui viene in questo caso fornita (mediante il file TRAIN.STR) una trascrizione in termini delle unita’ linguistiche del contenuto del materiale di apprendimento. In base a questa informazione, ed utilizzando la struttura del modello di sorgente precedentemente ottenuto, si genera il file TRAIN.MEM che contiene la sequenza di stati di sorgente corrispondenti ai simboli linguistici presenti nei dati di apprendimento. Nel caso particolare che stiamo analizzando, tale sequenza sara’ invariabilmente il succedersi di fasi di voce e di silenzio, in numero pari al numero di parole presenti in ognuno dei files utilizzati per l’apprendimento.

12

TRAIN.STROgni riga contiene lela sequenza di unita’

linguistiche di uno deifiles usati per

l’apprendimento

Stringhe di esempio

TRAISOR TRAIN.MEM - Sequenza di stati disorgente attraversati dal materiale di

apprendimentoTRAIN.SOL - Sequenza di simboli

linguistici nei dati di apprendimentoModello di Sorgente

LinguisticaWORDMOD

Fig.7 - Requisiti per apprendimento e valutazione

La fig. 7 raffigura le operazioni ora descritte, ed evidenzia l’ottenimento di un ulteriore file, TRAIN.SOL, da utilizzare per verificare le prestazioni del riconoscitore quando, terminata la fase di apprendimento, lo stesso puo’ essere impiegato per individuare la segmentazione del segnale nelle unita’ linguistiche previste.

IV.4 - Stima dei parametri degli HMM Siamo finalmente in grado di procedere all’apprendimento delle due coppie di HMM (le due

fasi di silenzio e voce per i due tipi di coefficienti cepstrali e articolatori) che sono memorizzati in ACMOD.ext e FONMODG.ext (con ext pari a <ART> e <AUD> per i due tipi di coefficienti). Questo precesso avviene per mezzo del programma RECOGEXE che per prima cosa accede al file di testo RECOG.CFG in cui sono registrati i valori di tutte le possibili opzioni da comunicare al programma. Tra le altre, citiamo la presenza del nome del file contenente l’elenco dei nomi di file da utilizzare nell’apprendimento (che nel nostro caso di esempio si chiama TRAIN.FIL, e la cui radice del nome servira’ per costruire anche il nome del file .MEM generato al passo precedente); la richiesta del tipo di apprendimento da effettuare (sono possibili le opzioni “Viterbi” per un semplice riallineamento dei dati di apprendimento con gli stati degli HMM, oppure “Jouvet”, che rappresenta una soluzione di compromesso piu’ simile all’algoritmo di Baum-Welch [3]); la scelta della larghezza di ricerca che incide sulla accuratezza del processo di stima e sul tempo impiegato dal processo; la possibilita’ di ricevere a schermo informazioni sull’andamento del processo di apprendimento, come i dettagli della segmentazione individuata sia a livello di HMM che di singolo stato al suo interno, ovvero di seguire l’andamento di grandezze relative all’implementazione dell’algoritmo.

Il processo di apprendimento esamina tutti i files elencati in TRAIN.FIL, e con l’ausilio del file TRAIN.MEM, mette in corrispondenza ogni trama dei dati di apprendimento con uno stato della sequenza di HMM associati ai simboli linguistici costituenti la frase; al termine dell’esame dei dati di apprendimento, i valori dei parametri degli HMM (densita’ di osservazione e matrice di transizione) vengono aggiornati in accordo alle corrispondenze individuate ed i risultati ottenuti memorizzati nuovamente nei file ACMOD. e FONMOD. Il processo di stima viene quindi iterato finche’ la verosimiglianza calcolata per i dati in due passi consecutivi di apprendimento non differisce per piu’ di una soglia fissata a priori. Per maggiori dettagli sul processo di apprendimento si veda [3]. La fig. 8 esemplifica la procedura di apprendimento.

RECOG.CFGContiene i valori delle

possibili opzioniRECOGEXE ACMOD.ext

FONMODG.extI parametri degli HMM in corso di

apprendimentoModello di SorgenteLinguistica

WORDMODDataBaseCmmnn.CEPCmmnn.NACCmmnn.SIG Elenco dei files da

esaminareTRAIN.FIL

ext Modello

.ACU

.ARTAcusticoArticolatorio

Fig.8 - Processo di apprendimentoLa verifica del buon esito del processo di apprendimento e’ attuata per mezzo della

procedura descritta al § IV.6, che permette di visualizzare “l’interpretazione” del segnale da parte dei modelli stimati. In tal modo, ci si e’ accorti che la relativa casualita’ dei coefficienti articolatori (nel database in diverse circostanze si individuano fasi di silenzio associate a conformazioni labiali aperte) produceva una errata classificazione del segnale in termini di unita’ linguistiche (silenzio e voce). Tale effetto causava l’errore di stimare parametri dell’HMM di silenzio anche a partire da fasi di segnale corrispondente a parlato, e viceversa, rendendo di fatto inutile la suddivisione del

13

segnale in parlato e silenzio descritta al § II. Inoltre, il problema evidenziato avrebbe reso di fatto impossibile la compilazione del modello congiunto descritta al § V.

La soluzione che si e’ adottata e’ stata quella di modificare la parte di codice realtiva al processo di apprendimento svolto da RECOGEXE in modo da tenere conto delle informazioni contenute nei files Cmmnn.seg prodotti mediante RIDFILE (vedi § II), contenenti gli indici di trama di inizio delle fasi di silenzio e parlato, a cui viene ora assegnata l’estensione .SIG. Il nuovo codice di apprendimento vincola quindi l’algoritmo di Viterbi a considerare solo percorsi per cui gli stati dei modelli di silenzio e parlato possono essere messi in corrispondenza esclusivamente a trame di segnale delle stessa classe linguistica.

IV.5 - Potatura della Matrice di TransizioneLa versione attualmente utilizzata del programma di apprendimento degli HMM fa uso di

una apposita procedura che provvede ad eliminare le transizioni tra gli stati dell’HMM che non sembrano avere particolare rilevanza da un punto di vista della aderenza del modello rispetto alla realta’ fisica che esso rappresenta. Tale esigenza nasce dal fatto che, inizializzando gli HMM con una matrice di transizione completa, si permettono sequenze di stati che nella realta’ sono impossibili o molto rare. Seppure il processo di apprendimento conferisce a queste transizioni “impossibili” valori di probabilita’ molto bassi, cio’ non impedisce che durante il processo di riconoscimento le transizioni stesse vengano comunque prese in considerazione ed attraversate, conferendo di fatto agli HMM la capacita’ a rappresentare eventi che in realta’ sono artefatti del segnale. Inoltre, ridurre il numero di transizioni presenti negli HMM e’ utile anche dal punto di vista della complessita’ computazionale del processo di riconoscimento; infine, in vista della esecuzione del processo di compilazione congiunta degli HMM acustici e articolatori (descritto al prossimo paragrafo) e’ assoluta la necessita’ di ridurre quanto piu’ possibile il numero di transizioni dei singoli modelli in quanto la compilazione congiunta produce degli HMM di cardinalita’ legata al prodotto delle cardinalita’ degli HMM di partenza.

Il criterio seguito nell’eliminazione delle transizioni poco rappresentative si basa sul calcolo dell’informazione mutua tra gli stati degli HMM, rimuovendo quelle transizioni che collegano coppie di stati con i valori di informazione mutua piu’ bassi. Tale criterio si applica ottenendo per ognuno degli HMM (nel nostro caso relativi alle due fasi di silenzio e parlato) un modello ergodico equivalente, semplicemente aggiungendo una transizione dallo stato di uscita a quello di ingresso. Si rappresentano dunque le probabilita’ di transizione nella forma di una matrice, per mezzo della quale sono calcolate le probabilita’ assolute dei singoli stati. Indicando con la matrice di transizione NxN e con P il vettore di probabilita’ degli stati, quest’ultimo puo’ essere calcolato come l’autovettore dell’autovalore unitario di : infatti si ha (per definizione) P P ; pertanto la soluzione puo’ ottenersi risolvendo il sistema di equazioni omogeneo I P 0 in cui I e 0 rappresentano rispettivamente la matrice unitaria di dimensione NxN ed il vettore nullo di dimensione N. In realta’ la soluzione ora proposta e’ definita a meno di una costante moltiplicativa per P ; per rimuovere questa ambiguita’ si tiene allora conto di una ulteriore equazione che rappresenta il vincolo stocastico a cui deve soddisfare P ,

pi 1 , che viene sostituita all’ultima equazione del sistema originario. Pertanto il sistema da

risolvere diviene

IP

11111101

in cui la parte superiore di matrici e vettori e’ di dimensione

(N-1)xN e quella inferiore 1xN. Una volta ottenuti valori pi , e’ possibile calcolare l’informazione

mutua tra stati come Ipp

ppi j

i j

i

j i

j,

/ / ed individuare la transizione da eliminare, ossia quella

relativa alla coppia i j, con il valore I i j, piu’ piccolo. Prima di eliminare del tutto la transizione, pero’, occorre verificare che l’operazione non faccia decadere la condizione di ergodicita’ per l’HMM in esame: cio’ accade se uno stato non ha piu’ transizioni entranti, od uscenti, oppure se si possono individuare due sottoinsiemi di stati tra i quali non esiste nessuna transizione che porti da uno stato qualsiasi del primo gruppo ad uno qualsiasi del secondo. La verifica di ergodicita’ avviene considerando che, se la matrice di transizione e’ ergodica, una sequenza di transizioni che inizi a partire da un qualunque stato, deve poter raggiungere qualsiasi altro stato dopo un massimo di N transizioni; si provvede dunque a moltiplicare per se’ stessa una copia della matrice

14

di transizione per log 2 N volte. Infatti, dopo la prima moltiplicazione si ottiene una matrice che indica gli stati reciprocamente raggiungibili con due transizioni; la seconda individua quelli raggiungibili dopo 4 transizioni, e cosi’ via. In definitiva, la verifica del mantenimento dell’ergodicita’ e’ effettuata mediante verifica che nella matrice risultante non vi sia alcun elemento nullo.

Il procedimento di eliminazione delle transizioni puo’ continuare finche’ non si sia raggiunta la percentuale di transizioni residue desiderata, oppure ad un passo prima dalla perdita dell’ergodicita’. E’ da notare che, a parita’ di probabilita’ di transizione, il criterio seguito (di eliminare quella tra coppie di stati con informazione mutua minore) predilige l’eliminazione della transizione che ha come destinazione uno stato piu’ probabile, e dunque meno soggetto a rimanere isolato e quindi causare la perdita dell’ergodicita’. Inoltre, intervallando al processo di potatura il processo di stima delle transizioni, attuato mediante l’algoritmo di apprendimento, la matrice di transizione risultante viene modificata, ed la tendenza riscontrata e’ quella di rendere le probabilita’ degli stati equidistribuita.

IV.6 - Segmentazione della Base Dati nelle unita’ Audio-Video definite dagli HMM MarginaliCome gia’ noto [9], gli EHMM di processi linguistici possono essere utilizzati allo scopo di

effettuare una codifica di sorgente degli stessi, potendo produrrre una segmentazione del segnale nei termini degli stati degli EHMM. Sebbene il risultato sia funzionalmente equivalente a cio’ che e’ possibile ottenere mediante un processo di quantizzazione vettoriale, la presenza della matrice di transizione tra stati permette di effettuare una segmentazione di massima verosimiglianza, che tiene conto anche delle caratteristiche statistiche delle sequenze di eventi. Tale vantaggio e’ ancora maggiore grazie al processo di potatura delle transizioni descritto al passo precedente, in quanto vengono scartate tutte le sequenze meno significative da un punto di vista dell’informazione mutua tra etichette.

Il processo di segmentazione e’ di nuovo attuato mediante esecuzione del programma RECOGEXE, che viene ora eseguito in modalita’ allineamento selezionando l’opzione opportuna nel file RECOG.CFG, e produce come risultato dei files con estensione .STA (vedi la fig. 9) contenenti gli indici degli stati decodificati mediante l’algoritmo di Viterbi. Per ottenere la versione quantizzata dei coefficienti originari, da utilizzare assieme ai programmi di riproduzione e visualizzazione degli stessi (SONAFILE per i .CEP e MOUTH per i .NAC) occorre eseguire un ulteriore passaggio, facendo analizzare i files *<t>.STA da parte del programma MIXED, che provvede a generare files di coefficienti .CEP o .NAC semplicemente sostituendo all’indice degli stati decodificati i vettori medi delle densita’ di osservazione associate agli stati decodificati. Questo doppio passaggio, a prima vista inutile, e’ dovuto alla doppia esigenza di mantenere omogeneo il ruolo di RECOGEXE (che produce una interpretazione del segnale in chiave dell’identita’ degli stati decodificati) ed a quella di effettuare la compilazione dei due modelli acustico ed articolatorio in uno solo, ancora attuata da MIXED a partire dai file *<t>.STA e descritta nella prossima sezione. Il valore <t> sara’ <a> o <v> a seconda se la segmentazione e’ relativa ai modelli acustici od articolatori.

RECOG.CFGI valori delle possibili

opzioniRECOGEXE

ACMOD. - FONMODG.I parametri degli HMM appresi

Modello di SorgenteLinguistica

WORDMOD

Files di SegmentazioneCmmnn<t>.STACmmnn<t>.STA

se t=a audiose t=v video

MIXEDFiles Quantizzati

Cmmnn.CEPCmmnn.NAC

Elenco dei files daesaminare

TRAIN.FIL

DataBaseCmmnn.CEPCmmnn.NACCmmnn.SIG

SONAFILEVerifica a Schemo buon esito


MOUTH

Fig.9 - Segmentazione del segnale bimodale

15

V. - Compilazione dell’HMM CongiuntoSiamo finalmente in grado di costruire l’HMM che tiene conto dei risultati di entrambi gli

HMM ottenuti a partire dalle due diverse modalita’ acustica ed articolatoria. Il processo avviene anche stavolta per mezzo del programma MIXED che (vedi fig. 10) opera a partire dai files .STA ottenuti per etichettatura di Viterbi dei files del database, ed utilizza le densita’ di osservazione di entrambi gli HMM.

I parametri degli HMM appresiACMOD.ACU & FONMODG.ACUACMOD.ART & FONMODG.ART

Files di SegmentazioneCmmnnA.STACmmnnV.STA

MIXED

Elenco dei files da esaminareTRAIN.FIL

HMM CongiuntoACMOD.AVM & FONMODG.AVM

Probabilita’ condizionate audio/videoCONDMOD.

Fig.10 - Compilazione del modello bimodale

La prima operazione effettuata da MIXED e’ quella di calcolare la matrice di probabilita’ condizionata audio/video p S Qi j/ , che rappresenta la probabilita’ di decodificare uno stato acustico S i quando allo stesso momento lo stato articolatorio decodificato e’ Q j ; la matrice di co-occorrenza intermodale viene anche memorizzata su di un file di nome CONDMOD. In virtu’ del vincolo introdotto sull’algoritmo di Viterbi, descritto in coda al § IV.4, che impone l’allineamento dei HMM relativi alle fasi di silenzio e parlato con segmenti di segnale ad essi omogeneo, le co-occorrenze avvengono solo per coppie di stati (acustici e articolatori) relative alla medesima categoria linguistica (silenzio e parlato).

Una seconda operazione viene svolta a seguito della prima ipotesi fatta nel § I: la probabilita' di osservare il vettore acustico a i e' condizionata al solo stato acustico S i :

p a p a Si i i / ; e pertanto viene scritto il file ACMOD.AVM a partire dai dati presenti in ACMOD.ACU, contenente i parametri delle densita’ di osservazione (media e varianze) che per ipotesi sono identici a quelli dell’HMM acustico. Allo scopo di poter utilizzare il modello congiunto per la sintesi dei parametri articolatori a partire dalla sola evidenza acustica, al file ACMOD.AVM sono aggiunte anche le descrizioni (medie e varianze) delle densita’ di osservazione stimate per gli HMM articolatori, prelevate da ACMOD.ART.

Rimane quindi il compito di calcolare, per ogni coppia di stati del nuovo modello, una probabilita’ di transizione tra stati del modello congiunto, che indichiamo con l’espressione

p M Mh k ; ogni stato M h del modello congiunto, d’altra parte, trae origine da entrambi i modelli, e quindi e’ posto in corrispondenza alla coppia di stati S Qi j, . Definiamo inoltre, per comodita’, un secondo generico stato congiunto M k come corrispondente alla generica coppia di stati monomodali S Qu v, . La probabilita’ di transizione p M Mh k dovrebbe dunque dipendere da 4 stati S Qi j, , S Qu v, , ma per la seconda e la terza ipotesi assunta al § I, viene invece calcolata come p M M p Q Q p S Qh k j v i j / / ovvero come il prodotto tra la probabilita’ di transizione stimata per il modello articolatorio, moltiplicata per la probabilita’ di co-occorrenza dello stato acustico condizionato a quello articolatorio di destinazione.

La fig. 11 esemplifica il processo di compilazione dei due modelli acustico ed articolatorio in un unico modello congiunto: e’ possibile pensare che il modello articolatorio dia origine a dei “macrostati” al cui interno viene riportato integralmente il modello acustico di quel simbolo linguistico. E’ chiaro che, se le matrici di transizione fossero complete, non avremmo altro che una moltiplicazione di complessita’ senza vantaggi pratici. Al contrario, le matrici di transizione sono state potate, e le probabilita’ delle transizioni rimanenti si modificano come segue:

16

EHMM Acustico

Voce

Silenzio

Voce

EHMM Congiunto

Silenzio

S0

Si SF

EHMM Articolatorio

Voce

Silenzio

Q0

Qj QF

b)

a)

c)d)

Macro-StatoArticolatorio

Mh

Fig.11 - compilazione del modello congiunto a partire dai modelli monomodali

a) Transizioni tra stato di ingresso e stati congiunti: si esegue il prodotto tra la transizione di ingresso verso lo stato del modello articolatorio per la probabilita’ condizionata dello stato acustico rispetto a quello articolatorio: p M M p Q Q p S Qh j i j0 0 / / ;

b) Transizioni tra stati interni ad uno stesso stato articolatorio: si esegue il prodotto tra la probabilita’ di loop articolatoria e la probabilita’ condizionata dello stato acustico rispetto a quello articolatorio in considerazione p M M p Q Q p S Qh k j j i j / / ;

c) Transizioni tra stati racchiusi da stati articolatori differenti: si esegue il prodotto tra la probabilita’ di transizione tra stati articolatori e la probabilita’ condizionata dello stato acustico rispetto a quello articolatorio in considerazione p M M p Q Q p S Qh k j v i j / / ;

d) Transizioni tra stati del modello congiunto e stato di uscita: la probabilita’ e’ posta pari a quella della transizione di uscita dello stato articolatorio a cui appartiene lo stato congiunto p M M p Q QF h j 0 /

A titolo di verifica, controlliamo che lo posizioni illustrate diano luogo al rispetto dei vincoli stocastici, ovvero che la somma delle probabilita’ delle transizioni uscenti da uno stesso stato sia

17

uno. Nei tre casi a9, b) e c), la somma delle probabilita’ delle transizioni uscenti da uno stesso stato risulta pari a:

p M M p Q Q p S Q p Q Q p S Q p Q Q p Q Qh kh F

j v i jij F

j vj F

i ji

j vj F

F v / / / / / /1

infatti, la somma a tutte le etichette acustiche osservate in corrispondenza dello stato articolatorio Q j vale proprio uno, e pertanto il risultato ottenuto giustifica il valore assegnato alle transizioni di tipo d), in modo che il modello congiunto da rispetti i vincoli stocastici.

Prima di terminare l’argomento, analizziamo brevemente i casi in cui viene a mancare una transizione del modello congiunto, in modo da poter fare una stima della complessita’ dello stesso, e della sua capacita’ a costituire una adeguata rappresentazione della realta’. Sicuramente, l’assenza di una transizione articolatoria annulla tutte le transizioni tra i macro-stati non connessi (e cio’ impedisce di rappresentare sequenze visemiche impossibili). Inoltre, la transizione nel modello congiunto non esiste neanche se non si e’ mai osservata la occorrenza congiunta degli stati dei modelli acustico ed articolatorio che hanno dato luogo allo stato del modello congiunto: questo impedisce l’associazione fortuita di suoni a configurazioni visemiche che non li possono produrre.

La topologia ed i parametri (probabilita’ di transizione) che caratterizzano l’HMM congiunto ottenuto come descritto, viene salvato su disco nel file FONMODG.AVM. In quest’ultimo, ad ognuno degli stati M h sono associati 2 indici che referenziano entrambe le densita’ di osservazione (acustica ed articolatoria, descritte dai vettori di medie e varianza) associate alla coppia di stati dei modelli marginali S Qi j, che possono considerarsi associate al modello congiunto, ed i cui parametri (medie e varianze) sono memorizzati nel file ACMOD.AVM.

VI. - Sintesi della Sequenza di AnimazioneIllustriamo ora come avviene la generazione di una sequenza di parametri articolatori, in

grado di produrre l’animazione di un volto parlante, a partire dall’analisi del solo segnale acustico.Il procedimento e’ del tutto simile a quanto gia’ illustrato nel § IV.6 a riguardo della

segmentazione del segnale, ed e’ raffigurato in Fig. 12. La differenza e’ che ora l’algoritmo di Viterbi e’ applicato ai file di coefficienti articolatori utilizzando come HMM quello congiunto (files *.AVM) anziche’ quello acustico (files (*.acu). Pertanto, i files di segmentazione *X.sta contengono ora la decodifica del segnale nei termini degli stati del modello congiunto.

RECOG.CFGI valori delle possibili

opzioniRECOGEXE

ACMOD.AVMFONMODG.AVM(HMM congiunto)

Modello di SorgenteLinguistica

WORDMOD

Files di SegmentazioneCmmnnX.STA MIXED

Files SintetizzatiCmmnn.CEPCmmnn.NAC

Elenco dei files daesaminareTEST.FIL

DataBaseCmmnn.CEP

SONAFILEVerifica a Schemo buon esito


MOUTH

Files AudioCmmnn.WAV

Fig 12 - Sintesi dei parametri articolatori per l’animazione di un volto parlante a partire dalla sola evidenza acustica

Il programma MIXED e’ quindi in grado di reperire i vettori delle medie delle densita’ di osservazione articolatoria ed acustica nel file ACMOD.AVM, grazie al doppio indice acustico/articolatorio che lega gli stati del modello congiunto (rappresentati in FONMOD.AVM) alle densita’ di entrambi i modelli marginali.

18

La sequenza di parametri articolatori sintetici viene visualizzata mediante il programma MOUTH congiuntamente al segnale audio utilizzato per la sua generazione.

VII. - RisultatiIn Fig. 13 e’ mostrato il sonogramma originale (effettuato mediante FFT per mezzo del

programma shareware COOLEDIT prelevabile da ftp://comel.ing.uniroma1.it/dist/TH) delle parole: beato, damerino, giubileo, stupore, usuraio. In Fig. Fig. 14 a) e’ riportato il sonogramma eseguito con SONAFILE a partire dai coefficienti Mel Cepstrum calcolati dal segnale originale enfatizzato. In Fig. 14 b) e c) e’ riportato, rispettivamente, il sonogramma eseguito con SONAFILE a partire dai coefficienti Mel Cepstrum prodotti da RECOG e MIXED, utilizzando un HMM acustico con 4 stati di silenzio, 16 di parlato, 129 transizioni (potato al 60 %), ed il sonogramma eseguito con SONAFILE a partire dai coefficienti Mel Cepstrum prodotti per Quantizzazione Vettoriale, utilizzando un codebook acustico con 16 vettori di silenzio e 16 di parlato.

Fig13 - Sonogramma FFT eseguito con COOLEDIT

I risultati del processo di sintesi dei parametri articolatori non si prestano ad essere rappresentati mediante immagini fisse, ma possono essere esaminati per mezzo del programma MOUTH prelevabile presso ftp://comel.ing.unioma1.it/dist/TH. Ad ogni modo, in Fig 15 sono riportate le configurazioni labiali corrispondenti ai vettori delle medie associate alle densita’ di osservazione dell’HMM articolatorio.

Fig. 14 a)

b e a t o damerino giubil e o stu p o re u sura i o

19

Fig. 14 b)

Fig. 14 c)

Fig. 14 a) - Sonogramma eseguito con SONAFILE a partire dai coefficienti Mel Cepstrum calcolati dal segnale originale, enfatizzato. Si puo’ notare una esaltazione delle alte frequanze, una maggior approssimazione nella stima spettrale, e la distorsione percettiva dell’asse delle frequenze,

Fig. 14 b) - Sonogramma eseguito con SONAFILE a partire dai coefficienti Mel Cepstrum prodotti da RECOG e MIXED, utilizzando un HMM acustico con 4 stati di silenzio, 16 di parlato, 129 transizioni (potato al 60 %)

Fig. 14 c) - Sonogramma eseguito con SONAFILE a partire dai coefficienti Mel Cepstrum prodotti per Quantizzazione Vettoriale, utilizzando un codebook acustico con 16 vettori di silenzio e 16 di parlato. Si puo’ notare il maggior livello di approssimazione, la maggiore instabilita’, e la mancata descrizione dei fenomeni transitori.

20

Per quanto e’ stato possibile costatare visivamente, le sequenze visemiche animate prodotte per sintesi hanno dato prova di essere in grado di riprodurre correttamente le configurazioni tipiche delle vocali, e di riuscire a produrre una occlusione in corrispondenza di plosive. Al contrario, non si sono notate modifiche sostanziali della conformazione facciale in corrispondenza di liquide e nasali. Si suppone pero’ che l’adozione di un procedimento di ri-stima per le probabilita’ di transizione del modello congiunto possa portare a risultati migliori.

Fig. 15 - Posture labiali associate alle medie delle densita' di osservazione dei 20 stati dell'HMM Articolatorio. Le prime 4 sono relative alla fase di silenzio.

21

VIII. - Conclusioni e Prosecuzione della RicercaI risultati ottenuti sembrano promettenti ed in grado di motivare l’esigenza a proseguire la

ricerca. Descriviamo ora brevemente come quest’ultima potra’ svilupparsi.In primo luogo, occorrera’ sviluppare dei metodi oggettivi di valutazione dell’errore

commesso nella generazione di sequenze articolatorie sintetiche, come ad esempio il calcolo di un errore quadratico medio ottenuto confrontando le traiettorie originali con quelle sintetizzate. Allo scopo di tenere conto anche degli eventi di carattere transitorio, nella misura di distanza utilizzata per il calcolo dell’errore occorrera’ inserire una componente di natura differenziale.

La visualizzazione della sequenza articolatoria sintetica mediante l’animazione di un volto parlante dovra’ essere migliorata, sia in termini di interfaccia utente (contatori dinamici delle trame, posizionamento fine all’interno del file, visualizzazione del nome del file, menu’ di help) che dal punto di vista della grafica dell’animazione, che ora rappresenta le labbra animate in modo estremamente stilizzato, mediante una semplice ellisse.

Oltre alla rappresentazione per mezzo del volto animato, occorre provvedere alla visualizzazione delle traiettorie articolatorie simboliche anche per mezzo di una grafica tradizionale (di tipo valore vs. tempo), in grado di visualizzare contemporaneamente piu’ traiettorie, in modo da confrontare visivamente l’aderenza del segnale sintetico con quello originale, ed individuare le circostanze in cui si verificano scostamenti significativi.

Oltre al volto animato stilizzato, potra’ essere presa in considerazione l’esigenza di animare una immagine, dalla quale rilevare la posizione della bocca mediante algoritmi di detezione, e ricorrere a procedure di distorsione bidimensionale per la sua animazione.

Dal punto di vista del perfezionamento della tecnica di modellamento congiunto, si prevede di attuare i seguenti passi:

- Estendere la tecnica della potatura della matrice di transizione a quella del modello congiunto, per il quale e’ possibile procedere ad una ristima delle sole probabilita’ di transizione;

- Sperimentare l’applicazione del calcolo dell’informazione mutua per ridurre il numero degli stati del modello congiunto, calcolando tale quantita’ relativa alle coppie di stati prese dai due diversi modelli marginali, a partire dalle probabilita’ condizionate ottenute nella fase di compilazione del modello congiunto;

- Applicare il vincolo sui tempi di ingresso-uscita dai modelli linguistici nella procedura di allineamento di Viterbi al caso differente di vincolare gli istanti di ingresso-uscita dai “macrostati articolatori” del modello congiunto, in modo da effettuare per esso un processo di ristima che non alteri le corrispondenze presenti al momento della sua compilazione.

Bibliografia[1] - L.R.Rabiner, “A tutorial on hidden markov models and selected applications in speech

recognition”, Proc. of the IEEEE, vol. 77, n.2, feb. 1989[2] - L.R.Rabiner, B.H.Juang, "An introduction to the Hidden Markov Models", IEEE ASSP Magazine,

Jan 1986[3] - A.Falaschi, "Decodifica Acustico-Fonetica con Metodi Markoviani", Rel. FUB, Gennaio 1991[4] - A.Falaschi, M.Pucci, "Automatic derivation of HMM alternative pronunciation network

topologies", Proc. of the 2nd European Conf. on Speech Comm. and Tech, 24-26 Sept 1991, Genova, Italy

[5] - J.J. Escudero Garzas, “Animazione sincrona audio-video di un volto parlante a partire da sequenze di coefficienti articolatori”, Rapporto interno N.1 settore 4, Dip. INFOCOM- Univ. di Roma La Sapienza, Giugno 1997

[6] - Y.Linde, A.Buzo, R.M.Gray, "An Algorithm for Vector Quantizer Design", IEEE Trans on Communications, Vol. COM-28, N.1, Jan 1980

[7] - S.B.Davis, P.Mermelstein, "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuosly Spoken Sentences", IEEE Trans. ASSP-28, N.4, Aug. 1980

[8] - D.Levi, "Informazione Mutua nella Codifica Bimodale di Volti Parlanti", Tesi di laurea in Ingegneria Elettronica, Dip. Infocom. - Univ. di Roma La Sapienza, Ottobre 1997

[9] - A.Falaschi, M.Giustiniani, P.Pierucci, "A Finite State Markov Quantizer for Speech Coding", Proc. of ICASSP'90, April 1990, New Mexico, USA

[10] - L.Zhang, “Tracking a face for knowledge-based coding of videophone sequences”, Signal processing: Image Communication 10 (1997) 93-114

[11] - L. Reveret, F.Garcia, C.Benoit .E.Vatikiotis-Bateson, "An hybrid approach to orientation-free liptracking", ETRW on AUDIO-VISUAL SPEECH PROCESSING, Rhodes (Greece), 26-27 September 1997

22

[12] - S-H. Luo and R. W. King , “A NOVEL APPROACH FOR CLASSIFYING CONTINUOUS SPEECH INTO VISIBLE MOUTH-SHAPE RELATED CLASSES”, Proc. ICASSP ‘94, April 19-22, Adelaide, South Australia, pp. 465-468

[13] - E.Magno Caldognetto, K.Vagges, C.Zmarich, F.Gelsomini, "L'analisi multiparametrica della cinematica articolatoria per la sintesi articolatoria del parlato", Atti del 23° Convegno AIA, Bologna 12-14 Sett. 1995, pp.177-182

[14] - A.Peng, M.H.Hayes, "Modeling Human Expressions at Multiple Resolutions", Proc. ICASSP 1995, May 8-12, Detroit, Michigan, pp. 2627-2629

[15] - D.Terzopoulous, K.Waters, "Analysis and Synthesis of facial image sequences using phisical and anatomical models", IEEE Trans-PAMI, Vol. 15, No. 6, pp.569-579 (1993)

[16] - C.Benoit, T.Lallouache, T.Mohamadi, C.Abry, "A set of French visemes for visual Speech Synthesis", in G.Bailly, C.Benoit, T.R.Sawallis (Eds.), Talking Machines: Theories, Models, and Designs, North-Holland, Amsterdam, 485-504

[17] - E.Magno Caldognetto, K.Vagges, "Caratteristiche Articolatorie visibili delle vocali toniche e atone dell'italiano", Atti del XXII Convegno Naz. dell'AIA, Lecce 13-15 Aprile 1994, pp. 479-484

[18] - A.P.Breen, E.Bowers, W.Welsh, “An investigation into the generation of mouth shapes for a Talking Head”, ICSLP ‘96, october 12-16, Banff, Alberta, Canada

[19] - P.K.Doenges, T.K.Capin, F.Lavagetto, J.Ostermann, I.S.Pandiz, E.D.Petejan, “MPEG-4: Audio/Video and synthetic graphics/audio for mixed media”, Signal Processing: Image Communication 9 (1997) 433-463

[20] - E. Yamamoto, S.Nakamura, K.Shikano, "Speech-to-lip movement synthesis by HMM", ETRW on AUDIO-VISUAL SPEECH PROCESSING, Rhodes (Greece), 26-27 September 1997

[21] - S. Morishima, H.Harashima, “A media conversion from speech to facial image for intelligent man-machine interface”, IEEE Journal on sel. Areas in communications, Vol. 9, N. 4, May 1991

[22] - F.Lavagetto: “Converting Speech into Lip Movements: Multimedia Telephone for hard of Hearing People”, IEEE Trans. on Rehabilitation Engineering, Vol.3, N.1, March 1995

[23] - R.R.Rao, T.Chen, “Cross-Modal prediction in audio-visual communication”, Proc. ICASSP ‘96, May 7-9, Atlanta, Georgia, pp.2058-2062

[24] - G.I. Chiou, J.N. Hwang, “Lipreading from Color Motion Video”, Proc. ICASSP ‘96, May 7-9, Atlanta, Georgia, pp. 2158-2162

[25] - P. Duchnowski, M. Hunke, D. Busching, U. Meier, A. Waibel, “Toward Movement-Invariant Automatic Lip- Reading and Speech Recognition”, Proc. ICASSP ‘95, May 8-12, Detroit, Michigan, pp. 109-113

[26] - P.Cosi, M.Dugatto, F.Ferrero, E.Magno Caldognetto, K.Vagges, "Bimodal Recognition of Italian Plosives", Proc. of 13th Int. Congress of Phonetic Sciences, Stokholm Aug. '95, Vol. 4, pp. 260-263

[27] - P.Cosi, E.Magno Caldognetto, "Lips and Jaw Movements for vowels and consonants: spatio-temporal characteristics and bimodal recognition applications", NATO-ASI Wsh on Speech Reading, Bonas (Gers), France, 18 Aug.-10Sept. 1995, NATO-ASI series, Springer-Verlang

[28] - J. Luettin, N. A. Thacker, S. W. Beet, “Visual Speech Recognition using Active Shape Models and Hidden Markov Models”, Proc. ICASSP ‘96, May 7-9, Atlanta, Georgia, pp.817-821

[29] - G.Ferrigno, M.Biava, L.Bergamo, A.Pedotti, E.Magno Caldognetto, K.Vagges, "Riconoscimento delle vocali dell'italiano mediante una rete neurale a partire dalla cinematica labiale", Atti delle III giornate di studio del GFS (AIA), Padova, 19-20 novembre 1992, pp. 179-185

23

Appendice A - Contenuto del DataBase utilizzato

mmnn parole ______________________________________ 0101 a e i o u0102 il lo la le gli0103 un una uno in con0104 su per tra fra aba0105 ebe ibi obo ubu abitare0106 aca ece eche ici ichi0107 oco ucu acerbo acqua acre0108 acrobata ada ede idi odo0109 udu adunata aereo afa efe0110 ifi ofo ufu aga ege

0201 eghe igi ighi ogo ugu0202 agio aglio agnelli ago agrumo0203 aia ala ele ili olo0204 ulu albume allora alveare ama0205 eme imi omo umu amo

0301 amputare ana ene ini ono0302 unu ancora angolo anna annuo0303 apa epe ipi opo upu0304 ara ere iri oro uru0305 asa ese isi oso usu0306 asceta astuta ata ete iti0307 oto utu ava eve ivi0308 ovo uvu aza eze izi0309 ozo uzu azoto babele bagno0310 ballo barba beato beatrice becero

0401 beffa boato bocco bollo botanico0402 brano brodo bruno brutto bucare0403 buco buono buonuomo burro canada0404 canna cannone carbone caro caserma0405 cavolo ceci cembalo cena cera0406 cerchia che checche` chele cheppi0407 chi chicco chimono chinea chinino0408 chioccia chitarra cibo ciclo cicogna0409 cigno cima cinico cirano cittadina0410 cocco collo colmo colonnello coma

0501 como confusa cono coscia cravatta0502 credere cripte crisi cruda cubo0503 cuccagna culla dado damerino degna0504 dente dieta dilagare dina disagio0505 disegno divorare dizione dosaggio ebano0506 ebbi echi edera ente epoca0507 equatore era erba esercizi esile0508 esili esilio essi etto ettore0509 ezio eziologia falco fame farina0510 faro fatale fede feto fifa

0601 fila finale fine finire flora0602 foca folle forare foro frase0603 frizzante frugale fumata gallo galoppo0604 gelo gemma gia gen gia-gia0605 gen-gen giada gigi gino giro0701 gita giubileo giuda giurato gnao0702 gnocco gobbo goich gola gorgo0703 grano grembo grongo groppo grotta0704 gru gruppo idea idiota inchino0705 individuo irritazione irti irto itaca0706 jolly labbro lacuna ladro lago0707 lana lapidare lava lavo lavoro

levare

24

0801 li libano lichene lima0802 lisbona lite livrea lo-lo la-la0803 lode logorare lombo lugubre luna0804 magari magia maglia magnete mago0805 mambo mano manto mare megalomane0806 mela melone metafora metano metti0807 mica mida mite modo molla0808 molle molo monco mondo morbo0809 moro mucca muffa mulo murago

0901 murare muro muto mutuo nani0902 natante navale nave nazisti nero0903 netto nina noce nodo nome0904 norma nove nudo nuovo nuvola0905 obolo oca ognuno ombra onco0906 onore onorevole operazione oppa ora0907 orfano orfeo oro otre otto0908 ozono padella pagaia pagliuzza pantofole0909 parata pelandrone pepato pepita perenne0910 pesata pesce pezzi pia picche0911 pilota pipa pizza poco podere0912 pomata pomo porro porto privi

1001 profeta pronto pronuncia prova prugna1002 pu po pon pu-pu po-po1003 pon-pon pugno pulito punto pupo1004 puro purtroppo putto radere raggio1005 ramare ramo rapa recapito reggia1006 remare reno ricatto riflesso riga1007 riposante riva roba rogo roma1008 romano ronca rosa rosso rotondo1009 rubare ruga ruolo rupe saetta

1101 scalare scapola scemo1102 scena sci sce sci-sci sce-sce1103 scimmia sciocco scodella scopa scritti1104 secche sedano semantica servizio sessanta1105 sete sgabello sguardo si se1106 si-si se-se sicilia siesta sigaro1107 signorina silicio sinceri sintassi sipario1108 sisifo sistema sitire sole somaro1109 sonata sozzo spalato spira squamata1110 stile stupore stuzzicare sugo suola1111 supplica svizzeri tabasco tacito tatto

1201 tegame telefono tenente tenero testa1202 tetta tetto tettoia tic ticino1203 tifare tinozze tipo tisi tizio1204 tizzi tocco toga tonache topolino1205 trafila trovare trucco tuffare ubriaco1206 uffa ugo umido uno uomo1207 uovo urbano usuraio uva vago1208 vallone vena vischi visi visibile1209 vivaio vizi viziare vogare volare1210 volo vuoto zia zitti zitto

25

Documents

Fine frequency error estimation theory - Dipartimento Infocominfocom.uniroma1.it/alef/doc/ri_5.doc · Web viewDipartimento INFOCOM - Universita’ di Roma La Sapienza. Decodifica