L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE

L’Indagine Fonica

CASI REALI

e

METODI PER L’ IDENTIFICAZIONE DEL PARLATORE

Magg. Davide Zavattaro Soriano nel Cimino, 21.09.07

PARTE I

Il riconoscimento del parlatore

Il riconoscimento del parlatoreIl riconoscimento del parlatore(Speaker Identification)(Speaker Identification)

IngiurieIngiurieMolestieMolestie

RivendicazioniRivendicazionidi Attentatidi Attentati

EstorsioniEstorsioni DrogaDrogaRapimentiRapimenti

Provenienza reperti:

• Attività di intercettazione di P.G. ai Attività di intercettazione di P.G. ai

sensi dell’art. 266 c.p.p.sensi dell’art. 266 c.p.p.

• Registrazioni ordinarie di Enti Registrazioni ordinarie di Enti

Istituzionali o privati (es. 117, 118, Istituzionali o privati (es. 117, 118,

Aeroporti…)Aeroporti…)• Denuncia di privati cittadiniDenuncia di privati cittadini

Essendo la natura dell’esame tipicamente comparativa, è necessario disporre di idoneo materiale di confronto:

Conversazioni/telefonate di sicura provenienza e attribuzione

oppure

Si procede all’acquisizione di un saggio fonico

Acquisizione del saggio fonico

• Il soggetto deve essere iscritto nel registro degli indagati

• L’avvocato deve essere invitato a presenziare• Le apparecchiature di acquisizione devono

essere simili a quelle utilizzate per registrare la voce anonima

• Preventivamente bisogna stilare un testo contenente le frasi pronunciate dall’anonimo

Acquisizione del saggio fonico

• FASE 1: Colloquio introduttivo con richiesta generalità

• FASE 2: L’indagato deve ripetere le frasi contenute nel testo, sotto dettatura

• FASE 3: Colloquio informale con l’indagato

Al termine: Redazione del verbale

PRINCIPALI PROBLEMI NELL’ANALISI DELLE VOCI:

• Microvariabilità temporale della voceMicrovariabilità temporale della voce• Variabilità di lungo termineVariabilità di lungo termine• Trattazione matematica dei datiTrattazione matematica dei dati• Effetti del canale di trasmissioneEffetti del canale di trasmissione• Disturbi (rapporto Disturbi (rapporto s/ns/n))• Quantità del materiale anonimoQuantità del materiale anonimo• Disponibilità del materiale di riferimento/saggio Disponibilità del materiale di riferimento/saggio

fonicofonico

Il processo di produzione fonatorio crea due categorie di ‘reperti’ utili alle indagini…

LA VOCE

IL MESSAGGIO

…ne derivano due filoni metodologici per l’identificazione :

ANALISI FONETICO-LINGUISTICHE(soggettive, qualitative)

- fonetiche, lessicali, prosodiche…

ANALISI STRUMENTALI (oggettive, quantitative)-analisi delle frequenze prodotte nella fonazione (vibrazione corde vocali e frequenze di risonanza del cavo orale)

Gli esami linguistici:Gli esami linguistici:

•Sono stabili rispetto al canale

•Sono robusti rispetto al rapporto segnale/rumore

•Possono fornire un quadro particolareggiato

ma

•Richiedono grandi quantità di materiale

•Prevedono che si tratti della stessa lingua

•Sono qualitativi

• Sono oggettivi (misure delle frequenze sonore emesse)• Richiedono una quantità minimale di segnale utile (circa

12 secondi). • Consentono un’elaborazione statistica dei dati fornendo gli

elementi indispensabili per i processi decisionali.

Gli esami strumentali

Ma

• Sono condizionati dalla qualità del segnale (rapporto s/n)

•Gli esiti delle analisi attuali si aggirano su valori di p.f.i. che oscillano, nei riconoscimenti positivi, tra 10-2 e 10-4.

La difficoltà principale è riconoscere le aree di sovrapposizione (parametri indipendenti) e rendere quantitativi gli esami linguistico-fonetici

La SOLUZIONE è cercare un’integrazione tra più metodologie

Nel mondo sono tipicamente impiegati 3 metodi

per il riconoscimento del parlatore

1. Linguistico-fonetico

2. Semi-automatico

3. Totalmente automatico

Metodo Linguistico-Fonetico

Storicamente è stato il primo ad apparire

Richiede un notevole background di carattere fonetico

E’ fortemente dipendente dalla lingua

Richiede grandi quantità di materiale audio

Metodo Linguistico-Fonetico

Le analisi si dividono in:

1. Prove d’ascolto

2. Esami fonetici

3. Esami lessicali

4. Esami prosodici

1. Prove d’ascolto

Sono basate sulla memoria a breve termine

Si costruisce un file, contenente sia le frasi anonime che le medesime pronunciate dal sospettato, poi si procede all’ascolto, ripetendo l’operazione in tempi diversi

2. Esami fonetici

Si ricercano gli elementi caratterizzanti che differiscono Si ricercano gli elementi caratterizzanti che differiscono dalla pronuncia corretta nazionaledalla pronuncia corretta nazionale

ES. TRE tré, trè, tce...

ES. NOVE nòve, nóve…

L’insieme dei risultati darà indicazioni sulla regione linguisticaL’insieme dei risultati darà indicazioni sulla regione linguistica di provenienza del parlatore, tuttavia il riscontro di particolari di provenienza del parlatore, tuttavia il riscontro di particolari difettidifetti fornisce importanti elementi di riconoscimento individuale.fornisce importanti elementi di riconoscimento individuale.Per questo scopo le consonanti più sensibili sono:Per questo scopo le consonanti più sensibili sono:

‘‘R’, ‘S’, ‘C’, ‘G’, ‘Z’R’, ‘S’, ‘C’, ‘G’, ‘Z’

3. Esami lessicali

LinguaLinguaDialettoDialettoForniscono indicazioni sulla regione linguistica di Forniscono indicazioni sulla regione linguistica di provenienza del parlatoreprovenienza del parlatore

Terminologia specifica (gergo)Terminologia specifica (gergo)Padronanza della linguaPadronanza della linguaAiutano ad individuare l’ambienteAiutano ad individuare l’ambientesocio-culturale e scolastico-professionalesocio-culturale e scolastico-professionale

Terminologia preferenziale (ripetizioni)Terminologia preferenziale (ripetizioni)Terminologia personale Terminologia personale Forniscono informazioni legate alle abitudini Forniscono informazioni legate alle abitudini individualiindividuali

4. Esami prosodici

Inflessione/cadenzaInflessione/cadenzaDanno indicazioni sulla regione linguistica di provenienza Danno indicazioni sulla regione linguistica di provenienza del parlatoredel parlatore

Pause (vuote e piene) - Lunghezza consonanti plosive (Pause (vuote e piene) - Lunghezza consonanti plosive (p,t,kp,t,k))Sono elementi individuali misurabili strumentalmenteSono elementi individuali misurabili strumentalmente

Velocità di locuzioneVelocità di locuzioneE’ il parametro più utile a fini forensi, per misu-E’ il parametro più utile a fini forensi, per misu-rabilità, stabilità e trattabilità statisticarabilità, stabilità e trattabilità statistica

TEL. 670 sillabe secondi vel. dev. st. s v. medioeh, e come si fa? 6 0,66 9,09ma siete a posto o no?7 0,88 7,95allora faccia'.. e facciamo 'na cosa…15 1,61 9,32adesso vedo se posso…8 1,06 7,55fare scendere io 6 0,74 8,11ah ho capito 5 0,58 8,62ah va bene, va bene dai8 0,93 8,6allora mi chiami tu? 7 0,79 8,86Totali tel 670 62 7,25 8,55 0,6 0,21

Sospettatosillabe secondi vel. dev. st. s v. mediovolevo sentir da te 7 0,73 9,59Adesso vado a sentire com'è la13 1,44 9,03ma mi sembra troppo6 0,83 7,23spetta facciamo 'na cosa facciamo11 1,31 8,4adesso vedo se casomai posso…16 2,01 7,96ah ho capito, ho capito9 1,02 8,82allora mi chiami tu? 7 0,75 9,33Di solito quando ci son stati i Cara..17 1,97 8,63sia in una maniera che è la mia m..12 1,55 7,74o nel bene o nel male8 0,92 8,7primo processo che abbiamo fatto..13 1,51 8,61dopo tanti anni vengono a scoprire13 1,62 8,02Totali CURCI 132 15,66 8,43 0,68 0,2

02468

101214161820

perc

entu

ali r

elat

ive

4-4,49 4,5-5 5,01-5,5

5,51-6 6-6,5 6,51-7 7,01-7,5

7,51-8 8,01-8,5

8,51-9 >9

velocità medie della popolazione

V

Metodo Linguistico-Fonetico: considerazioni

Alcuni parametri sono ‘robusti’ rispetto agli effetti del canale e al rapporto segnale/rumore

Richiede giorni per un esame completo

E’ complicato creare database

Le risposte sono generalmente qualitative, le valutazioni soggettive

L’orecchio è uno strumento attendibile?L’orecchio è uno strumento attendibile?

HzHz

dbdb

020406080

100120140

GRAFICO DELLA SENSIBILITA’GRAFICO DELLA SENSIBILITA’DELL’ORECCHIO UMANODELL’ORECCHIO UMANO

La percezione è utile?1. Tutti abbiamo forme di percezione

2. La percezione solitamente è PARZIALE

3. La verità può essere AMBIGUA

4. La verità può essere UNIVOCA ma la nostra percezione porta a conclusioni ERRATE

Esempio di realtà AMBIGUA

Esempio di realtà UNIVOCA

Il riconoscimento del parlatore-Il riconoscimento del parlatore-esami ‘oggettivi’esami ‘oggettivi’

(Speaker Identification)(Speaker Identification)

La voce è un suono complesso perché è dato dalla La voce è un suono complesso perché è dato dalla combinazione di tre effetti:combinazione di tre effetti:

1.1. La vibrazione delle corde vocaliLa vibrazione delle corde vocali (genera la Frequenza Fondamentale)(genera la Frequenza Fondamentale)

2.2. Il rumore prodotto nella fonazioneIl rumore prodotto nella fonazione

3.3. Il transito Il transito attraverso il tratto vocalicoattraverso il tratto vocalico (genera le Frequenze Formanti)(genera le Frequenze Formanti)

-- Il segnale finale è dato dalla CONVOLUZIONE del segnale Il segnale finale è dato dalla CONVOLUZIONE del segnale entrante x(t) con il filtro vocale h(t)entrante x(t) con il filtro vocale h(t)

g(t)=x(t)g(t)=x(t)h(t)h(t)

-- Lo spettro del segnale finale è dato dal PRODOTTO degli Lo spettro del segnale finale è dato dal PRODOTTO degli spettri dei segnali x(t) e h(t)spettri dei segnali x(t) e h(t)

ModelloModello

Segnale relativo ad una ‘a’ -Spettro-Segnale relativo ad una ‘a’ -Spettro-

Per essere leggibile, uno spettro necessita dell’ap-Per essere leggibile, uno spettro necessita dell’ap-plicazione di algoritmi specifici (CEPSTRUM o plicazione di algoritmi specifici (CEPSTRUM o LPC) che rendano possibile la ricostruzione delle LPC) che rendano possibile la ricostruzione delle componenti dovute al tratto vocalicocomponenti dovute al tratto vocalico

ESEMPI OPERATIVI

METODI di tipo SEMI - AUTOMATICO (IDEM, SMART, DIALECT, SIVE...)

Sistemi computerizzati che richiedono l’interazione uomo-macchina

Alcune task sono automatiche:

•Stima rapporto s/n

•Estrazione di parametri (pitch, formanti...)

•Modelli matematici intra-interparlatore (GMM, Distances, Matrix...)

•Analisi statistiche e decisionali (Tests)

METODI SEMIAUTOMATICI

Attività ‘manuali’ lasciate all’operatore:

•Selezione dei tratti da misurare (editing)

•Controllo delle misure (correttezza, selezione delle vocali, deleting...)

•Selezione dei parametri decisionali (livello di confidenza, variabili e database... )

•Controllo finale

Il sistema indica le misurazioni delle Il sistema indica le misurazioni delle risonanze: lerisonanze: le FORMANTI FORMANTI

Il sistema consente una rappresentazione Il sistema consente una rappresentazione bidimensionale delle misure effettuatebidimensionale delle misure effettuate

Al termine si effettua sia il test di compatibilità (es. Al termine si effettua sia il test di compatibilità (es. 22) che il calcolo della probabilità di falsa ) che il calcolo della probabilità di falsa identificazione (integrazione Montecarlo)identificazione (integrazione Montecarlo)

Equivalenza verbale - LR

Metodi Semiautomatici - considerazioni

Questi esami lavorano nel dominio delle frequenze in condizioni di stazionarietà (i.e. F0 e Formanti)

Le formanti sono robuste rispetto al canale

E’ possibile una ricca trattazione statistica (Lr o P.F.A./P.F.R.)

Sono metodi accettati in dibattimento

Metodi semiautomatici europei

IDEM ITALY (Carabinieri)

SMART ITALY (Police)(+FRANCE and SPAIN -Police-)

SIVE LITHUANIA, LATVIA, ESTONIACHECZ REP., POLAND, FINLAND

DIALECT-Phonexi-

RUSSIA, BELORUSSIA, UKRAINE, KAZAKHSTAN, UZBEKISTAN

Metodi Totalmente automatici

Rappresentano le più moderne opportunità

Tutti i passi sono automatici: -Estrazione dei parametri -trattamento statistico e catalogazione -calcolo della likelihood ratio

L’operatore deve solo: -inserire i tratti di segnale nel sistema -scegliere il database di riferimento


Il segnale, una volta inserito nel sistema, viene processato secondo il seguente schema:

- realizzazione di una FFT ogni 10 ms, con finestra di 25-30 ms;

-estrazione automatica dei 15-30 coefficienti (MFCC...) per singola ‘frame’;

-catalogazione delle misure; -realizzazione del modello intra-speaker; -calcolo della likelihood ratio finale


Il trattamento statistico prevede il computo della LIKELIHOOD RATIO secondo un modello continuo, la soglia è variabile caso per caso.


Lavorano nel campo delle frequenze e del tempo (parametri MFCC e MFCC)

Caratteristiche principali:

-velocità

-sensibilità al canale

-sensibilità al rapporto segnale/rumore

-discreta robustezza sulla lingua

Metodi automatici europei

LVIS(Loquendo)

in fase di test presso il RaCIS

IDENTIVOX SPAGNA (Guardia Civil)

‘Meuwly’ Svizzera (Zurigo-Losanna)

‘SIS’ FRANCIA (Gendarmeria)

Trawl RUSSIA

Parte II METODI A CONFRONTO

-vincoli-robustezza -velocità-parametri coinvolti-validità in dibattimento-performance

Rapporto segnale/rumore - vincoli

Linguistic/Phonetic

~ 10 dB

SemiAutomatic

~ 12 dB

FullAutomatic

~ 17 dB

Vincoli sulla durata

Linguistic/Phonetic

??

SemiAutomatic ~ 12”FullAutomatic

~ 30” per l’anonimo~ 2’ per il sospettato

Robustezza sul canale

Linguistic/Phonetic

+++

SemiAutomatic ++/+++

FullAutomatic -

Robustezza sulla lingua(opeatore non madrelingua)

Linguistic/Phonetic

-/+ (dipende dal grado di con.)

SemiAutomatic

+/++ (dipende dalla lingua)

FullAutomatic ++/+++

Velocità (comparazione a 2 voci)

Linguistic/Phonetic

~ 1-2 Days

SemiAutomatic

~ 1 Day

FullAutomatic ~ 10 min

Parametri utilizzati

Linguistic/Phonetic

Fonemi, semantica, prosodia, respiro...

(‘imparati’ / caratteristiche time-dependent / frequency dependent)

SemiAutomatic

F0, Formanti

(Frequency domain)FullAutomatic

F0, MFCC, MFCC, MFCC

(Tutti i dominii)

Risposte

Linguistic/Phonetic

Scala verbale – Soggettiva/qualitativa

SemiAutomatic

P.F.A./P.F.R. o Lr

FullAutomatic Lr / Tippet Plot

Performance

Linguistic/Phonetic

Alta ?? (non esiste una reale validazione)

SemiAutomatic

EER < 1 %

FullAutomatic

EER 1%-15% (dipende dal tipo di canale)

Casi rigettati per i limiti del sistema(il segnale non rispetta i vincoli)

Linguistic/Phonetic

1% - 5%

SemiAutomatic

~ 20%

FullAutomatic 30% - 60%

E’ accettato in dibattimento ?

Linguistic/Phonetic

generalmente sì (non in U.S.A. - caso Daubert)

SemiAutomatic

Sì

FullAutomatic

?? (Sono da considerarsi alla stregua di AFIS e IBIS, cioè utili per per analisi preventive)

CONCLUSIONI Nessuno dei 3 metodi può definirsi ‘il migliore’ in senso assoluto, avendo differenti limiti

La richiesta dominante delle Scienze Forensi è ‘fornire risposte quantitative’

I sistemi linguistico-fonetico, pur qualitativi, sono però finora accettati quasi ovunque

I metodi Semi-automatici appaiono i più versatili, potendo combinarsi con le variabili time-dependent usate dai fonetisti

CONCLUSIONI

L’accertamento completo dovrebbe essere condotto con la combinazione di tutte le tecniche (il ‘metodo dei metodi’) in modo da poter garantire applicabilità e performance superiori in qualsiasi condizione.

PARTE III

CASI REALI

1°Comparazione in caso di

voce alterata

Il casoSvizzera, Canton Ticino

Un ragazzo uccide la nonna con un macete e aggredisce il padre. Viene arrestato immediatamente.

Nella camera del ragazzo viene trovato un video di 6 minuti nel quale un soggetto maschile, totalmente incappucciato, con un macete in mano, legge un discorso delirante, con voce alterata, nel quale spiega che bisogna compiere ‘grandi azioni’ prima di suicidarsi.

Il P.M. vuole sapere se la voce è dell’assassino oppure sia un’azione di plagio sul ragazzo

Il casoLa Polizia Scientifica del Canton Ticino non opera comparazioni di voce

L’Istituto Centrale di Zurigo non è in grado di trattare il caso per via della lingua e perché, utilizzando sistemi automatici, la voce alterata rappresenta un limite.

Tuttavia la voce naturale del ragazzo, all’ascolto, appare molto simile.

Metodo di lavoro

Effettuazione del saggio fonico secondo le modalità standard

Approccio linguistico (laddove possibile)

Approccio strumentale (laddove possibile)

Approccio linguistico

Il parlatore anonimo si esprime con accento ticinese (simile al lombardo), mostrando una chiara ‘r’ uvulare.

Nel messaggio, tuttavia, si evidenziano 6 parole pronunciate con accento differente da quello locale:

dèa – Atèna – appartèngo – sènza – intèndere - sèmpre

La dimostrazione che l’accento fosse effettivamente diverso nella popolazione ticinese è stata ottenuta intervistando una quindicina di persone del luogo, invitate a leggere frasi contenenti queste parole.

Il saggio fonico

Si effettua in carcere, in modalità ortofonica, e si propone al sospettato, dopo un colloquio informale, di ripetere frasi contenenti le parole evidenziate, per verificarne le caratteristiche fonetiche, nonché di rileggere il messaggio pronunciato nel video

Approccio strumentale

Dalla voce del sospettato e dell’anonimo sono stati estratti 7-8 campioni per ogni vocale e da questi sono state misurate le formanti.

Poiché la F0 (frequenza fondamentale) è indubbiamente modificata dall’alterazione volontaria, non è stata presa in considerazione (nel saggio la voce era naturale)

L’esito del test è stato sorprendentemente positivo.

ConclusioniQuando il materiale è abbondante, anche a fronte di alterazioni volontarie nel parlato, è possibile ottenere risultati da esami di tipo linguistico

Il tipo di alterazione (strozzatura della glottide) ha riflessi sulla F0 ma non sulle formanti

2°Trascrizione‘complessa’

Il casoViene assassinato un certo sig. ZAVETTIERI

Tempo dopo, tra tante ore di intercettazione ambientale, in auto, due parlatori sembrano riferirsi ad un contatto avuto con la vittima, ma il tratto è di sole 3 parole, immerse nel rumore di fondo.

Cosa viene pronunciato?

Il perito, in primo grado, afferma che il tratto è

INCOMPRENSIBILE

Il consulente tecnico del P.M. sente la frase: “CHIDDHU, U CARROZZERI?”

Mentre la P.G. operante sente, invece, la frase:

“CHIDDHU, U ZAVETTERI?”

Quando il rapporto segnale/rumore è basso, è noto che l’orecchio non è sufficiente per dirimere una disputa sull’interpretazione

Effettivamente l’orecchio è in grado di portarci su entrambe le posizioni suggerite, ma non può essere uno strumento idoneo per DIMOSTRARE cosa realmente sia stato pronunciato.

????

Approccio linguistico

La parola da determinare ha 4 sillabe, la prima vocale è una ‘a’ e termina con il gruppo ‘eri’. Tuttavia il dialetto è calabrese, quindi alcune consonanti potrebbero essere aspirate, dato il rumore di fondo non si può stabilire se:

La prima consonante sia una ‘Z’ o una ‘C’ aspirata

Al centro vi sia una doppia ‘R’, pronunciata in modalità verosimilmente uvulare, oppure una doppia ‘T’ aspirata


La vocale che fa la differenza è la atona centrale, ‘o’ (oppure ‘u’) nell’ipotesi CARROZZERI ovvero ‘e’ nell’ipotesi ‘ZAVETTERI’.

Metodo: si tenta di estrarre le formanti


La vocale che fa la differenza è la atona centrale, ‘o’ (oppure ‘u’) nell’ipotesi CARROZZERI ovvero ‘e’ nell’ipotesi ‘ZAVETTERI’.

Spettro della ‘e’ del gruppo ‘eri’ (non in contestazione)

Spettro della vocale in contestazione


Spettro della ‘e’ del gruppo‘eri’(non in contestazione)

Spettro della vocale disputata

Conclusioni

La vocale che fa la differenza è configurabile come ‘e’ ma non come ‘o’ oppure ‘u’.

Benchè nulla si possa dire di certo sulle restanti consonanti, il risultato porta tuttavia a dirimere il dubbio sulla scelta delle due opzioni.

Si rimarca che, in ogni caso, non si può affermare con certezza che la parola sia realmente ZAVETTERI ma bensì che Zavetteri sia l’unica ipotesi superstite.

3°Correttezza peritale

Il casoIn una moschea si ritrovano arabi sospettati di attività terroristica

Tra tante ore di intercettazione si arriva ad un tratto dove effettivamente un tizio sembra avere un’arma in mano e, scrive la P.G., “Si nota chiaramente lo scarrellamento di una pistola”

Si può confermare?La percezione uditiva tenderebbe a confermare l’ipotesi

Il contesto stesso, peraltro, suggerisce questa interpretazione (alta probabilità a priori)

Una prova con una vera pistola semiautomatica è stata effettuata con esito positivo.

E’ sufficiente?

Ipotesi alternativeIn totale assenza di suggerimenti, malgrado la positività del riscontro non è possibile garantire con certezza che un’arma sia l’unica fonte del suono percepito.

Poiché al termine del brano si sente il cigolìo di una porta e, effettivamente, esistono porte con pomelli a scatto, si sono effettuate prove che hanno dato anch’esse compatibilità con porte e pomelli in materiale plastico.

Risultato:

Non si può stabilire con certezza quale sia la fonte.

Saranno gli organi inquirenti ad effettuare un sopralluogo e verificare o suggerire altre ipotesi.

Il consulente di parte afferma che:‘il rumore percepito, a sua memoria, è ben diverso da quello di uno scarrellamento d’arma

Ha contato 5 impulsi di telefonino (presentando l’oscillogramma!!), segno evidente che il soggetto stava digitando dei numeri, quindi aveva le mani impegnate e dunque, in nessun caso, poteva operare uno scarrellamento d’arma

La tragica veritàPoiché la fase processuale era avanzata nessuno ha riscontrato se nella moschea vi fossero porte a pomelli…

Il proprietario della moschea ha dichiarato che quel rumore era stato generato da un ‘tagliamaioliche’ presente nella stanza…

La testimonianza del consulente di parte non è stata ‘sottolineata’…

Documents

L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE