Upload
pilis
View
49
Download
0
Embed Size (px)
DESCRIPTION
L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE. Magg. Davide ZavattaroSoriano nel Cimino, 21.09.07. PARTE I Il riconoscimento del parlatore. Il riconoscimento del parlatore (Speaker Identification). L'importanza del riconoscimento del parlatore - PowerPoint PPT Presentation
Citation preview
L’Indagine Fonica
CASI REALI
e
METODI PER L’ IDENTIFICAZIONE DEL PARLATORE
Magg. Davide Zavattaro Soriano nel Cimino, 21.09.07
PARTE I
Il riconoscimento del parlatore
Il riconoscimento del parlatoreIl riconoscimento del parlatore(Speaker Identification)(Speaker Identification)
IngiurieIngiurieMolestieMolestie
RivendicazioniRivendicazionidi Attentatidi Attentati
EstorsioniEstorsioni DrogaDrogaRapimentiRapimenti
Provenienza reperti:
• Attività di intercettazione di P.G. ai Attività di intercettazione di P.G. ai
sensi dell’art. 266 c.p.p.sensi dell’art. 266 c.p.p.
• Registrazioni ordinarie di Enti Registrazioni ordinarie di Enti
Istituzionali o privati (es. 117, 118, Istituzionali o privati (es. 117, 118,
Aeroporti…)Aeroporti…)• Denuncia di privati cittadiniDenuncia di privati cittadini
Essendo la natura dell’esame tipicamente comparativa, è necessario disporre di idoneo materiale di confronto:
Conversazioni/telefonate di sicura provenienza e attribuzione
oppure
Si procede all’acquisizione di un saggio fonico
Acquisizione del saggio fonico
• Il soggetto deve essere iscritto nel registro degli indagati
• L’avvocato deve essere invitato a presenziare• Le apparecchiature di acquisizione devono
essere simili a quelle utilizzate per registrare la voce anonima
• Preventivamente bisogna stilare un testo contenente le frasi pronunciate dall’anonimo
Acquisizione del saggio fonico
• FASE 1: Colloquio introduttivo con richiesta generalità
• FASE 2: L’indagato deve ripetere le frasi contenute nel testo, sotto dettatura
• FASE 3: Colloquio informale con l’indagato
Al termine: Redazione del verbale
PRINCIPALI PROBLEMI NELL’ANALISI DELLE VOCI:
• Microvariabilità temporale della voceMicrovariabilità temporale della voce• Variabilità di lungo termineVariabilità di lungo termine• Trattazione matematica dei datiTrattazione matematica dei dati• Effetti del canale di trasmissioneEffetti del canale di trasmissione• Disturbi (rapporto Disturbi (rapporto s/ns/n))• Quantità del materiale anonimoQuantità del materiale anonimo• Disponibilità del materiale di riferimento/saggio Disponibilità del materiale di riferimento/saggio
fonicofonico
Il processo di produzione fonatorio crea due categorie di ‘reperti’ utili alle indagini…
LA VOCE
IL MESSAGGIO
…ne derivano due filoni metodologici per l’identificazione :
ANALISI FONETICO-LINGUISTICHE(soggettive, qualitative)
- fonetiche, lessicali, prosodiche…
ANALISI STRUMENTALI (oggettive, quantitative)-analisi delle frequenze prodotte nella fonazione (vibrazione corde vocali e frequenze di risonanza del cavo orale)
Gli esami linguistici:Gli esami linguistici:
•Sono stabili rispetto al canale
•Sono robusti rispetto al rapporto segnale/rumore
•Possono fornire un quadro particolareggiato
ma
•Richiedono grandi quantità di materiale
•Prevedono che si tratti della stessa lingua
•Sono qualitativi
• Sono oggettivi (misure delle frequenze sonore emesse)• Richiedono una quantità minimale di segnale utile (circa
12 secondi). • Consentono un’elaborazione statistica dei dati fornendo gli
elementi indispensabili per i processi decisionali.
Gli esami strumentali
Ma
• Sono condizionati dalla qualità del segnale (rapporto s/n)
•Gli esiti delle analisi attuali si aggirano su valori di p.f.i. che oscillano, nei riconoscimenti positivi, tra 10-2 e 10-4.
La difficoltà principale è riconoscere le aree di sovrapposizione (parametri indipendenti) e rendere quantitativi gli esami linguistico-fonetici
La SOLUZIONE è cercare un’integrazione tra più metodologie
Nel mondo sono tipicamente impiegati 3 metodi
per il riconoscimento del parlatore
1. Linguistico-fonetico
2. Semi-automatico
3. Totalmente automatico
Metodo Linguistico-Fonetico
Storicamente è stato il primo ad apparire
Richiede un notevole background di carattere fonetico
E’ fortemente dipendente dalla lingua
Richiede grandi quantità di materiale audio
Metodo Linguistico-Fonetico
Le analisi si dividono in:
1. Prove d’ascolto
2. Esami fonetici
3. Esami lessicali
4. Esami prosodici
1. Prove d’ascolto
Sono basate sulla memoria a breve termine
Si costruisce un file, contenente sia le frasi anonime che le medesime pronunciate dal sospettato, poi si procede all’ascolto, ripetendo l’operazione in tempi diversi
2. Esami fonetici
Si ricercano gli elementi caratterizzanti che differiscono Si ricercano gli elementi caratterizzanti che differiscono dalla pronuncia corretta nazionaledalla pronuncia corretta nazionale
ES. TRE tré, trè, tce...
ES. NOVE nòve, nóve…
L’insieme dei risultati darà indicazioni sulla regione linguisticaL’insieme dei risultati darà indicazioni sulla regione linguistica di provenienza del parlatore, tuttavia il riscontro di particolari di provenienza del parlatore, tuttavia il riscontro di particolari difettidifetti fornisce importanti elementi di riconoscimento individuale.fornisce importanti elementi di riconoscimento individuale.Per questo scopo le consonanti più sensibili sono:Per questo scopo le consonanti più sensibili sono:
‘‘R’, ‘S’, ‘C’, ‘G’, ‘Z’R’, ‘S’, ‘C’, ‘G’, ‘Z’
3. Esami lessicali
LinguaLinguaDialettoDialettoForniscono indicazioni sulla regione linguistica di Forniscono indicazioni sulla regione linguistica di provenienza del parlatoreprovenienza del parlatore
Terminologia specifica (gergo)Terminologia specifica (gergo)Padronanza della linguaPadronanza della linguaAiutano ad individuare l’ambienteAiutano ad individuare l’ambientesocio-culturale e scolastico-professionalesocio-culturale e scolastico-professionale
Terminologia preferenziale (ripetizioni)Terminologia preferenziale (ripetizioni)Terminologia personale Terminologia personale Forniscono informazioni legate alle abitudini Forniscono informazioni legate alle abitudini individualiindividuali
4. Esami prosodici
Inflessione/cadenzaInflessione/cadenzaDanno indicazioni sulla regione linguistica di provenienza Danno indicazioni sulla regione linguistica di provenienza del parlatoredel parlatore
Pause (vuote e piene) - Lunghezza consonanti plosive (Pause (vuote e piene) - Lunghezza consonanti plosive (p,t,kp,t,k))Sono elementi individuali misurabili strumentalmenteSono elementi individuali misurabili strumentalmente
Velocità di locuzioneVelocità di locuzioneE’ il parametro più utile a fini forensi, per misu-E’ il parametro più utile a fini forensi, per misu-rabilità, stabilità e trattabilità statisticarabilità, stabilità e trattabilità statistica
TEL. 670 sillabe secondi vel. dev. st. s v. medioeh, e come si fa? 6 0,66 9,09ma siete a posto o no?7 0,88 7,95allora faccia'.. e facciamo 'na cosa…15 1,61 9,32adesso vedo se posso…8 1,06 7,55fare scendere io 6 0,74 8,11ah ho capito 5 0,58 8,62ah va bene, va bene dai8 0,93 8,6allora mi chiami tu? 7 0,79 8,86Totali tel 670 62 7,25 8,55 0,6 0,21
Sospettatosillabe secondi vel. dev. st. s v. mediovolevo sentir da te 7 0,73 9,59Adesso vado a sentire com'è la13 1,44 9,03ma mi sembra troppo6 0,83 7,23spetta facciamo 'na cosa facciamo11 1,31 8,4adesso vedo se casomai posso…16 2,01 7,96ah ho capito, ho capito9 1,02 8,82allora mi chiami tu? 7 0,75 9,33Di solito quando ci son stati i Cara..17 1,97 8,63sia in una maniera che è la mia m..12 1,55 7,74o nel bene o nel male8 0,92 8,7primo processo che abbiamo fatto..13 1,51 8,61dopo tanti anni vengono a scoprire13 1,62 8,02Totali CURCI 132 15,66 8,43 0,68 0,2
02468
101214161820
perc
entu
ali r
elat
ive
4-4,49 4,5-5 5,01-5,5
5,51-6 6-6,5 6,51-7 7,01-7,5
7,51-8 8,01-8,5
8,51-9 >9
velocità medie della popolazione
V
Metodo Linguistico-Fonetico: considerazioni
Alcuni parametri sono ‘robusti’ rispetto agli effetti del canale e al rapporto segnale/rumore
Richiede giorni per un esame completo
E’ complicato creare database
Le risposte sono generalmente qualitative, le valutazioni soggettive
L’orecchio è uno strumento attendibile?L’orecchio è uno strumento attendibile?
HzHz
dbdb
020406080
100120140
GRAFICO DELLA SENSIBILITA’GRAFICO DELLA SENSIBILITA’DELL’ORECCHIO UMANODELL’ORECCHIO UMANO
La percezione è utile?1. Tutti abbiamo forme di percezione
2. La percezione solitamente è PARZIALE
3. La verità può essere AMBIGUA
4. La verità può essere UNIVOCA ma la nostra percezione porta a conclusioni ERRATE
Esempio di realtà AMBIGUA
Esempio di realtà UNIVOCA
Il riconoscimento del parlatore-Il riconoscimento del parlatore-esami ‘oggettivi’esami ‘oggettivi’
(Speaker Identification)(Speaker Identification)
La voce è un suono complesso perché è dato dalla La voce è un suono complesso perché è dato dalla combinazione di tre effetti:combinazione di tre effetti:
1.1. La vibrazione delle corde vocaliLa vibrazione delle corde vocali (genera la Frequenza Fondamentale)(genera la Frequenza Fondamentale)
2.2. Il rumore prodotto nella fonazioneIl rumore prodotto nella fonazione
3.3. Il transito Il transito attraverso il tratto vocalicoattraverso il tratto vocalico (genera le Frequenze Formanti)(genera le Frequenze Formanti)
-- Il segnale finale è dato dalla CONVOLUZIONE del segnale Il segnale finale è dato dalla CONVOLUZIONE del segnale entrante x(t) con il filtro vocale h(t)entrante x(t) con il filtro vocale h(t)
g(t)=x(t)g(t)=x(t)h(t)h(t)
-- Lo spettro del segnale finale è dato dal PRODOTTO degli Lo spettro del segnale finale è dato dal PRODOTTO degli spettri dei segnali x(t) e h(t)spettri dei segnali x(t) e h(t)
ModelloModello
Segnale relativo ad una ‘a’ -Spettro-Segnale relativo ad una ‘a’ -Spettro-
Per essere leggibile, uno spettro necessita dell’ap-Per essere leggibile, uno spettro necessita dell’ap-plicazione di algoritmi specifici (CEPSTRUM o plicazione di algoritmi specifici (CEPSTRUM o LPC) che rendano possibile la ricostruzione delle LPC) che rendano possibile la ricostruzione delle componenti dovute al tratto vocalicocomponenti dovute al tratto vocalico
ESEMPI OPERATIVI
METODI di tipo SEMI - AUTOMATICO (IDEM, SMART, DIALECT, SIVE...)
Sistemi computerizzati che richiedono l’interazione uomo-macchina
Alcune task sono automatiche:
•Stima rapporto s/n
•Estrazione di parametri (pitch, formanti...)
•Modelli matematici intra-interparlatore (GMM, Distances, Matrix...)
•Analisi statistiche e decisionali (Tests)
METODI SEMIAUTOMATICI
Attività ‘manuali’ lasciate all’operatore:
•Selezione dei tratti da misurare (editing)
•Controllo delle misure (correttezza, selezione delle vocali, deleting...)
•Selezione dei parametri decisionali (livello di confidenza, variabili e database... )
•Controllo finale
Il sistema indica le misurazioni delle Il sistema indica le misurazioni delle risonanze: lerisonanze: le FORMANTI FORMANTI
Il sistema consente una rappresentazione Il sistema consente una rappresentazione bidimensionale delle misure effettuatebidimensionale delle misure effettuate
Al termine si effettua sia il test di compatibilità (es. Al termine si effettua sia il test di compatibilità (es. 22) che il calcolo della probabilità di falsa ) che il calcolo della probabilità di falsa identificazione (integrazione Montecarlo)identificazione (integrazione Montecarlo)
Equivalenza verbale - LR
Metodi Semiautomatici - considerazioni
Questi esami lavorano nel dominio delle frequenze in condizioni di stazionarietà (i.e. F0 e Formanti)
Le formanti sono robuste rispetto al canale
E’ possibile una ricca trattazione statistica (Lr o P.F.A./P.F.R.)
Sono metodi accettati in dibattimento
Metodi semiautomatici europei
IDEM ITALY (Carabinieri)
SMART ITALY (Police)(+FRANCE and SPAIN -Police-)
SIVE LITHUANIA, LATVIA, ESTONIACHECZ REP., POLAND, FINLAND
DIALECT-Phonexi-
RUSSIA, BELORUSSIA, UKRAINE, KAZAKHSTAN, UZBEKISTAN
Metodi Totalmente automatici
Rappresentano le più moderne opportunità
Tutti i passi sono automatici: -Estrazione dei parametri -trattamento statistico e catalogazione -calcolo della likelihood ratio
L’operatore deve solo: -inserire i tratti di segnale nel sistema -scegliere il database di riferimento
Metodi Totalmente automatici
Il segnale, una volta inserito nel sistema, viene processato secondo il seguente schema:
- realizzazione di una FFT ogni 10 ms, con finestra di 25-30 ms;
-estrazione automatica dei 15-30 coefficienti (MFCC...) per singola ‘frame’;
-catalogazione delle misure; -realizzazione del modello intra-speaker; -calcolo della likelihood ratio finale
Metodi Totalmente automatici
Il trattamento statistico prevede il computo della LIKELIHOOD RATIO secondo un modello continuo, la soglia è variabile caso per caso.
Metodi Totalmente automatici
Lavorano nel campo delle frequenze e del tempo (parametri MFCC e MFCC)
Caratteristiche principali:
-velocità
-sensibilità al canale
-sensibilità al rapporto segnale/rumore
-discreta robustezza sulla lingua
Metodi automatici europei
LVIS(Loquendo)
in fase di test presso il RaCIS
IDENTIVOX SPAGNA (Guardia Civil)
‘Meuwly’ Svizzera (Zurigo-Losanna)
‘SIS’ FRANCIA (Gendarmeria)
Trawl RUSSIA
Parte II METODI A CONFRONTO
-vincoli-robustezza -velocità-parametri coinvolti-validità in dibattimento-performance
Rapporto segnale/rumore - vincoli
Linguistic/Phonetic
~ 10 dB
SemiAutomatic
~ 12 dB
FullAutomatic
~ 17 dB
Vincoli sulla durata
Linguistic/Phonetic
??
SemiAutomatic ~ 12”FullAutomatic
~ 30” per l’anonimo~ 2’ per il sospettato
Robustezza sul canale
Linguistic/Phonetic
+++
SemiAutomatic ++/+++
FullAutomatic -
Robustezza sulla lingua(opeatore non madrelingua)
Linguistic/Phonetic
-/+ (dipende dal grado di con.)
SemiAutomatic
+/++ (dipende dalla lingua)
FullAutomatic ++/+++
Velocità (comparazione a 2 voci)
Linguistic/Phonetic
~ 1-2 Days
SemiAutomatic
~ 1 Day
FullAutomatic ~ 10 min
Parametri utilizzati
Linguistic/Phonetic
Fonemi, semantica, prosodia, respiro...
(‘imparati’ / caratteristiche time-dependent / frequency dependent)
SemiAutomatic
F0, Formanti
(Frequency domain)FullAutomatic
F0, MFCC, MFCC, MFCC
(Tutti i dominii)
Risposte
Linguistic/Phonetic
Scala verbale – Soggettiva/qualitativa
SemiAutomatic
P.F.A./P.F.R. o Lr
FullAutomatic Lr / Tippet Plot
Performance
Linguistic/Phonetic
Alta ?? (non esiste una reale validazione)
SemiAutomatic
EER < 1 %
FullAutomatic
EER 1%-15% (dipende dal tipo di canale)
Casi rigettati per i limiti del sistema(il segnale non rispetta i vincoli)
Linguistic/Phonetic
1% - 5%
SemiAutomatic
~ 20%
FullAutomatic 30% - 60%
E’ accettato in dibattimento ?
Linguistic/Phonetic
generalmente sì (non in U.S.A. - caso Daubert)
SemiAutomatic
Sì
FullAutomatic
?? (Sono da considerarsi alla stregua di AFIS e IBIS, cioè utili per per analisi preventive)
CONCLUSIONI Nessuno dei 3 metodi può definirsi ‘il migliore’ in senso assoluto, avendo differenti limiti
La richiesta dominante delle Scienze Forensi è ‘fornire risposte quantitative’
I sistemi linguistico-fonetico, pur qualitativi, sono però finora accettati quasi ovunque
I metodi Semi-automatici appaiono i più versatili, potendo combinarsi con le variabili time-dependent usate dai fonetisti
CONCLUSIONI
L’accertamento completo dovrebbe essere condotto con la combinazione di tutte le tecniche (il ‘metodo dei metodi’) in modo da poter garantire applicabilità e performance superiori in qualsiasi condizione.
PARTE III
CASI REALI
1°Comparazione in caso di
voce alterata
Il casoSvizzera, Canton Ticino
Un ragazzo uccide la nonna con un macete e aggredisce il padre. Viene arrestato immediatamente.
Nella camera del ragazzo viene trovato un video di 6 minuti nel quale un soggetto maschile, totalmente incappucciato, con un macete in mano, legge un discorso delirante, con voce alterata, nel quale spiega che bisogna compiere ‘grandi azioni’ prima di suicidarsi.
Il P.M. vuole sapere se la voce è dell’assassino oppure sia un’azione di plagio sul ragazzo
Il casoLa Polizia Scientifica del Canton Ticino non opera comparazioni di voce
L’Istituto Centrale di Zurigo non è in grado di trattare il caso per via della lingua e perché, utilizzando sistemi automatici, la voce alterata rappresenta un limite.
Tuttavia la voce naturale del ragazzo, all’ascolto, appare molto simile.
Metodo di lavoro
Effettuazione del saggio fonico secondo le modalità standard
Approccio linguistico (laddove possibile)
Approccio strumentale (laddove possibile)
Approccio linguistico
Il parlatore anonimo si esprime con accento ticinese (simile al lombardo), mostrando una chiara ‘r’ uvulare.
Nel messaggio, tuttavia, si evidenziano 6 parole pronunciate con accento differente da quello locale:
dèa – Atèna – appartèngo – sènza – intèndere - sèmpre
La dimostrazione che l’accento fosse effettivamente diverso nella popolazione ticinese è stata ottenuta intervistando una quindicina di persone del luogo, invitate a leggere frasi contenenti queste parole.
Il saggio fonico
Si effettua in carcere, in modalità ortofonica, e si propone al sospettato, dopo un colloquio informale, di ripetere frasi contenenti le parole evidenziate, per verificarne le caratteristiche fonetiche, nonché di rileggere il messaggio pronunciato nel video
Approccio strumentale
Dalla voce del sospettato e dell’anonimo sono stati estratti 7-8 campioni per ogni vocale e da questi sono state misurate le formanti.
Poiché la F0 (frequenza fondamentale) è indubbiamente modificata dall’alterazione volontaria, non è stata presa in considerazione (nel saggio la voce era naturale)
L’esito del test è stato sorprendentemente positivo.
ConclusioniQuando il materiale è abbondante, anche a fronte di alterazioni volontarie nel parlato, è possibile ottenere risultati da esami di tipo linguistico
Il tipo di alterazione (strozzatura della glottide) ha riflessi sulla F0 ma non sulle formanti
2°Trascrizione‘complessa’
Il casoViene assassinato un certo sig. ZAVETTIERI
Tempo dopo, tra tante ore di intercettazione ambientale, in auto, due parlatori sembrano riferirsi ad un contatto avuto con la vittima, ma il tratto è di sole 3 parole, immerse nel rumore di fondo.
Cosa viene pronunciato?
Il perito, in primo grado, afferma che il tratto è
INCOMPRENSIBILE
Il consulente tecnico del P.M. sente la frase: “CHIDDHU, U CARROZZERI?”
Mentre la P.G. operante sente, invece, la frase:
“CHIDDHU, U ZAVETTERI?”
Quando il rapporto segnale/rumore è basso, è noto che l’orecchio non è sufficiente per dirimere una disputa sull’interpretazione
Effettivamente l’orecchio è in grado di portarci su entrambe le posizioni suggerite, ma non può essere uno strumento idoneo per DIMOSTRARE cosa realmente sia stato pronunciato.
????
Approccio linguistico
La parola da determinare ha 4 sillabe, la prima vocale è una ‘a’ e termina con il gruppo ‘eri’. Tuttavia il dialetto è calabrese, quindi alcune consonanti potrebbero essere aspirate, dato il rumore di fondo non si può stabilire se:
La prima consonante sia una ‘Z’ o una ‘C’ aspirata
Al centro vi sia una doppia ‘R’, pronunciata in modalità verosimilmente uvulare, oppure una doppia ‘T’ aspirata
Approccio strumentale
La vocale che fa la differenza è la atona centrale, ‘o’ (oppure ‘u’) nell’ipotesi CARROZZERI ovvero ‘e’ nell’ipotesi ‘ZAVETTERI’.
Metodo: si tenta di estrarre le formanti
Approccio strumentale
La vocale che fa la differenza è la atona centrale, ‘o’ (oppure ‘u’) nell’ipotesi CARROZZERI ovvero ‘e’ nell’ipotesi ‘ZAVETTERI’.
Spettro della ‘e’ del gruppo ‘eri’ (non in contestazione)
Spettro della vocale in contestazione
Approccio strumentale
Spettro della ‘e’ del gruppo‘eri’(non in contestazione)
Spettro della vocale disputata
Conclusioni
La vocale che fa la differenza è configurabile come ‘e’ ma non come ‘o’ oppure ‘u’.
Benchè nulla si possa dire di certo sulle restanti consonanti, il risultato porta tuttavia a dirimere il dubbio sulla scelta delle due opzioni.
Si rimarca che, in ogni caso, non si può affermare con certezza che la parola sia realmente ZAVETTERI ma bensì che Zavetteri sia l’unica ipotesi superstite.
3°Correttezza peritale
Il casoIn una moschea si ritrovano arabi sospettati di attività terroristica
Tra tante ore di intercettazione si arriva ad un tratto dove effettivamente un tizio sembra avere un’arma in mano e, scrive la P.G., “Si nota chiaramente lo scarrellamento di una pistola”
Si può confermare?La percezione uditiva tenderebbe a confermare l’ipotesi
Il contesto stesso, peraltro, suggerisce questa interpretazione (alta probabilità a priori)
Una prova con una vera pistola semiautomatica è stata effettuata con esito positivo.
E’ sufficiente?
Ipotesi alternativeIn totale assenza di suggerimenti, malgrado la positività del riscontro non è possibile garantire con certezza che un’arma sia l’unica fonte del suono percepito.
Poiché al termine del brano si sente il cigolìo di una porta e, effettivamente, esistono porte con pomelli a scatto, si sono effettuate prove che hanno dato anch’esse compatibilità con porte e pomelli in materiale plastico.
Risultato:
Non si può stabilire con certezza quale sia la fonte.
Saranno gli organi inquirenti ad effettuare un sopralluogo e verificare o suggerire altre ipotesi.
Il consulente di parte afferma che:‘il rumore percepito, a sua memoria, è ben diverso da quello di uno scarrellamento d’arma
Ha contato 5 impulsi di telefonino (presentando l’oscillogramma!!), segno evidente che il soggetto stava digitando dei numeri, quindi aveva le mani impegnate e dunque, in nessun caso, poteva operare uno scarrellamento d’arma
La tragica veritàPoiché la fase processuale era avanzata nessuno ha riscontrato se nella moschea vi fossero porte a pomelli…
Il proprietario della moschea ha dichiarato che quel rumore era stato generato da un ‘tagliamaioliche’ presente nella stanza…
La testimonianza del consulente di parte non è stata ‘sottolineata’…