Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
UNIVERSITE D’ANTANANARIVO
ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO
DEPARTEMENT ELECTRONIQUE
MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR
RECONNAISSANCE DE LOCUTEUR PAR
METHODE CEPSTRALE
Présenté par: RABEMAMPIANDRA Eric Noël
Filière : Electronique
Option: Informatique Appliquée
Soutenu le: 14 AOUT 2012
N° d’ordre: 05/EN/IA/2011 Année Universitaire: 2010-2011
UNIVERSITE D’ANTANANARIVO
ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO
DEPARTEMENT ELECTRONIQUE
MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR
Filière : Electronique
Option: Informatique Appliquée
RECONNAISSANCE DE LOCUTEUR
PAR METHODE CEPSTRALE
Présenté par: RABEMAMPIANDRA Eric Noël
Membres de Jury:
Monsieur RAKOTOMIRAHO Soloniaina Président du Jury
Monsieur RATSIMBA Mamy Nirina Examinateur
Monsieur RATSIMBAZAFY Guy Predon Claude Examinateur
Monsieur HERINANTENAINA Edmond Fils Examinateur
Rapporteur : Monsieur ANDRIAMANANTSOA Guy Danielson
Soutenu le: 14 AOUT 2012 Année Universitaire: 2010-2011
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
i
Remerciements Qu’il me soit permis d’adresser en premier lieu mes sincères
remerciements à Dieu tout puissant.
Je tiens à exprimer mes vives gratitudes et mes sincères remerciements à toutes les
personnes qui m’ont apportés leurs amitiés, leurs connaissances et leurs aides tout au
long de la réalisation de ce manuscrit ainsi que pendant les années d’études à l’Ecole
Supérieur Polytechnique d’Antananarivo, et en particulier :
Monsieur RATSIMBA Mamy Nirina, notre Chef de Département et
qui accepte aussi de siéger parmi les membres de Jury.
Les membres de Jury ici présent qui acceptent de juger mon travail :
Monsieur RAKOTOMIRAHO Soloniaina et qui préside aussi la
soutenance de mémoire.
Monsieur RATSIMBAZAFY Guy Predon
Monsieur HERINANTENAINA Edmond Fils
Monsieur ANDRIAMANANTSOA Guy Danielson mon encadreur,
pour ses orientations et ses suggestions et idées m’a été précieux. C’est grâce à
la transmission de ses connaissances, à sa confiance et à sa rigueur que je peux
présenter mon travail.
Au corps des enseignants au sein département électronique.
Je voudrais particulièrement remercier toutes ma famille, pour leurs soutiens et
leurs aides.
Je tiens également à remercier tous mes collègues et tous mes amis qui ont
contribué de près ou de loin leurs aident.
Rabemampiandra Eric N.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
ii
RESUME
Les caractéristiques d‟un son produit par une personne peuvent être résumées et
extraites dans un fichier. Les données vocales doivent être numérisées pour pouvoir traités par
l‟ordinateur, cette étape est nommée numérisation. La reconnaissance de locuteur se base sur
les traitements de son numérisés, en particulier l‟utilisation de l„analyse Cepstrale de son.
L‟analyse Cepstrale permet de donner les coefficients Cepstraux d‟un signal sonore,
elle a pour but d‟éviter les pertes de données provoqué par certaine problème comme
l‟enregistrement et aussi de manipuler le son tout entier.
La reconnaissance de locuteur se fait à la comparaison dynamique ou Dynamic Time
Wrapping (DTW) des MFCC ou Mel Frequency Cepstral Coefficients produite par un
locuteur ou d‟après un enregistrement vocal.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
iii
TABLE DES MATIERES
Résume ........................................................................................................................... ii
Table des matières ......................................................................................................... iii
Liste des Abréviations ................................................................................................... vi
Liste des Figures ........................................................................................................... vii
Liste des Tableaux ......................................................................................................... ix
Introduction .................................................................................................................... 1
Chapitre I. Généralités ................................................................................................. 2
I.1. Les Sons ............................................................................................................ 2
a. Émission, Propagation, Réception du son ..................................................... 2
b. Caractéristiques du son [3] ............................................................................ 3
I.2. La parole [4] ..................................................................................................... 5
I.3. Empreinte vocale .............................................................................................. 7
I.4. Reconnaissance vocale [5] ................................................................................ 7
Chapitre II. Analyse acoustique du signal de la parole ................................................ 9
II.1. Traitement des signaux [6] ............................................................................ 9
a. Echantillonnage des signaux ......................................................................... 9
b. Représentation des signaux périodiques sous la forme de séries de Fourier
12
II.2. Analyse spectrale des signaux numériques ................................................. 14
a. Transformation de Fourier numérique [7]................................................... 14
b. Transformation de Fourier discrète [8] ....................................................... 14
c. Transformée de Fourier Rapide .................................................................. 16
II.3. Fenêtrage [9] ............................................................................................... 18
II.4. Analyse Cepstrale [10] ................................................................................ 21
Chapitre III. Reconnaissance de locuteur .................................................................. 24
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
iv
III.1. Historique .................................................................................................... 24
a. Reconnaissance de locuteurs par des profanes ........................................... 24
b. Reconnaissance de locuteurs par des experts .............................................. 24
c. Reconnaissance de locuteurs automatisée................................................... 25
III.2. Principe et fonctionnement de la reconnaissance de locuteur [13] ............. 25
a. Création de l'empreinte vocale .................................................................... 26
b. Détection des zones de silence .................................................................... 26
c. Calcul des coefficients MFCC .................................................................... 26
d. Conversion de l‟échelle en logarithme........................................................ 31
e. La transformée en cosinus discret (DCT) ................................................... 31
III.3. Comparaison dynamique (Dynamic Time Warping (DTW)) ..................... 32
III.4. Les variabilités du signal de parole ............................................................. 33
III.5. Application de la reconnaissance de locuteur ............................................. 34
III.6. Problèmes majeurs ...................................................................................... 35
Chapitre IV. Réalisation ............................................................................................ 36
IV.1. Présentation du logiciel ............................................................................... 36
a. Programmation ............................................................................................ 36
b. Fonctionnement ........................................................................................... 36
c. Organigramme ............................................................................................ 38
IV.2. Les interfaces de « zazakely »..................................................................... 39
a. Fenêtre de démarrage .................................................................................. 39
b. Fenêtre principale ........................................................................................ 39
c. Fenêtre dico ................................................................................................. 40
IV.3. Manuel d‟utilisation de « zazakely » .......................................................... 40
a. Enregistrement ............................................................................................ 40
b. Reconnaissance d‟un locuteur ..................................................................... 46
IV.4. Les matériels requis .................................................................................... 49
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
v
Conclusion et Perspectives ........................................................................................... 50
Annexes ........................................................................................................................ 51
Annexe 1 : JAVASOUND ............................................................................................ 52
Annexe 2: ALGORITHME DE DTW .......................................................................... 54
Référence bibliographie et webographie ...................................................................... 55
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
vi
LISTE DES ABREVIATIONS
API Application Programming Interface
Db DECIBEL
DCT Discrete Cosine Transform
DFT Discrete Fourier Transform.
DSP Densité Spectrale de Puissance
DTW Dynamic Time Warping
FFT Fast Fourier Transform
GMM Gaussian Mixture Modelling
HMM Hiding Markov Model
Hz HERTZ
iDCT inverse Discrete Cosine Transform
MATLAB MATrix LABoratory
MFCC Mel-Frequency Cepstral Coefficients
SPL Sound Presure Level
TDNN Time Delay Neural Network
TFD Transformation de Fourier discrète
TFN Transformation de Fourier numérique
TFR Fast Fourier Transform,
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
vii
LISTE DES FIGURES
Figure I-1 Emission et perception du son [2] ................................................................. 2
Figure I-2 un signal d‟une période ................................................................................. 3
Figure I-3 Système de production de voix humain ........................................................ 6
Figure I-4 Types de reconnaissance vocale .................................................................... 8
Figure II-1 L‟échantillonnage idéal. ............................................................................... 9
Figure II -2 Composition spectrale d‟un signa ............................................................. 10
Figure II-3 Aspect fréquentiel du sous-échantillonnage .............................................. 11
Figure II-4 Échantillonnage-blocage d‟un signal analogique....................................... 11
Figure II-5 Discontinuités de seconde espèce .............................................................. 13
Figure II-6 Répartition des fréquences discrètes .......................................................... 15
Figure II-7 Effet du fenêtrage sur un signal analogique ............................................... 19
Figure II-8 Critères de choix d‟une fenêtre .................................................................. 19
Figure II-9 Cepstre réel complet pour une fenêtre de 250 échantillons (à gauche), et les
20 premiers coefficients cepstraux (à droite). .......................................................................... 21
Figure III-1 Schéma de fonctionnement ....................................................................... 26
Figure III-2 Etape pour le calcul de MFCC .................................................................. 27
Figure III-3 Exemple de découpage de fenêtre ............................................................ 28
Figure III-4 Banc de filtre de Mel[14] ......................................................................... 29
Figure III-5 Exemple de comparaison dynamique ....................................................... 32
Figure III-6 Chemin optimal d‟alignement .................................................................. 33
Figure III-7 Les informations captées dans les enregistrements .................................. 34
Figure IV-1 Fonctionnement ........................................................................................ 37
Figure IV-2 Organigramme du logiciel « zazakely » ................................................... 38
Figure IV-3 Fenêtre de démarrage ............................................................................... 39
Figure IV-4 Fenêtre principale ..................................................................................... 39
Figure IV-5 Fenêtre dico .............................................................................................. 40
Figure IV-6 Représentation temporelle du son ............................................................ 41
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
viii
Figure IV-7 Sélection du phonème ............................................................................... 42
Figure IV-8 Enregistrement du son au format wav ...................................................... 42
Figure IV-9 Démarrage de MATLAB .......................................................................... 43
Figure IV-10 Extraction des paramètres MFCC .......................................................... 44
Figure IV-11 Ajout des informations dans le dico ....................................................... 45
Figure IV-12 Sélection de l‟empreinte ......................................................................... 46
Figure IV-13 Identification du locuteur ....................................................................... 47
Figure IV-14 Chargement de l‟empreinte de locuteur X .............................................. 47
Figure IV-15 Lancement du serveur MATLAB ........................................................... 48
Figure IV-16 Affichage des distances par rapport à l‟empreinte de l‟inconnu ............ 48
Figure IV-17 Affichage du résultat .............................................................................. 49
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
ix
LISTE DES TABLEAUX
Tableau 1. Exemple d’amplitude sonore
Tableau 2. Les phonèmes français
Tableau 3. Types des fenêtres avec leurs définitions
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
1
INTRODUCTION
Au cours de ces dernières années, les progrès sur l‟utilisation de l‟informatique
comme un grand moyen de communication croissent exponentiellement et prennent une place
dans la vie quotidienne. En passant par le domaine de l‟informatique, les informations à
communiquer sont numérisées quelques soit le transport utilisés.
Les informations numériques qui sont transmis à travers des médias multiples comme
les réseaux téléphoniques, le câble, le satellite et surtout le Web qui deviennent une des
ressources essentielles. Les streaming sur l‟internet permettent d‟écouter ou de voir les
émissions radios ou télévision en différé. Ce technologie est aussi disponible pour les
terroristes pour envoyer des informations préenregistrer.
Les menaces sont devenues nombreux, ce travail a pour but de faire une
reconnaissance d‟un locuteur à partir d‟un enregistrement d‟une conversation. Il présente tout
d‟abord les généralités sur les sons et les principales sources de variabilités pour
comprendre comment un individu peut être reconnu par sa voix. Ensuite l‟analyse
acoustique du signal audio dans un système de reconnaissance du locuteur qui présente le vif
du sujet, l‟analyse cepstrale. Et enfin, le dernier chapitre va se concentrer sur la conception du
logiciel « zazakely ».
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
2
Chapitre I. GENERALITES
I.1. Les Sons
Les sons sont des phénomènes physiques que notre sens auditif peut apercevoir.
L'acoustique, science traitant des phénomènes sonores dit que les sons des énergies qui se
propagent sous forme de vibrations dans un milieu compressible comme dans l'eau, dans l'air,
dans les matériaux solides, mais pas dans le vide et perçues par notre ouïe.[1]
a. Émission, Propagation, Réception du son
Pour qu'un son soit émis, une énergie doit avant tout mettre en mouvement un
corps pour produire une vibration. Ainsi, le muscle du larynx, la chute d'un objet sur
le sol, ou la tension électrique dans un haut-parleur, provoqueront l'énergie nécessaire pour
produire cette vibration. Ensuite, pour que ce son puisse se propager, il faut un milieu
élastique favorable à la transmission de la vibration. En créant des surpressions ou des
dépressions, l'air permet la propagation de l'onde. Les matériaux solides ont aussi cette
capacité de transmettre le son. Dans le vide par contre, aucun son ne peut se propager, car il
n'y a aucun de support. Enfin, pour être perçue, il doit y avoir un récepteur sensible. Chez
l'homme, l'oreille possède une membrane (le tympan) capable de transmettre les
informations de vibration en signaux nerveux jusqu'au cerveau, grâce au nerf auditif. De
même, le microphone possède également une membrane permettant de transformer les
déplacements de l'air en signaux électriques.
Figure I-1 Emission et perception du son [2]
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
3
b. Caractéristiques du son [3]
Comme tout phénomène vibratoire, les sons peuvent être analysés comme des signaux
qui varient dans le temps.
Les sons peuvent être définis par les 3 paramètres:
fréquence
amplitude
timbre
Dans les techniques de prise de son, de mixage, synthèse sonore (synthétiseurs), ces
paramètres sont fondamentaux. Toute la «chaîne» du son, c‟est à dire les différentes machines
que traverse le son utilisent ces paramètres.
i. La fréquence
La fréquence est le paramètre qui permet de préciser la tonalité c'est-à-dire aigu ou
grave du signal.
- Plus la Fréquence est élevée, plus le son est aigu,
- Plus la Fréquence est basse, plus le son est grave.
L‟unité de mesure est le HERTZ qui est égale à oscillations par secondes.
Une période est une oscillation complète.
Figure I-2 un signal d’une période
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
4
ii. L’amplitude
L‟amplitude est le paramètre qui permet de préciser le niveau sonore soit fort ou
faible.
Plus l‟amplitude est grande, plus le son est fort,
Plus L‟amplitude est petite, plus le son est faible.
L‟unité de mesure est le DECIBEL (dB) ou plus précisément en acoustique, le dB
SPL, qui représente la pression / m2
Le dB est un rapport de signaux avec comme référence en acoustique le seuil
d‟audition (0dB).
Voici un ordre d‟idée de la mesure du dB acoustique :
Tableau 1. Exemple d’amplitude sonore
Amplitude Niveau Exemple
>120 Insupportable Intérieur d‟une grosse caisse
90 dB 120 dB Très fort Tutti d‟orchestre
60 dB 90 dB Fort Piano joué à 1 mètre
30 dB 60 dB Faible Appartement calme
10 dB 30 dB Très faible Studio d‟enregistrement
0 dB 10 dB Inaudible Seuil d‟audition
Le dB est également utilisé pour d‟autres unités de mesure présents sur les
équipements électroniques pour indiquer les niveaux, les gains ou atténuations de tensions de
l‟entrée d‟un amplificateur, pré-ampli micro, table de mixage, enregistreurs, etc.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
5
iii. Le Timbre
Le timbre est le paramètre qui permet de préciser la « couleur » du signal (son).
Suivant le théorème de Fourrier, un son complexe peut être décomposé en une somme
de sinusoïdes de fréquence et d‟amplitude données.
- La fréquence la plus basse est appelée « FONDAMENTALE »,
- Les fréquences multiples à la fondamentale sont appelées «HARMONIQUE».
Plus le son a des harmoniques, plus on dit qu‟il est «riche».
L‟analyseur de spectre permet : de montrer le contenu spectral du son (signal)
Certains sons n‟ont pas de spectre bien défini: les fréquences sont générées
aléatoirement.
- le bruit rose (Pink Noise) : contient toutes les harmoniques dont la somme donne un
contenu spectral «plat»
- le bruit blanc (White Noise) : contient toutes les harmoniques dont la somme donne
un contenu croissant.
I.2. La parole [4]
La parole est un moyen de communication très efficace et naturel de l'humain. La
parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine
dans les mécanismes de production. La parole apparaît physiquement comme une variation de
la pression de l'air causée et émise par le système articulatoire. Les sons de parole sont
produits soit par des vibrations des cordes vocales (source de voisement), soit par une
turbulence crée par l'air s‟écoulant rapidement dans une constriction ou lors du relâchement
d‟une occlusion du conduit vocal (sources de bruit). L'unité de parole de plus petite taille est
un phonème (voyelle ou consonne). Le nombre de phonèmes est toujours très limité,
normalement inférieur à cinquante.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
6
Par exemple : la langue française comprend 36 phonème.
Tableau 2. Les phonèmes français
La parole est produite par le système articulatoire, présenté par la figure I-3.
Figure I-3 Système de production de voix humain
L‟appareil vocal humain est constitué d‟un excitateur, le complexe glotte-cordes
vocales, et d‟un ensemble de résonateurs de l‟appareil phonatoire : le pharynx, la cavité
buccale, la cavité labiale, les fosses nasales. Lorsqu‟un excitateur entre en vibration, il fournit
un signal, dont le résonateur va amplifier certaines composantes et on obtient des formants.
Ce sont des facteurs fondamentaux qui forment le timbre de la voix, et caractérisent donc ce
dernier. Le nombre de formants est variable, pouvant passer d‟un seul à une infinité. Mais
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
7
même s‟il en existe beaucoup, seuls quelques-uns jouent un rôle du point de vue perceptif. Par
contre, un formant ne peut jamais être ramené à une fréquence fixe ; il s‟agit plutôt d‟une
bande de fréquence.
L‟étendue spectrale du signal acoustique est comprise entre 80 et 8000Hz, avec une
étendue dynamique de 60 à 70dB. Il est à noter que la fréquence fondamentale moyenne de
vibration des cordes vocales, appelées « pitch » est situé entre 40 – 140 Hz pour les hommes,
entre 180 – 300 Hz pour les femmes et entre 300 – 600 Hz pour les enfants.
I.3. Empreinte vocale
Une Empreinte vocale est un résumé numérique généré à partir d'un signal audio. Cette
empreinte permet d'identifier un échantillon sonore, ou de localiser une séquence sonore dans
une base de données audio.
Le procédé d'empreinte vocale fut mis au point à partir d'expérimentations réalisées
par des scientifiques désirant convertir les sons linguistiques en enregistrements visuels
destinés à être analysés et mesurés.
Les sons vocaux sont convertis en impulsions électriques et enregistrés sur une bande
magnétique, comme dans un enregistrement sonore ordinaire, mais les impulsions sont ensuite
traitées électroniquement par un balayage successif de l'enregistrement magnétique original et
converties en un enregistrement sous forme d'images sur un papier de spectrogramme
sensibilisé électriquement.
Les images qui en résultent peuvent être systématiquement classées par durée,
fréquence et intensité et comparées avec des images en provenance d'autres sources.
L'empreinte vocale est quelquefois utilisée par la police pour identifier des personnes
proférant des menaces téléphoniques ou à l'origine d'appels anonymes.
I.4. Reconnaissance vocale [5]
Il existe deux grands types de reconnaissance vocale :
La reconnaissance de la parole ou Speech recognition :
La reconnaissance de la parole est utilisée pour reconnaître ce qui est dit. Dès lors, elle
permet de transformer le discours/la voix en texte. Beaucoup de personnes pensent que la
reconnaissance vocale et la reconnaissance de la parole sont similaires alors que ce n‟est pas
du tout le cas. Seul le contenu de la parole est reconnu par la reconnaissance de la parole.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
8
La reconnaissance du locuteur ou Speaker recognition :
Le but de la reconnaissance du locuteur est de reconnaître qui parle et donc de
reconnaître le locuteur et non pas le contenu.
La figure I-4 montre les différents types de reconnaissance vocale que l‟on peut
rencontrer fréquemment.
Figure I-4 Types de reconnaissance vocale
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
9
Chapitre II. ANALYSE ACOUSTIQUE DU SIGNAL DE LA PAROLE
II.1. Traitement des signaux [6]
Traitement des signaux est une théorie permettant d‟effectuer une description ou une
modélisation et une analyse des signaux et des systèmes porteurs d‟information.
a. Echantillonnage des signaux
Le traitement numérique des signaux se fait sur des valeurs discrètes: il n'est pas
possible de traiter par ordinateur des signaux à temps continu. Par souci de simplicité, on
échantillonne les signaux à un rythme régulier. Une horloge de cadence T permet de
conserver entre les instants nT et (n+1)T la valeur qu'avait le signal à l'instant nT, ce qui
permet ensuite de calculer la valeur numérique binaire du signal par une succession
d'opérations de comparaisons à des tensions de référence de la forme et de
soustractions.
Il existe plusieurs types d‟échantillonnage : échantillonnage idéale et échantillonnage
par blocage.
i. Échantillonnage idéale
L‟opération d‟échantillonnage consiste à prélever sur un signal analogique dont
l‟évolution est continue dans le temps, des échantillons représentant l‟amplitude aux instants
de prélèvement.
Pour des raisons de simplification, les prélèvements sont réalisés régulièrement avec
une périodicité constante Te appelée période d‟échantillonnage. L‟échantillonnage est qualifié
d‟idéal dès lors que l‟on peut supposer ou approcher une prise instantanée des échantillons.
Figure II-1 L’échantillonnage idéal.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
10
Mathématiquement, l‟échantillonnage idéal peut être modélisé par le produit entre x(t)
et une suite périodique d‟impulsions idéales appelée peigne de Dirac.
( ) ( ) ∑ ( )
Le facteur Te permet de normaliser l‟énergie du signal échantillonné x∗(t)
ii. Spectre du signal échantillonné
En utilisant la transformation de Fourier appliquée aux signaux échantillonnés, on
montre que le spectre du signal x∗(t) est constitué d‟une suite de répliques du spectre de x(t)
décalées avec une périodicité de
La transformée de Fourier du peigne de Dirac est un peigne de Dirac fréquentiel :
∑ ( )
→ ∑ ( )
Or
( ) ( ) ∑ ( )
Donc le spectre du signal échantillonné s‟écrit :
( ) ∑ ( )
Figure II -2 Composition spectrale d’un signa
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
11
iii. Théorème de l’échantillonnage ou théorème de Shannon
En considérant un spectre initial X(f) borné supérieurement par une limite fsup, on peut
espérer conserver toute l‟information lorsque fe est choisie telle que
Le non respect de la condition précédente conduit à un sous-échantillonnage qui
engendre le repliement des motifs spectraux (figure II.3). En d‟autres termes, il y a perte ou
modification des informations originales.
Figure II-3 Aspect fréquentiel du sous-échantillonnage
iv. Échantillonnage-blocage
L‟opération d‟échantillonnage-blocage d‟un signal x(t) consiste à conserver la valeur
échantillonnée entre deux prélèvements successifs, (figure II.4). Le signal issu d‟un tel
traitement prend une forme dite en marches d‟escalier.
Figure II-4 Échantillonnage-blocage d’un signal analogique
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
12
b. Représentation des signaux périodiques sous la forme
de séries de Fourier
Joseph FOURIER, mathématicien français, affirma, dans un mémoire daté de 1807,
qu‟il était possible, dans certaines conditions, de décomposer une fonction périodique f sous
la forme d‟une somme infinie de signaux sinusoïdaux
Théorème de Fourier : Toute fonction continue est décomposable en série de
FOURIER. Si de plus cette fonction est périodique de période T, le nombre de termes de la
décomposition est fini.
i. Coefficients du développement
La décomposition en séries de Fourier peut s'étendre aux fonctions non périodiques.
Dans ce cas nous aurons une décomposition sous la forme :
( )
∫ ( ) (
)
Ou bien
( )
∑ ( )
( )
( ) ∑ ( )
Avec
∫ ( ) ( )
et √
∫ ( ) ( )
(
)
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
13
ii. Développement sous forme complexe
Un signal x(t) périodique de période T0 peut se décomposer sous la forme d'une
somme de signaux sinusoïdaux, les harmoniques dont la fréquence est un multiple de la
fréquence fondamentale
On aura :
( ) ∑ ( ) ( )
L'amplitude complexe de chaque harmonique ( ) se calcule de la manière suivante
( )
∫ ( ) (
)
iii. Conditions de validité du développement
Comme dans tout problème de développement d‟une fonction, le critère de validité
repose sur la convergence de la série en tout point vers x(t). Ainsi une fonction périodique x(t)
est développable en séries de Fourier si :
x(t) est défini et continue sur l‟intervalle
à l‟exception d‟un nombre
fini de points.
x(t) ne présente pas de discontinuités de seconde espèce
Figure II-5 Discontinuités de seconde espèce
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
14
II.2. Analyse spectrale des signaux numériques
a. Transformation de Fourier numérique [7]
i. TFN directe
Soit une suite numérique de N valeurs xk pour k variant de 0 à N − 1.
On peut toujours considérer que ces valeurs sont issues de l‟échantillonnage à la
cadence fe du signal x(t) c‟est-à-dire que
( )
La version numérique de la transformation devient :
( ) ∑
Ce résultat est conforme à la théorie de l‟échantillonnage vue précédemment
ii. TFN inverse
La fonction X( f ), obtenue par l‟équation (12), est périodique donc décomposable en
série de Fourier. Les coefficients du développement ne sont autres que les échantillons xk que
l‟on peut obtenir par :
∫ ( ) (
)
k variant de 0 à N-1
b. Transformation de Fourier discrète [8]
Pour utiliser la transformé de Fourier discrète il faut un signal périodique
i. Discrétisation de l’intervalle fréquentiel
On pose le pas fréquentiel
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
15
Les fréquences discrètes sont alors données par :
Ou
ii. TFD directe
est appelée transformation de Fourier discrète (TFD) :
( ) ∑
∑
Figure II-6 Répartition des fréquences discrètes
Avec
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
16
pour N pair
Ou
pour N impair.
La TFD fournit N points de spectre à partir de N valeurs temporelles. Pour un signal xk
purement réel, Re{Xn} est une fonction paire et Im{Xn} est une fonction impaire. La
détermination de la moitié des valeurs spectrales complexes est suffisante
iii. TFD inverse
La transformation de Fourier discrète inverse est obtenue à partir de l‟équation de la
TFN en remplaçant :
∫
∑
Ce qui donne,
∑
(
)
(
)
k variant de 0 à N-1
c. Transformée de Fourier Rapide
La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD
calculée selon un algorithme permettant de réduire le nombre d‟opérations et, en particulier, le
nombre de multiplications à effectuer.
Il faut noter cependant, que la réduction du nombre d‟opérations arithmétiques à
effectuer, n‟est pas synonyme de réduction du temps d‟exécution. Tout dépend de
l‟architecture du processeur qui exécute le traitement.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
17
Soit ( ) une TFD d‟un signal x de longueur N. L‟équation de ( ) donnée par
la relation (12).
Si on effectue le calcul directement sans algorithme efficace, on doit effectuer:
N2 multiplications complexes
N(N − 1) additions complexes
Il existe différents algorithmes de FFT Le plus connu est sûrement celui de Cooley-
Tukey (appelé aussi à entrelacement temporel ou à « decimation in time «) qui réduit à
le nombre de multiplications.
Il existe deux versions de l‟algorithme:
• FFT avec entrelacement temporel,
• FFT avec entrelacement fréquentiel.
L‟algorithme nécessite que N soit une puissance de 2. Le principe de l‟algorithme
consiste à décomposer le calcul de la TFD d‟ordre N = 2l en l étapes successives.
i. FFT avec entrelacement temporel
Illustrons tout d‟abord la méthode par un exemple pour N = 4.
Les données sont notées x(n) et la suite TFD X(n).
La notation w représente e− j2π /N
, c‟est-à- dire e− j2π /4
. On peut remarquer que wN = 1
et
wN/2
= − 1.
Pour N = 4, w4 = 1 et w
2 = − 1
La suite TFD s‟écrit:
X(0) = x(0) + x(1) + x(2) + x(3) = (x(0) + x(2)) + (x(1) + x(3))
X(1) = x(0) + w1x(1) + w
2x(2) + w
3x(3) = (x(0) − x(2)) + w
1 (x(1) − x(3))
X(2) = x(0) + w2x(1) + w
4x(2) + w
6x(3) = (x(0) + x(2)) − (x(1) + x(3))
X(3) = x(0) + w3x(1) + w
6x(2) + w
9x(3) = (x(0) − x(2)) − w
1 (x(1) − x(3))
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
18
Les données (x(0),x(1),... ,x(N − 1)) sont regroupées en 2 paquets: un paquet formé
des données d‟indices pairs (x(0),x(2),... ,x(N − 2)) et un paquet formé des données d‟indices
impairs (x(1),x(3),... ,x(N − 1)).
Soit pour N = 4, un paquet (x(0),x(2)) et un paquet (x(1),x(3)).
Puis sur chaque paquet on effectue une DFT d‟ordre N/2 et on combine les résultats de
ces 2 DFT pour obtenir celle d‟ordre N. Ce qui donne, toujours pour N = 4:
Pour obtenir les 4 valeurs X(k), il suffit donc de calculer 2 DFT d‟ordre N/2 = 2 et de
combiner les résultats 2 à 2 à l‟aide d‟une addition et d‟une multiplication au maximum, pour
chaque valeur X(k). Cette étape est appelée étage de « papillons «, pour des raisons évidentes
liées à la forme du schéma de calcul. Ce résultat se généralise à toute valeur valeur de N
multiple de 2.
ii. FFT avec entrelacement fréquentiel
Cet algorithme est symétrique du précédent. Les données temporelles x(n) restent
dans l‟ordre naturel, mais les résultats ( ) sont désordonnés.
Le principe consiste encore à décomposer le calcul de la TFD d‟ordre N = 2l en l
étapes successives. Mais le regroupement de données se fait différemment.
II.3. Fenêtrage [9]
L‟analyse spectrale par TFD impose de travailler sur un signal numérique xk de durée
limitée. La multiplication du signal par une fenêtre wk de troncature temporelle permet de
limiter la durée à N échantillons. Cette multiplication temporelle correspond à une
convolution fréquentielle figure 11.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
19
Figure II-7 Effet du fenêtrage sur un signal analogique
De manière générale, la transformation de Fourier d‟une fenêtre de troncature prend
l‟allure décrite en figure II.8.
Figure II-8 Critères de choix d’une fenêtre
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
20
Les caractéristiques principales d‟une fenêtre d‟analyse sont :
la résolution fréquentielle. Celle-ci, notée Δf, peut être définie comme la
possibilité de pouvoir séparer deux fréquences proches l‟une de l‟autre. Elle est
caractérisée par la largeur à –3 dB du lobe principal de la fenêtre ;
la dynamique imposée par l‟amplitude des lobes secondaires définit la dynamique
de la fenêtre.
Tableau 3 Types des fenêtres avec leurs définitions
La fenêtre couramment utilisées est la fenêtre de Hamming.
i. Fenêtre de Hamming
La fenêtre de Hamming généralisée a pour équation:
( )
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
21
La fenêtre de Hamming proprement dite est le cas particulier de la fenêtre généralisée
pour α= 0,54. Cette valeur correspond à une annulation quasi parfaite du premier lobe
secondaire de la fenêtre rectangulaire.
Les fenêtres de la famille Hamming se caractérisent par un pic central de largeur
double de la fenêtre rectangulaire mais une atténuation des oscillations sensiblement plus
importante. La représentation fréquentielle de la fenêtre de Hamming généralisée a pour
équation :
( )
(
)
(
)
II.4. Analyse Cepstrale [10]
Les coefficients produits à la sortie des bancs de filtre selon l‟échelle MEL ou les
coefficients LPC peuvent être utilisés pour mesurer des différences entre deux
spectrogrammes. Ils présentent cependant de nombreux inconvénients comme par exemple
de dépendre de l‟énergie du signal et de l‟excitation. De manière à pouvoir comparer
différents spectres, plusieurs méthodes de normalisation et de mesure existent qui peuvent être
exprimées dans un contexte plus général de la théorie de l‟information.
La figure II.9 illustre les courbes données par les coefficients Cepstraux.
Figure II-9 Cepstre réel complet pour une fenêtre de 250 échantillons (à gauche), et les 20 premiers
coefficients cepstraux (à droite).
Si nous admettons la représentation source/filtre du signal de parole, ce signal résulte
d‟une convolution dans le domaine temporel de la source et du filtre.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
22
s(t) = e(t)* h(t)
Cependant, ce qui nous intéresse pour identifier et pour mesurer des différences (ou
des similitudes) entre spectres est l‟enveloppe spectrale.
Nous transformons dans le domaine spectral l‟équation de s(t) pour avoir le produit de
l‟excitation E (f ) e t de la fonction de transfert du filtre H (f ):
S (f ) = E (f ) . H (f )
Comme nous voulons découpler la source du filtre de manière à n‟avoir plus que
l‟enveloppe spectrale, nous utilisons la fonction log, de manière à ce qu‟en ne prenant que le
module du spectre nous obtenions:
log |S (f )| = log |E (f )| + log |H (f )|
Une manière naturelle de découpler les composants de log |S (f )| qui varient lentement
de ceux qui représentent les variations de l‟excitation, consiste à appliquer une transformée de
Fourrier inverse. Les coefficients temporels ainsi obtenus sont appelés coefficients
Cepstraux.
Les premiers coefficients donnent les paramètres de l‟enveloppe spectral (ou la
réponse impulsionnelle du conduit vocal), les coefficients plus élevés, les variations de
l‟excitation (figure II.9).
Si les coefficients cepstraux sont issus d‟une analyse en banc de filtres sur une échelle
MEL, on les dénommera MFCC (Mel Frequency Cepstrum Coefficients), s‟ils sont issus
d‟une analyse LPC on les appellera coefficients LPCC (Linear Predicting Coding Cepstrum).
Il existe une méthode directe pour passer des coefficients ap de la LPC à des coefficients
Cepstraux Cm.
LPCC utilise les récursions suivantes:
∑ (
)
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
23
∑ (
)
Un des avantages importants de la comparaison de spectres en utilisant les coefficients
Cepstraux est le fait que nous pouvons utiliser une mesure de distance euclidienne simple à
estimer.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
24
Chapitre III. RECONNAISSANCE DE LOCUTEUR
III.1. Historique
La reconnaissance vocale est définie comme étant un processus de prise de décision
utilisant des caractéristiques de la parole, afin de déterminer si une personne en particulier est
à l‟origine d‟une énonciation. Cette prise de décision porte sur une éventuelle familiarité entre
la voix cible et les voix de référence. [11]
a. Reconnaissance de locuteurs par des profanes
Une croyance ancienne, toujours d‟actualité de nos jours, stipule que l‟humain peut
être fiable à identifier autrui en entendant sa voix. En effet, en se basant sur notre capacité à
reconnaître des voix d‟amis ou d‟identifier des voix d‟acteurs ou de politiciens, le mythe
d‟une reconnaissance vocale auditive par des profanes exacte et précise est né. Selon le même
auteur, les humains surestiment leur performance dans le domaine de la reconnaissance de
locuteurs.
Un grand nombre de paramètres entre également en jeu dans ce genre de
reconnaissance : la qualité de la voix, la nature du discours, la durée de l‟écoute, le temps
écoulé entre l‟écoute de la voix du locuteur et la procédure d‟identification, la différence
d‟âge, de genre et d‟ethnie entre le témoin auditif et le locuteur, le déguisement de la voix,
etc. De ce fait, de nombreux auteurs préconisent de prendre avec précaution les résultats
d‟une identification de locuteur par des profanes.
b. Reconnaissance de locuteurs par des experts
Les experts phonéticiens analysent en détail la voix du locuteur, pour extraire des
paramètres au niveau de la voix (hauteur, et timbre), de la parole (articulation, diction, vitesse
d‟élocution, pauses, intonation et défauts), du langage (dynamique, style et prosodie), ainsi
qu‟au niveau de caractéristiques linguistiques (syntaxe, idiotisme et respiration).
L‟utilisation de moyens techniques pour extraire certaines de ces caractéristiques
permet de les quantifier. Ces experts se basent sur l‟amplitude, les bandes de fréquence, la
distribution spectrale des énergies, la fréquence fondamentale, ainsi que sur la durée et rythme
des segments de voix.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
25
Après la 2ème
Guerre Mondiale, une approche consistant à comparer visuellement les
spectrogrammes, «empreinte vocale», des voix indiciaires et de comparaison est apparue. Les
limites de cette approche ont rapidement été mis en évidence durant la fin du 20ème
siècle :
contrairement à ce que le nom d‟ «empreinte vocale» nous laisse croire, les spectrogrammes
d‟un même locuteur ne sont, ni invariants tout au long de la vie, ni uniques, comme les
empreintes digitales. Malgré le manque de fiabilité et de validité de cette méthode, ce type
d‟identification est encore autorisé dans les tribunaux américains.[12]
c. Reconnaissance de locuteurs automatisée
Il existe plusieurs types de système de reconnaissance automatique de locuteurs : les
systèmes dépendants du texte et les systèmes indépendants. Le premier cas comprend les
situations dans lesquelles la confection d‟enregistrements de contrôle du locuteur suspecté est
possible, ce qui est relativement rare dans le domaine forensique. Le second cas comprend les
situations dans lesquelles la confection d‟enregistrement de contrôle est impossible.
Un grand nombre de systèmes de caractérisation et de comparaison des paramètres ont
été testées.
Actuellement, la plupart des systèmes utilisent la modélisation des caractéristiques du
locuteur par plusieurs fonctions gaussiennes, appelée «Gaussian Mixture Modelling» ou
GMM. Les systèmes indépendants du texte utilisant ce type de modélisation sont plus
performants que les autres méthodes de caractérisation, comme par exemple l‟utilisation des
réseaux de neurones, la quantification vectorielle et les modèles de Markov cachés.
III.2. Principe et fonctionnement de la reconnaissance de
locuteur [13]
Etapes à suivre :
Enregistrement de son du locuteur
Sélection d‟une partie de signal
Création de l‟empreinte
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
26
a. Création de l'empreinte vocale
Figure III-1 Schéma de fonctionnement
b. Détection des zones de silence
Lors de la paramétrisation du signal de la parole, une des premières étapes consiste à
séparer les zones de silence de celles de parole. Afin de réaliser cette séparation, on va
calculer un seuil en se basant sur le logarithme de l‟énergie moyenne de la zone que l‟on veut
tester du signal. L'énergie moyenne est mesurée en décibels (dB) selon une échelle
logarithmique. Ainsi, on ne va conserver que les zones de paroles qui sont supérieures au seuil
fixé (en dB) :
( )
∑ ( )
avec N = le nombre d‟échantillons de la zone du signal de parole testée et x(n) = la
valeur de l‟échantillon n de la zone du signal de parole testée.
Dans ce travail de fin d‟études, on calculera l‟énergie moyenne de la fenêtre après
l‟étape de découpage en plusieurs fenêtres (donc N correspondra aux N échantillons de la
fenêtre). Si cette fenêtre est une zone de silence, on la jette. Si c‟est une zone de parole, on la
garde.
c. Calcul des coefficients MFCC
La méthode des MFCC (Mel-Frequency Cepstral Coefficients) permet d‟extraire des
caractéristiques du signal à partir de la FFT et de la DCT, ceci sur une échelle de Mel. Cette
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
27
méthode est la plus utilisée en reconnaissance vocale car elle a l‟avantage d‟être robuste,
d‟avoir des coefficients qui sont décorréllés et de bien simuler l‟oreille humaine.
Voici un schéma qui reprend les différentes étapes pour calculer les coefficients
MFCC :
Figure III-2 Etape pour le calcul de MFCC
i. Découpage en plusieurs fenêtres
Tout d‟abord, on va découper le signal en plusieurs fenêtres de 20-30 ms. Cette
longueur de fenêtre est choisie car la parole varie peu en 20-30 ms et donc elle respecte
l‟hypothèse de stationnarité. On utilise aussi un recouvrement en général de 50 % de façon à
ce que deux fenêtres consécutives se recouvrent bien.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
28
La figure III.3 illustre la méthode de découpage.
Figure III-3 Exemple de découpage de fenêtre
ii. Fenêtre de Hamming
La fenêtre de Hamming est appliquée à chaque fenêtre résultante de l‟étape de
découpage précédente. Elle est utilisée pour atténuer les effets de bords dus au découpage en
fenêtres et ainsi diminuer la distorsion spectrale du signal au début et à la fin de chaque
fenêtre
On l‟applique à chaque fenêtre du signal de parole de la façon suivante :
( ) ( ) ( )
iii. La transformée de Fourier rapide (FFT)
La transformée de Fourier rapide est un algorithme permettant de calculer rapidement
la transformée de Fourier discrète (DFT) :
( ) ∑ ( )
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
29
Cette méthode permet de convertir chaque fenêtre du domaine temporel dans le
domaine fréquentiel. Comme le signal est réel, l‟information spectrale est symétriquement
redondante et les fréquences négatives sont identiques aux positives. Par conséquent, on ne
récupérera que les échantillons compris entre 0 et N/2. Ce qui veut dire que la méthode nous
renseignera sur les fréquences comprises entre 0 et fe/2.
Pour commencer, il faut que le nombre d‟échantillon N de la fenêtre soit une puissance
de 2. En général, on choisit des fenêtres de N = 256 échantillons. Si la fenêtre initiale ne
contient pas assez d‟échantillons, on va utiliser la technique du bourrage de zéros (zero-
padding). Elle consiste à remplir les échantillons manquants par des zéros. Cela permet de
n‟apporter aucune information supplémentaire pour le spectre. Ensuite, on calcule la
transformée de Fourier rapide de chaque fenêtre et on récupère leur spectre en magnitude
|S(k)|.
iv. Banc de filtres MEL
On va pondérer le spectre de magnitude par un banc de filtres triangulaires espacés
selon l'échelle de Mel afin de reproduire la sélectivité du système auditif humain.
Tout d‟abord, la bande de fréquence utilisée se situe entre 0 et fe/2Hz. Cette bande va
être divisée en K filtres triangulaires équidistants dans le domaine de fréquence Mel avec un
recouvrement de 50%.
Figure III-4 Banc de filtre de Mel[14]
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
30
Tout d‟abord, il faut savoir que l‟échelle de fréquence Mel est espacée linéairement
jusque 1000 Hz et ensuite elle est espacée logarithmiquement au dessus de 1000 Hz. La
transformation de la fréquence en fréquence de Mel s‟effectue de la façon suivante :
( ) (
)
L‟opération inverse se fait de la manière suivante :
(
) .
Pour connaitre l'intervalle de fréquence Mel entre chaque filtre, on utilise la constante:
( ) ( )
où Mel(fmax)= la fréquence maximale sur l‟échelle de Mel calculée à partir de fmax = fréquence
maximale, Mel(fmin )= la fréquence minimale sur l‟échelle de Mel calculée à partir de fmin =
fréquence minimale et M = le nombre de filtres.
En termes d‟indices FFT pour la fréquence centrale des filtres, on a :
( ) ( ( )
)
où round(.) arrondi à l‟entier le plus proche, fe= fréquence d‟échantillonnage et NFFT
correspond à la taille de la fenêtre FFT.
Ensuite, on va pondérer le banc de filtres Mel en fonction d‟où se trouve l‟indice k de
fréquence :
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
31
Finalement, on applique le banc de filtres au spectre de magnitude calculé par la FFT :
( ) ∑ ( )
( )
où M = nombre de filtres et N = la taille de la fenêtre FFT.
d. Conversion de l’échelle en logarithme
L‟étape suivante consiste à appliquer le logarithme sur les valeurs de l‟étape
précédente. Cela permet d‟obtenir le spectre logarithmique de Mel et de compresser la somme
précédente:
( ) ( ( ))
e. La transformée en cosinus discret (DCT)
Finalement, on obtient les coefficients MFCC en appliquant la transformée en cosinus
discret au spectre logarithmique de Mel :
( ) ∑ [
(
) ] ( )
avec M = nombre de filtres, K = nombre de coefficients, k = numéro de coefficients et
m = numéro du filtre. Pour n = 0, a0=1/√ pour n > 0, am= √
.
À noter que am la constante est utilisée pour orthogonaliser la matrice DCT.
La transformée en cosinus discret permet de revenir dans le domaine temporel en
convertissant le spectre logarithmique de Mel du domaine fréquentiel au domaine temporel.
On l‟utilise aussi pour sa capacité à décorréler les données.
En général, on rejettera le coefficient c(0) car il ne représente que le logarithme de
l‟énergie moyenne de la fenêtre. Donc par exemple pour 13 coefficients de départ, on ne
gardera que les 12 derniers.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
32
III.3. Comparaison dynamique (Dynamic Time Warping
(DTW))
La comparaison dynamique est un algorithme permettant de résoudre des problèmes
d‟alignement séquentiel. Il permet de calculer la distance entre deux séquences qui peuvent
varier en temps et en vitesse.
Dans le cadre de la reconnaissance du locuteur on va comparer deux séquences de
vecteurs acoustiques, celle que l‟on veut tester et celle de référence du locuteur. Le principal
problème est que si le locuteur veut citer un même mot ou une même phrase, sa vitesse
d‟élocution ne sera pas la même d‟un segment de parole à l‟autre. C‟est pourquoi on utilise
l‟algorithme de comparaison dynamique qui permet de palier à ce problème. Il va effectuer un
alignement temporel optimal afin de réduire la déformation temporelle et le coût entre les
deux segments de parole.
Figure III-5 Exemple de comparaison dynamique
Le chemin (warping path) alignant deux séquences de taille N et M est une séquence
( ) de taille L où ( ) ϵ [1 : N] x [1 : M] et l ϵ [1 : L]. Ce chemin doit
satisfaire les conditions suivantes :
1. La condition de limite : p1=[1,1] et pl=[N,M]. Cela impose que les premiers
éléments ainsi que les derniers éléments des deux séquences soient alignés l‟un avec l‟autre.
2. La condition de continuité : le chemin avance d‟un seul pas à la fois. Donc les
indices m et n ne peuvent être augmentés que de 1 à la fois le long du chemin.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
33
3. La condition de monotonie : n1≤….≤nL et m1≤…≤mL .Le chemin ne peut pas
revenir sur lui-même, ses indices ne peuvent jamais décroître seulement croître.
Figure III-6 Chemin optimal d’alignement
III.4. Les variabilités du signal de parole
Types d‟informations avec recouvrement :
Anatomie de l‟appareil phonatoire
Phonétique : cibles phonémiques
Prosodie : rythme, vitesse, intonation, volume, modulation
Diction, prononciation, accents régionaux
Linguistique : syntaxe, grammaire, sémantique
Emotionnelle, pathologique
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
34
Pour y résumer, la figure III-7 montre les informations captées avant, pendant et après
un enregistrement :
Figure III-7 Les informations captées dans les enregistrements
III.5. Application de la reconnaissance de locuteur
On voit très souvent la reconnaissance de locuteur sur les domaines de sécurité, voici
quelques exemples :
contrôle d‟accès (en complément d‟un code, d‟un badge)
banques, voitures, entrepriseS
consultation de compte bancaire par téléphone
Police criminelle pour l‟identification de suspects :
filtrage de voix suspectes (avec validation humaine)
pas assez fiable pour utiliser comme preuve
Transcription automatique :
adaptation des modèles acoustiques à la voix du locuteur
Indexation multimédia :
indexation par locuteur
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
35
III.6. Problèmes majeurs
Comme tous les systèmes dépendants des paramètres humains, la reconnaissance de
locuteur lui aussi avaient des problèmes. Voici quelques exemples :
Variabilité due au locuteur
Émotion, fatigue, stress, refus de coopération.
conditions d‟enregistrement variables
Microphone, bruit ambiant.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
36
Chapitre IV. REALISATION
Le but de cette réalisation est de donner quelques exemples d‟implémentations
informatiques des principes physiques et mathématiques qu‟on a vu antérieurement. A ce
sujet, On a développé une application nommée « zazakely » pour montrer la simulation sous
Windows de la reconnaissance de locuteur via son empreinte vocale.
Ce chapitre présente tout d‟abord le logiciel « zazakely » afin de le décrire clairement
et ensuite les matériels requis pour le mieux intégrer dans un environnement.
IV.1. Présentation du logiciel
a. Programmation
«zazakely » a été écrit en langage de programmation JAVA avec NetBeans IDE 7.0 et
le langage de script de MATLAB qui est actuellement utilisé dans un grand nombre
de discipline scientifique. Ce logiciel utilise :
- Les API pour la manipulation du fichier audio : Java Speech, Java Sound.
- Les API graphique : API AWT, API Swing
- La librairie « jamal-2.2»
- Une fonction MATLAB assurant l‟algorithme D.T.W pour le calcul de distance
- Un script MATLAB permettant de créer les MFCC et de les représenter dans
une interface graphique.
b. Fonctionnement
La figure 4.1. Illustre le fonctionnement de la reconnaissance de locuteur dont
ces étapes sont expliquées comme suit :
- La paramétrisation
On l‟appelle aussi analyse acoustique du signal de parole. Elle consiste
généralement à extraire les informations pertinentes et réduire au maximum la
redondance.
Le nombre de coefficients acoustiques est ici fixé à 13 dans cette simulation et
capturés sur des blocs de signal de longueur fixe 25 ms.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
37
- La comparaison
Elle consiste à calculer les distances entre une empreinte inconnue et les
empreintes enregistrées dans une base de données.
Compte tenu des décalages temporels entre les différentes prononciations d‟un
même mot, On a choisi la comparaison dynamique(DTW) car elle met en
correspondance des séquences de paramètres par distorsion temporelle (Time Warping).
- La décision
La phase de décision désigne le locuteur finalement reconnu. Dans cette phase de
décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne
pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des
locuteurs de la base de référence.
Figure IV-1 Fonctionnement
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
38
c. Organigramme
L‟organigramme présenté dans la figure IV-2 montre tous les étapes à suivre pour la
manipulation du logiciel. Chaque module du programme du logiciel zazakely est conçu à
partir de cet organigramme.
Figure IV-2 Organigramme du logiciel « zazakely »
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
39
IV.2. Les interfaces de « zazakely »
a. Fenêtre de démarrage
Lancer le logiciel en exécutant le fichier zazakely.jar
Figure IV-3 Fenêtre de démarrage
b. Fenêtre principale
Après le démarrage, la fenêtre principale s‟affiche.
Figure IV-4 Fenêtre principale
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
40
c. Fenêtre dico
Comme ce logiciel contient les informations sur les locuteurs enregistrés, la fenêtre
dico permet d‟afficher ses informations. Les informations dans ce dico peuvent être effacé en
cas de besoin mais ne pas seulement consulter.
Figure IV-5 Fenêtre dico
IV.3. Manuel d’utilisation de « zazakely »
a. Enregistrement
L‟enregistrement dans la base de données suit plusieurs étapes :
Capture de son
Sélection du phonème
Création d‟empreinte
Enregistrement des informations du locuteur
Capture de son
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
41
Figure IV-6 Représentation temporelle du son
Le bouton Record permet de capturer le son via le micro. Et pour stopper la capture, il
suffit de cliquer sur le bouton Stop.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
42
Sélection du phonème
Et maintenant, on passe dans l‟étape le plus important de l‟enregistrement, il
s‟agit de repérer le phonème qui se sonne plus que les autres comme exemple « a ». Après
l‟avoir repérer, on recadre ou « crop » cette partie de son en cliquant sur crop dans le
menu Edit. Enfin, on passe à l‟enregistrement, il suffit de cliquer sur le menu fichier - save
ou save as.
Figure IV-7 Sélection du phonème
Figure IV-8 Enregistrement du son au format wav
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
43
Création d‟empreinte
Lancer le logiciel MATLAB en cliquant sur l‟icône MATLAB dans l‟onglet
MATLAB.
Figure IV-9 Démarrage de MATLAB
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
44
Figure IV-10 Extraction des paramètres MFCC
Case à cocher permettant de spécifier le résultat escompté. (MFCC)
Pour afficher les coefficients.
Pour enregistrer les coefficients dans un fichier texte.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
45
Enregistrement des informations du locuteur
Après l‟étape précédente, on peut ajouter des informations concernant le
locuteur dans la liste du dico, en cliquant sur le bouton Ajouter une empreinte ou sur
le bouton Ajouter dans la fenêtre dico.
Figure IV-11 Ajout des informations dans le dico
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
46
Le bouton Parcourir sert à sélectionner le fichier contenant l‟empreinte du locuteur.
Figure IV-12 Sélection de l’empreinte
b. Reconnaissance d’un locuteur
La reconnaissance d‟un locuteur suit aussi quelques étapes :
- Capture du son d‟un locuteur inconnu et création de son empreinte
- Faire la reconnaissance
Capture du son d‟un locuteur inconnu et création de son empreinte
D‟une façon analogue que la phase d‟enregistrement
Faire la reconnaissance
Cliquer sur le bouton s’identifier.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
47
Figure IV-13 Identification du locuteur
Ensuite, charger l‟empreinte du locuteur inconnu via le bouton Parcourir.
Figure IV-14 Chargement de l’empreinte de locuteur X
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
48
Après le chargement de l‟empreinte de l‟inconnu, le bouton lancer l’analyse
est activé. La figure IV.15 s‟affiche après l‟avoir cliqué.
Figure IV-15 Lancement du serveur MATLAB
Si la connexion avec MatlabServer est réussie, le bouton Continuer est activé.
Ce bouton permet d‟afficher les résultats de comparaison dynamique effectué par
le MatlabServer.
Figure IV-16 Affichage des distances par rapport à l’empreinte de l’inconnu
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
49
Ces distances sont ensuite comparées avec le seuil de décision pour tolérer des
éventuelles erreurs. Le bouton REPONSE affiche le résultat final.
Figure IV-17 Affichage du résultat
IV.4. Les matériels requis
L‟ordinateur auquel on veut installer le logiciel « zazakely » requiert deux
applications : le JDK 1.7 (Java Development Kit) et le MATLAB 7.5 ou plus.
Ces logiciels ne sont pas supportés par des ordinateurs qui ont de
faibles performances.
Voici les paramètres minimaux requis pour l‟ordinateur :
Processeur pentium IV 3, 2 GHz
Ram 1,5Go
Carte son en bon état
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
50
CONCLUSION ET PERSPECTIVES
La reconnaissance du locuteur est une tâche qui vise à affirmer un individu
après l‟étude des caractéristiques spécifiques de sa voix ou ses empreintes vocales.
Notons bien que les empreintes vocales ne sont pas les même que les empreintes
biométriques que l‟on rencontre souvent dans les marchés puisqu‟ils évoluent
selon les conditions environnementaux pendant les prises de son. Toutes les paramètres
biométrique est unique et constantes, c‟est pourquoi ils sont utilisés pour représenter une
personne.
Le logiciel « zazakely » sert à créer les empreintes vocales et repérer si un son
que l‟on introduit ou teste se trouve dans le dictionnaire. Ce dictionnaire est une base de
données, conçus pour stocker des minimums d‟information pour chaque personne que l‟on
enregistre.
La fiabilité de ce logiciel se pose sur les calculs de MFCC qui ne dépendent
pas des amplitudes de l‟enregistrement, et aussi sur le choix de la sélection de l‟échantillon à
extraire pour créer l‟empreinte. Donc, la sélection manuelle donne plus de travaille
mais rend le logicielle plus stable c'est-à-dire un taux de fidélité élevé.
La continuité de ce travaille peut donc être envisagé à partir des limites que présente le
logiciel « zazakely ». Voici des propositions pour les perspectives :
Les sélections automatiques des phonèmes, plusieurs méthodes sont en vues comme les
méthodes statistiques (HMM, GMM, etc), les méthodes en utilisant l‟intelligence artificielle
(réseau de neurone TDNN, etc).
Utilisations des bases de données plus performant comme ORACLE Database pour que les
stockages de l‟information soient sécurisés.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
51
ANNEXES
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
52
ANNEXE 1 : JAVASOUND
Les API Java manipulant les sons
Java Speech
Java Speech est une API conçus pour les manipulations vocales. On trouve déjà dans
cette librairie des méthodes pour faire de reconnaissance de la parole ou speech recognition,
lecture des textes ou text-to-speech.
Dans notre logiciel, nous n‟utilisons pas cet API mais seulement le Java Sound.
Java Sound
Java Sound nous donne une solution logicielle pour le traitement des sons sur
ordinateur et évite des cartes sons adéquates. Seul besoin un digital-to-analog converter ou
DAC fourni par les cartes sons. Il permet de lire et enregistrer des fichiers sons.
Programmation audio avec java Sound
Objet de la classe AudioFormat indiquant
– le type d'encodage (linéaire ou pas),
– le nombre de canaux (1 pour monophonique, 2 pour stéréophonique),
– la vitesse d'échantillonnage, c'est à dire le nombre d'échantillon par seconde et par
canal,
– le nombre de bits pour coder un échantillon,
– la manière d'ordonner les octets (octets de poids fort en premier ou le contraire),
– le nombre et la taille des trames (une trame contenant les données sonores de tous les
canaux à un instant donné).
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
53
Pour obtenir les données audio du microphone
Pour envoyer les données audio vers les Hauts Parleurs
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
54
ANNEXE 2: ALGORITHME DE DTW
Soit la séquence de vecteurs acoustiques X=(x1,…,xN) de référence de taille N, la
séquence de vecteurs acoustiques Y=(Y1 ,…,YM) à tester de taille M, d(x,y) la distance
euclidienne entre deux vecteurs acoustiques et D(n, m) la distance cumulée du chemin
optimal allant du point (1, 1) jusqu‟au point (n, m), l‟algorithme de comparaison dynamique
se déroule comme suit :
Cet algorithme calcule le chemin optimal de coût minimal démarrant de (1, 1) jusqu‟à
(N, M) et alignant les deux séquences. Il retourne la distance totale minimale cumulée de ce
chemin. Cette distance est normalisée afin de la rendre indépendante de la longueur du
chemin.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
55
REFERENCE BIBLIOGRAPHIE ET WEBOGRAPHIE
[1] Jean-Paul ACHARD, livre « Théorie et technique des images et des sons»,
Bibliothèque Site Ambatonakanga 2007
[2] http://raphael.isdant.free.fr/traitement_numerique/3-
traitement_numerique_du_son.pdf , Janvier 2012
[3] Pascale Snoeck , Livre « Cours de Sonorisation » version 2009
[4] LE Manh Tuan, « Analyse acoustique de sons bien identifiés par un systeme de
reconnaissance automatique de la parole » mémoire de fin d‟études, 2007
[5] Jean-François Bonastre , « La reconnaissance du locuteur et la détection
d'événements sonores » , 2006
[6] E341, «Théorie du Signal» cours en 3ème
année 2009, Ecole Supérieure
Polytechnique d‟Antananarivo-Département Electronique.
[7] «Analyse de Fourier » cours en 2ème
année 2008, Ecole Supérieure
Polytechnique d‟Antananarivo-Département Electronique.
[8] E531, « Traitement Numérique du Signal» cours en 5ème année 2011,
Ecole Supérieure Polytechnique d‟Antananarivo-Département Electronique.
[9] Étienne Tisserand, « Analyse et traitement des signaux » 2ème
édition, DUNOD
[10] Ramamonjilaza Ruphin, « Reconnaissance de locuteur par empreinte vocale »,
Ingéniorat en Electronique de l‟ESPA 2012.
[11] Didier Meuwly, « L‟apport d‟une approche automatique » Thèse de doctorat,
institut de police scientifique et de criminologie de l‟Université de Lausanne, 2000.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
56
[12] Solan LM, Tiersma PM, «Falling on Deaf Ears» Legal Affairs Nov-Dec, 2003.
[13] Anicet FOKOU, « Modest-encoding AlgoRithm with Vocal IdentificatioN »
EPITA - Avril 2002
[14] DALLA CORTE Ludovic, «Reconnaissance vocale sur Smartphone par
apprentissage automatique » 2ème
master en sciences informatiques, Faculté des Sciences
Appliquées de l'Université de Liège, 2012.
Titre : « RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE»
Auteur : RABEMAMPIANDRA Eric Noël
Nombre de pages : 56
Nombre de figures : 37
Nombre de tableaux : 3
RESUME
La reconnaissance de locuteur est un domaine qui englobe des travaux mathématiques et
informatiques tels que: l‟analyse Cepstrale des sons, traitements des signaux, programmations en
utilisant les librairies qui manipulent les sons. L‟analyse Cepstrale permet d‟extraire les informations
portées dans les sons y compris l‟empreinte vocale. Les comparaisons des empreintes donne la
possibilité de voir si un tel locuteur est bien celui dans un enregistrement données. « zazakely » est
un logiciel conçus pour faire tous les tâches du reconnaissance du locuteur, fiable et facile à utiliser.
Mots clés : Reconnaissance de locuteur, Analyse Cepstrale, MFCC, TFR, DTW
ABSTRACT
The speaker recognition is a domain including mathematics and informatics works as:
Cepstral Analysis, Signal‟s treatments analysis, coding with a library which manipulate a sound.
Cepstral analysis allows us to extract the information carried in the sounds include the voice print.
The comparisons of the prints give us the possibility to see if such a speaker is well the one in a
registration data. “zazakely” is a software made to accomplish all task of speaker recognition, reliable
and easy to manipulate.
Keywords: Speaker recognizing, Cepstral Analysis, MFCC, TFR, DTW
DIRECTEUR DE MEMOIRE : ANDRIAMANANTSOA Guy Danielson
Adresse de l’auteur :
Lot G II 7 Q Ter Ampatsy Soamanandrariny Antananarivo