RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

UNIVERSITE D’ANTANANARIVO

ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO

DEPARTEMENT ELECTRONIQUE

MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR

RECONNAISSANCE DE LOCUTEUR PAR

METHODE CEPSTRALE

Présenté par: RABEMAMPIANDRA Eric Noël

Filière : Electronique

Option: Informatique Appliquée

Soutenu le: 14 AOUT 2012

N° d’ordre: 05/EN/IA/2011 Année Universitaire: 2010-2011

UNIVERSITE D’ANTANANARIVO

ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO

DEPARTEMENT ELECTRONIQUE

MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR

Filière : Electronique

Option: Informatique Appliquée

RECONNAISSANCE DE LOCUTEUR

PAR METHODE CEPSTRALE

Présenté par: RABEMAMPIANDRA Eric Noël

Membres de Jury:

Monsieur RAKOTOMIRAHO Soloniaina Président du Jury

Monsieur RATSIMBA Mamy Nirina Examinateur

Monsieur RATSIMBAZAFY Guy Predon Claude Examinateur

Monsieur HERINANTENAINA Edmond Fils Examinateur

Rapporteur : Monsieur ANDRIAMANANTSOA Guy Danielson

Soutenu le: 14 AOUT 2012 Année Universitaire: 2010-2011

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

i

Remerciements Qu’il me soit permis d’adresser en premier lieu mes sincères

remerciements à Dieu tout puissant.

Je tiens à exprimer mes vives gratitudes et mes sincères remerciements à toutes les

personnes qui m’ont apportés leurs amitiés, leurs connaissances et leurs aides tout au

long de la réalisation de ce manuscrit ainsi que pendant les années d’études à l’Ecole

Supérieur Polytechnique d’Antananarivo, et en particulier :

Monsieur RATSIMBA Mamy Nirina, notre Chef de Département et

qui accepte aussi de siéger parmi les membres de Jury.

Les membres de Jury ici présent qui acceptent de juger mon travail :

Monsieur RAKOTOMIRAHO Soloniaina et qui préside aussi la

soutenance de mémoire.

Monsieur RATSIMBAZAFY Guy Predon

Monsieur HERINANTENAINA Edmond Fils

Monsieur ANDRIAMANANTSOA Guy Danielson mon encadreur,

pour ses orientations et ses suggestions et idées m’a été précieux. C’est grâce à

la transmission de ses connaissances, à sa confiance et à sa rigueur que je peux

présenter mon travail.

Au corps des enseignants au sein département électronique.

Je voudrais particulièrement remercier toutes ma famille, pour leurs soutiens et

leurs aides.

Je tiens également à remercier tous mes collègues et tous mes amis qui ont

contribué de près ou de loin leurs aident.

Rabemampiandra Eric N.


ii

RESUME

Les caractéristiques d‟un son produit par une personne peuvent être résumées et

extraites dans un fichier. Les données vocales doivent être numérisées pour pouvoir traités par

l‟ordinateur, cette étape est nommée numérisation. La reconnaissance de locuteur se base sur

les traitements de son numérisés, en particulier l‟utilisation de l„analyse Cepstrale de son.

L‟analyse Cepstrale permet de donner les coefficients Cepstraux d‟un signal sonore,

elle a pour but d‟éviter les pertes de données provoqué par certaine problème comme

l‟enregistrement et aussi de manipuler le son tout entier.

La reconnaissance de locuteur se fait à la comparaison dynamique ou Dynamic Time

Wrapping (DTW) des MFCC ou Mel Frequency Cepstral Coefficients produite par un

locuteur ou d‟après un enregistrement vocal.


iii

TABLE DES MATIERES

Résume ........................................................................................................................... ii

Table des matières ......................................................................................................... iii

Liste des Abréviations ................................................................................................... vi

Liste des Figures ........................................................................................................... vii

Liste des Tableaux ......................................................................................................... ix

Introduction .................................................................................................................... 1

Chapitre I. Généralités ................................................................................................. 2

I.1. Les Sons ............................................................................................................ 2

a. Émission, Propagation, Réception du son ..................................................... 2

b. Caractéristiques du son [3] ............................................................................ 3

I.2. La parole [4] ..................................................................................................... 5

I.3. Empreinte vocale .............................................................................................. 7

I.4. Reconnaissance vocale [5] ................................................................................ 7

Chapitre II. Analyse acoustique du signal de la parole ................................................ 9

II.1. Traitement des signaux [6] ............................................................................ 9

a. Echantillonnage des signaux ......................................................................... 9

b. Représentation des signaux périodiques sous la forme de séries de Fourier

12

II.2. Analyse spectrale des signaux numériques ................................................. 14

a. Transformation de Fourier numérique [7]................................................... 14

b. Transformation de Fourier discrète [8] ....................................................... 14

c. Transformée de Fourier Rapide .................................................................. 16

II.3. Fenêtrage [9] ............................................................................................... 18

II.4. Analyse Cepstrale [10] ................................................................................ 21

Chapitre III. Reconnaissance de locuteur .................................................................. 24


iv

III.1. Historique .................................................................................................... 24

a. Reconnaissance de locuteurs par des profanes ........................................... 24

b. Reconnaissance de locuteurs par des experts .............................................. 24

c. Reconnaissance de locuteurs automatisée................................................... 25

III.2. Principe et fonctionnement de la reconnaissance de locuteur [13] ............. 25

a. Création de l'empreinte vocale .................................................................... 26

b. Détection des zones de silence .................................................................... 26

c. Calcul des coefficients MFCC .................................................................... 26

d. Conversion de l‟échelle en logarithme........................................................ 31

e. La transformée en cosinus discret (DCT) ................................................... 31

III.3. Comparaison dynamique (Dynamic Time Warping (DTW)) ..................... 32

III.4. Les variabilités du signal de parole ............................................................. 33

III.5. Application de la reconnaissance de locuteur ............................................. 34

III.6. Problèmes majeurs ...................................................................................... 35

Chapitre IV. Réalisation ............................................................................................ 36

IV.1. Présentation du logiciel ............................................................................... 36

a. Programmation ............................................................................................ 36

b. Fonctionnement ........................................................................................... 36

c. Organigramme ............................................................................................ 38

IV.2. Les interfaces de « zazakely »..................................................................... 39

a. Fenêtre de démarrage .................................................................................. 39

b. Fenêtre principale ........................................................................................ 39

c. Fenêtre dico ................................................................................................. 40

IV.3. Manuel d‟utilisation de « zazakely » .......................................................... 40

a. Enregistrement ............................................................................................ 40

b. Reconnaissance d‟un locuteur ..................................................................... 46

IV.4. Les matériels requis .................................................................................... 49


v

Conclusion et Perspectives ........................................................................................... 50

Annexes ........................................................................................................................ 51

Annexe 1 : JAVASOUND ............................................................................................ 52

Annexe 2: ALGORITHME DE DTW .......................................................................... 54

Référence bibliographie et webographie ...................................................................... 55


vi

LISTE DES ABREVIATIONS

API Application Programming Interface

Db DECIBEL

DCT Discrete Cosine Transform

DFT Discrete Fourier Transform.

DSP Densité Spectrale de Puissance

DTW Dynamic Time Warping

FFT Fast Fourier Transform

GMM Gaussian Mixture Modelling

HMM Hiding Markov Model

Hz HERTZ

iDCT inverse Discrete Cosine Transform

MATLAB MATrix LABoratory

MFCC Mel-Frequency Cepstral Coefficients

SPL Sound Presure Level

TDNN Time Delay Neural Network

TFD Transformation de Fourier discrète

TFN Transformation de Fourier numérique

TFR Fast Fourier Transform,


vii

LISTE DES FIGURES

Figure I-1 Emission et perception du son [2] ................................................................. 2

Figure I-2 un signal d‟une période ................................................................................. 3

Figure I-3 Système de production de voix humain ........................................................ 6

Figure I-4 Types de reconnaissance vocale .................................................................... 8

Figure II-1 L‟échantillonnage idéal. ............................................................................... 9

Figure II -2 Composition spectrale d‟un signa ............................................................. 10

Figure II-3 Aspect fréquentiel du sous-échantillonnage .............................................. 11

Figure II-4 Échantillonnage-blocage d‟un signal analogique....................................... 11

Figure II-5 Discontinuités de seconde espèce .............................................................. 13

Figure II-6 Répartition des fréquences discrètes .......................................................... 15

Figure II-7 Effet du fenêtrage sur un signal analogique ............................................... 19

Figure II-8 Critères de choix d‟une fenêtre .................................................................. 19

Figure II-9 Cepstre réel complet pour une fenêtre de 250 échantillons (à gauche), et les

20 premiers coefficients cepstraux (à droite). .......................................................................... 21

Figure III-1 Schéma de fonctionnement ....................................................................... 26

Figure III-2 Etape pour le calcul de MFCC .................................................................. 27

Figure III-3 Exemple de découpage de fenêtre ............................................................ 28

Figure III-4 Banc de filtre de Mel[14] ......................................................................... 29

Figure III-5 Exemple de comparaison dynamique ....................................................... 32

Figure III-6 Chemin optimal d‟alignement .................................................................. 33

Figure III-7 Les informations captées dans les enregistrements .................................. 34

Figure IV-1 Fonctionnement ........................................................................................ 37

Figure IV-2 Organigramme du logiciel « zazakely » ................................................... 38

Figure IV-3 Fenêtre de démarrage ............................................................................... 39

Figure IV-4 Fenêtre principale ..................................................................................... 39

Figure IV-5 Fenêtre dico .............................................................................................. 40

Figure IV-6 Représentation temporelle du son ............................................................ 41


viii

Figure IV-7 Sélection du phonème ............................................................................... 42

Figure IV-8 Enregistrement du son au format wav ...................................................... 42

Figure IV-9 Démarrage de MATLAB .......................................................................... 43

Figure IV-10 Extraction des paramètres MFCC .......................................................... 44

Figure IV-11 Ajout des informations dans le dico ....................................................... 45

Figure IV-12 Sélection de l‟empreinte ......................................................................... 46

Figure IV-13 Identification du locuteur ....................................................................... 47

Figure IV-14 Chargement de l‟empreinte de locuteur X .............................................. 47

Figure IV-15 Lancement du serveur MATLAB ........................................................... 48

Figure IV-16 Affichage des distances par rapport à l‟empreinte de l‟inconnu ............ 48

Figure IV-17 Affichage du résultat .............................................................................. 49


ix

LISTE DES TABLEAUX

Tableau 1. Exemple d’amplitude sonore

Tableau 2. Les phonèmes français

Tableau 3. Types des fenêtres avec leurs définitions


1

INTRODUCTION

Au cours de ces dernières années, les progrès sur l‟utilisation de l‟informatique

comme un grand moyen de communication croissent exponentiellement et prennent une place

dans la vie quotidienne. En passant par le domaine de l‟informatique, les informations à

communiquer sont numérisées quelques soit le transport utilisés.

Les informations numériques qui sont transmis à travers des médias multiples comme

les réseaux téléphoniques, le câble, le satellite et surtout le Web qui deviennent une des

ressources essentielles. Les streaming sur l‟internet permettent d‟écouter ou de voir les

émissions radios ou télévision en différé. Ce technologie est aussi disponible pour les

terroristes pour envoyer des informations préenregistrer.

Les menaces sont devenues nombreux, ce travail a pour but de faire une

reconnaissance d‟un locuteur à partir d‟un enregistrement d‟une conversation. Il présente tout

d‟abord les généralités sur les sons et les principales sources de variabilités pour

comprendre comment un individu peut être reconnu par sa voix. Ensuite l‟analyse

acoustique du signal audio dans un système de reconnaissance du locuteur qui présente le vif

du sujet, l‟analyse cepstrale. Et enfin, le dernier chapitre va se concentrer sur la conception du

logiciel « zazakely ».


2

Chapitre I. GENERALITES

I.1. Les Sons

Les sons sont des phénomènes physiques que notre sens auditif peut apercevoir.

L'acoustique, science traitant des phénomènes sonores dit que les sons des énergies qui se

propagent sous forme de vibrations dans un milieu compressible comme dans l'eau, dans l'air,

dans les matériaux solides, mais pas dans le vide et perçues par notre ouïe.[1]

a. Émission, Propagation, Réception du son

Pour qu'un son soit émis, une énergie doit avant tout mettre en mouvement un

corps pour produire une vibration. Ainsi, le muscle du larynx, la chute d'un objet sur

le sol, ou la tension électrique dans un haut-parleur, provoqueront l'énergie nécessaire pour

produire cette vibration. Ensuite, pour que ce son puisse se propager, il faut un milieu

élastique favorable à la transmission de la vibration. En créant des surpressions ou des

dépressions, l'air permet la propagation de l'onde. Les matériaux solides ont aussi cette

capacité de transmettre le son. Dans le vide par contre, aucun son ne peut se propager, car il

n'y a aucun de support. Enfin, pour être perçue, il doit y avoir un récepteur sensible. Chez

l'homme, l'oreille possède une membrane (le tympan) capable de transmettre les

informations de vibration en signaux nerveux jusqu'au cerveau, grâce au nerf auditif. De

même, le microphone possède également une membrane permettant de transformer les

déplacements de l'air en signaux électriques.

Figure I-1 Emission et perception du son [2]


3

b. Caractéristiques du son [3]

Comme tout phénomène vibratoire, les sons peuvent être analysés comme des signaux

qui varient dans le temps.

Les sons peuvent être définis par les 3 paramètres:

fréquence

amplitude

timbre

Dans les techniques de prise de son, de mixage, synthèse sonore (synthétiseurs), ces

paramètres sont fondamentaux. Toute la «chaîne» du son, c‟est à dire les différentes machines

que traverse le son utilisent ces paramètres.

i. La fréquence

La fréquence est le paramètre qui permet de préciser la tonalité c'est-à-dire aigu ou

grave du signal.

- Plus la Fréquence est élevée, plus le son est aigu,

- Plus la Fréquence est basse, plus le son est grave.

L‟unité de mesure est le HERTZ qui est égale à oscillations par secondes.

Une période est une oscillation complète.

Figure I-2 un signal d’une période


4

ii. L’amplitude

L‟amplitude est le paramètre qui permet de préciser le niveau sonore soit fort ou

faible.

Plus l‟amplitude est grande, plus le son est fort,

Plus L‟amplitude est petite, plus le son est faible.

L‟unité de mesure est le DECIBEL (dB) ou plus précisément en acoustique, le dB

SPL, qui représente la pression / m2

Le dB est un rapport de signaux avec comme référence en acoustique le seuil

d‟audition (0dB).

Voici un ordre d‟idée de la mesure du dB acoustique :

Tableau 1. Exemple d’amplitude sonore

Amplitude Niveau Exemple

>120 Insupportable Intérieur d‟une grosse caisse

90 dB 120 dB Très fort Tutti d‟orchestre

60 dB 90 dB Fort Piano joué à 1 mètre

30 dB 60 dB Faible Appartement calme

10 dB 30 dB Très faible Studio d‟enregistrement

0 dB 10 dB Inaudible Seuil d‟audition

Le dB est également utilisé pour d‟autres unités de mesure présents sur les

équipements électroniques pour indiquer les niveaux, les gains ou atténuations de tensions de

l‟entrée d‟un amplificateur, pré-ampli micro, table de mixage, enregistreurs, etc.


5

iii. Le Timbre

Le timbre est le paramètre qui permet de préciser la « couleur » du signal (son).

Suivant le théorème de Fourrier, un son complexe peut être décomposé en une somme

de sinusoïdes de fréquence et d‟amplitude données.

- La fréquence la plus basse est appelée « FONDAMENTALE »,

- Les fréquences multiples à la fondamentale sont appelées «HARMONIQUE».

Plus le son a des harmoniques, plus on dit qu‟il est «riche».

L‟analyseur de spectre permet : de montrer le contenu spectral du son (signal)

Certains sons n‟ont pas de spectre bien défini: les fréquences sont générées

aléatoirement.

- le bruit rose (Pink Noise) : contient toutes les harmoniques dont la somme donne un

contenu spectral «plat»

- le bruit blanc (White Noise) : contient toutes les harmoniques dont la somme donne

un contenu croissant.

I.2. La parole [4]

La parole est un moyen de communication très efficace et naturel de l'humain. La

parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine

dans les mécanismes de production. La parole apparaît physiquement comme une variation de

la pression de l'air causée et émise par le système articulatoire. Les sons de parole sont

produits soit par des vibrations des cordes vocales (source de voisement), soit par une

turbulence crée par l'air s‟écoulant rapidement dans une constriction ou lors du relâchement

d‟une occlusion du conduit vocal (sources de bruit). L'unité de parole de plus petite taille est

un phonème (voyelle ou consonne). Le nombre de phonèmes est toujours très limité,

normalement inférieur à cinquante.


6

Par exemple : la langue française comprend 36 phonème.

Tableau 2. Les phonèmes français

La parole est produite par le système articulatoire, présenté par la figure I-3.

Figure I-3 Système de production de voix humain

L‟appareil vocal humain est constitué d‟un excitateur, le complexe glotte-cordes

vocales, et d‟un ensemble de résonateurs de l‟appareil phonatoire : le pharynx, la cavité

buccale, la cavité labiale, les fosses nasales. Lorsqu‟un excitateur entre en vibration, il fournit

un signal, dont le résonateur va amplifier certaines composantes et on obtient des formants.

Ce sont des facteurs fondamentaux qui forment le timbre de la voix, et caractérisent donc ce

dernier. Le nombre de formants est variable, pouvant passer d‟un seul à une infinité. Mais


7

même s‟il en existe beaucoup, seuls quelques-uns jouent un rôle du point de vue perceptif. Par

contre, un formant ne peut jamais être ramené à une fréquence fixe ; il s‟agit plutôt d‟une

bande de fréquence.

L‟étendue spectrale du signal acoustique est comprise entre 80 et 8000Hz, avec une

étendue dynamique de 60 à 70dB. Il est à noter que la fréquence fondamentale moyenne de

vibration des cordes vocales, appelées « pitch » est situé entre 40 – 140 Hz pour les hommes,

entre 180 – 300 Hz pour les femmes et entre 300 – 600 Hz pour les enfants.

I.3. Empreinte vocale

Une Empreinte vocale est un résumé numérique généré à partir d'un signal audio. Cette

empreinte permet d'identifier un échantillon sonore, ou de localiser une séquence sonore dans

une base de données audio.

Le procédé d'empreinte vocale fut mis au point à partir d'expérimentations réalisées

par des scientifiques désirant convertir les sons linguistiques en enregistrements visuels

destinés à être analysés et mesurés.

Les sons vocaux sont convertis en impulsions électriques et enregistrés sur une bande

magnétique, comme dans un enregistrement sonore ordinaire, mais les impulsions sont ensuite

traitées électroniquement par un balayage successif de l'enregistrement magnétique original et

converties en un enregistrement sous forme d'images sur un papier de spectrogramme

sensibilisé électriquement.

Les images qui en résultent peuvent être systématiquement classées par durée,

fréquence et intensité et comparées avec des images en provenance d'autres sources.

L'empreinte vocale est quelquefois utilisée par la police pour identifier des personnes

proférant des menaces téléphoniques ou à l'origine d'appels anonymes.

I.4. Reconnaissance vocale [5]

Il existe deux grands types de reconnaissance vocale :

La reconnaissance de la parole ou Speech recognition :

La reconnaissance de la parole est utilisée pour reconnaître ce qui est dit. Dès lors, elle

permet de transformer le discours/la voix en texte. Beaucoup de personnes pensent que la

reconnaissance vocale et la reconnaissance de la parole sont similaires alors que ce n‟est pas

du tout le cas. Seul le contenu de la parole est reconnu par la reconnaissance de la parole.

http://fr.wikipedia.org/wiki/Audio


8

La reconnaissance du locuteur ou Speaker recognition :

Le but de la reconnaissance du locuteur est de reconnaître qui parle et donc de

reconnaître le locuteur et non pas le contenu.

La figure I-4 montre les différents types de reconnaissance vocale que l‟on peut

rencontrer fréquemment.

Figure I-4 Types de reconnaissance vocale


9

Chapitre II. ANALYSE ACOUSTIQUE DU SIGNAL DE LA PAROLE

II.1. Traitement des signaux [6]

Traitement des signaux est une théorie permettant d‟effectuer une description ou une

modélisation et une analyse des signaux et des systèmes porteurs d‟information.

a. Echantillonnage des signaux

Le traitement numérique des signaux se fait sur des valeurs discrètes: il n'est pas

possible de traiter par ordinateur des signaux à temps continu. Par souci de simplicité, on

échantillonne les signaux à un rythme régulier. Une horloge de cadence T permet de

conserver entre les instants nT et (n+1)T la valeur qu'avait le signal à l'instant nT, ce qui

permet ensuite de calculer la valeur numérique binaire du signal par une succession

d'opérations de comparaisons à des tensions de référence de la forme et de

soustractions.

Il existe plusieurs types d‟échantillonnage : échantillonnage idéale et échantillonnage

par blocage.

i. Échantillonnage idéale

L‟opération d‟échantillonnage consiste à prélever sur un signal analogique dont

l‟évolution est continue dans le temps, des échantillons représentant l‟amplitude aux instants

de prélèvement.

Pour des raisons de simplification, les prélèvements sont réalisés régulièrement avec

une périodicité constante Te appelée période d‟échantillonnage. L‟échantillonnage est qualifié

d‟idéal dès lors que l‟on peut supposer ou approcher une prise instantanée des échantillons.

Figure II-1 L’échantillonnage idéal.


10

Mathématiquement, l‟échantillonnage idéal peut être modélisé par le produit entre x(t)

et une suite périodique d‟impulsions idéales appelée peigne de Dirac.

( ) ( ) ∑ ( )

Le facteur Te permet de normaliser l‟énergie du signal échantillonné x∗(t)

ii. Spectre du signal échantillonné

En utilisant la transformation de Fourier appliquée aux signaux échantillonnés, on

montre que le spectre du signal x∗(t) est constitué d‟une suite de répliques du spectre de x(t)

décalées avec une périodicité de

La transformée de Fourier du peigne de Dirac est un peigne de Dirac fréquentiel :

∑ ( )

→ ∑ ( )

Or

( ) ( ) ∑ ( )

Donc le spectre du signal échantillonné s‟écrit :

( ) ∑ ( )

Figure II -2 Composition spectrale d’un signa


11

iii. Théorème de l’échantillonnage ou théorème de Shannon

En considérant un spectre initial X(f) borné supérieurement par une limite fsup, on peut

espérer conserver toute l‟information lorsque fe est choisie telle que

Le non respect de la condition précédente conduit à un sous-échantillonnage qui

engendre le repliement des motifs spectraux (figure II.3). En d‟autres termes, il y a perte ou

modification des informations originales.

Figure II-3 Aspect fréquentiel du sous-échantillonnage

iv. Échantillonnage-blocage

L‟opération d‟échantillonnage-blocage d‟un signal x(t) consiste à conserver la valeur

échantillonnée entre deux prélèvements successifs, (figure II.4). Le signal issu d‟un tel

traitement prend une forme dite en marches d‟escalier.

Figure II-4 Échantillonnage-blocage d’un signal analogique


12

b. Représentation des signaux périodiques sous la forme

de séries de Fourier

Joseph FOURIER, mathématicien français, affirma, dans un mémoire daté de 1807,

qu‟il était possible, dans certaines conditions, de décomposer une fonction périodique f sous

la forme d‟une somme infinie de signaux sinusoïdaux

Théorème de Fourier : Toute fonction continue est décomposable en série de

FOURIER. Si de plus cette fonction est périodique de période T, le nombre de termes de la

décomposition est fini.

i. Coefficients du développement

La décomposition en séries de Fourier peut s'étendre aux fonctions non périodiques.

Dans ce cas nous aurons une décomposition sous la forme :

( )

∫ ( ) (

)

Ou bien

( )

∑ ( )

( )

( ) ∑ ( )

Avec

∫ ( ) ( )

et √

∫ ( ) ( )

(

)


13

ii. Développement sous forme complexe

Un signal x(t) périodique de période T0 peut se décomposer sous la forme d'une

somme de signaux sinusoïdaux, les harmoniques dont la fréquence est un multiple de la

fréquence fondamentale

On aura :

( ) ∑ ( ) ( )

L'amplitude complexe de chaque harmonique ( ) se calcule de la manière suivante

( )

∫ ( ) (

)

iii. Conditions de validité du développement

Comme dans tout problème de développement d‟une fonction, le critère de validité

repose sur la convergence de la série en tout point vers x(t). Ainsi une fonction périodique x(t)

est développable en séries de Fourier si :

x(t) est défini et continue sur l‟intervalle

à l‟exception d‟un nombre

fini de points.

x(t) ne présente pas de discontinuités de seconde espèce

Figure II-5 Discontinuités de seconde espèce


14

II.2. Analyse spectrale des signaux numériques

a. Transformation de Fourier numérique [7]

i. TFN directe

Soit une suite numérique de N valeurs xk pour k variant de 0 à N − 1.

On peut toujours considérer que ces valeurs sont issues de l‟échantillonnage à la

cadence fe du signal x(t) c‟est-à-dire que

( )

La version numérique de la transformation devient :

( ) ∑

Ce résultat est conforme à la théorie de l‟échantillonnage vue précédemment

ii. TFN inverse

La fonction X( f ), obtenue par l‟équation (12), est périodique donc décomposable en

série de Fourier. Les coefficients du développement ne sont autres que les échantillons xk que

l‟on peut obtenir par :

∫ ( ) (

)

k variant de 0 à N-1

b. Transformation de Fourier discrète [8]

Pour utiliser la transformé de Fourier discrète il faut un signal périodique

i. Discrétisation de l’intervalle fréquentiel

On pose le pas fréquentiel


15

Les fréquences discrètes sont alors données par :

Ou

ii. TFD directe

est appelée transformation de Fourier discrète (TFD) :

( ) ∑

∑

Figure II-6 Répartition des fréquences discrètes

Avec


16

pour N pair

Ou

pour N impair.

La TFD fournit N points de spectre à partir de N valeurs temporelles. Pour un signal xk

purement réel, Re{Xn} est une fonction paire et Im{Xn} est une fonction impaire. La

détermination de la moitié des valeurs spectrales complexes est suffisante

iii. TFD inverse

La transformation de Fourier discrète inverse est obtenue à partir de l‟équation de la

TFN en remplaçant :

∫

∑

Ce qui donne,

∑

(

)

(

)

k variant de 0 à N-1

c. Transformée de Fourier Rapide

La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD

calculée selon un algorithme permettant de réduire le nombre d‟opérations et, en particulier, le

nombre de multiplications à effectuer.

Il faut noter cependant, que la réduction du nombre d‟opérations arithmétiques à

effectuer, n‟est pas synonyme de réduction du temps d‟exécution. Tout dépend de

l‟architecture du processeur qui exécute le traitement.


17

Soit ( ) une TFD d‟un signal x de longueur N. L‟équation de ( ) donnée par

la relation (12).

Si on effectue le calcul directement sans algorithme efficace, on doit effectuer:

N2 multiplications complexes

N(N − 1) additions complexes

Il existe différents algorithmes de FFT Le plus connu est sûrement celui de Cooley-

Tukey (appelé aussi à entrelacement temporel ou à « decimation in time «) qui réduit à

le nombre de multiplications.

Il existe deux versions de l‟algorithme:

• FFT avec entrelacement temporel,

• FFT avec entrelacement fréquentiel.

L‟algorithme nécessite que N soit une puissance de 2. Le principe de l‟algorithme

consiste à décomposer le calcul de la TFD d‟ordre N = 2l en l étapes successives.

i. FFT avec entrelacement temporel

Illustrons tout d‟abord la méthode par un exemple pour N = 4.

Les données sont notées x(n) et la suite TFD X(n).

La notation w représente e− j2π /N

, c‟est-à- dire e− j2π /4

. On peut remarquer que wN = 1

et

wN/2

= − 1.

Pour N = 4, w4 = 1 et w

2 = − 1

La suite TFD s‟écrit:

X(0) = x(0) + x(1) + x(2) + x(3) = (x(0) + x(2)) + (x(1) + x(3))

X(1) = x(0) + w1x(1) + w

2x(2) + w

3x(3) = (x(0) − x(2)) + w

1 (x(1) − x(3))

X(2) = x(0) + w2x(1) + w

4x(2) + w

6x(3) = (x(0) + x(2)) − (x(1) + x(3))

X(3) = x(0) + w3x(1) + w

6x(2) + w

9x(3) = (x(0) − x(2)) − w

1 (x(1) − x(3))


18

Les données (x(0),x(1),... ,x(N − 1)) sont regroupées en 2 paquets: un paquet formé

des données d‟indices pairs (x(0),x(2),... ,x(N − 2)) et un paquet formé des données d‟indices

impairs (x(1),x(3),... ,x(N − 1)).

Soit pour N = 4, un paquet (x(0),x(2)) et un paquet (x(1),x(3)).

Puis sur chaque paquet on effectue une DFT d‟ordre N/2 et on combine les résultats de

ces 2 DFT pour obtenir celle d‟ordre N. Ce qui donne, toujours pour N = 4:

Pour obtenir les 4 valeurs X(k), il suffit donc de calculer 2 DFT d‟ordre N/2 = 2 et de

combiner les résultats 2 à 2 à l‟aide d‟une addition et d‟une multiplication au maximum, pour

chaque valeur X(k). Cette étape est appelée étage de « papillons «, pour des raisons évidentes

liées à la forme du schéma de calcul. Ce résultat se généralise à toute valeur valeur de N

multiple de 2.

ii. FFT avec entrelacement fréquentiel

Cet algorithme est symétrique du précédent. Les données temporelles x(n) restent

dans l‟ordre naturel, mais les résultats ( ) sont désordonnés.

Le principe consiste encore à décomposer le calcul de la TFD d‟ordre N = 2l en l

étapes successives. Mais le regroupement de données se fait différemment.

II.3. Fenêtrage [9]

L‟analyse spectrale par TFD impose de travailler sur un signal numérique xk de durée

limitée. La multiplication du signal par une fenêtre wk de troncature temporelle permet de

limiter la durée à N échantillons. Cette multiplication temporelle correspond à une

convolution fréquentielle figure 11.


19

Figure II-7 Effet du fenêtrage sur un signal analogique

De manière générale, la transformation de Fourier d‟une fenêtre de troncature prend

l‟allure décrite en figure II.8.

Figure II-8 Critères de choix d’une fenêtre


20

Les caractéristiques principales d‟une fenêtre d‟analyse sont :

la résolution fréquentielle. Celle-ci, notée Δf, peut être définie comme la

possibilité de pouvoir séparer deux fréquences proches l‟une de l‟autre. Elle est

caractérisée par la largeur à –3 dB du lobe principal de la fenêtre ;

la dynamique imposée par l‟amplitude des lobes secondaires définit la dynamique

de la fenêtre.

Tableau 3 Types des fenêtres avec leurs définitions

La fenêtre couramment utilisées est la fenêtre de Hamming.

i. Fenêtre de Hamming

La fenêtre de Hamming généralisée a pour équation:

( )


21

La fenêtre de Hamming proprement dite est le cas particulier de la fenêtre généralisée

pour α= 0,54. Cette valeur correspond à une annulation quasi parfaite du premier lobe

secondaire de la fenêtre rectangulaire.

Les fenêtres de la famille Hamming se caractérisent par un pic central de largeur

double de la fenêtre rectangulaire mais une atténuation des oscillations sensiblement plus

importante. La représentation fréquentielle de la fenêtre de Hamming généralisée a pour

équation :

( )

(

)

(

)

II.4. Analyse Cepstrale [10]

Les coefficients produits à la sortie des bancs de filtre selon l‟échelle MEL ou les

coefficients LPC peuvent être utilisés pour mesurer des différences entre deux

spectrogrammes. Ils présentent cependant de nombreux inconvénients comme par exemple

de dépendre de l‟énergie du signal et de l‟excitation. De manière à pouvoir comparer

différents spectres, plusieurs méthodes de normalisation et de mesure existent qui peuvent être

exprimées dans un contexte plus général de la théorie de l‟information.

La figure II.9 illustre les courbes données par les coefficients Cepstraux.

Figure II-9 Cepstre réel complet pour une fenêtre de 250 échantillons (à gauche), et les 20 premiers

coefficients cepstraux (à droite).

Si nous admettons la représentation source/filtre du signal de parole, ce signal résulte

d‟une convolution dans le domaine temporel de la source et du filtre.


22

s(t) = e(t)* h(t)

Cependant, ce qui nous intéresse pour identifier et pour mesurer des différences (ou

des similitudes) entre spectres est l‟enveloppe spectrale.

Nous transformons dans le domaine spectral l‟équation de s(t) pour avoir le produit de

l‟excitation E (f ) e t de la fonction de transfert du filtre H (f ):

S (f ) = E (f ) . H (f )

Comme nous voulons découpler la source du filtre de manière à n‟avoir plus que

l‟enveloppe spectrale, nous utilisons la fonction log, de manière à ce qu‟en ne prenant que le

module du spectre nous obtenions:

log |S (f )| = log |E (f )| + log |H (f )|

Une manière naturelle de découpler les composants de log |S (f )| qui varient lentement

de ceux qui représentent les variations de l‟excitation, consiste à appliquer une transformée de

Fourrier inverse. Les coefficients temporels ainsi obtenus sont appelés coefficients

Cepstraux.

Les premiers coefficients donnent les paramètres de l‟enveloppe spectral (ou la

réponse impulsionnelle du conduit vocal), les coefficients plus élevés, les variations de

l‟excitation (figure II.9).

Si les coefficients cepstraux sont issus d‟une analyse en banc de filtres sur une échelle

MEL, on les dénommera MFCC (Mel Frequency Cepstrum Coefficients), s‟ils sont issus

d‟une analyse LPC on les appellera coefficients LPCC (Linear Predicting Coding Cepstrum).

Il existe une méthode directe pour passer des coefficients ap de la LPC à des coefficients

Cepstraux Cm.

LPCC utilise les récursions suivantes:

∑ (

)


23

∑ (

)

Un des avantages importants de la comparaison de spectres en utilisant les coefficients

Cepstraux est le fait que nous pouvons utiliser une mesure de distance euclidienne simple à

estimer.


24

Chapitre III. RECONNAISSANCE DE LOCUTEUR

III.1. Historique

La reconnaissance vocale est définie comme étant un processus de prise de décision

utilisant des caractéristiques de la parole, afin de déterminer si une personne en particulier est

à l‟origine d‟une énonciation. Cette prise de décision porte sur une éventuelle familiarité entre

la voix cible et les voix de référence. [11]

a. Reconnaissance de locuteurs par des profanes

Une croyance ancienne, toujours d‟actualité de nos jours, stipule que l‟humain peut

être fiable à identifier autrui en entendant sa voix. En effet, en se basant sur notre capacité à

reconnaître des voix d‟amis ou d‟identifier des voix d‟acteurs ou de politiciens, le mythe

d‟une reconnaissance vocale auditive par des profanes exacte et précise est né. Selon le même

auteur, les humains surestiment leur performance dans le domaine de la reconnaissance de

locuteurs.

Un grand nombre de paramètres entre également en jeu dans ce genre de

reconnaissance : la qualité de la voix, la nature du discours, la durée de l‟écoute, le temps

écoulé entre l‟écoute de la voix du locuteur et la procédure d‟identification, la différence

d‟âge, de genre et d‟ethnie entre le témoin auditif et le locuteur, le déguisement de la voix,

etc. De ce fait, de nombreux auteurs préconisent de prendre avec précaution les résultats

d‟une identification de locuteur par des profanes.

b. Reconnaissance de locuteurs par des experts

Les experts phonéticiens analysent en détail la voix du locuteur, pour extraire des

paramètres au niveau de la voix (hauteur, et timbre), de la parole (articulation, diction, vitesse

d‟élocution, pauses, intonation et défauts), du langage (dynamique, style et prosodie), ainsi

qu‟au niveau de caractéristiques linguistiques (syntaxe, idiotisme et respiration).

L‟utilisation de moyens techniques pour extraire certaines de ces caractéristiques

permet de les quantifier. Ces experts se basent sur l‟amplitude, les bandes de fréquence, la

distribution spectrale des énergies, la fréquence fondamentale, ainsi que sur la durée et rythme

des segments de voix.


25

Après la 2ème

Guerre Mondiale, une approche consistant à comparer visuellement les

spectrogrammes, «empreinte vocale», des voix indiciaires et de comparaison est apparue. Les

limites de cette approche ont rapidement été mis en évidence durant la fin du 20ème

siècle :

contrairement à ce que le nom d‟ «empreinte vocale» nous laisse croire, les spectrogrammes

d‟un même locuteur ne sont, ni invariants tout au long de la vie, ni uniques, comme les

empreintes digitales. Malgré le manque de fiabilité et de validité de cette méthode, ce type

d‟identification est encore autorisé dans les tribunaux américains.[12]

c. Reconnaissance de locuteurs automatisée

Il existe plusieurs types de système de reconnaissance automatique de locuteurs : les

systèmes dépendants du texte et les systèmes indépendants. Le premier cas comprend les

situations dans lesquelles la confection d‟enregistrements de contrôle du locuteur suspecté est

possible, ce qui est relativement rare dans le domaine forensique. Le second cas comprend les

situations dans lesquelles la confection d‟enregistrement de contrôle est impossible.

Un grand nombre de systèmes de caractérisation et de comparaison des paramètres ont

été testées.

Actuellement, la plupart des systèmes utilisent la modélisation des caractéristiques du

locuteur par plusieurs fonctions gaussiennes, appelée «Gaussian Mixture Modelling» ou

GMM. Les systèmes indépendants du texte utilisant ce type de modélisation sont plus

performants que les autres méthodes de caractérisation, comme par exemple l‟utilisation des

réseaux de neurones, la quantification vectorielle et les modèles de Markov cachés.

III.2. Principe et fonctionnement de la reconnaissance de

locuteur [13]

Etapes à suivre :

Enregistrement de son du locuteur

Sélection d‟une partie de signal

Création de l‟empreinte


26

a. Création de l'empreinte vocale

Figure III-1 Schéma de fonctionnement

b. Détection des zones de silence

Lors de la paramétrisation du signal de la parole, une des premières étapes consiste à

séparer les zones de silence de celles de parole. Afin de réaliser cette séparation, on va

calculer un seuil en se basant sur le logarithme de l‟énergie moyenne de la zone que l‟on veut

tester du signal. L'énergie moyenne est mesurée en décibels (dB) selon une échelle

logarithmique. Ainsi, on ne va conserver que les zones de paroles qui sont supérieures au seuil

fixé (en dB) :

( )

∑ ( )

avec N = le nombre d‟échantillons de la zone du signal de parole testée et x(n) = la

valeur de l‟échantillon n de la zone du signal de parole testée.

Dans ce travail de fin d‟études, on calculera l‟énergie moyenne de la fenêtre après

l‟étape de découpage en plusieurs fenêtres (donc N correspondra aux N échantillons de la

fenêtre). Si cette fenêtre est une zone de silence, on la jette. Si c‟est une zone de parole, on la

garde.

c. Calcul des coefficients MFCC

La méthode des MFCC (Mel-Frequency Cepstral Coefficients) permet d‟extraire des

caractéristiques du signal à partir de la FFT et de la DCT, ceci sur une échelle de Mel. Cette


27

méthode est la plus utilisée en reconnaissance vocale car elle a l‟avantage d‟être robuste,

d‟avoir des coefficients qui sont décorréllés et de bien simuler l‟oreille humaine.

Voici un schéma qui reprend les différentes étapes pour calculer les coefficients

MFCC :

Figure III-2 Etape pour le calcul de MFCC

i. Découpage en plusieurs fenêtres

Tout d‟abord, on va découper le signal en plusieurs fenêtres de 20-30 ms. Cette

longueur de fenêtre est choisie car la parole varie peu en 20-30 ms et donc elle respecte

l‟hypothèse de stationnarité. On utilise aussi un recouvrement en général de 50 % de façon à

ce que deux fenêtres consécutives se recouvrent bien.


28

La figure III.3 illustre la méthode de découpage.

Figure III-3 Exemple de découpage de fenêtre

ii. Fenêtre de Hamming

La fenêtre de Hamming est appliquée à chaque fenêtre résultante de l‟étape de

découpage précédente. Elle est utilisée pour atténuer les effets de bords dus au découpage en

fenêtres et ainsi diminuer la distorsion spectrale du signal au début et à la fin de chaque

fenêtre

On l‟applique à chaque fenêtre du signal de parole de la façon suivante :

( ) ( ) ( )

iii. La transformée de Fourier rapide (FFT)

La transformée de Fourier rapide est un algorithme permettant de calculer rapidement

la transformée de Fourier discrète (DFT) :

( ) ∑ ( )


29

Cette méthode permet de convertir chaque fenêtre du domaine temporel dans le

domaine fréquentiel. Comme le signal est réel, l‟information spectrale est symétriquement

redondante et les fréquences négatives sont identiques aux positives. Par conséquent, on ne

récupérera que les échantillons compris entre 0 et N/2. Ce qui veut dire que la méthode nous

renseignera sur les fréquences comprises entre 0 et fe/2.

Pour commencer, il faut que le nombre d‟échantillon N de la fenêtre soit une puissance

de 2. En général, on choisit des fenêtres de N = 256 échantillons. Si la fenêtre initiale ne

contient pas assez d‟échantillons, on va utiliser la technique du bourrage de zéros (zero-

padding). Elle consiste à remplir les échantillons manquants par des zéros. Cela permet de

n‟apporter aucune information supplémentaire pour le spectre. Ensuite, on calcule la

transformée de Fourier rapide de chaque fenêtre et on récupère leur spectre en magnitude

|S(k)|.

iv. Banc de filtres MEL

On va pondérer le spectre de magnitude par un banc de filtres triangulaires espacés

selon l'échelle de Mel afin de reproduire la sélectivité du système auditif humain.

Tout d‟abord, la bande de fréquence utilisée se situe entre 0 et fe/2Hz. Cette bande va

être divisée en K filtres triangulaires équidistants dans le domaine de fréquence Mel avec un

recouvrement de 50%.

Figure III-4 Banc de filtre de Mel[14]


30

Tout d‟abord, il faut savoir que l‟échelle de fréquence Mel est espacée linéairement

jusque 1000 Hz et ensuite elle est espacée logarithmiquement au dessus de 1000 Hz. La

transformation de la fréquence en fréquence de Mel s‟effectue de la façon suivante :

( ) (

)

L‟opération inverse se fait de la manière suivante :

(

) .

Pour connaitre l'intervalle de fréquence Mel entre chaque filtre, on utilise la constante:

( ) ( )

où Mel(fmax)= la fréquence maximale sur l‟échelle de Mel calculée à partir de fmax = fréquence

maximale, Mel(fmin )= la fréquence minimale sur l‟échelle de Mel calculée à partir de fmin =

fréquence minimale et M = le nombre de filtres.

En termes d‟indices FFT pour la fréquence centrale des filtres, on a :

( ) ( ( )

)

où round(.) arrondi à l‟entier le plus proche, fe= fréquence d‟échantillonnage et NFFT

correspond à la taille de la fenêtre FFT.

Ensuite, on va pondérer le banc de filtres Mel en fonction d‟où se trouve l‟indice k de

fréquence :


31

Finalement, on applique le banc de filtres au spectre de magnitude calculé par la FFT :

( ) ∑ ( )

( )

où M = nombre de filtres et N = la taille de la fenêtre FFT.

d. Conversion de l’échelle en logarithme

L‟étape suivante consiste à appliquer le logarithme sur les valeurs de l‟étape

précédente. Cela permet d‟obtenir le spectre logarithmique de Mel et de compresser la somme

précédente:

( ) ( ( ))

e. La transformée en cosinus discret (DCT)

Finalement, on obtient les coefficients MFCC en appliquant la transformée en cosinus

discret au spectre logarithmique de Mel :

( ) ∑ [

(

) ] ( )

avec M = nombre de filtres, K = nombre de coefficients, k = numéro de coefficients et

m = numéro du filtre. Pour n = 0, a0=1/√ pour n > 0, am= √

.

À noter que am la constante est utilisée pour orthogonaliser la matrice DCT.

La transformée en cosinus discret permet de revenir dans le domaine temporel en

convertissant le spectre logarithmique de Mel du domaine fréquentiel au domaine temporel.

On l‟utilise aussi pour sa capacité à décorréler les données.

En général, on rejettera le coefficient c(0) car il ne représente que le logarithme de

l‟énergie moyenne de la fenêtre. Donc par exemple pour 13 coefficients de départ, on ne

gardera que les 12 derniers.


32

III.3. Comparaison dynamique (Dynamic Time Warping

(DTW))

La comparaison dynamique est un algorithme permettant de résoudre des problèmes

d‟alignement séquentiel. Il permet de calculer la distance entre deux séquences qui peuvent

varier en temps et en vitesse.

Dans le cadre de la reconnaissance du locuteur on va comparer deux séquences de

vecteurs acoustiques, celle que l‟on veut tester et celle de référence du locuteur. Le principal

problème est que si le locuteur veut citer un même mot ou une même phrase, sa vitesse

d‟élocution ne sera pas la même d‟un segment de parole à l‟autre. C‟est pourquoi on utilise

l‟algorithme de comparaison dynamique qui permet de palier à ce problème. Il va effectuer un

alignement temporel optimal afin de réduire la déformation temporelle et le coût entre les

deux segments de parole.

Figure III-5 Exemple de comparaison dynamique

Le chemin (warping path) alignant deux séquences de taille N et M est une séquence

( ) de taille L où ( ) ϵ [1 : N] x [1 : M] et l ϵ [1 : L]. Ce chemin doit

satisfaire les conditions suivantes :

1. La condition de limite : p1=[1,1] et pl=[N,M]. Cela impose que les premiers

éléments ainsi que les derniers éléments des deux séquences soient alignés l‟un avec l‟autre.

2. La condition de continuité : le chemin avance d‟un seul pas à la fois. Donc les

indices m et n ne peuvent être augmentés que de 1 à la fois le long du chemin.


33

3. La condition de monotonie : n1≤….≤nL et m1≤…≤mL .Le chemin ne peut pas

revenir sur lui-même, ses indices ne peuvent jamais décroître seulement croître.

Figure III-6 Chemin optimal d’alignement

III.4. Les variabilités du signal de parole

Types d‟informations avec recouvrement :

Anatomie de l‟appareil phonatoire

Phonétique : cibles phonémiques

Prosodie : rythme, vitesse, intonation, volume, modulation

Diction, prononciation, accents régionaux

Linguistique : syntaxe, grammaire, sémantique

Emotionnelle, pathologique


34

Pour y résumer, la figure III-7 montre les informations captées avant, pendant et après

un enregistrement :

Figure III-7 Les informations captées dans les enregistrements

III.5. Application de la reconnaissance de locuteur

On voit très souvent la reconnaissance de locuteur sur les domaines de sécurité, voici

quelques exemples :

contrôle d‟accès (en complément d‟un code, d‟un badge)

banques, voitures, entrepriseS

consultation de compte bancaire par téléphone

Police criminelle pour l‟identification de suspects :

filtrage de voix suspectes (avec validation humaine)

pas assez fiable pour utiliser comme preuve

Transcription automatique :

adaptation des modèles acoustiques à la voix du locuteur

Indexation multimédia :

indexation par locuteur


35

III.6. Problèmes majeurs

Comme tous les systèmes dépendants des paramètres humains, la reconnaissance de

locuteur lui aussi avaient des problèmes. Voici quelques exemples :

Variabilité due au locuteur

Émotion, fatigue, stress, refus de coopération.

conditions d‟enregistrement variables

Microphone, bruit ambiant.


36

Chapitre IV. REALISATION

Le but de cette réalisation est de donner quelques exemples d‟implémentations

informatiques des principes physiques et mathématiques qu‟on a vu antérieurement. A ce

sujet, On a développé une application nommée « zazakely » pour montrer la simulation sous

Windows de la reconnaissance de locuteur via son empreinte vocale.

Ce chapitre présente tout d‟abord le logiciel « zazakely » afin de le décrire clairement

et ensuite les matériels requis pour le mieux intégrer dans un environnement.

IV.1. Présentation du logiciel

a. Programmation

«zazakely » a été écrit en langage de programmation JAVA avec NetBeans IDE 7.0 et

le langage de script de MATLAB qui est actuellement utilisé dans un grand nombre

de discipline scientifique. Ce logiciel utilise :

- Les API pour la manipulation du fichier audio : Java Speech, Java Sound.

- Les API graphique : API AWT, API Swing

- La librairie « jamal-2.2»

- Une fonction MATLAB assurant l‟algorithme D.T.W pour le calcul de distance

- Un script MATLAB permettant de créer les MFCC et de les représenter dans

une interface graphique.

b. Fonctionnement

La figure 4.1. Illustre le fonctionnement de la reconnaissance de locuteur dont

ces étapes sont expliquées comme suit :

- La paramétrisation

On l‟appelle aussi analyse acoustique du signal de parole. Elle consiste

généralement à extraire les informations pertinentes et réduire au maximum la

redondance.

Le nombre de coefficients acoustiques est ici fixé à 13 dans cette simulation et

capturés sur des blocs de signal de longueur fixe 25 ms.


37

- La comparaison

Elle consiste à calculer les distances entre une empreinte inconnue et les

empreintes enregistrées dans une base de données.

Compte tenu des décalages temporels entre les différentes prononciations d‟un

même mot, On a choisi la comparaison dynamique(DTW) car elle met en

correspondance des séquences de paramètres par distorsion temporelle (Time Warping).

- La décision

La phase de décision désigne le locuteur finalement reconnu. Dans cette phase de

décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne

pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des

locuteurs de la base de référence.

Figure IV-1 Fonctionnement


38

c. Organigramme

L‟organigramme présenté dans la figure IV-2 montre tous les étapes à suivre pour la

manipulation du logiciel. Chaque module du programme du logiciel zazakely est conçu à

partir de cet organigramme.

Figure IV-2 Organigramme du logiciel « zazakely »


39

IV.2. Les interfaces de « zazakely »

a. Fenêtre de démarrage

Lancer le logiciel en exécutant le fichier zazakely.jar

Figure IV-3 Fenêtre de démarrage

b. Fenêtre principale

Après le démarrage, la fenêtre principale s‟affiche.

Figure IV-4 Fenêtre principale


40

c. Fenêtre dico

Comme ce logiciel contient les informations sur les locuteurs enregistrés, la fenêtre

dico permet d‟afficher ses informations. Les informations dans ce dico peuvent être effacé en

cas de besoin mais ne pas seulement consulter.

Figure IV-5 Fenêtre dico

IV.3. Manuel d’utilisation de « zazakely »

a. Enregistrement

L‟enregistrement dans la base de données suit plusieurs étapes :

Capture de son

Sélection du phonème

Création d‟empreinte

Enregistrement des informations du locuteur

Capture de son


41

Figure IV-6 Représentation temporelle du son

Le bouton Record permet de capturer le son via le micro. Et pour stopper la capture, il

suffit de cliquer sur le bouton Stop.


42

Sélection du phonème

Et maintenant, on passe dans l‟étape le plus important de l‟enregistrement, il

s‟agit de repérer le phonème qui se sonne plus que les autres comme exemple « a ». Après

l‟avoir repérer, on recadre ou « crop » cette partie de son en cliquant sur crop dans le

menu Edit. Enfin, on passe à l‟enregistrement, il suffit de cliquer sur le menu fichier - save

ou save as.

Figure IV-7 Sélection du phonème

Figure IV-8 Enregistrement du son au format wav


43

Création d‟empreinte

Lancer le logiciel MATLAB en cliquant sur l‟icône MATLAB dans l‟onglet

MATLAB.

Figure IV-9 Démarrage de MATLAB


44

Figure IV-10 Extraction des paramètres MFCC

Case à cocher permettant de spécifier le résultat escompté. (MFCC)

Pour afficher les coefficients.

Pour enregistrer les coefficients dans un fichier texte.


45

Enregistrement des informations du locuteur

Après l‟étape précédente, on peut ajouter des informations concernant le

locuteur dans la liste du dico, en cliquant sur le bouton Ajouter une empreinte ou sur

le bouton Ajouter dans la fenêtre dico.

Figure IV-11 Ajout des informations dans le dico


46

Le bouton Parcourir sert à sélectionner le fichier contenant l‟empreinte du locuteur.

Figure IV-12 Sélection de l’empreinte

b. Reconnaissance d’un locuteur

La reconnaissance d‟un locuteur suit aussi quelques étapes :

- Capture du son d‟un locuteur inconnu et création de son empreinte

- Faire la reconnaissance

Capture du son d‟un locuteur inconnu et création de son empreinte

D‟une façon analogue que la phase d‟enregistrement

Faire la reconnaissance

Cliquer sur le bouton s’identifier.


47

Figure IV-13 Identification du locuteur

Ensuite, charger l‟empreinte du locuteur inconnu via le bouton Parcourir.

Figure IV-14 Chargement de l’empreinte de locuteur X


48

Après le chargement de l‟empreinte de l‟inconnu, le bouton lancer l’analyse

est activé. La figure IV.15 s‟affiche après l‟avoir cliqué.

Figure IV-15 Lancement du serveur MATLAB

Si la connexion avec MatlabServer est réussie, le bouton Continuer est activé.

Ce bouton permet d‟afficher les résultats de comparaison dynamique effectué par

le MatlabServer.

Figure IV-16 Affichage des distances par rapport à l’empreinte de l’inconnu


49

Ces distances sont ensuite comparées avec le seuil de décision pour tolérer des

éventuelles erreurs. Le bouton REPONSE affiche le résultat final.

Figure IV-17 Affichage du résultat

IV.4. Les matériels requis

L‟ordinateur auquel on veut installer le logiciel « zazakely » requiert deux

applications : le JDK 1.7 (Java Development Kit) et le MATLAB 7.5 ou plus.

Ces logiciels ne sont pas supportés par des ordinateurs qui ont de

faibles performances.

Voici les paramètres minimaux requis pour l‟ordinateur :

Processeur pentium IV 3, 2 GHz

Ram 1,5Go

Carte son en bon état


50

CONCLUSION ET PERSPECTIVES

La reconnaissance du locuteur est une tâche qui vise à affirmer un individu

après l‟étude des caractéristiques spécifiques de sa voix ou ses empreintes vocales.

Notons bien que les empreintes vocales ne sont pas les même que les empreintes

biométriques que l‟on rencontre souvent dans les marchés puisqu‟ils évoluent

selon les conditions environnementaux pendant les prises de son. Toutes les paramètres

biométrique est unique et constantes, c‟est pourquoi ils sont utilisés pour représenter une

personne.

Le logiciel « zazakely » sert à créer les empreintes vocales et repérer si un son

que l‟on introduit ou teste se trouve dans le dictionnaire. Ce dictionnaire est une base de

données, conçus pour stocker des minimums d‟information pour chaque personne que l‟on

enregistre.

La fiabilité de ce logiciel se pose sur les calculs de MFCC qui ne dépendent

pas des amplitudes de l‟enregistrement, et aussi sur le choix de la sélection de l‟échantillon à

extraire pour créer l‟empreinte. Donc, la sélection manuelle donne plus de travaille

mais rend le logicielle plus stable c'est-à-dire un taux de fidélité élevé.

La continuité de ce travaille peut donc être envisagé à partir des limites que présente le

logiciel « zazakely ». Voici des propositions pour les perspectives :

Les sélections automatiques des phonèmes, plusieurs méthodes sont en vues comme les

méthodes statistiques (HMM, GMM, etc), les méthodes en utilisant l‟intelligence artificielle

(réseau de neurone TDNN, etc).

Utilisations des bases de données plus performant comme ORACLE Database pour que les

stockages de l‟information soient sécurisés.


51

ANNEXES


52

ANNEXE 1 : JAVASOUND

Les API Java manipulant les sons

Java Speech

Java Speech est une API conçus pour les manipulations vocales. On trouve déjà dans

cette librairie des méthodes pour faire de reconnaissance de la parole ou speech recognition,

lecture des textes ou text-to-speech.

Dans notre logiciel, nous n‟utilisons pas cet API mais seulement le Java Sound.

Java Sound

Java Sound nous donne une solution logicielle pour le traitement des sons sur

ordinateur et évite des cartes sons adéquates. Seul besoin un digital-to-analog converter ou

DAC fourni par les cartes sons. Il permet de lire et enregistrer des fichiers sons.

Programmation audio avec java Sound

Objet de la classe AudioFormat indiquant

– le type d'encodage (linéaire ou pas),

– le nombre de canaux (1 pour monophonique, 2 pour stéréophonique),

– la vitesse d'échantillonnage, c'est à dire le nombre d'échantillon par seconde et par

canal,

– le nombre de bits pour coder un échantillon,

– la manière d'ordonner les octets (octets de poids fort en premier ou le contraire),

– le nombre et la taille des trames (une trame contenant les données sonores de tous les

canaux à un instant donné).


53

Pour obtenir les données audio du microphone

Pour envoyer les données audio vers les Hauts Parleurs


54

ANNEXE 2: ALGORITHME DE DTW

Soit la séquence de vecteurs acoustiques X=(x1,…,xN) de référence de taille N, la

séquence de vecteurs acoustiques Y=(Y1 ,…,YM) à tester de taille M, d(x,y) la distance

euclidienne entre deux vecteurs acoustiques et D(n, m) la distance cumulée du chemin

optimal allant du point (1, 1) jusqu‟au point (n, m), l‟algorithme de comparaison dynamique

se déroule comme suit :

Cet algorithme calcule le chemin optimal de coût minimal démarrant de (1, 1) jusqu‟à

(N, M) et alignant les deux séquences. Il retourne la distance totale minimale cumulée de ce

chemin. Cette distance est normalisée afin de la rendre indépendante de la longueur du

chemin.


55

REFERENCE BIBLIOGRAPHIE ET WEBOGRAPHIE

[1] Jean-Paul ACHARD, livre « Théorie et technique des images et des sons»,

Bibliothèque Site Ambatonakanga 2007

[2] http://raphael.isdant.free.fr/traitement_numerique/3-

traitement_numerique_du_son.pdf , Janvier 2012

[3] Pascale Snoeck , Livre « Cours de Sonorisation » version 2009

[4] LE Manh Tuan, « Analyse acoustique de sons bien identifiés par un systeme de

reconnaissance automatique de la parole » mémoire de fin d‟études, 2007

[5] Jean-François Bonastre , « La reconnaissance du locuteur et la détection

d'événements sonores » , 2006

[6] E341, «Théorie du Signal» cours en 3ème

année 2009, Ecole Supérieure

Polytechnique d‟Antananarivo-Département Electronique.

[7] «Analyse de Fourier » cours en 2ème

année 2008, Ecole Supérieure

Polytechnique d‟Antananarivo-Département Electronique.

[8] E531, « Traitement Numérique du Signal» cours en 5ème année 2011,

Ecole Supérieure Polytechnique d‟Antananarivo-Département Electronique.

[9] Étienne Tisserand, « Analyse et traitement des signaux » 2ème

édition, DUNOD

[10] Ramamonjilaza Ruphin, « Reconnaissance de locuteur par empreinte vocale »,

Ingéniorat en Electronique de l‟ESPA 2012.

[11] Didier Meuwly, « L‟apport d‟une approche automatique » Thèse de doctorat,

institut de police scientifique et de criminologie de l‟Université de Lausanne, 2000.

http://raphael.isdant.free.fr/traitement_numerique/3-traitement_numerique_du_son.pdf

http://raphael.isdant.free.fr/traitement_numerique/3-traitement_numerique_du_son.pdf


56

[12] Solan LM, Tiersma PM, «Falling on Deaf Ears» Legal Affairs Nov-Dec, 2003.

[13] Anicet FOKOU, « Modest-encoding AlgoRithm with Vocal IdentificatioN »

EPITA - Avril 2002

[14] DALLA CORTE Ludovic, «Reconnaissance vocale sur Smartphone par

apprentissage automatique » 2ème

master en sciences informatiques, Faculté des Sciences

Appliquées de l'Université de Liège, 2012.

Titre : « RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE»

Auteur : RABEMAMPIANDRA Eric Noël

Nombre de pages : 56

Nombre de figures : 37

Nombre de tableaux : 3

RESUME

La reconnaissance de locuteur est un domaine qui englobe des travaux mathématiques et

informatiques tels que: l‟analyse Cepstrale des sons, traitements des signaux, programmations en

utilisant les librairies qui manipulent les sons. L‟analyse Cepstrale permet d‟extraire les informations

portées dans les sons y compris l‟empreinte vocale. Les comparaisons des empreintes donne la

possibilité de voir si un tel locuteur est bien celui dans un enregistrement données. « zazakely » est

un logiciel conçus pour faire tous les tâches du reconnaissance du locuteur, fiable et facile à utiliser.

Mots clés : Reconnaissance de locuteur, Analyse Cepstrale, MFCC, TFR, DTW

ABSTRACT

The speaker recognition is a domain including mathematics and informatics works as:

Cepstral Analysis, Signal‟s treatments analysis, coding with a library which manipulate a sound.

Cepstral analysis allows us to extract the information carried in the sounds include the voice print.

The comparisons of the prints give us the possibility to see if such a speaker is well the one in a

registration data. “zazakely” is a software made to accomplish all task of speaker recognition, reliable

and easy to manipulate.

Keywords: Speaker recognizing, Cepstral Analysis, MFCC, TFR, DTW

DIRECTEUR DE MEMOIRE : ANDRIAMANANTSOA Guy Danielson

Adresse de l’auteur :

Lot G II 7 Q Ter Ampatsy Soamanandrariny Antananarivo

[email protected]

Documents

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE