Le 14/05/2002
Université de Technologie de Belfort Montbéliard
1
par Sid-Ahmed Lamrous
Son : codage et compression
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
2
par Sid-Ahmed Lamrous
Format du son
2 types de formats pour stocker des sons ou de la musique :
Les formats numériques. Les formats musicaux.
Formats numériques : Stocker une approximation du son analogique. Constitué d'une suite d'échantillons.
Formats musicaux : Stockent essentiellement des informations sur quand et comment jouer tel ou tel instrument.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
3
par Sid-Ahmed Lamrous
Formats numériques
Stocker des sons, des textes parlés ainsi que des morceaux de musique. 2 Dimensions : temps et amplitude. Stocker une approximation du son analogique :
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
4
par Sid-Ahmed Lamrous
Numérisation du son
• Numérisation d'un signal sonore : 2 étapes.
• Echantillonnage : – Discrétisation dans le temps. – Choix du nombre d'échantillons par seconde.
• Quantification : – Discrétisation de l'amplitude. – Choix de la précision de représentation d'un échantillon.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
5
par Sid-Ahmed Lamrous
Echantillonnage du son
Discretisation dans le temps : •Découpage en "tranches". •Choix du nombre d'échantillons par seconde.
Ex. : échantillonage à 11 KHz. •Le son est analysé 11.000 fois par seconde.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
6
par Sid-Ahmed Lamrous
Quantification du son
• Discrétisation de l'amplitude. – Choix de la précision de représentation d'un échantillon.
• Ex. : représentation sur 1 octet. – Un échantillon est codé sur 256 niveaux.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
7
par Sid-Ahmed Lamrous
Echantillonnage et quantification • Exemple :
– Echantillonage : 10 Hz. – Quantification : 3 bits
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
8
par Sid-Ahmed Lamrous
Echantillonnage : fréquence optimale
• Théorème de Shannon : Si un signal est échantillonné périodiquement à une fréquence au moins égale à deux fois la fréquence la plus élevée contenue dans ce signal, l'ensemble des échantillons contient toute l'information du signal d'origine.
• On peut alors déterminer la fréquence d'échantillonnage optimale.
• Par exemple : – Le domaine perceptible par l'oreille humaine : jusqu'à 20
kHz. – La qualité CD est donc fixée à 44100Hz. – Celui de la parole est restreint à 150 Hz - 5 kHz. – En téléphonie, on utilise 8 kHz.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
9
par Sid-Ahmed Lamrous
Qualité de la numérisation
• Dépend de 3 paramètres. • Fréquence d'échantillonnage (nombre
d'échantillons/seconde). – Qualité téléphonique : 8 kHz. – Qualité CD : 44,1 kHz.
• Le nombre de bits par échantillon : – 8 bits (qualité médiocre). – 16 bits (qualité CD).
• Le nombre de canaux : – 1 canal : son mono. – 2 canaux : son stéréophonique. – 4 canaux : son quadriphonique.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
10
par Sid-Ahmed Lamrous
Numérisation et taille des données (1)
• Exemple : numérisation qualité CD. – Fréquence d'échantillonnage : 44 KHz. – Nombre de bits par échantillon : 16 bits. – Nombre de canaux : 2 (stéréo).
• 44000 échantillons par seconde, chacun nécessitant 2 octets, le tout stocké en double : – 44.000 x 16 x 2 = 1.408.000 bits/s. – C'est-à-dire 172 Ko/s.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
11
par Sid-Ahmed Lamrous
Numérisation et taille des données (2)
8 bits mono 8 bits Stéréo 16 bits mono 16 bits stéréo
8000 Hzvoix
7 kb/s420 Ko
15 kb/s900 Ko
15 kb/s900 Ko
31 kb/s1860 Ko
11025 Hzvoix,mus.
10 kb/s600 Ko
21 kb/s1260 Ko
21 kb/s1260 Ko
43 kb/s2580 Ko
22050 Hzmusique
21 kb/s1260 Ko
43 kb/s2580 Ko
43 kb/s2580 Ko
86 kb/s5160 Ko
44100 HZmusique
43 kb/s2580 Ko
86 kb/s5160 Ko
86 kb/s5160 Ko
172 kb/s10320 Ko (CD-A)
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
12
par Sid-Ahmed Lamrous
Le format WAV (1)
• Le format de données comprend : – 44 octets d'en-tête permettant une identification. – Une structure les organisant. – Le codage des données.
• Fichier RIFF (Resource Interchange File Format), formé de blocs hiérarchisés :
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
13
par Sid-Ahmed Lamrous
Le format WAV (2)
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
14
par Sid-Ahmed Lamrous
Le format AIFF
• AIFF (Audio Interchange File Format).
• Apple 1988 : – Fichiers son de haute qualité. – Initialement développé pour les ordinateurs
Macintosh.
• Jusqu'à 44,1 kHz en 16 bits.
• Equivalent Macintosh du format WAV.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
15
par Sid-Ahmed Lamrous
Formats musicaux • Les fichiers de sons de synthèse. • Permettre aux musiciens de contrôler plusieurs instruments
électroniques à partir d'un seul. • Stocker des messages musicaux permettant de piloter un
périphérique MIDI : – Quelle note jouer, – Sur quel instrument, – A quel volume, etc.
• Les instruments ne sont pas définit dans le format, ce qui permet un gain de place considérable.
• Faible volume d'information requis (1000 fois que le signal audio en qualité CD)
• La qualité de la musique dépend du périphérique utilisé pour la jouer.
• Ex. : le format MIDI (Musical Instrument Digital Interface).
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
16
par Sid-Ahmed Lamrous
Le format MIDI
• Le format MIDI (Musical Instrument Digital Interface). – 16 canaux : 16 instruments peuvent jouer en même temps. – Indications sur quelle note jouer, sur quel instrument, à
quel volume, etc.
• Gain de place : 2 minute : – Format MIDI : 80 Ko. – Format WAV : 20 Mo (qualité CD).
• Fichier facilement éditable avec un séquenceur MIDI. • Il est facile de changer les instruments.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
17
par Sid-Ahmed Lamrous
Le format MIDI : limitations
• Utilisable que pour la musique. • La qualité de la musique :
– Dépend du périphérique utilisé pour la jouer. – (En particulier le nombre de canaux).
• Le codage des instruments n'est pas normalisé : – Par exemple : un morceau de violon. – Peut être interprété par un saxophone sur un autre
synthétiseur.
• Obligation d'utiliser des sons déjà existants : • Impossible d'intégrer un son créé par le musicien
(échantillonné ou réellement synthétisé).
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
18
par Sid-Ahmed Lamrous
Compression des sons • Principale méthode de compression de sons :
– Retirer des données audio les fréquences inaudibles par l'oreille humaine
• L'oreille humaine : – Capable de discerner des sons entre 0.20Khz et 20Khz. – Sensibilité est maximale entre 2 et 5Khz.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
19
par Sid-Ahmed Lamrous
Méthodes de compression des sons
• Principale méthode de compression (MPEG, PASC) : – Modèle psycho-acoustique. – Déterminer les sons que nous n'entendons pas. – Les supprimer : "masquage".
• Mais aussi... • Elimination de la redondance :
– Utilisation de l'Algorithme de Huffman.
• Codage paramétrique, par modélisation de la voix (LPC) : – Analyse de la voix. – Codage et transmission des paramètres de modélisation
de la cavité acoustique. – Synthèse en réception
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
20
par Sid-Ahmed Lamrous
Méthodes de compression des sons (2)
• Autres traitements : – Suppression des silences, – Interfonctionnememt avec FAX, Huffman, etc.
• Utilisation de processeurs de signaux spécialisés (DSP). • Chercher un compromis :
– Débit. – Qualité exprimée en MOS (Mean Opinion Score) :
• 5 : excellent. • 4 : bon (dégradation à peine perceptible) • 3 : passable (dégradation perceptible, mais on reconnaît son
interlocuteur).• 2 : médiocre (dégradation considérable, voix synthétique) • 1 : mauvais (problèmes d'intelligibilité).
– Retard introduit par la compression (peut varier de 0,125 à 30 ms).
– Complexité de l'algorithme (exprimée en MIPS requis pour le DSP).
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
21
par Sid-Ahmed Lamrous
Algorithme PASC • 2 tâche distinctes : • Un rôle filtreur :
– Eliminer du signal toutes les fréquences inférieures à 15 Hz et supérieures à 20 KHz.
• Un rôle échantillonneur : – Diviser le spectre audible en 32 bandes de 720 Hz chacunes. – Comparer la valeur moyenne de chaque bande à la valeur
correspondant sur la courbe de réponse de l'oreille. – Toute bande en dessous de la courbe de réponse est éliminée. – Chaque bande retenue est divisée en 12 sous-bandes
échantillonées sur 16 bits. – On compare encore une fois la valeur des sous-bandes à la
courbe de référence. – On quantifie les différences à la courbes, et on code ces
différences sur un nombre minimum de bits. – Ces opérations sont renouvelées tous les 8 millièmes de
seconde.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
22
par Sid-Ahmed Lamrous
Algorithme PASC (2)
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
23
par Sid-Ahmed Lamrous
Algorithme PASC (3)
• 6 bandes (traits verticaux) : – Traversent ou non la zone de masquage. – 2 restent sous la courbes : rejetées. – Les 4 autres sont échantillonnées en 12 autres
sous-bandes. – Pour chaque sous-bande : un nombre de bits.
• Taux de compression : ~ 25 %.
Le 14/05/2002
Université de Technologie de Belfort Montbéliard
24
par Sid-Ahmed Lamrous
MPEG • Audio MPEG (Moving Picture Experts Group).
– Echantillonnage à 32, 44.1 ou 48 kHz. – Précision équivalant à une quantification à 16 bits par
échantillon.
• 3 niveaux de compression possibles : – Layer 1 : 192 kbit/s (compression 4:1). – Layer 2 : 128 kbit/s (compression 6:1). – Layer 3 : 64 kbit/s (compression 12:1) (le célèbre MP3!!!).
• Spectre divisé en 32 sous-bandes. • Application du modèle psycho-acoustique :
– Calcul des masquages (ne conserver que les sons audibles). – Allocation du nombre de bits. – Quantification.