Le traitement du signal en Audio. Les procédés de compression audio. Présentation

Le traitement du signal en Audio

Les procédés de compression audio

Exemple principal : MPEG 1 Layer 3

Sommaire

Présentation personnelle. Le groupe Digigram.Les points à connaître pour comprendre les procédés de compression :– Pourquoi le numérique ?– L’oreille humaine et l’audition– La boîte à outils mathématique : Compactage des données et

Transformée Temps FréquenceLes algorithmes de compression : – MP3– Autres Algorithmes– Le futur de la compression– Et les algorithmes de compression sans perte ?

Introduction personnelle

La société Innova SON

Produits : Consoles de mixage numérique pour marché Audio ProCiblé sur le spectacle vivant : concerts, festivals, théâtre, broadcast, etc …Audio 24 bits / 48 kHzSurtout pas de compression !Compétences : TDS (minimal), Electronique analogique et numérique, mécanique, intégration, CEM

La société Innova SON

Pourquoi le numérique ?

Pourquoi travailler en numérique ?Systèmes analogiques et numériques sont capables de réaliser les même fonctions (contre-exemples : retard pur / systèmes non linéaires)Le grande différence avec le format numérique est qu’il est capable de gérer des signaux dégradés sans perte de données, d’où les qualités suivantes :– Immunité du système aux bruits électriques bien plus grande– Précision ajustable suivant son besoin– Faible sensibilité aux conditions extérieures ( température, humidité, vibration, … )– Calibrations et maintenances moins importantes– Taux de défauts en fabrication plus faible– Pannes plus faciles à diagnostiquer et réparer– Interfaçage d’un système avec un ordinateur facile

Attention : les développements en numérique qui profitent de tous les avantages évoqués ci-dessus sont en logique synchrone.Les systèmes audio-numériques profitent des avantages cités ci-dessus : répétabilité, transmission sur de longues distances sans perte, gestion par ordinateur, compacité, etc …

L’oreille humaine / L’audition

Description de l’oreille

Cochlée : enroulée, 35 mm de long dépliéeOrgane de corti comprenant 2500 cellules ciliées (reliées aux nerfs auditifs) + 7500 cellules ciliées externes (amplification)En fonction de leur position le long de la cochlée, les cellules ciliées vibrent pour des fréquences d’excitation différentes. Les cellules ciliées et les neurones "saturent" rapidement : le niveau ressenti du signal n’est pas linéairement couplé au niveau efficace du son.

Pavillon

Conduit Auditif externe

TympanMarteau

Enclume

ÉtrierCochlée

NerfAuditif

Caractéristiques de l’audition (1)

Échelle de niveau logarithmique. – Niveau sonore perçu est doublé si on multiplie par 10 le nombre

d’instrumentistes.– Niveaux exprimé en dB SPL– 0 dB = agitation des

molécules de l’air – Seuil de la douleur : 140 dB

Réponse en fréquencecomplexe :– 20 Hz~20 kHz ( qu’on dit )– Dépend du niveau– Échelle Logarithmique en fréquence : l’octave

Caractéristiques de l’audition (2)Localisation spatiale du son :– Grâce à la différence de niveau sonore entre oreilles– Grâce à la différence temporelle ( <0,6 ms)– Grâce à la forme de la tête, des épaules, du pavillon– Localisation peu ou pas efficace aux basses fréquences

Perception de fréquence très fine ( erreur 1% ) mais …Masquage– Fréquentiel : si deux signaux sont de fréquences proches, on n’entendra

que celui de plus fort niveau– Temporel : un son masquera un autre dans la foulée pendant un court

instantPerception du timbre : attaque / harmonique / apprentissage

La boîte à outils mathématique

Le but est de réduire la taille d’un bloc de données sans perte, en s’appuyant sur ces spécificités. Cas d’école : compression ZIP, RAR, LZE

Divers algorithmes :RLE ( Run Length Encoding )Code la répétition successive d’éléments

Compactage des données (1)

AAAAABBBCDDDD *5ABBBC*4D

*5A Je répète 5 fois la lettre ABBBC Je garde BBBC tel quel

Huffman. Méthode statistique codant les caractères les plus courants avec les codes les plus courts.La bibliothèque de symbole peut être dynamique (arbre de Huffman) ou fixe

Compactage des données (2)

Lempel-ZIV. Basé sur un dictionnaire de mots. Le dictionnaire contient au démarrage les 256 caractères de base. Il est rempli au fur et à mesure de l’analyse du fichier

/WED/WE/WEE/WEB /WED<256>E<260><261><257>B

WEBE/W/WEEE//WED/EDWE/W

264263262261260259258257256

La plupart des algorithmes de compression nécessitent d’analyser le signal dans l’espace fréquentiel plutôt que temporel.

Le passage de l’un à l’autre peut être réalisé de différentes manières, les deux principales étantLes bancs de filtres unitairesUn banc de filtre particulier : la transformée de Fourier et ses déclinaisons. ( DCT, MDCT, …)

Transformation TempsFréq.

Deux étapes :– Décomposer le signal en bande de fréquence par un banc

de filtres en parallèle

Les bancs de filtre (1)

Freq

Freq Freq

Sous-éch.1 / 3

– Sous-échantillonner chacune des bandes

Les filtres sont choisis pour leurs propriétés …– de reconstruction parfaite du signal– d’atténuation maximale des phénomènes de repliement– de simplifier les calculs réduire puissance de calcul

Filtres optimaux : fréquences de coupure sont multiples de la fréquence d’échantillonnage.

Les bancs de filtre (2)

Freq

Les filtres polyphases font partie de cette famille. Leur calcul simplifié en fait un choix intéressant

DFT ( Discrete Fourier transform )

Décomposition du signal en cosinus et sinus

La Transformée de Fourier (1)

ekxNnf N

nkjN

k

.2.1

0

).(1)(

Nknkx

NNnf

N

k 2)12(cos).(.21)(

1

1

DCT ( Discrete cosine transform )

Décomposition en terme cosinus (partie réelle). Même base théorique que la DFT.En plus de l’avantage de travailler en nombres réels et non complexes, la décomposition par DCT est plus optimale

MDCT ( Modified Discrete Cosine Transform)

La Transformée de Fourier (2)

N

NknkxkfnfN

k2

)212)(12(cos).().()(1

0

Une fonction de pondération f(k) vient se rajouter. Son choix judicieux permet une reconstruction parfaite du signal tout en permettant :

– Le chevauchement des zones temporelles pour limiter les effets de bord de la DCT

– L’adaptation de la largeur d’analyse ( précision ou vitesse )

FFT ( Fast Fourier Transform )

La compression ‘’MP3’’

Le MP3. Présentation

Bon exemple des procédés de compression actuels. Mise en application des études sur l’auditionDe son vrai nom MPEG 1 Layer 3. Norme internationale dérivée du Musicam et ASPEC.Système numérique, signal échantillonnéProcédé de compression destructif : on perd de l’informationTaux de compression : facteur 1/11 pour une « qualité CD ». Taux fixe en généralBasé principalement sur l’effet de masquage de l’oreille.

MP3 : Procédé de compression

Banc de filtresSpectre en fréquence divisé par un banc de 32 filtres polyphases de 700 Hz de largeur. Compatible Layer 1 et 2.Chacune des 32 sorties est traitée par un filtre MDCT décomposant en 18 sous-bandesCodage d’un seul canal dans les basses fréquencesCodage de la somme des 2 canaux et un peu de la différence

MP3 : Banque de filtres

Cœur de l’algorithme. Qualité de la compressionAnalyses par bandes de fréquences indépendantes des banques de filtresEn général, décomposition par FFT 1024 points

MP3 : Modèle perceptuel

MP3 : Modèle perceptuelDécomposition du spectre encomposantes tonales et non tonales

Calcul du seuil de masquagepar fréquence

Rapport signal / seuil demasquageOn en déduit le nombrede bits par bande de fréquence

But de la manœuvre : allouer le nombre de bits permettant de coder chaque bande de fréquence afin de suivre la courbe de masquage.Huffman : valeurs petites codées avec moins de bitsAllouer des bits consiste alors au augmenter le gain par bandeBouclage jusqu’à ce que l’allocation soit optimale

MP3 : Allocation de bitsDec. Bin. Huffman

0 00 01 01 102 10 1103 11 111

Mettre en forme les données binaires produites aux étapes précédentes dans une structure définieEn plus des données audio, on rajoute d’autres données : format, nom, type de codage, etc. …

MP3 : Mise en forme / Décodage

Décodage : on inverse les étapes. Pas de modèle perceptuel qui ne sert qu’au codage pour supprimer les informationsDu coup le décodage est une étape très simple comparée à la compression

D’autres formats de compression

MP3 Pro. Compatible MP3 avec tout lecteur MP3 standard. Le procédé SBR rajoute quelque kbits/s permettant de reconstruire les hautes fréquences perdues dans les MP3 < 128 kbit/sWMA. Format Microsoft. Basé sur une MDCT ( pas de Banque de filtres ). En plus la ‘Substitution de bruit’, en moins pas de codage de la stéréoATRAC. Minidisc SONY. Taux de compression de 1/5 d’un signal 16 bits / 44.1 kHz. Décomposition en 3 bandes principales suivie de 3 MDCT 512 points.

MP3 Pro / WMA / ATRAC

Procédé utilisé dans les formats- VQF (Yamaha)- TwinVQ (intégré à la nouvelle norme MPEG 4 )- WMA (Microsoft) pour faibles débits

Basé sur une bibliothèque fixe de vecteurs les plus représentatifs d’un signal audio. Cette bibliothèque est incluse dans le module de compression et de décompressionPas à pas, le codeur recherche dans sa bibliothèque le vecteur le plus proche du signal à coder. Il code le numéro de ce vecteur et passe au tronçon suivantProcessus de compression long, même comparé au MP3, qualité quasi identique

La quantification vectorielle

Norme concurrente du MP3 récemment passé sous licence GPL (Open Source)Les principaux éléments :- Décomposition fréquentielle par MDCT de taille variable multiple de 2- Compactage par Huffman quantification par vecteur- Non limité à la stéréo mais multi-canaux

Principale différence : la plupart des paramètres d’encodage ne sont pas fixes et sont stockés avec le fichier compressé :- Modèle perceptuel- Tables de correspondance pour compactage Huffman ou VQ- L’encodage peut donc changer d’une trame à l’autre pour s’adapter aux changements- Le format est générique, il peut rester identique alors que le procédé s’affine- Seul inconvénient : la place prise pour stocker les paramètres ( 4 Ko, ces données sont elles-

même compressées ! )

Le Format Ogg Vorbis

Norme très complexe car complète : compression audio, compression vidéo, générateurs audio/vidéo, effets audio, effets vidéo, etc…Tous ces types de données peuvent être empaquetés dans un seul fichier et synchronisés les uns aux autres.Le domaine de la compression audio profite des avancées réalisées dans le domaine.Non compatibilité avec MPEG 1,2,3Les principes généraux de la compression sont les même : décomposition en fréquence, modèle conceptuel, quantification des différentes bandes, compactage des données (en plus de Huffman, on peut utiliser TwinVQ), mise en trame.Déjà utilisé sous un format simplifié Format AAC ( Apple ITunes )

Le futur, aujourd’hui : MPEG 4 (1)

Les ajouts• Filter Bank

DCT de longueur 2048 ou 256• TNS ( Temporal noise shaping ).

Filtrage adaptatif permettant une évolution du bruit de quantification dans le temps

• LTP ( Long term prediction )Reduction des données par analyse de la redondance d’information d’un bloc d’échantillon à l’autre

• PNS ( Perceptual noise substitution )Détecte qu’une ou plusieurs bandes de fréquences s’apparentent à une source de bruit. Il n’est pas codé, seule l’information de niveau est envoyée. Le bruit est regénéré dans le décodeur

Le futur, aujourd’hui : MPEG 4 (2)

Pour la vidéo, on ne se limite plus à la stéréo. Le 5+1 devient standard ( Gauche,droite, centre, arrière gauche, arrière droite + Subwoofer )Ce format nécessite une compression pour tenir sur un DVD.

Evolution vers le multi-canal

Débit utilisable par la partie audio sur le support : 1, 509 Mbits/s

Débit normal de 6 canaux 16 bits 44,1 kHz : 4,233 Mbits/s

Deux normes sont utilisées actuellement :Dolby AC-3- Débit : 384 Kbits/s ( rapport d’environ 1/10 ). Compression du niveau MPEG 1

DTS :- Débit maximal : 1509 Kbits/s ( rapport d’environ 1/4 )

Les formats MPEG 3 AAC et MPEG 4 AAC, futurs sucesseurs ?

Les procédés de compression sans perte

Les formats de compression sans perte sont basés sur la redondance d’information au sein de la source audio. De ce fait les algorithmes sont différents des procédés de compression avec perte.Les procédés de compression ’’informatiques’’ ( ZIP ), sont peu efficaces car basés sur la probabilité statistique de mots

Les applications sont peu nombreuses, donc les recherches moins avancées que pour les techniques de compression avec pertesLe taux de compression est variable et dépend du contenu du signal audio compresséLes taux de compression relevés en moyenne varient de 1/3 à 4/5 suivant le type de musique et le compresseurQuelques codeurs : APE, FLAC, WMA Lossless, Quicktime 6.5 …

La compression audio sans perte (1)

La méthode courante utilise la prédiction linéaireElle utilise des filtres récursifs d’ordre n pour estimer le signal.

Il peut s’agir d’un FIR (moins efficace) ou d’un IIR (calcul plus complexe des coefficients)

La compression audio sans perte (2)

L’autre solution consiste à utiliser un algorithme de compression avec perte et de coder l'erreur. C’est le cas du codeur LTAC basé sur une DCT suivie d’une quantification.Dans les deux cas, le signal d’erreur et compacté avec un procédé de type Huffman.

Quelques référenceTrès intéressant article sur la compression audio par Bryan Dipert pour EDN Magazine( http://www.e-insite.net/ednmag/contents/images/47036.pdf )Bases théoriques. Livres disponibles en ligne :

– The Scientist and Engineer's Guide to Digital Signal Processing ( http://www.dspguide.com/ )– Numerical Recipes in C. ( http://www.nr.com/ )

Explications sur le format MPEG– Fraunhofer Institut (http://www.iis.fraunhofer.de/amm/techinf/layer3/index.html )– http://www.mpeg.org

Pour des recherches plus précises, utilisez le moteur de recherche spécialisé dans la littérature scientifique ( http://citeseer.nj.nec.com/cs )Le format Ogg Vorbis : ( http://www.vorbis.com )La compression sans perte

– Comparatif et liens sur les utilitaires de compression audio ( http://www.firstpr.com.au/audiocomp/lossless/ )

– Théorie sur la compression sans perte ( http://geocities.com/eri32/ )InnovaSON : http://www.innovason.com

C’est la fin !

A votre tour. Posez vos questions …

Documents

Le traitement du signal en Audio. Les procédés de compression audio. Présentation