Coucou à tous,
Vous l'aurez voulu. Chose promise, chose due, voici un topo sur le mp3 et ses différences avec le format CD-Audio (= PCM 16bits/44.1kHz pour les spécialistes).
Quelques remarques préliminaires
* Je ne me concentre ci-dessous que sur les différences qui peuvent avoir un impact sur la qualité perçue par les auditeurs (par définition, les principes mêmes du mp3 et du PCM 16/44.1 sont radicalement différents, on peut donc dire que sur le plan technique les différences sont infinies, mais ce n'est pas le sujet ici, plaçons-nous du point de vue de l'auditeur) ;
* Je n'évoque que les différences qui me semblent les plus notables (s'il y a des puristes, qu'ils me pardonnent de ne pas être exhaustif) ;
* Pas de polémique : comme je l'ai écrit plus haut, dans des conditions d'utilisation avec du matériel grand public (chaîne "hi-fi" ou home cinéma de salon jusqu'au milieu / haut de gamme ; a fortiori avec du matériel de qualité inférieure) ou dans des conditions d'écoute moyennes (en voiture notamment, en environnement plus ou moins bruyant, au casque de moyenne qualité, etc...) les différences ne sont quasiment pas perceptibles dès que l'encodage mp3 est fait à un taux suffisant (192kbps et plus, a fortiori si l'option VBR est employée) ; en revanche ces différences existent toujours et mon humble avis est que même un profane peut les percevoir (ne serait-ce qu'intuitivement) dans des conditions d'écoute de haute qualité. Mon propos n'est donc pas de dire que le mp3 est "mauvais" (ce n'est pas vrai), juste de dire qu'il ne restitue pas tout ce qu'un CD bien mixé et bien masterisé a dans le ventre.
* Pas de polémique, le retour : contrairement à ce qu'on pourrait croire, l'acoustique en général, et les technologies décrites ci-dessous en particulier, ne sont pas fondées exclusivement sur des sciences exactes (même si quasiment tout ce dont on parle ici passe par des modélisations mathématiques transcrites dans des algorithmes informatiques). On verra pourquoi tout à l'heure, il y a une grosse part d'empirisme et de subjectivité, qui sous-tend la
psycho-acoustique qui elle-même est le socle de toutes ces affaires d'encodage numérique. Il n'y a donc pas de vérité absolue, d'un auditeur à l'autre ces différences ne sont pas ressenties de la même façon.
Quelques articles de fond
(Pour les curieux qui ont envie d'en savoir plus ; ça reste de la vulgarisation mais c'est plus précis que mon topo ci-dessous)
Notions de base sur le format PCM utilisé notamment dans les CD audio
http://fr.wikipedia.org/wiki/Modulation ... cod%C3%A9e
Notions de base sur la structure du format mp3 et ses origines
http://fr.wikipedia.org/wiki/MPEG-1/2_Audio_Layer_3
Plus utile pour ce qui suit, notions de base sur le fonctionnement du format mp3
http://www.commentcamarche.net/contents/audio/mp3.php3
Bref résumé de "comment ça marche"
Le format des CD audio (PCM 16/44.1)
Le son, ce n'est rien d'autre qu'une série de variations de pression dans le temps. Dans le "domaine numérique", le son est décrit par une série de valeur (codées de 0 à 65535 avec 44100 valeurs par seconde dans le format PCM 16/44.1), dans le "domaine analogique" c'est une courbe électrique dans un appareil audio ou dans du câble qui va vers un autre appareil ou une enceinte, et dans le "domaine acoustique" c'est une série de vibrations de l'air.
Le format PCM (p.ex. CD Audio), code le son de façon constante, à fréquence constante, sur un échantillon de taille constante. Pour faire simple, c'est comme si un appareil mesurait l'amplitude du son à intervalles de temps réguliers (44100 fois par seconde dans le format des CD Audio) et notait cette mesure sur une échelle de taille constante (un chiffre entre 0 et 65535, soit 16 bits constitués de 0 ou de 1, dans le cas du format des CD audio). Au moment de l'écoute, on fait l'opération inverse et on transforme toute cette suite de mesures numériques en une courbe électrique que, via une "chaine" (hi-fi par exemple), on transforme en courbe de pression acoustique (= le son que peut entendre notre oreille).
Sans entrer trop loin dans les détails, cela signifie que :
* Le format PCM restitue sans distorsion toutes les fréquences comprises entre 0Hz et 22.05kHz. Pour mémoire, l'oreille humaine perçoit les fréquences comprises entre environ 0.02kHz et 20kHz (attention, première incursion de la psycho-acoustique, c'est "environ", ça dépend d'un individu à une autre et à puissance sonore égale, la sensibilité de l'oreille humaine "moyenne" n'est pas la même pour toutes les fréquences). Une application du théorème de Shannon montre que les distorsions entraînées par la numérisation du son via le PCM 16/44.1 sont rejetées au-delà de 22.05kHz, donc sensément inaudibles par l'Homme.
* Dans la plage 0 - 22.05kHz, le son est restitué dans le format PCM des CD Audio avec la même qualité quelle que soit sa "complexité" (son spectre pour les spécialistes, c'est-à-dire, à un instant donné, sa décomposition en une multitude de fréquences individuelles qui coexistent au sein de ce son et le constituent).
* Quelle que soit la nature du son encodé en PCM 16/44.1, il y a une amplitude maximale constante (96 dBFS, disons 96 décibels pour simplifier) entre la composante (une fréquence donnée du spectre) la plus faible et la composante la plus forte possible de ce son.
Le format MPEG 1/2 Layer III (communément dénommé "mp3")
Pour faire ultra-simple à ce stade, (et comparer avec ce qui précède) le format mp3, ne "compresse" pas vraiment le signal (c'est un abus de langage qu'on se traîne dans les média depuis l'origine), il
retire des informations que contient le signal numérique PCM 16/44.1 d'origine. Parce qu'il retire des informations, ce qui reste prend moins de "place". Parce que ça prend moins de place, on aboutit à un fichier moins "lourd" et c'est comme si le résultat était un fichier compressé. Ce qu'il retire dépend de i) la fréquence d'encodage (p.ex. 128, 192, 256kbps, etc), et ii) d'options d'encodage (p.ex. VBR, "joint stereo", etc).
Comment l'encodage mp3 "choisit-il" ce qu'il peut retirer et ce qu'il faut garder (en réalité, comment a-t-on choisi pour lui au moment de sa conception) ? A partir d'un modèle psycho-acoustique de l'oreille humaine (= une modélisation de comment l'oreille humaine "moyenne" perçoit les sons). Attention modèle psycho-acoustique = subjectivité, on n'est plus totalement dans le champ des sciences exactes. Modèle = représentation de la réalité, pas la réalité elle-même. Psycho-acoustique = analyse (mesurée empiriquement au travers d'études aussi poussées que possible) de la façon dont le son est perçu par l'homme, pas analyse du son lui-même. C'est l'emploi d'un modèle psycho-acoustique qui a permis de répondre à la question que je pose au début de ce paragraphe :
le mp3 retire "ce qui est inutile à l'oreille humaine" dans le son d'origine.
Bon, c'est bien gentil, mais concrètement, qu'est-ce qu'il retire, le mp3 ?
Je vais y répondre ci-dessous en citant quelques éléments concrets, et c'est de ça qu'on pourra comprendre en quoi chacun d'eux fait une différence et en quoi elle est importante (ou pas) pour le commun des mortels...
Les différences
Dans tous les cas décrits ci-dessous, je prends pour exemple qu'on part d'un CD audio et qu'on le convertit en mp3. De même, quand j'écris "à l'écoute", je parle d'une écoute sur un système de qualité suffisante (ce n'est pas juste théorique, ça existe en pratique mais on parle de systèmes semi-professionnels ou au moins audiophiles haut-de-gamme) en comparant un mp3 encodé à 192 (ou même 256) kbps VBR avec le CD Audio
Effet de masque et suppression de fréquences
Quand on entend deux sons à la fois dont l'un est vraiment plus fort que l'autre, le premier masque le second, que l'on ne perçoit plus. En principe c'est vrai (on n'entend plus le souffle de sa chaîne quand la musique le couvre). C'est ce principe ("effet de masque") que l'encodage mp3 utilise pour supprimer du signal issu du CD Audio les fréquences normalement audibles (comprises dans la plage 0 - 22.05kHz) mais réputées "inutiles" car sensées être masquées par d'autres de volume plus fort. Par exemple, avec un "seuil de masquage" à 50%, si à un moment donné j'ai l'accumulation de deux fréquences, l'une à 90dBA et l'autre à 40dBA, celle à 40dBA est supprimée car son amplitude est inférieure à 50% (= 45dBA) de l'amplitude de la plus forte. Le détail de ce qui est retiré dépend de la qualité d'encodage (plus la qualité est basse, p.ex. 128 kbps contre 256 kbps, plus l'encodage mp3 retire de fréquences -- concrètement plus le seuil de masquage est relevé). Il dépend aussi du modèle psycho-acoustique (notre perception des sons faibles / sons forts n'étant pas la même à toutes les fréquences).
Les différences CD Audio vs mp3 qui en résultent et les problèmes qu'elles peuvent poser sont les suivants :
* Que se passe-t-il aux limites de seuil ? D'un instant à l'autre, une fréquence proche du niveau de seuil peut entrer, sortir, entrer, sortir de ce que le mp3 garde, selon le volume de ce qu'il y a "autour". A l'écoute, on a l'impression que le son est globalement moins "clair", moins "détaillé" que sur le CD Audio. Le VBR (qui fait varier la profondeur d'encodage en fonction de la complexité du son à un moment donné), résout une partie du problème, mais pas entièrement.
* Perte de l'effet de "reconstitution". C'est difficile à comprendre, mais dans la vraie vie, notre cerveau, pour "comprendre" un son, "invente" en permanence des fréquences que notre oreille n'a en réalité pas réellement entendues. L'exemple typique est la grosse caisse d'une batterie. Face à une vraie grosse caisse jouée à 5 mètres de nous, notre oreille (et notre corps) entend toutes les fréquences qui sortent de celle-ci, et notre cerveau pend tout ça et dit "wouaouh, grosse caisse pêchue martyrisée par un psychopathe du kick, on en prend plein la tronche". Mais certaines de ces fréquences bien qu'audibles par l'oreille humaine (jusqu'à 20Hz) voire notre corps (= infra-graves < 20Hz) sont très difficilement restituables par un système hi-fi, même de très haute qualité. A fortiori un casque avec une oreillette de quelques centimètres de diamètre au mieux. Et pourtant, même au casque, pour que que le mix et le mastering du CD aient été bien fait, notre cerveau dit, à volume sonore équivalent, "wouaouh, grosse caisse pêchue martyrisée par un psychopathe du kick, on en prend plein la tronche". Comment a-t-il fait ? il a inventé des fréquences manquantes à partir de celles qui lui ont été données via l'oreille. La difficulté, c'est que c'est très subtil comme processus et que si Monsieur mp3 supprime des fréquences dont il a besoin pour faire ça, notre cerveau fait moins bien son boulot (voire cherche à reconstituer non plus les fréquence qui lui manquaient à l'origine mais celles qui ont été supprimée par l'encodage mp3, ce qui ne fait que compliquer un peu plus les choses). Souvent, écouté sur un système de haute qualité, un mp3 sonne un poil plus "creux" que le CD Audio d'origine, et on le sent mais on a du mal à mettre le doigt sur quelque chose de précis.
* Respect des phases et stéréophonie. Sans rentrer dans les détail, tout ce que j'ai décrit plus haut passe par des "transformations de Fourrier" qui convertissent courbe sonore en spectre de fréquence et vice-versa. Au passage, il y a toujours des problèmes de déphasage, plus ou moins subtils. Une des grosses difficultés d'un mix ou d'un mastering étant précisément de respecter les phases. En quoi est-ce un problème ? Il y en a plusieurs mais j'en cite juste un, lié à la stéréophonie. dans la vraie vie, tout le son de la Diva qui chante a capella à 10 mètre de nous un air d'opéra à vous hérisser tous les poils des bras nous vient d'un seul et unique point (sa jolie bouche) et arrive à nos deux oreilles avec une phase cohérentes. Notre cerveau se sert de cela (et du décalage imperceptible de temps qu'a mis le son à parvenir à chacune de nos deux oreilles en fonction de la localisation spatiale de la Diva par rapport à nous), pour, justement... en déduire de façon extrêmement précise la localisation spatiale de la source. Ca sert à entendre si un son vient de droite, de gauche, du centre, (et même aussi du haut, du bas, de derrière, de devant, de loin, de près quand c'est combiné avec d'autres effets). Avec un encodage mp3, la cohérence de phase d'un même son (p.ex. un violon dont le son contient une grande richesse d'harmoniques, une voix de Diva c'est aussi riche, au fait) est en partie perdue, même subtilement. Certes, on entendra bien si le son est à droite à gauche, au centre dans un mix, mais, la grande différence, c'est que les systèmes audio de hautes qualités permettent (c'est justement l'un de leur grand critère d'appréciation par les spécialiste), d'avoir l'impression que la Diva, ou l'instrument, ou la méga guitare qui tue est, dès qu'on ferme les yeux, physiquement présente dans la pièce, là, juste devant moi. Si on écoute un mp3, c'est devant moi, d'accord, juste au centre, peut être, mais ce n'est pas physiquement présent dans la pièce, ça reste "dans les enceintes", et notre cerveau perçoit très bien cette différence.
Le "Joint Stereo"
Pour un son parfaitement centré, pourquoi s'emm... s'embêter à coder le signal à la fois à droite et à gauche (ce qui double la taille des infos nécessaires) alors qu'un seul codage au "centre" aurait suffit ? Hein ? Justement, le mp3 se sert de ça pour réduire très fortement la place de l'encodage des signaux centrés (et on peut même faire une extension à d'autres signaux non centrés mais je passe). Problème : ça passe par des comparaison entre la somme et la différence des deux signaux D et G du CD Audio d'origine et, pour toute une série de raisons liée encore aux transformations de Fourrier, ça entraîne des risques de déphasage. Conséquence, les mêmes que le dernier point ci-dessus sur la présence physique de la musique. Au fait, sur le déphasage, j'avais oublié de dire qu'aux fréquences les plus graves le déphasage est catastrophique si mal géré, il peut entraîner une chute du volume audio de la résultante.
Bon, j'ai été long, beaucoup trop long.
j'(espère que tout ce qui précède est clair.
Pour finir, je rappelle que tout ceci est bien audible sur un bon système, bien mesurable aussi à l'oreille sur un mauvais système du moment qu'on écoute la différence entre le son d'origine et le son mp3 (cf la manip que j'ai donnée dans un post plus haut), mais (et c'est mon coup de pied de l'âne), que c'est une affaire de puristes et que ça n'a strictement aucune importance en voiture parce que, même avec le meilleur système B&O ou ce qu'on voudra de l'option à what-mille euros, en voiture, vous ne les entendrez pas, ces différences. Parce que :
* Effet de masque : si vous saviez la quantité de son qui polluent votre écoute, même dans la voiture la mieux insonorisée, sauf à écouter à un volume qui vous trouerait les oreilles, ce que je ne recommande pas...
* Sétéophonie : vous n'êtes pas, vous n'étiez pas, vous ne serez jamais au centre de l'écoute (sauf à vous asseoir sur votre levier de vitesse, ce que je ne recommande pas...) alors la stéréophonie, hein ???
Allez, bises à tous !
