Conservatoire National des Arts et Métiers
Département d’acoustique
Reproduction des systèmes multicanaux
Rapport d’examen probatoire
Laurent Givernaud
30 Mars 1999
Table des matières
1.2. Perception de la distance
1.3. Analyse de la réponse impulsionnelle
2.1. Les systèmes «surround »
2.1.1. Recommandation
2.1.2. Les procédés Dolby
2.1.3. Les autres procédés matricés «surround »
2.1.4. Les codages à réduction de débit pour la diffusion multicanale
2.1.5. Le DVD
2.1.6. Les systèmes «surround » du cinéma
2.1.7. Reproduction du «surround » au casque
2.1.8. Reproduction du «surround » dans les grandes salles
2.2. Les systèmes ambisoniques
2.3. Les systèmes utilisant les HRTFs
2.3.1. Auralisation (synthèse binaurale, reproduction sur casque)
2.3.2. Système transaural (reproduction par 2 haut-parleurs)
2.3.3. Système «pair wise » (reproduction par plusieurs haut-parleurs)
2.4. Les systèmes utilisant la synthèse de front d’onde
2.5. Le spatialisateur
3. Contraintes liées aux enceintes et aux locaux
3.1. Les haut-parleurs frontaux
3.2. Les enceintes «surround »
3.3. La restitution des basses fréquences
3.4. Les haut-parleurs dédiés à la reproduction multivoie en général
3.5. Contraintes liées à l’acoustique des salles
Conclusion et perspectives
Bibliographie
Remerciements
Annexe
Liste des abréviations
Introduction
L’arrivée prochaine de nouveaux formats de stockage de données comme le DVD (Digital Versatil Disque) vidéo et audio et le lancement imminent de nouveaux moyens de transmissions DAB (Digital Audio Broadcast), DVB (Digital Vidéo Broadcast) ont ravivé l’intérêt pour les systèmes multicanaux. Tous les domaines sont concernés : de la production à la restitution.
Nous nous focaliserons principalement sur les méthodes de la reproduction sonore des signaux multicanaux. Mais comme les méthodes de reproduction de la spatialisation sont intimement liées dans certains cas, à la captation de l’événement sonore, à sa transmission et aux modèles psychoacoustiques de la perception spatiale, nous ferons un bref survol des moyens employés pour la prise de son, des codages matriciels, des codages de réduction de débit et des critères perceptifs de la localisation.
La terminologie qualifiant les systèmes de reproduction multicanaux étant parfois ambiguë, rappelons la définition de quelques mots.
La stéréophonie désigne un son «solide » donc un son dans un volume de l’espace et englobe tous les procédés de reproduction du son dont le nombre de canaux est supérieur ou égal à deux. La biphonie serait le terme adéquat pour la restitution traditionnelle sur 2 canaux.
Le «surround» qualifie le fait d’être entouré par le son et reflète la restitution de la salle, de l’ambiance ou encore des effets spéciaux. Certains constructeurs désignent leur système comme «true surround» pour spécifier le fait qu’une information de localisation est contenue dans le système de reproduction. A ceci viennent s’ajouter les systèmes 3D audio ou «true 3D» qui tendent vers une fidélité sonore de la localisation en tout point de l’espace.
La frontière entre ces appellations techniques est souvent illusoire car les différents procédés commerciaux utilisent des techniques complémentaires, multiples, variées et adaptables. De plus, il n’existe encore aucun système pouvant se vanter d’appartenir à une quelconque réalité virtuelle, la science en ce domaine est au stade du développement.
Pour une homogénéisation de lecture, la notation l -m -n sera utilisée pour spécifier le format multicanaux : 4-2-4 signifiera : 4 canaux d’enregistrement, 2 canaux de transmission et reproduction sur 4 enceintes. La notation o/p/q qualifie uniquement le mode de reproduction : 3/2/1 indique l’affectation des haut-parleurs, soit 3 frontaux, 2 «surround», 1 caisson de basse. On peut aussi ajouter le terme 5.1 qui est très couramment utilisé pour désigner un système de reproduction à cinq canaux discrets.
On peut classer les méthodes de reproduction sonore multivoies en quatre groupes pour couvrir les différents domaines d’application :
1. Les systèmes «surround» matricés et/ou compressés : ce sont généralement des procédés qui ont eu une vie commerciale en s’adaptant aux supports d’enregistrement existant. Ayant réussi à s’implanter sur le marché, ils s’imposent comme des standards. Ces systèmes n’ont pas pour vocation de restituer une localisation précise mais d’immerger l’auditeur dans un environnement ou une ambiance. On retrouve ces systèmes « surround » pour le cinéma essentiellement et ses dérivés.
2. Les systèmes «surround » non matricés sont issus des études menées dans les années 70 (quadriphonie tétraphonie), lorsque l’on pensait que des supports multicanaux multimédias allaient apparaître. Ces systèmes n’ont que peu d’intérêt aujourd’hui devant l’ampleur de la normalisation des systèmes 5.1. Difficile à cataloguer, il existe des systèmes dits «True surround», qui permettent d’obtenir une bonne localisation. Ils sont parfois issus des systèmes précédents dans une version améliorée. Actuellement, ils essaient de lutter ou de s’adapter au 5.1. Ce sont généralement de bons procédés qui peuvent parfois être matricés. Les concepteurs de ces systèmes proposent d’incorporer à la norme du DVD audio la possibilité de lire leurs produits.
3. Les systèmes 3D audio qui incorporent les dernières évolutions en matière de notre connaissance de l’écoute spatiale. Ils simulent une écoute virtuelle le plus fidèlement possible. Ce sont par définition des systèmes d’avant garde car trop coûteux pour le moment et trop complexes pour être implanté facilement dans des structures simples. Ces systèmes sont destinés à un public de connaisseurs ou tout simplement à la recherche.
4. Deux possibilités nous sont offertes pour la reproduction au casque. Soit, comme pour les systèmes « surround »,on ajoute un canal supplémentaire pour l’ambiance (casque à 4 transducteurs), soit l’on insère l’information de localisation par filtrage dans les canaux de modulations.
On retrouve sur le diagramme suivant (Fig.1), différents systèmes commerciaux ou expérimentaux réunis suivant ces quatre groupes.
Dans ce document, nous évoquerons les quelques approches physiques pour évaluer notre sens auditif de la perception spatiale, puis devant l’abondance de produits, de procédés et de labels, il semble utile de faire le point sur les systèmes «surround» existant ainsi que sur les autres technologies. On observera alors, les conséquences induites par la reproduction multicanale sur les enceintes et les locaux.

Figure 1. Survol des différents procédés multicanaux existants
L’espace sonore est tridimensionnel. Deux dimensions appartiennent à la localisation : l’azimut (perception horizontale) et l’élévation (perception verticale). La troisième dimension est liée à la perception de la distance apparente de la source (proche ou lointaine).
1.1. La perception de la localisation
Les variations physiques dues à l’incidence de la source sonore par rapport à une ou deux oreilles sont étudiées pour comprendre le phénomène de perception de la localisation. Ces variations physiques captées par le tympan sont les moyens d’approcher timidement la perception physiologique de la localisation par le cerveau. Elles donnent en même temps des informations pour synthétiser un espace virtuel. On cherche par ce biais le maximum de paramètres liés au repérage en azimut et en élévation.
Il est difficile de discerner les variations physiques mesurables des causes qui les ont créées. On s’aperçoit ainsi que des repérages de la localisation en impliquent d’autres et qu’ils mettent parfois en cause les mêmes variations physiques. Le repérage par les différences interaurales de temps ITDs et le repérage par les différences interaurales amplitude ILDs furent mis en évidence par Lord Raleigh en 1907. Ces deux critères de la localisation sont toujours des sujets de recherche aujourd’hui par une approche duplex [8] : si L’ITD est globalement acceptée comme étant décalée de la même façon pour toutes les fréquences, l’ILD étudiée de nos jours, inclut les variations de gain en fonction de la fréquence du stimuli ; ces variations de niveau étant dues à l’oreille externe (repérage monaural). Lorsque la fréquence augmente le repérage par l’ITDs décroît alors que celui de l’ILDs augmente. Aussi, on constate que l’ITDs est le repère principal de la localisation azimutale. Des chercheurs montrent pourtant que l’ITDs serait utile en haute fréquence pour la localisation avec certaines formes particulières d’onde.
On peut obtenir une approximation de l’ITDs en fonction de l’angle d’incidence par l’équation (Eq.1)(fig.2).
(1)
Le repérage monaural par la réponse spectrale du pavillon de l’oreille provenant des multiples réflexions des lobes de l’oreille est communément dénommé HRTFs (Fonctions de Transfert relatives à la tête). Considéré comme un des repérage principal de la localisation, de nombreuses recherches se poursuivent pour déterminer et modéliser ces fonctions de transfert. Dans la pratique, on mesure deux fonctions de transfert (oreille droite et gauche) pour chaque direction. On applique alors les fonctions de transfert inverses sous forme de filtres respectivement aux signaux des voies droite et gauche pour la reproduction. Le nombre de directions codées doit correspondre globalement à celui de la discrimination angulaire.

Figure 2. Différence interaurale de temps avec a, l’angle d’incidence et r le rayon de la tête.
D’autres recherches se font sur les différences interaurales spectrales, de phase ou de vitesse de groupe. (Fig.3). Pour comprendre les différences de phase et de groupe, on peut faire une analogie avec un signal porteur modulé par son enveloppe. Les décalages de la porteuse sont alors représentés par le retard de phase alors que l’information du signal modulant se réfère au retard de groupe. Lorsque le signal ne possède que des composantes situées au dessus de 1.6 kHz, il n’y a pas de conflits pour la localisation car elle se fait uniquement par l’enveloppe, mais si le spectre du signal est inférieur à 1.6kHz et si l’enveloppe possède une amplitude assez prononcée, la localisation proviendra de la différence de groupe ou par la contribution des deux repérages à la fois. Blauert, [20].
Certains repérages distinguent le repérage monaural par l’ombre de la tête ou encore par les réflexions dues aux épaules. Certains repérages nécessitent la connaissance du contenu spectral du signal émis et sont donc liés à une des facultés cognitives du cerveau. Ainsi le repérage spectral monaural permettrait de localiser un son connu à l’aide d’une seule oreille.
Les petits mouvements de tête sont aussi un des moyens de repérage par effet Doppler. Des essais sont réalisés pour simuler ces variations fréquentielles à l’aide d’un asservissement des HRTFs en fonction de la position de la tête (head tracking).
L’effet Haas, ou effet de précédence, ou encore loi du premier front d’onde est un phénomène perceptif lié à la fusion de deux sources. La localisation du son pour deux sources espacées diffusant un signal identique, correspondra à la source qui est en avance temporelle de 1 ms à 50 ms même si cette source a un niveau de 6 à 10 dB inférieur à l’autre. Au-delà, on perçoit un phénomène d’écho et en dessous, de 0 à 1 ms, on a une création d’une source sonore fantôme entre les deux enceintes, dont la localisation varie en fonction du retard.
Les approches principales de modélisation se font soit par le couple ITDs, ILDs, soit par les HRTFs. Les autres repérages sont souvent dépendants des ILDs ou des HRTFs.

Figure 3. Les signaux parvenant aux oreilles sont décalés en phase et en vitesse de groupe
La discrimination angulaire azimutale n’est pas constante. Avec différents signaux (impulsion, sinus, parole, burst…), elle est en moyenne de l’ordre de 1.5° dans l’axe frontal. Des mesures faites avec des impulsions de bruit blanc de 100ms avec la tête fixe sur 900 sujets donnent une approximation de la localisation variant de ±3.6° devant, de ±10° sur les cotés et de ±5.5° à l’arrière. Notons que la perception latérale est en moyenne surévaluée de 10° vers l’avant.
La discrimination angulaire en élévation est nettement moins bonne. Des mesures faites avec de la parole sur un échantillon de 7 personnes donne une variation de ±9° devant, ±13° au dessus et de ±15° à l’arrière. La zone située entre le haut et l’arrière de la tête est la zone la moins précise de la localisation avec ±22°. La direction est dans tout les cas surestimée vers l’avant avec une déviation de la localisation de l’ordre de 30° entre l’arrière et le haut. Blauert, [20].
1.2. La perception de la distance
La reconnaissance spatiale perceptive de la profondeur est liée au rapport du son direct perçu en référence à la connaissance que l’auditeur possède du message. L’estimation de la distance sera plus précise pour des sons connus. Mais d’une façon intuitive, un son faible sera perçu comme plus lointain qu’un son fort. La sensation d’un doublement de la distance demande une variation de 6 à 20 dB.
L’apport de réflexions précoces au message a tendance à renforcer la présence auditive de la source. L’estimation de la distance varie aussi en fonction du rapport entre le son direct et l’effet de salle. On rajoute d’ailleurs de la réverbération artificielle en postproduction pour reconstruire des plans sonores.
La perception d’une salle varie en fonction de la taille, de la forme et des matériaux qui la composent. Deux perceptions auditives similaires peuvent être perçues avec des salles très différentes.
On remarque que les sons dont le contenu spectral se situe en dessous de 2 kHz semblent plus éloignés que ceux situés à des fréquences supérieures. On peut trouver ici une analogie au fait que les sons aigus sont plus absorbés dans des grandes salles.
1.3. Analyse de la réponse impulsionnelle
Le chemin parcouru entre la source et le récepteur peut être décrit par sa réponse impulsionnelle ou échogramme. Dans une salle de concert on discerne trois zones temporelles relatives au son direct (fig. 4).Moorer, [14] :
· de 0 à 20 ms, le son direct accompagné du son «pseudo-direct»,
· de 20 à 100 ms, les réflexions précoces,
· à 100 ms, les réflexions tardives et la réverbération.
Ces valeurs sont approximatives et dépendent du volume de la salle. Une transposition vers le bas peut être faite pour les valeurs concernant les cabines de prise de son.

Figure 4. Echogramme d’une impulsion mesurée dans une salle
On s’aperçoit que :
- le son direct décrit la nature de la source et la localisation ;
- le son «pseudo-direct» augmente l’intelligibilité de la parole et la définition par un mécanisme d’intégration de la perception auditive ;
- les réflexions proches contribuent à la perception de la clarté et du niveau sonore. Par ce biais, elles permettent de déterminer une distance subjective. Les réflexions latérales participent à l’effet d’enveloppement ;
- le champ diffus permet de qualifier un son comme «chaud» ou «brillant» en fonction du contenu en haute fréquence de la réverbération.
2. Les différents systèmes de reproduction en multicanaux
On peut qualifier les procédés de reproduction selon trois critères :
1. La précision de l’image. Distinction en azimut des différents éléments d’une scène sonore complexe.
2. Robustesse. L’image sonore ne doit pas se déplacer dans la zone d’écoute ou se placer virtuellement sur une enceinte si l’auditeur est éloigné de la position nominale d’écoute. Elle concerne la stabilité de l’image. Une mauvaise robustesse s’accompagne parfois d’un effet de « ping-pong » entre les enceintes.
3. Confort d’écoute . Ce critère qualifie l’enveloppement par le son, et la fatigue auditive de l’auditeur.
2.1. Les systèmes «surround»
Rappelons, que même s’il existe dans ces systèmes des moyens d’obtenir une information de localisation, les canaux «surround» pour ces systèmes sont principalement utilisés pour immerger l’auditeur dans une ambiance.
Les systèmes «surround » sont des dispositifs à canaux discrets ou matricés qui s’orientent vers la standardisation du cinq canaux.
Actuellement on trouve dans le commerce des enregistrements vidéos et audios (VHS, CD, CD-i, Vidéo CD…) avec du son encodé «surround». La plupart des arrangements requièrent une paire de haut-parleurs frontaux plus un ou deux haut-parleurs arrières. Des dispositifs plus sophistiqués incluent un haut-parleur central à l’avant.
L’Union Internationale des Télécommunications concernant l’évaluation subjective des dégradations faibles dans les systèmes audio multivoies [6] recommande de contrôler les attributs suivants :
· Qualité audio de base (estimation des différences entre la référence et l’objet de l’essai).
· Qualité frontale de l’image (qualité de l’image stéréophonique et perte de définition).
· Impression de qualité de l’image sonore (espace, ambiance, immersion).
· On vérifiera le fonctionnement d’un système multivoies en reproduction à deux voies au moyen d’un mixage réducteur de référence :
(2)
· La disposition d’écoute avec les enceintes L/C/R/LS/ RS est représentée (Fig. 5)
Sont représentées les positions les plus défavorables ainsi que les angles recommandés pour une reproduction 5 voies. B étant la distance d’écoute et celle qui sépare les enceinte de droite et de gauche. Cette disposition 3/2 est aussi la recommandation des organisations SMPTE, EBU, CCIR, ISO/MPEG, BBC, FTZ, IRT.

Figure 5. Recommandation internationale pour le placement des haut-parleurs
Figure 6. Matrice de décodage utilisé pour le «Dolby surround»
Figure 7. Matrice de décodage utilisée pour le «Dolby Pro Logic »
Système multivoie matricé 5-2-5, le «circle surround » de RSP technologie est un système astucieux qui détecte les dominances par 3 bandes de fréquence. Il se veut compatible autant avec la stéréophonie qu’avec les autres formats matricés comme le «Dolby Prologic». De plus son matriçage permet de générer deux canaux distincts «surround » droite et gauche tout en préservant 30 dB de séparation entre les autres canaux.
Les canaux «surround » ne sont ni filtrés ni retardés comme pour le Dolby Pro Logic
Avec le procédé «Trusurround» de SRS, on traite le signal de telle sorte que les différences contenues dans le signal L-R «surround » soient améliorées en ajoutant des informations de repérage de la perception auditive. La reproduction ne se fait plus qu’avec deux haut-parleurs.
Le signal stéréophonique peut être décrit comme suit :
(3)
on obtient après traitement :
(4)
Ko étant le gain des canaux droite et gauche, K1 celui du canal central et K2, celui du canal spatial traité (p) par une fonction de transfert corrective gérée par une égalisation.
Signalons l’existence du matriçage 5-2-5 de Lexicon qui comme le circle «surround » est un codage très sophistiqué.
2.1.4. Les codages à réduction de débit pour la diffusion multicanale
Le passage aux techniques numériques s’effectue en douceur tant que l’on reste en linéaire, mais l’augmentation du nombre de voies demande des débits plus importants et une plus grande capacité de stockage pour les médias. Pour des raisons financières (les hauts débits coûtent cher) et technologiques (limitation des capacités de stockage), on utilise des techniques de compression. La compression sans perte de type «informatique » n’a pas de bons rendements, et l’on a recours aux codages perceptifs. Il n’est pas question de dresser ici l’éventail des procédés existants, ni de faire une comparaison des modèles perceptifs utilisés, mais de faire le point sur les codages qui sont ou seront retenus pour l’acheminement du multicanal.
Si, pour le cinéma plusieurs types de compression sont en concurrence, en diffusion, deux procédés s’affrontent: l’AC3 de Dolby et le MPEG du groupe ISO/MPEG créé en 1988.
L’AC2 est une compression sur deux voies, l’AC3 est utilisée pour les 5 canaux et utilise une transformation OTDAC. Les débits sont ajustables de 56 à 640 kbits/S. Ces principaux avantages sont : une compression adaptative (le taux fluctue en fonction du contenu sonore permettant un débit plus important lorsque le message est riche en informations), l’utilisation de couplage (procédé qui permet de coder ensemble les bandes de fréquences correspondant à plusieurs canaux) et la comptabilité de tous les formats (mono, stéréo, 2/1, 3/1 et 5/1).
Le MPEG se décline en différentes couches : la couche 1 utilise l’algorithme PASC (celui de la DCC de Philips). Les couches 2 et 3 s’appuie sur l’algorithme MUSICAM. Le MPEG 1 est conçu pour le transport de deux canaux. Il est utilisé pour le DAB et pour le DVB. L’objectif principal du MPEG 2 était de passer de 2 à 5 canaux plus un canal basse fréquence. Le MPEG 2 peut décoder du MPEG 1 (compatibilité descendante). Une extension du MPEG 2 a été développée pour pouvoir gérer du 5/1 et du 7/1. Cette extension se veut BC «Backward Compatible » ajoutant au système MPEG 2, la possibilité de fournir une réduction sur deux voies d’un système 5.1. Les débits sont ajustables de 32 à 1066 kbits/s.
L’AC3 a d’ores et déjà été adopté sur le continent américain pour le DVD et les systèmes de diffusions comme la TVHD. Au Japon il semblerait que ce soit le procédé MPEG 2 qui soit retenu. Quant à l’Europe, le retard dû au développement du MPEG 2 BC a laissé la porte ouverte au système de Dolby et l’on a même officiellement reconnu que le MPEG audio ne serait pas obligatoire pour les DVD vidéos. En mars 99, il semble totalement impossible de prévoir quels systèmes seront retenus. Cette incertitude entraînera peut être l’apparition de machines grand public multi-standards. On observe déjà l’apparition de DVD codés en DTS.
Un nouveau problème surgit, du fait que les matriçages multicanaux et la réduction de débit utilisent tous deux des simplifications provenant de critères perceptifs. On se retrouve en face de «cascadages » qui sont difficilement compatibles car ne travaillant pas sur des attributs similaires. Cette situation implique un choix préférentiel pour les systèmes non matricés lorsque l’on aura besoin d’un très faible débit de transmission.
Le principal frein rencontré en Europe pour la validation du MPEG 2 semble être sa compatibilité descendante pour une diffusion en «Dolby surround » alors que l’AC3 propose une compatibilité inaudible pour la monophonie, la stéréophonie et les «surrounds » analogiques.
Actuellement la compatibilité du MPEG 2 avec des signaux codés en Pro Logic semble être assurée à condition de rajouter un décodeur Pro Logic après le décodage MPEG 2 et de renseigner celui-ci par un «flag » pour permettre la commutation. De plus, le Mode Joint Stéréo du MPEG ne doit pas être utilisé pour la transmission multivoies. Theile[12].
2.1.5. Le DVD
La norme du DVD audio est presque finalisée et c’est le système de réduction de débit sans perte MLP de la société Meridian soutenue par Dolby qui a été retenu pour le format du DVD audio. Tous les lecteurs de DVD disponibles sur le marché ne sont donc pas compatibles.
Comme les systèmes de réduction de débit sans perte utilisent les informations véritables du disque, le taux de compression varie avec le contenu audio. Le MLP possède une option de débit variable pour rendre plus efficaces les transmissions non temps réelles. Toutefois le MLP permet aussi des débits continus avec un taux relativement important. Toutes les précautions auraient été prises pour que les débits continus ne « perde » rien quelque soit le contenu. Le rapport de compression dépend donc du mode de compression (continu ou variable) mais aussi de la fréquence d’échantillonnage utilisée (tab.1). Ce codage permet aussi de coder un CD audio classique en 20 bits.
|
Fréquence d’échantillonnage (kHz) |
Taux de réduction de débit (bit/canaux) |
|
|
Mode débit variable |
Mode débit continu |
|
|
48 |
8 |
4 |
|
96 |
9 |
8 |
|
192 |
11 |
10 |
Tableau 1. Taux de réduction utilisé pour le DVD audio avec le MLP
Le codage MLP permet de coder jusqu’à 64 canaux. Des bits de renseignement accompagnent le flux pour spécifier le type de données utilisées pour la restitution multicanale (5.1, format B, MS…) ainsi que la spécification du placement des haut-parleurs (nombre, écartement, angle, …).
Les possibilités multicanales offertes entraînent une multitude de combinaisons possibles pour remplir les pistes disponibles sur le disque (voir chapitre 2.2 sur l’ambisonie et le format G). Le DVD audio permet de graver 2 canaux à 96 kHz 24 bits ou 8 canaux 16 bits à 48 kHz ainsi que toutes les déclinaisons intermédiaires. On peut se servir des formats de compression avec perte pour obtenir des disques de longue durée.
Le Super Audio CD (SACD) proposé par Sony et Philips comme alternative au DVD audio, utilise un flux de donnée différent (Direct Stream Digital) DSD qui est un codage sur 1 bit à 64 fois la fréquence d’échantillonnage. Il emploie lui aussi un système de réduction de débit sans perte : le SBMD (Super Bit Mapping Direct). Le SACD utilise une technique de gravure double couche. La première étant compatible avec le CD audio classique « red book », la seconde offrant 4.7 Go de donnée capable de coder jusqu’à 6 canaux audios.
Le DVD vidéo, quant à lui, est contraint à l’utilisation de formats compressés :
Le système AC3 permet 448 kbit/s,
le MPEG 1, 2 canaux dans 384 kbit/s (musique de qualité),
le MPEG 2 quant à lui propose jusqu’à 8 canaux à 912 kbit/s,
le format DTS propose lui aussi une compression de 6 canaux 20 bits avec un flux de 1.411Mb/s.
Un codage sans perte est aussi possible pour le DVD audio avec le LPCM (Linear Pulse Code Modulation) avec des débits plus importants (8 canaux 16 bits à 48 kHz pour un flux de 6.144Mb/s).
Notons également que certains systèmes codent le canal basse fréquence ou LFE pleine bande (DTS) tandis que d’autres, se contentent de coder la partie utile (AC3). Certains systèmes sont donc plus disposés à des évolutions futures en récupérant la partie spectrale inutile du canal LFE, pour un autre usage (codage de l’information de hauteur par exemple).
2.1.6. Les systèmes «surround » du cinéma
Le cinéma est le média le plus avancé en ce qui concerne la reproduction multivoie. En effet, des innovations technologiques ont pu incorporer à la bande optique des informations sonores multicanales. Pour obtenir cinq canaux véritables, les données sont compressées à l’aide de modèles perceptifs, réduisant ainsi le flux de transmission.
Aujourd’hui, 3 systèmes sont concurrents : le DSD de Dolby, le DTS et le SDDS de Sony.
Le DSD est le procédé le plus ancien et le plus distribué. Il utilise le codage AC3 avec un taux de transfert de 384 kbit/s pour les cinq canaux. Cette valeur est jugée insuffisante pour retransmettre fidèlement les sources sonores musicales. Le taux de transfert DSD utilisé pour le câble, le satellite et le DVD vidéo est de 448 kbit/s.
Le DTS utilise un ou plusieurs lecteurs de disque optique synchronisés à la bande film comme support des pistes audios. Le codage utilisé est le CAC (Coherent Acoustic Coding) ; il fait appel aux modèles psychoacoustiques de masquage selon un schéma du type ADPCM (Adaptative Différential Pulse Coded Modulation). On trouve actuellement des DVD codés en DTS.
Le dernier-né est le SDDS, il étend le nombre de voies à 8 en proposant un système comportant 5 enceintes à l’avant.
Le tableau 2 récapitule les spécificités de chaque système.
|
|
Année de mise en service |
Configuration de reproduction |
Dynamique |
Fréquence d’ échantillonnage |
Flux de transmission |
Taux de compression |
Nombre des salles équipées USA 12/98 |
Nombre des salles équipées Europe 12/98 |
DSD |
1987 |
5/2/1 |
120 dB |
32 44.1 48 |
384kbit/s au total |
10 à 12:1 |
7000 |
5000 |
|
DTS |
1993 |
3/2/1 ou 5/2/1 |
145 dB |
44.1 |
1.4Mbit/s au total 240kbit/s / voie |
4 :1 |
6800 |
3300 |
|
SDDS |
1994 |
3/2/1 ou 5/2/1 |
105 dB |
44.1 |
2.048Mbit/s au total 256kbit/s / voie |
5 :1 |
4000 |
500 |
Tableau 2. Comparatifs des codages utilisés au cinéma
Le THX est un label de qualité destiné au cinéma (professionnel et domestique). Il s’applique à l’acoustique des salles et à l’ensemble de l’installation sonore. Il exige des professionnels, l’utilisation d’un procédé de diffusion en multi-amplification, d’enceintes latérales à rayonnement bipolaire et d’enceintes frontales totalement bafflées. Les prescriptions du THX peuvent s’appliquer à toutes les installations et donc au DSD, au DTS et au SDDS.
Notons que les systèmes à réduction de débit n’ont pas de contraintes de compatibilité avec d’autres systèmes. En effet, la chaîne sonore est respectée de l’enregistrement à la restitution car la production gère toutes les étapes. On peut donc prévoir l’arrivée prochaine de nouveaux procédés mettant en avant une nouvelle subtilité que les autres n’ont pas (marketing oblige). D’ailleurs, Dolby propose déjà un nouveau format qui sera utilisé pour le prochain film «Star Wars », Ce procédé est appelé «Dolby Digital Surround EX ». C’est un format 3/3/1 qui a donc la particularité de disposer d’un canal en plus «surround » en centre arrière.
2.1.7. La reproduction du «surround » au casque
Hormis le procédé binaural qui est décrit un peu plus loin, des fabricants ont cherché à reproduire un son «surround » au casque (Ultrasone Konig, AKG). Si la perception du son au casque semble provenir de l’intérieur de la tête, c’est parce que le casque annule les effets de l’oreille externe en propulsant le son directement dans le canal de l’oreille (on évite ainsi, les filtrages en peigne caractéristiques du pavillon pour lesquels le cerveau dépend pour la localisation ). Une première approche fut de placer un écouteur miniature juste devant les lobes de l’oreille. Cette technique permet de s’affranchir des caractéristiques interindividuelles du pavillon des oreilles. La seconde étape consiste à rajouter un transducteur sur le bord supérieur de l’oreille, endroit où les sons provenant de l’arrière se heurtent. On injectera les informations «surround » par ce second canal pour obtenir un effet d’immersion provenant de l’extérieur [21]. Ce procédé est bien adapté à la reproduction du Dolby «surround ».
2.1.8. La reproduction du «surround » dans les grandes salles
La reproduction du son multicanal du type 3/2 pour des salles de grandes dimensions fut l’étude de la FTZ qui propose le DSS (Delta Stereophony System) [7], basé sur la loi du premier front d’onde ou effet Haas. Elle utilise une configuration classique 3/2 recommandée par l’UIT pour un petit nombre d’auditeurs placés devant la scène, et une seconde rangée de haut-parleurs frontaux pour rafraîchir l’information frontale pour l’auditoire situé à l’arrière. Un programme nommé Delta optimise alors la séquence des réflexions sonores du signal émis pour les positions respectives des auditeurs. Le programme a besoin de connaître la position des haut-parleurs ainsi que certaines positions d’écoute à privilégier. Pour raffiner les calculs des histogrammes, on peut y ajouter la sensibilité et la directivité des haut-parleurs.
Une matrice de mixage spéciale mélangera les signaux sources pré retardés pour chaque haut-parleur. Une couverture de 30-50 auditeurs nécessitera 8 à 12 enceintes environ. Une possibilité de configuration est représentée (Fig.8)

Figure 8. Une disposition possible des enceintes pour le procédé de diffusion DSS dans les grandes salles
Le réglage du dispositif se fait une fois pour toute à l’installation et il est spécifique à chaque salle. Le nombre de transducteurs affecté à la diffusion du surround ainsi que leur positionnement varient suivant la géométrie de la salle.
2.2. Les systèmes ambisoniques
Orienté vers une écoute individuelle ou pour une zone de réception restreinte, les systèmes ambisoniques est un codage tridimensionnel du champ sonore en un point de l’espace. Ce format est issu principalement des travaux de M.G. Gerzon.
Le format A correspond au codage de la prise de son microphonique, le format B correspond au traitement et à celui de l’équipement de studio, le format C à la transmission et le format D au décodage et à la reproduction. Rumsey [1]. Généralement, on parlera de codage «B format » dès qu’il sera question d’ambisonie. Il existe aussi le format UHJ «Universal HJ », développé par la BBC utilisé pour un encodage ambisonique sur 2 ou 3 canaux qui préserve la compatibilité monophonique et stéréophonique d’une transmission radiophonique en bande FM. Le format A est constitué de 4 signaux :devant droit bas RF, devant gauche haut LF, arrière droit haut RB et arrière gauche bas LB. On utilise un microphone du type « Soundfield » constitué de quatre capsules montées en tétraèdre (Fig.9).

Figure 9. Disposition des capsules sur un microphone Soundfield Format A.
Le codage du format B est constitué de trois composantes en quadrature X, Y et Z bidirectionnelles et une composante W omnidirectionnelle. (Fig.10)
Pour obtenir les diagrammes polaires bidirectionnels à partir du microphone « Soundfield », il suffit d’effectuer les différences et les sommations appropriées :
(5)

Figure 10. Format B Décodage en composantes omnidirectionnelle et bidirectionnelles
La composante Z est inutile pour la «pantophonie » qui ne code pas l’information de hauteur.
En prenant q pour l’angle d’incidence plane (azimut) et h pour l’angle d’élévation les composantes du codage périphonique (3 axes) sont :
(6)
Pour plus de clarté dans la suite de la démonstration, on raisonnera en 2D. On supprime donc l’information relative à Z et à h.
(7)
Le gain en racine de deux est utilisé pour rendre compatible l’énergie contenu dans X,Y, Z par rapport à W.(Fig.10):
(8)
A partir des trois signaux W,X,Y, on calcule les gains gi à gn des haut-parleurs de telle sorte que le champ acoustique produit soit le plus proche possible du champ acoustique d’origine. On utilise alors des modèles psycho-acoustiques pour recréer cette illusion. Ces modèles reposent sur la théorie de la localisation de Makita [17]. Ces critères sont le vecteur de pression ou de vélocité (suivant la littérature), et le vecteur d’énergie, ce qui correspond respectivement à la perception de la localisation des basses fréquences et des hautes fréquences. Dans la partie médiane du spectre des fréquences, les deux vecteurs devraient être utilisés car c’est dans cette zone que notre acuité perceptive de la localisation est la meilleure. Le premier critère s’apparente à l’ITDs et le second à l’ILDs. On donne en 2D:
(9)
qn représente l’angle virtuel de perception et gi est le gain du haut-parleur i à l’angle qi .La valeur n est égale à 1 pour le vecteur vélocité et à 2 pour le vecteur énergie. Il semblerait d’ailleurs qu’une valeur de 1.66 serait plus proche de la réalité concernant la perception de l’intensité .Moorer [17]. On peut redéfinir l’équation (6) en fonction de la contribution en gain de tous les haut-parleurs en respectant le critère de Makita pour le vecteur vélocité:
(10)
qui s’écrit sous la forme matricielle :
(11)
On obtient ainsi une matrice possèdant 3 ou 4 lignes suivant la codification de l’information de hauteur ou non, et un nombre de lignes dicté par le nombre d’enceintes. Cette matrice doit être inversée pour obtenir les pondérations de chaque composantes à affecter aux enceintes. La matrice n’étant pas symétrique, on résoud cette équation par l’approximation des moindres carrés. Il faut trouver une matrice similaire respectant le critère de Makita en énergie. Le deuxième critère conduit à des matrices du second ordre beaucoup plus complexe. Les méthodes de codage par les deux critères coupent le spectre à la valeur de 700 Hz, fréquence dont la longueur d’onde correspond à la distance séparant l’oreille droite de la gauche.
Le champ sonore étant reconstitué par un matriçage de n haut-parleurs, le son provenant d’une direction précise (droite par exemple), sera synthétisée par toutes les enceintes (celles de gauche aussi).
On recommande pour une restitution fidèle, une configuration avec 6 ou 8 haut-parleurs placés à équidistance sur un cercle. On peut fabriquer des matrices permettant la restitution au format 5.1.