Choix du sujet

 

.1       Introduction

 

La prise de son affectée à un système de reproduction multicanale est un sujet d’actualité. Chaque année, de nouveaux systèmes de captation sont proposés pour la prise de son multicanal. L’intérêt porté à ce sujet a été réactualisé grâce aux possibilités nouvelles et attendues offertes par les moyens de transmission et de stockage multipistes. Le fait de percevoir l’information de l’incidence sonore autorise entre autres, la création de fictions radiophoniques ou théâtrales totalement nouvelles, ainsi qu’une écoute de la Musique avec des dimensions perceptives supplémentaires. Certains de ces systèmes de prise de son nécessitent un traitement ou des pondérations matricielles, d’autres systèmes se suffisent à eux-mêmes et peuvent être directement affectés aux enceintes.

 

Le sujet de ce mémoire concerne la prise de son en différence d’intensité (DI) pour une localisation réaliste dans une configuration multicanale. Il y a très peu de résultats ou travaux  concernant la prise de son coïncidente en multicanal hormis les études sur le système ambisonique qui reste un cas particulier.

 

Les systèmes de reproduction sont variés mais une norme internationale (ITU, UER…)[17] recommande une configuration physique, spécifiant notamment le nombre et le pointage des enceinte de diffusion pour une standardisation de la création sonore en multicanal. Cette recommandation est discutable mais entraîne une évolution dans le sens où elle évite l’anarchie assurée des moyens de reproduction et de diffusion.

 

La prise de son actuelle tend à se développer vers la norme ITU[17], il sera donc question ici d’une configuration classique en 5.1. malgré la tentation compréhensible de remédier à certaines contraintes :

Cette norme spécifie principalement le positionnement des enceintes et c’est cette précision qui pose le plus de problèmes. La configuration comprend une enceinte au centre ainsi que deux paires placées symétriquement aux angles de 30° et de 110° à ± 10° (cf. figure 1). Le cinéma et la vidéo sont paradoxalement plus en avance que l’industrie de production audio en multicanal. On pourra y déceler des intérêts commerciaux et financiers mais, devant la démocratisation du «home theater» les milieux de l’audio n’ont pu faire autrement que de s’aligner sur les principes du son associé à l’image. En effet, l’enceinte centrale est principalement employée pour les voix «off» au cinéma afin de recentrer les dialogues monophoniques en fonction des différentes positions de l’auditeur dans la salle et afin d’offrir une perception robuste de la biphonie. L’enceinte centrale est une particularité de la diffusion avec image et n’a jamais été utilisée précédemment en audio. Le choix de l’angle de diffusion frontale de 60° est maintenant plus un souci de compatibilité biphonique que de respect du cône d’attention visuel. On nuancera tout de même cette affirmation sujette à discussion en face de l’interaction de la vue et de l’ouïe et des choix artistiques sur le rendu sonore. Les preneurs de son sont divisés quant aux possibilités offertes de créer un espace auditif plus grand que le champ visuel. Malgré l’importance de ce débat, nous n’entrerons pas plus dans le détail.

Les enceintes surround, quant à elles sont employées uniquement pour envelopper le spectateur par le son et fournir quelques effets sonores spectaculaires sans souci de la provenance précise du bruitage. La position angulaire recommandée n’a semble-t-il pas d’autre raison que de couvrir le mieux possible la zone latérale et arrière.

 

On peut donc dire qu’un grand nombre de configurations différentes auraient été plus souhaitables (enceintes équidistantes, enceintes plus nombreuses, enceintes comblant les zones latérales…), mais en même temps on s’aperçoit que la norme ITU autorise à tous la  reproduction à domicile des œuvres multicanales audio à partir d’un codage unique. On peut penser aussi que l’implantation existante du home theater facilitera l’arrivée du DVD audio et du SACD en raison de leur configuration de reproduction identique.

 

 

figure 1.  Recommandation ITU

 

La configuration retenue pour ce mémoire sera donc celle du 5.1. ou plutôt la 2/2 : deux enceintes avants et deux arrières (cf. figure 1). L’utilisation d’enceinte de qualité et les réglages difficiles nécessaires au canal très basse fréquence font que le caisson de basse ne sera pas inclus à cette étude.

 

 

 

.2       Terminologie

 

Afin d’éviter des confusions sur le sens des mots, précisons le vocabulaire utilisé dans ce mémoire :

 

*   La reproduction multicanale est un terme qui englobe toutes les possibilités d’agencement dont le nombre de canaux de reproduction est supérieur ou égal à deux. L’écoute est restituée par un casque ou par des enceintes[14].

*   La stéréophonie décrit exactement la même chose dans le sens où elle décrit la possibilité de donner une sensation de relief acoustique. Le terme stéréophonie ne devrait donc pas se limiter à une reproduction sur deux canaux. Le terme biphonie sera employé pour les systèmes composés de deux haut-parleurs et on parlera de systèmes binauraux pour les écoutes au casque.

*   Le terme 5.1 (5 canaux discrets et un caisson de basse) sera préféré à 3/2 (trois enceintes avant et deux arrière pour l’enveloppement) pour son utilisation plus courante. Le terme 5.1 renvoi à la normalisation ITU. Le terme 5.1 sera donc employé même lorsque la reproduction se fera sur 4 canaux et sans canal basse fréquence, la configuration restant physiquement conforme à recommandation ITU[17].

*   Dans ce mémoire, le terme de robustesse désigne la surface de réception pour laquelle une caractéristique précise de l’écoute multicanale est correcte. Cette caractéristique peut être la sensation d’enveloppement ou de précision de la localisation ou encore de la discrimination angulaire.

*   La localisation quant à elle qualifie la précision moyenne de la perception angulaire d’une source sonore pour un sujet placé au centre du dispositif de reproduction. La latéralisation est le mot qui convient le mieux pour la configuration 5.1 où la perception en élévation n’est pas recherchée. Les termes de localisation et de latéralisation seront tous deux utilisés.

*   Le centre de la zone frontale est le repère axial angulaire correspondant à 0° et la tête de l’auditeur est le centre du cercle. Un axe de symétrie ou médiane sépare la zone droite de  0° à 180° de la zone gauche de 180° à 360°. 

figure 2.  Zones des tests délimitées par l'angle physique des enceintes

La figure 2 nous rappelle visuellement les zones angulaires (quadrants) formées par les couples d’enceintes, elle nous montre l’étroitesse de la couverture frontale par rapport aux trois autres zones.

.3       Le choix de l’étude

 

La configuration angulaire des enceintes, la physique du rayonnement acoustique, la grande surface de reproduction et le nombre d’enceintes font qu’avec le 5.1, aucun système de prise de son multicanal ne sera jamais parfait et cela pour plusieurs raisons :

 

*   La directivité des enceintes influe sur la perception du champ réverbéré et sur la réponse en fréquence lorsque l’auditeur n’est pas dans l’axe.

*   Le nombre d’enceintes trop faible et la distance séparant les sources trop grande font que les ondes acoustiques produites par chaque enceinte restent distinctes. Les composantes de hautes fréquences ne peuvent pas se combiner avant d’arriver aux oreilles de l’auditeur.

*   La distance des sources modifie la robustesse ainsi que le niveau de champ direct.

*   L’acoustique de la salle peut modifier la réverbération, la localisation et le timbre d’une œuvre. Les réflexions des ondes sonores créées par le local peuvent être la source d’une polarisation de la salle contribuant à une localisation apparente différente de celle voulue. Ces réflexions altèrent la perception par une réverbération qui peut s’avérer excessive et donner la sensation d’un volume apparent différent de celui existant dans la salle d’enregistrement.

 

Si le système de prise de son est conçu dans l’optique d’une localisation réaliste, il doit se corréler à une référence physique. Il est impossible d’obtenir un rendu réaliste par une combinaison aléatoire. A partir du moment où l’on a fait le choix d’un principe, on doit s’y tenir et faire abstraction des autres possibilités. L’ajout de nouvelles théories nous conduit à des contraintes insolubles car le nombre de paramètres devient impossible à gérer. Les mariages douteux seront à utiliser à des fins artistiques ou esthétiques plutôt qu’en vue de rafistolages.

 

Une pléthore de théories et de procédés existe pour expliquer la perception de la localisation. Ces théories sont issues d’observations, de mesures et de tests mais aucune n’est fidèle car les configurations de la reproduction ne le permettront peut-être jamais et aucunes ne peut décrire complètement la perception de la localisation auditive. Les différentes théories et techniques de la localisation comprennent entre autres les critères suivants :

 

*   L’effet d’antériorité, phénomène bien connu des sonorisateurs qui ajoutent des retards temporels pour compenser la perception en localisation de l’enceinte la plus proche. Cet effet est la cause directe d’une faible robustesse en 5.1.

*   L’effet de fusion pour deux sources décalées dans le temps <1mS : c’est un des codages servant à la prise de son en biphonie pour créer une image fantôme (différence de temps DT). 

*   Les filtrages en peigne issus des réflexions acoustiques induites par la tête et les épaules ou encore par les fonctions de transfert de l’oreille (HRTFs). Ces filtres temporels mesurés ou simulés peuvent générer un codage multicanal. C’est une version améliorée des codages DI et DT ; par l’ajout de composantes fréquentielles, elle contient aussi et plus précisément ces différences pour la création d’images fantômes mais malheureusement différemment pour chaque individu. Cette technique fonctionne bien en écoute binaurale, l’écoute sur enceintes est soumise à un double codage, celui du système et celui généré par les oreilles de l’auditeur.

*   Les effets cognitifs (interaction avec la vision, connaissance préalable des stimuli, l’effet «cocktail party »  …). Vaste domaine de la psychologie où de nombreuses études tentent de dévoiler les mécanismes de l’audition.

*   La synthèse de front d’onde (WFS) se base sur la physique fondamentale. L’idée est de discrétiser la périphérie de la salle d’écoute par un nombre suffisant de haut-parleurs afin que les ondes sonores émises soient similaires aux sources réelles. Cette solution est tributaire du repliement de spectre spatial [28](l’espacement entre les sources est dépendant de la fréquence maximale que l’on désire restituer et provient de la longueur d’onde associée à cette fréquence). La captation acoustique en W.F.S reste un problème complexe car elle nécessite en théorie autant de microphones que d’enceintes. Cette technique est la seule à fournir une bonne robustesse mais elle n’utilise pas 5 enceintes…

*   La métathéorie de la localisation auditive [11][24]est composée de trois approches, le degré de non-linéarité du système, l’ordre de directivité et la prise en compte des mouvements de la tête. C’est cette approche qui est à l’origine de l’ambisonie. Elle se décrit par un formalisme trop mathématique dont les bases perceptives sont vagues, mal expliquées et anciennes.

*   Les différences d’intensité sont aussi un moyen de codage de la biphonie. Ce codage s’explique par l’atténuation de l’onde sur l’oreille opposée à la source (controlatéral) due à  l’ombre acoustique de la tête.

 

La mise en application de certaines de ces théories entraîne des traitements avant restitution et la prise de son est souvent une sorte de monophonie dirigée. En règle générale, on peut dire qu’une captation acoustique est synonyme d’une simplicité de mise en œuvre.  Si la prise de son acoustique en DT en 5.1 a été largement étudiée, il s’avère qu’il n’en est pas de même en DI.

 

Pour la théorie qui nous intéresse, celle du DI, nous nous dirigerons vers le principe d’une sorte de recombinaison du front d’onde associée à des lois de panning entre paires d’enceintes pour la génération de sources fantômes. Cette théorie entraîne la reconstruction du champ sonore à l’aide du même nombre d’enceintes que de microphones. Cette technique se retrouve dans les publications sous le terme anglais de « pair wise mixing » et fait appel aux DI. Cette simplicité apparente cache de nombreux problèmes techniques :

 

*   Il est très difficile de réaliser des microphones coïncidents à n capsules en raison de l’encombrement dans l’espace imparti. De plus, on génère de la diffraction par la présence des corps des autres microphones.

*   Chaque type d’enceinte rayonne différemment, il est très probable que les caractéristiques technologiques de certaines enceintes soient plus appropriées que d’autres pour une écoute  multicanale.

*   Les enceintes ne sont pas assez nombreuses et le son ne se combine pas du tout lorsque les enceintes sont trop écartées (spatial aliasing[28]). La recombinaison du front d’onde si elle est  ressentie ne peut donc pas être du domaine de la physique mais plutôt de la psychologie.

*   Une captation acoustique, contrairement au pan-pot enregistre le son direct ainsi que la signature de la salle. Comment le champ précoce et diffus est-il reproduit avec 5 enceintes ?

*   Les lois en différence d’intensité de l’audition varient en fonction de la fréquence et des individus. Comparable à une sorte de fonction de transfert relative à la tête, la perception des images fantômes dépend de nombreux critères propres à chacun.

*   Le phénomène d’image fantôme est encore mal connu. Perception auditive, l’image fantôme n’est qu’un leurre que l’on soumet au cerveau. La biphonie utilise ce phénomène sans rapport avec les mécanismes psychoacoustiques et cognitifs de la perception auditive humaine. L’interprétation est complexe car du point de vue physique par exemple, les ondes acoustiques parvenant à l’oreille sont tributaires de l’angle azimutal des enceintes et des fonctions de transfert individuelles de l’oreille[38]. La sensation de la localisation auditive en DI est la conséquence de la perception d’une fusion de deux ou de plusieurs sons dont on ne connaît pas le principe.

 

Le caractère individuel de la perception de la localisation nous conduit à dire que les résultats ne sont que des tendances. Quant à la reconstruction de l’image fantôme, il semble que ce sont de multiples facteurs qui provoquent un choix d’interprétation par le cerveau. On peut physiquement expliquer la raison pour laquelle une image fantôme est créée au centre lorsque deux stimuli de même nature sont affectés aux enceintes avant. Dans ce cas, l’oreille droite perçoit le même message que l’oreille gauche et de cette similitude, le système auditif déduit une perception de localisation centrée, mais c’est une des seules perceptions angulaires que l’on puisse expliquer simplement. D’ailleurs, une perception au centre ne veut pas dire devant, problème constaté par tous avec l’écoute au casque. Dès qu’une image n’est plus perçue au centre, un mélange pondéré très complexe de facteurs physiques, biologiques et cognitifs est à mettre en jeu.     

 

Les avantages d’une prise de son coïncidente, dans l’hypothèse où le dispositif de captation enregistre en un point unique et où l’auditeur est placé à équidistance des enceintes pour la diffusion  sont les suivants :

 

*   Si les conditions ci-dessus sont respectées, aucun déphasage entre les enceintes ne risque d’introduire de la réverbération artificielle ou des décalages dans la perception de la localisation. Les systèmes de prise de son utilisant le delta T sont faussés par les interactions non désirées des paires de microphones (par exemple le microphone avant gauche avec le microphone arrière droit) et ceci malgré l’utilisation de microphones directifs. Un second codage vient s’ajouter à celui désiré entraînant généralement une réverbération artificielle. Pour certains systèmes, comme le Decca-tree, on génère plusieurs images fantômes pour la captation avant, c’est la  localisation qui devient faussée.

*   Contrairement à la prise de son biphonique coïncidente, la zone de directivité non utile pour le codage du quadrant avant est utilisé en 5.1 pour le codage des quadrants latéraux. En biphonie le son enregistré parvenant d’un azimut autre que le quadrant avant de  60°, est reproduit aux angles correspondants à l’angle physique des enceintes acoustiques (figure 3).

*   Affecter un microphone à une enceinte ne nécessite pas de matriçage ni de calcul DSP en temps réel.

*   Le fait de faire coïncider les angles de la prise de son à ceux de la reproduction autorise une captation homogène dans la mesure où la somme de la directivité des capsules s’approche d’une directivité omnidirectionnelle. On peut toutefois s’interroger sur le rapport de capture qui sera modifiée selon les zones en fonction des directivités différentes des microphones utilisés.

*   Si l’on associe la captation en delta I à une reproduction issue d’une synthèse de front d’onde, on peut supposer que tous les indices de repérage de la localisation sont respectés (Approche théorique du WFS ou de l’holophonie par ambisonie sur un nombre élevé de haut-parleurs[29]) à la condition d’être situé dans la zone d’écoute centrale.

*   Un décalage de la tête de 20 cm du point d’écoute central idéal provoque dés la fréquence de 1kHz en DT, une confusion de la localisation[19]. En DI, l’atténuation due à la décroissance du son en fonction de la distance est pour ces mêmes 20cm négligeable. Le codage par intensité est donc par nature plus robuste. Il n’empêche que ce décalage pour le système en DI crée aussi malheureusement des différences de temps codant elle aussi la localisation. On est alors dans une situation d’écoute de codage mixte DI et DT ou DI et effet d’antériorité.

*   En DI la captation des premières réflexions sera reproduite suivant son angle d’incidence réel (l’incidence du champ précoce suit les mêmes lois de pan-pot que le son direct). En DT les capsules omnidirectionnelles enregistrent le champ réverbéré par tous les azimuts pour chaque microphone (les premières réflexions ne peuvent être fidèles).

*   Les décalages de phases induits par la prise de son en DT n’autorisent pas la compatibilité de réduction en biphonie et monophonie.

 

Ce bref aperçu montre que contrairement à la biphonie, un système coïncident est sûrement plus intéressant que le DT pour une prise de son multicanale. On lui reprochera tout de même l’utilisation de microphones directifs dont la réponse en basse fréquence est médiocre.

 

 

figure 3.  La prise de son en DI pour la biphonie

 

 

 

.4       Plan de recherche

 

La section 2 de ce mémoire est une présentation technologique non exhaustive des systèmes de prise de son existants.

 La section 3 traite du test et des résultats subjectifs de la localisation en  DI par pan-pot.

Des directivités de microphone souhaitées sont tirées de ces résultats et la section 4 relate les technologies des microphones directifs pour une utilisation envisageable en 5.1.

A partir de cet éventail, on retiendra une technologie et la section 5 est la mise au point d’un prototype proposant des caractéristiques s’approchant des directivités requises.

Finalement, en section 6, on testera ce microphone pour vérifier son respect de la perception de la localisation.