Test du prototype

Trouver un test fiable et complet permettant de faire une critique exhaustive du système n’est pas réalisable. Une approche purement théorique n’a pas non plus de sens en raison de notre méconnaissance des artefacts mis en jeu, tant pour la captation que pour la reproduction. La comparaison subjective entre différents systèmes de prise de son est le plus sûr moyen de les qualifier, à condition de maîtriser les conséquences et distinctions physiques et psychoacoustiques de la perception ressentie. Cette démarche est longue et doit être extrêmement rigoureuse. Elle peut faire l’objet d’un mémoire à elle seule (cf. travail en cours au CNSM sur la comparaison des systèmes de prise de son en multicanal présentée au 108th congrès de l’AES de Paris). Le test du prototype qui nous intéresse devra donc s’accommoder d’une procédure plus modeste qui ne pourra en aucun cas, qualifier les performances de ce système en comparaison à un autre ni spécifier les performances brutes du système.

 

La démarche utilisée dans ce mémoire nous conduit à vérifier la capacité du système d’enregistrement à fournir une perception de localisation valide. Les conditions des tests initiaux peuvent être reproduites sans changements notoires. Elles permettront de valider les nouveaux résultats en raison des conditions d’écoutes identiques et des hypothèses du départ. Le prototype sera valable si les directions sonores captées par les microphones sont similaires à celles ressenties en moyenne par les auditeurs. Si elles sont semblables, on conclura que le système de prise de son est apte à restituer la localisation dans le contexte de la reproduction en 5.1.

 

De nombreux facteurs dissemblables entre le prototype et le modèle idéal risquent de faire dévier les résultats attendus :

 

*   La directivité des capsules ne sont pas identiques à celles des valeurs obtenues par les écoutes initiales. 

*   La proximité des capsules entres elles induit des diffractions susceptibles d’altérer la précision de la localisation.

*   La captation du champ réverbéré fait qu’un événement unique va être reproduit sur 4 canaux. Comment cette information supplémentaire sera gérée par notre cerveau ? Des effets de masques ne risquent-ils pas de se manifester et détruire la localisation désirée ? Quelle est l’information locative subjective ajoutée par une captation acoustique comparée à une monophonie dirigée (panning) ?

*   Quelle est l’interaction de la sommation de deux réverbérations, celle captée à l’enregistrement et celle issue du local de reproduction qui, en l’occurrence sont les mêmes dans notre configuration ? 

*   La distance critique différente entre avant et arrière est-elle préjudiciable ?

 

Le test ne répondra pas à ces questions qui sont des sujets de recherche en eux-mêmes d’autant plus que ce n’est sûrement pas le paramètre perceptif de la localisation qui sera le plus altéré par ces phénomènes.

.1       Choix du test

 

Le test doit valider la qualité de la localisation obtenue par la prise de son. Une prise de son utilisant la technologie retenue constitue la matière du test subjectif. Pour garder une continuité logique dans la démarche de ce travail, les principes du test antérieur seront repris en grande partie. L’enregistrement ainsi que les écoutes seront réalisés à la salle Schaeffer du C.N.S.M de Paris.

 

Les sons enregistrés par le prototype sont de deux sortes : des échantillons diffusés par une enceinte et des sons purement acoustiques. La chanson de Suzanne Vega est à nouveau l’échantillon retenu pour la diffusion sur haut-parleurs pour une meilleure compatibilité avec le test initial, tandis que des sons percussifs sont choisis pour la phase de l’enregistrement acoustique. Des sons d’impact ont l’avantage d’être bref et de ne pas avoir recours au service d’un musicien. Les sons générés par le  woodblock et les claves ont une durée très courte et sont assimilables à des notes ne comportant que des transitoires. La sonorité du woodblock est plus grave que celles des claves. Les maracas sont le troisième instrument choisi et qui, malgré sa classification d’instrument à percussion est à cataloguer avec des sons longs en raison du type de l’excitation sonore (bruit de grenaille). Des essais ont été tentés avec un crotale, sorte de disque à son de cloche. Les sonorités sont impossibles à localiser malgré la résonance typique de ces instruments. Cette constatation peut s’expliquer par la nature inharmonique de sa structure spectrale.

 

L’enregistrement est simple, il suffit de décaler en azimut la source sonore autour d’un cercle dont le centre sont les microphones. Des enregistrements à différentes distances du centre permettent de choisir dans une seconde étape, les échantillons à sélectionner (figure 2).

 

Le dispositif utilise deux microphones du 2nd ordre pour les canaux des enceintes frontales et deux microphones cardioïdes pour les enceintes arrières car aucune solution améliorée n’a pu être trouvée. Des microphones du 2nd ordre pour l’arrière nécessitent des ressources en microphones et de console non disponibles. La configuration théorique correspondante est celle de la figure 1. Un second test comparatif, n’utilisant que des microphones cardioïdes est mis en place afin de juger la pertinence de l’emploi des microphones du second ordre pour la captation avant. Par commodité mnémotechnique, le système 1 sera l’enregistrement du 1er ordre et le système 2 celui du 2nd ordre.

 

Les échantillons sont plus nombreux que pour le test initial, la seconde écoute de confirmation est supprimée à regret pour une durée de test approximative de 25 minutes.

 

Le texte de préambule en annexe sera conservé sauf pour les passages se référant à la seconde écoutes de confirmation.

 

figure 1.  Diagramme polaire théorique du système 1

 

.2       Enregistrement du test

 

Des cercles concentriques matérialisés au sol de la salle Schaeffer représentent les différentes distances d’enregistrement allant de 1,5m à 3m (figure 2). Les angles physiques des microphones sont de ±45° et de ± 120° pour les deux systèmes à comparer (cf. figure 4). Ces valeurs correspondent à celles des axes des courbes théoriques superposées aux courbes de test.

 

Le système 1, qui est composé de 4 microphones Schoeps MK4 cardioïdes, est placé au-dessus du premier système de façon à faire correspondre le milieu émissif des enceintes au centre des deux configurations (figure 6). Une seconde table de mixage de marque Sonosax sert à la calibration et à la distribution du système 1 vers l’enregistreur Tascam 8 pistes.

 

La console de mixage n’autorise qu’un contrôle au casque de l’enregistrement. En effet l’utilisation complète de ces ressources pour la phase de la prise de son ne nous permet pas d’accéder à un monitoring général de reproduction sur les quatre canaux. Le contrôle du rendu réel n’a pu se faire qu’en différé dans un autre studio.

 

figure 2.  Enregistrement du test

figure 4.  Dispositif d'enregistrement avec le système 2

 

Prise de son

N° du système

4 cardioïdes

1

2 prototypes du 2nd ordre + 2 cardioïdes arrières

2

figure 6.  Position des deux systèmes pour l'enregistrement

 

.3       Déroulement du test  

 

Contrairement aux premiers tests, les résultats n’ont pas été saisis et visualisés durant le déroulement des écoutes. Les résultats étaient plus nombreux en raison des quatre sortes de stimulus mais surtout, ils comportaient beaucoup d’inversions de localisation entre l’avant et l’arrière. En face de ces résultats déroutants et inattendus, la conduite à tenir a été plus difficile à mettre en œuvre. Le choix de faire passer plus d’individus sur le système 2 émane d’une volonté d’obtenir plus de précision sur le système étudié dans ce mémoire. Comment exploiter ces données inversées sans interférer sur le résultat final ?

 

 

Des auditeurs seront placés à 50 cm de l’axe centrale dans les 4 positions cardinales pour obtenir comme initialement des informations sur la robustesse.

 

35 fiches réponses composent les résultats de ce test réparties ainsi :18 aux écoutes du système 2, 10 au système 1 et 7 pour le test de la robustesse.

 

Les auditeurs sont en majorité les mêmes que ceux qui ont participé au test précédent. Chaque auditeur ne fait qu’un test, il note successivement 22 localisations par stimulus. La séquence de la localisation est aléatoire. Faire passer des personnes sur les deux tests risquait d’influencer les résultats d’un des systèmes en raison de la possibilité d’apprentissage du test. 

 

.4       Résultats du test

 

Les enregistrements réalisés avec le système 2 ont un niveau de bruit de fond en basse fréquence très perceptible. L’égalisation de +8dB dans cette zone fréquentielle en est directement la cause.

 

La première information qui ressort instantanément des données recueillies est le nombre impressionnant d’inversions de localisation entre l’avant et l’arrière alors que le test préalable concernant la localisation par panning de la console n’en comportait aucun. Ces inversions sont ressenties sur les 4 tests mais dans une proportion alarmante pour les échantillons brefs du woodblock et des claves. En raison de leur nature spectrale et temporelle plus riche, l’échantillon chanté et les sonorités des maracas se distinguent très nettement des tests basés sur les transitoires. On retrouve ce même clivage pour la difficulté que les auditeurs ont ressentis à juger pertinemment la direction présumée des tests courts. Le jugement de la localisation des sons percussifs entraîne une concentration plus soutenue et un temps de réponse plus long.

 

Le tableau 1 nous donne le pourcentage des valeurs pour chaque test dont la réponse est inversée ou non indiquée. Le nombre de réponses indéterminées (point d’interrogation) contribue à environ la moitié de ces valeurs pour chaque test.

 

Pourcentage d’inversion total

Prise de son cardioïde système 1

Prise de son du second ordre système 2

Chant

11 %

7 %

Maracas

13 %

8 %

Claves

26 %

36 %

Woodblock

24 %

35 %

tableau 1.  Pourcentage d'inversion avant arrière en fonction du test

 

Chaque test comportant 22 échantillons, 2 erreurs correspondent donc à moins de 10 pour-cent. Ces résultats se révèlent meilleurs pour les tests maracas et chant pour le système 2 par rapport au 1 alors que c’est l’inverse avec les percussions brèves. On peut y déceler une fragilité des systèmes en face d’une calibration trop simple pour être ultra précise (la calibration est faite avec du bruit rose et un Audioprécision). Cette calibration rapide ne permet pas de s’affranchir des petits défauts de phases ou de retard. Le système 1 est de plus assemblé avec des microphone n’ayant pas pu être appairés. Le fait qu’une dizaine de fiches de résultats ne comportent pas d’inversion sur les tests avec le chant et les maracas évoque qu’un apprentissage du test permettrait de réduire sensiblement les inversions.

 

Curieusement ces inversions ne sont pas spécifiques à des positions angulaires précises pour tous les auditeurs. Lorsque l’on fait la moyenne, les tests comportant le moins d’erreur sont ceux de l’axe transaural à 90° et 270°, on comprend aisément que l’inversion étant de symétrie avant arrière, le nombre d’erreur est plus faible pour ces valeurs. On observe aussi une bonne moyenne pour l’azimut de 140° et –30° (angle physique des enceintes). Inversement les mauvais résultats concernent les positions arrières comprises entre 170° et 220° ainsi que les angles situés entre 50° et 70°. Comme ces derniers résultats ne sont pas  symétriques et qu’ils se retrouvent à la fois sur les deux systèmes d’enregistrement, il est tentant de dire que ces erreurs sont plus liées à un mauvais appairage d’enceintes ou à un défaut acoustique de la salle plutôt qu’à un défaut de calibrage ou de phase des systèmes d’enregistrement.

 

Si, dans le test préalable, des perceptions étaient ressenties en élévation, elles n’influençaient pas la localisation. Ici, la sensation de hauteur est devenue un paramètre d’incertitude et de gêne. A nouveau les tests percussifs sont les plus marqués par cette sensation. On a 43% des 30 auditeurs ayant participé aux tests qui ont ressenti cette élévation.

 

Un auditeur quadragénaire particulièrement intéressant pour ce test en raison de son incapacité visuelle datant de l’enfance montrait du doigt systématiquement des zones plus hautes que la position des enceintes. Dans son cas, les deux tests courts sont quasiment inexploitables car il pointait des zones proches de l’aplomb. 

 

Les notations inversées sont soit la cause d’une localisation incertaine et à ce titre, elles doivent être considérées comme des réponses indéterminées soit, elles émanent d’un effet miroir entre l’avant et l’arrière. Cette considération entraîne trois interprétations possibles de ces données :

 

*   Affecter l’angle correspondant à l’image du miroir.

*   Les classer avec les résultats d’inversion.

*   Conserver leurs valeurs.

 

Garder les réponses telles quelles, est une solution qui va perturber les résultats car les inversions entre l’avant et l’arrière auront comme conséquence d’augmenter la zone de précision de la localisation. Ajoutons qu’un apprentissage du test, qu’un second test ou l’utilisation de stimuli spécifiques comme la voix, donneraient certainement beaucoup moins d’inversions.

Affecter un angle par symétrie axiale est douteux car certaines valeurs sont peut être dues à des incertitudes.

Les supprimer des tables reste le meilleur choix malgré le fait que certaines valeurs considérées comme inversées ne sont peut-être que des déviations. Pour prendre en compte cette hypothèse, seules les valeurs dont l’angle de symétrie est supérieur à ±30° seront omises.

 

Les courbes de résultats suivantes sont créées sous Excel à partir des tables de valeurs dont les résultats inversés et non localisés ont été éliminés. Elles sont présentées sur le cercle complet de latéralisation (0 à 360°) parce qu’il n’est plus nécessaire de détailler la contribution des différences d’intensité par quadrants.

figure 8.  Déviation moyenne pour les deux systèmes

 

Lorsque l’on observe la courbe de la figure 8, on regrettera de ne pas y voir de symétrie marquée entre les zones situées à droite et à gauche. Cette courbe représente la déviation moyenne des résultats de chaque système par rapport à la configuration physique de l’enregistrement. C’est en fait, la différence perçue entre l’enregistrement et l’écoute. Les résultats de la zone angulaire arrière auraient dû être similaires entre les deux systèmes car ils utilisent tous les deux des capsules cardioïdes. La courbe du système 2 fluctue autour de ±12° alors que le système 1 oscille entre 14° et –23°. Cette courbe prend aussi en compte l’erreur due à la directivité partiellement similaire des microphones utilisés avec les données des tests initiaux. Le système 2 est en conclusion légèrement plus fidèle que le système 1.

 

La figure 9 représente les déviations issues du test initial par rapport aux directivités théoriques des microphones utilisés. Cette figure est à comparer avec la précédente et aurait dû être totalement similaire. Les déviations sont plus faibles sur cette courbe, c’est à dire que la prise de son ajoute une imprécision supplémentaire, ce qui est logique. Les similitudes entre les deux figures sont plutôt de l’ordre spéculatif car certaines tendances sont inversées et asymétriques. On s’étonnera tout de même de la similitude des courbes du système 1 entre 0 et 50° et 300 et 360°

 

 

 

figure 9.  Déviation théorique des deux systèmes

 

 

 

Les résultats complets sont présentés pour chaque système avec les quatre stimulus :

 

figure 10 et figure 11 pour le chant.

figure 12 et figure 13 pour les maracas.

figure 14 et figure 15 pour les claves.

figure 16 et figure 17 pour le woodblock.

 

Comme pour les premiers résultats, la ligne continue représente la moyenne obtenue, les tirets symbolisent l’écart type et les marques rondes montrent les valeurs extrêmes. La ligne continue quant à elle représente les résultats souhaités. Les courbes sont graduées en abscisse de 0 à 360 °, car le nombre de stimuli ne permet pas de représenter chaque courbe pour différents quadrants, les courbes repliées par rapport à l’axe de symétrie ne donnent pas non plus d’informations supplémentaires. L’analyse directe des courbes est difficile, on donnera les résultats qui s’en dégagent  dans les paragraphes suivants.

 

A première vue, les résultats donnent des courbes proches de la pente désirée, mais la représentation sur 360° tend à minimiser les déviations car elles sont en réalité plus importantes qu’au premier test.

 

 

figure 10.  Résultats complets pour le chant pour le système 1

figure 11.  Résultats complets avec le chant pour le système 2

figure 12.  Résultats complets avec les maracas pour le système 1

figure 13.  Résultats complets avec les maracas pour le système 2

figure 14.  Résultats complets avec les claves pour le système 1

figure 15.  Résultats complets pour les claves pour le système 2

figure 16.  Résultats complets avec les woodblock pour le système 1

figure 17.  Résultats complets avec le woodblock pour le système 2

 

 

 

 

Les résultats du système 2 sont plus précis pour la zone avant de ±30° que le système 1 ce qui donne ici, un réel avantage au 2nd ordre. Le codage fait avec les capsules cardioïdes dans cette zone est décalé d’une dizaine de degré. Seul le stimulus du woodblock ne corrobore pas cette constatation. La sonorité plus grave du woodblock modifie-t-elle le codage obtenu par le test initial ?

 

Les meilleurs résultats sont obtenus pour le stimulus chanté avec le système 2 (figure 11). La moyenne s’écarte rarement de plus de 10°.

 

Certains motifs se retrouvent pour un même système sur plusieurs courbes, ces similitudes trahissent un problème de précision de codage de la localisation provenant d’un effet de polarisation de salle ou d’un défaut intrinsèque à l’assemblage microphonique.

 

Lorsque l’on compare uniquement les écarts type de chaque courbe, on observe bien cette fois une symétrie axiale avec une prépondérance de 12° en moyenne proche des angles de ±70°, une zone relativement faible avec un écart type de 8° en moyenne autour de 180° et enfin, une zone nettement meilleure avec un écart type moyen de 4.5° vers ±30° .

 

Les valeurs des minima et maxima ne sont pas comparables entre les deux systèmes, car le système 1 ne comporte que 10 auditeurs comparés aux 18 du 2nd système. Les écarts entre minima et maxima devraient être plus important sur le système 2 ce qui n’est pas toujours le cas.

 

 

Echantillon

Système 1

Système 2

Chant

7.08°

6.68°

Maracas

8.54°

6.28°

Claves

8.83°

9.31°

Woodblock

8.26°

11.8°

tableau 2.  Moyenne des écarts types

 

Le tableau 2 donne la moyenne des écarts types pour chaque échantillon sonore et pour chaque système. On retrouve les mêmes tendances que sur la moyenne d’inversion avant arrière du tableau 1, ce qui laisse à penser que le nombre d’inversions est lié au facteur de précision représenté par l’écart type. Ce tableau prouve que le système composé du prototype est plus précis que le système 1 tout au moins en ce qui concerne le chant et les maracas.

 

 

Echantillon

Système 1

Système 2

Chant

8.53°

6.2°

Maracas

10.9°

8.07°

Claves

10.1°

7.77°

Woodblock

9.31°

11.8°

tableau 3.  Moyenne de l'écart type moyen

 

Le tableau 3 quant à lui représente la moyenne de la déviation entre les écoutes et la prise de son. C’est certainement le résultat le plus important de ce test qui montre que la directivité du second ordre améliore la justesse de la localisation. A nouveau, seule la sonorité du woodblock se démarque de cette analyse et tend à démontrer que les basses fréquences nécessitent un codage en différence d’intensité moindre (ce qui est conforme aux expérimentations subjectives retranscrites dans la littérature Erreur! Source du renvoi introuvable.Erreur! Source du renvoi introuvable.Erreur! Source du renvoi introuvable.…).

 

figure 18.  Test de robustesse à 50 cm du centre

La figure 18 représente les résultats moyens pour des auditeurs placés à 50 cm de l’axe central. Le faible nombre d’individus ayant réalisé ce test nous pousse à la prudence quant aux commentaires de l’allure de ces courbes. Le nombre d’inversions est de proportion équivalente aux résultats centrés.

 

Les courbes paraissent en effet meilleures que celles concernant les essais de robustesse des lois de pan-pot. Peut être que le panel d’auditeur de ce test est plus entraîné ou que la réverbération présente dans le message améliore la robustesse ? L’effet d’antériorité sensible pour une position décentrée entre les 4 enceintes nous  prédisposait à des résultats plus médiocres.

 

La déviation angulaire ne dépasse rarement 50° sur cette courbe où les valeurs des enregistrements des claves et woodblock n’a pas été prise en compte en raison du peu de données valables avec ces stimuli.

 

.5       Conclusion du test

 

Doit-on en déduire que la durée des transitoires des tests percussifs ne laisse pas le temps au cerveau de juger avec justesse de la direction sonore ? Le cerveau a besoin d’un temps d’analyse avant de donner une conclusion fiable. Une séquence répétitive de ces stimuli aurait sans aucun doute améliorée les résultats. Le comportement des résultats du woodblock nous interroge sur la validité du test initial concernant les tests filtrés.

 

Le cas de la personne non voyante nous renvoie au fait que l’image fantôme n’est qu’un leurre propre à chaque individu. Cet homme bénéficie d’une oreille doublement exercée : il est accordeur de piano dans son métier et utilise chaque jour son acquis auditif de la localisation comme seul moyen de se diriger et d’appréhender les formes. Par essence, il ne peut se recaler géométriquement que par la vue, signe que la perception auditive de la localisation est directement influencée par les autres sens de la perception .

 

Au premier abord, les résultats du test sont peu probants. L’avantage du système 2 par rapport au 1er est faible et la précision de la localisation en moyenne reste large surtout en regard du nombre important d’inversion entre l’avant et l’arrière. Néanmoins, la localisation virtuelle attendue fonctionne bien car la perception de la localisation en général se fait dans la direction voulue. Ces résultats montrent que la localisation pour un système multicanal non matricé est possible par une simple prise de son. L’amélioration certes faible mais réelle du système 2 se ressent non seulement au niveau de la finesse mais aussi de la précision de la localisation, c’est à dire d’une part que l’azimut perçue est plus proche de l’angle de la source réelle et d’autre part que les auditeurs localisent en moyenne une zone plus restreinte. L’avantage du système 2 doit être valorisé par les défauts intrinsèques de sa conception. Le système 1, en effet est linéaire en phase et possède une directivité verticale constante. 

 

Des essais d’enregistrement de son dynamiques (voix et instruments rotatifs autours de l’axe) avec ces systèmes rendent une très bonne perception de l’effet de mouvement attendu. Des essais à différentes distance du système de captation donnent aussi une perception semblant assez réaliste de la distance apparente des sources.

 

 Ces résultats finaux démontrent l’intérêt d’un tel système pour la prise de son mais il devra être amélioré au niveau de la directivité et de sa miniaturisation et pourrait être éventuellement équipé de filtrages en fréquence supplémentaires pour améliorer le pourcentage des perceptions d’inversion.

 

Les points suivants relatent des améliorations nécessaires à une meilleure fidélité :

 

*   Utilisation de microphones cardioïdes dont la fonction de directivité est proche des valeurs théoriques.

*   Placement des microphones du prototype sur un même axe.

*   Utilisation de microphones miniatures.

*   Linéarisation de la réponse en phase en fonction de la fréquence. Utilisation de DSP.

*   Adaptation du local et des enceintes de monitoring pour une reproduction en 5.1.

*   Augmentation du rapport signal sur bruit en basse fréquence. Une captation avec un microphone omnidirectionnelle en basse fréquence pour tous les quadrants que l’on affectera par filtrage à chaque canaux ou uniquement à un caisson de basse est une solution à envisager devant la faible localisation auditive des fréquences inférieures à 100Hz.

*   Intégration complète du système dans un boîtier. L’assemblage serait calibré une fois pour toutes.

 

Il serait maintenant intéressant de comparer des résultats du même type et dans les mêmes conditions avec d’autres systèmes de prise de son ou même des versions améliorées du prototype.