Chapitre précédent - Chapitre suivant

2. ACAME, un outil pour l’alignement audio

Au début de notre recherche, nous avons proposé l’idée d’un outil graphique permettant d'accomplir la comparaison rapide entre différents enregistrements de la même œuvre. La juxtaposition parallèle de représentations graphiques, par exemple de sonagrammes, pose des difficultés évidentes. Tout d’abord il faut aligner à la main deux représentations différentes, dont le contenu sonore peut avoir des vitesses à peine divergentes, ou peut contenir des détails sonores différents. L’analyste musicologue doit donc identifier continuellement (à l’écoute) les correspondances entre les parties s’il veut avancer dans la comparaison. De plus, deux représentations graphiques peuvent varier selon l’effet de la postproduction, par exemple avec l’égalisation ou l’enveloppe d’amplitude. La figure 1 met en évidence le fait que les amplitudes des trois versions sont tellement différentes qu’elles pourraient appartenir, au premier coup d'œil, à des œuvres totalement distinctes.

Figure 1 : comparaison des représentations temps/amplitude. De haut en bas on voit la version CCRMA, la version WERGO et la version 2007.
Dimension FFT 4096 (visualisation réalisée avec le logiciel libre Audacity 1.2.6 – http://audacity.sourceforge.net).

L’outil proposé au musicologue permet d’analyser la similarité entre deux œuvres dans la même représentation graphique. Au lieu de montrer les caractéristiques spécifiques de chacune des œuvres, l'idée principale est de tracer une image qui montre les similarités et les différences entre les œuvres.

Dans la première phase d’analyse, l’outil calcule la matrice de similarité entre les fenêtres d’analyse des deux fichiers. Celles-ci peuvent être calculées avec un pas déterminé pouvant être défini directement par l’utilisateur. La similarité est calculée dans le domaine des fréquences.

Pour l’instant, l’outil permet de calculer la similarité à partir de trois typologies de distance : la norme L1, ou bien le module de la différence ; la norme L2, c’est-à-dire la distance euclidienne ; la corrélation.

En effet, la matrice de similarité se prête bien à la représentation graphique directe — cela étant commun dans l’analyse des données — grâce à la possibilité d’utiliser différentes nuances de couleurs pour représenter la différence entre les couples de données comparées.

Toutefois, si la matrice de similarité permet facilement cette comparaison, il est plus difficile de montrer l’alignement entre différentes parties. Pour obtenir cela, une fois calculée la similarité locale entre les fenêtres d’analyse, on calcule l’alignement optimal entre les deux enregistrements analysés : à partir d’un instant quelconque d’un des deux fichiers, on analyse l’instant correspondant dans le deuxième. On utilise la technique du Dynamic Time Warping (DTW), une technique largement employée dans le calcul de la similarité de différentes séries de données notamment dans la reconnaissance de la langue parlée.

Le DTW[1] calcule un parcours à l’intérieur de la matrice qui minimise la différence globale entre les fichiers audio. Au lieu de considérer la simple information locale, l’alignement permet d'analyser la totalité des deux œuvres musicales (ou des deux fichiers audio).

Il est également possible d’imposer des limites dans le calcul du parcours optimal, ce qui est intéressant au cas où, dans l’analyse des fichiers musicaux particuliers, on veuille obtenir des parcours alternatifs. Pour l’instant, on a précisé trois types de limites, l’un de ceux-ci étant de ne pas sauter deux fenêtres d’analyse successives dans le parcours optimal. Mais la littérature en propose plusieurs autres dans différents domaines d’applications que l’on souhaiterait considérer dans l'avenir.

Le parcours optimal est calculé à rebours, à partir d’un point que l’utilisateur choisit dans la représentation de la matrice de similarité avec un simple click de la souris. Cela permet d’analyser la correspondance entre une section de l’œuvre et l’œuvre complète, comme ceci est montrée au chapitre 4. Il est aussi possible de choisir de calculer le parcours optimal à partir du début de l’enregistrement ou à partir d’un point quelconque. Cela permet de comparer un fichier qui est une partie d’un autre enregistrement plus long.

Une fois les fenêtres d’analyse de deux fichiers alignées, il est possible de représenter la similarité relative de chaque point avec celui qui lui correspond dans l’autre fichier. Cette technique est bien plus précise que l’analyse des sonagrammes. On arrive en effet à localiser les passages les plus problématiques, par exemple dans le cas où la postproduction est importante.


[1] L.R. Rabiner, B. Juang, Fundamentals of speech recognition, New Jersey, Prentice-Hall, 1993.

Chapitre précédent - Chapitre suivant