2. Le logiciel Orchidée
Orchidée est un logiciel développé depuis 2008 dans l'équipe Représentations musicales de l'IRCAM, et fruit d'une recherche initiée quelques années plus tôt au sein d'un groupe de travail réunissant chercheurs et compositeurs sur le problème spécifique de l'orchestration assistée par ordinateur. Son but : fournir aux compositeurs un ensemble de méthodes pour découvrir des combinaisons instrumentales dont le « rendu sonore » répond à un ensemble de critères perceptifs. Orchidée s'inscrit ainsi dans la catégorie des outils d'aide à l'écriture. Il produit en sortie une partition qui peut éventuellement être simulée par des échantillonneurs.
Si les connaissances musicales relatives au timbre ne sont pas, sans savoir extérieur, « déductibles » des variables symboliques traditionnelles de l'écriture (hauteurs, durées, intensités, instruments, modes de jeu, sourdines), d'où les tirer ? Depuis environ une quarantaine d'années, les études perceptives menées par les psychoacousticiens ont massivement contribué à la compréhension des mécanismes cognitifs relatifs au timbre. Elles ont notamment abouti à l'identification de « dimensions d'écoute » et à la construction d'« espaces de timbres » [9] expliquant une partie des phénomènes de similarité et de dissemblance dans la perception des sons. Parallèlement, les avancées récentes en traitement du signal ont permis la mise en correspondance de certains attributs perceptifs avec un ensemble de mesures calculées directement sur le son. Ces mesures sont communément appelés « descripteurs bas-niveau », « descripteurs audio », ou encore simplement « descripteurs » [10].
Les descripteurs offrent l'avantage de condenser l'information portée par le signal en un petit nombre de dimensions, représentant ainsi ses qualités perceptives de manière synthétique sans aucune référence à la source sonore. Cette démarche n'est pas sans rappeler le projet schaefferien [5], puisqu'elle vise à caractériser numériquement le timbre comme phénomène objectif, et non comme manifestation d'une cause. Orchidée ainsi utilise divers descripteurs, liés à différents aspects du timbre : brillance, sonie, temps d'attaque, largeur spectrale, enveloppe spectrale, rugosité, modulation d'amplitudes, principaux partiels, permettant chacun d'organiser le vocabulaire sonore de l'orchestre selon un jeu de dimensions particulier.
Les connaissances musicales d'Orchidée proviennent ainsi de l'analyse préalable de grandes banques de sons, regroupant à l'heure actuelle 26 instruments traditionnels et une quarantaine de modes de jeu, soit plus de 17000 échantillons. Ces analyses sont stockées (sous formes de descripteurs) dans une base de données embarquée constituant à elle seule l'intégralité du savoir dont dispose le logiciel. Ici, pas de règle d'orchestration codée « en dur », du type « doubler les violons à l'octave par les flûtes ». A la place, un modèle d'estimation des descripteurs perceptifs de n'importe quelle combinaison sonore (sur la base des descripteurs de ses composantes), à l'aide duquel Orchidée va « faire des essais », garder les meilleures solutions et tenter de les affiner progressivement.
D'une manière générale, Orchidée tente de répondre à la question suivante: comment produire une « idée de timbre » à l'aide d'un orchestre donné ? Ou plus concrètement, compte tenu de l'approche par descripteurs : Comment trouver une combinaison d'échantillons instrumentaux dont les descripteurs globaux (ceux du timbre résultant) sont les plus proches possibles d'un ensemble de descripteurs ciblés ?
Cette question nécessite d'en traiter une autre préalable, sans doute beaucoup plus délicate : Quels sont les moyens dont dispose un compositeur pour « traduire » une idée de timbre en un ensemble de descripteurs numériques, qui au mieux n'ont pour lui (s'il est bien introduit à cette notion) qu'une signification relative ? (Par exemple un son A est plus brillant qu'un son B si son centroïde spectral est plus élevé.) A notre connaissance il n'existe pas aujourd'hui de tel outil de « conversion », et il y a fort a parier qu'aussi versé soit-il dans les techniques de synthèse et de manipulation du son, un compositeur « n'entende » pas une enveloppe spectrale ou un jeu de coefficient cepstraux de la « même oreille » qu'un accord ou un rythme écrits.
Quant à envisager une éventuelle correspondance entre d'une part les attributs de verbaux issus de travaux psychoacoustiques [11] ou les catégories schaefferiennes, d'autre part les descripteurs numériques du signal d'autre part, c'est là un trop vaste chantier pour être mené de front avec la question qui nous occupe. Dans Orchidée, nous avons donc choisi de définir le timbre recherché à l'aide d'un son concret enregistré au préalable par le compositeur. C'est de l'analyse de ce son que l'on extrait le jeu de descripteurs perceptifs qui vont servir de "cible" à l'algorithme de recherche d'orchestrations.
Dans l'exemple suivant, le son cible est un Klaxon de voiture. Suivent deux orchestrations calculées par Orchidée, la première avec un petit ensemble de vents, la seconde un petit ensemble de cordes.
Un exemple de timbre cible pré-enregistré: Klaxon de voiture.
Kaxon orchestré avec un ensemble de vents, puis un ensemble de cordes.
Notons qu'une approche par cible sonore n'est pas si limitée qu'elle n'y paraît au premier abord, car le compositeur à toujours la possibilité, lorsqu'il ne dispose pas d'un son pré-enregistré, de le « construire » à l'aide d'un outil de synthèse [8], tel que celui proposé par la librairie OM-Orchidée du logiciel OpenMusic:
Interface de synthèse d'un timbre cible à partir d'un accord dans l'environnement OpenMusic. Cette interface fait partie d'une « boîte à outils » dédiée à l'aide à l'orchestration, qui communique avec Orchidée.
Dans un tel cas, le timbre cible doit être pensé comme une « maquette sonore », un « gabarit », certes pauvre musicalement, mais possédant les caractéristiques perceptives de l'orchestration recherchée, et auquel l'écriture instrumentale apporte la richesse des timbres réels, comme en témoigne l'exemple suivant:
Timbre cible obtenu à partir d'un accord dans OpenMusic...
... et son orchestration pour ensemble calculée par Orchidée.
Préférer le son perçu, objectivé, à sa description verbale (potentiellement équivoque), ou à sa chaîne causale (ce que font par exemple les modèles physiques) est un paradigme central à Orchidée. Il s'étend, nous allons le voir, de la définition d'un "problème" d'orchestration jusqu'à l'exploration interactive de ses solutions.
L'introduction d'une cible sonore permet à Orchidée de transformer un problème d'orchestration en un problème d'optimisation. Il s'agit alors de trouver une combinaison de sons qui minimise une distance "perceptive" entre ses descripteurs et ceux de la cible. Or, le calcul d'une telle distance entre la cible sonore et une proposition d'orchestration peut impliquer plusieurs critères psychoacoustiques (autrement dit plusieurs descripteurs), mais leur importance relative n'est pas connue à l'avance. Il se peut par exemple, que le temps d'attaque et la répartition du brut interviennent fortement dans la discrimination de deux sons de percussion, alors qu'ils seront inutiles pour juger de la similarité de deux sons harmoniques et entretenus, dans un mode de jeu ordinaire.
C'est là une autre des nombreuses difficultés du problème de l'orchestration assistée par ordinateur, qu'Orchidée aborde en ne faisant aucune hypothèse a priori sur les contributions de chaque descripteur du timbre au jugement final de similarité perceptive. Un algorithme multicritère [12] permet a contrario de reproduire la cible en considérant chacune des dimensions isolément. Ce type d'approche a l'avantage de proposer à l'utilisateur non pas une unique et meilleure solution, mais un ensemble de solutions réalisant différents compromis entre les critères [13]. Dans notre cas, elles correspondent à propositions d'orchestration satisfaisant différentes préférences d'écoute, qui varient selon la contexte subjectivité de l'utilisateur. Imaginons par exemple que l'on cherche à imiter, avec un orchestre ne contenant pas de flûte, le son suivant (flûte jouée flatterzunge):
Son de flûte flatterzunge (La4 mezzoforte).
Des deux solutions ci-dessous, calculées par Orchidée, la première est proche de la cible par son aspect rugueux, obtenu à l'aide d'un flatterzunge de cor et d'un tremolo du violon. La seconde, en revanche, tente de reproduire le caractère bruité du souffle en utilisant des cordes legno tratto.
Deux imitations orchestrales d'un son de flûte flatterzunge.
Supposons maintenant que l'on demande au compositeur de décider, entre ces deux solutions, laquelle lui semble la plus proche de la cible. Le choix de la première indiquera alors que l'aspect rugueux lui importe davantage que le caractère bruité, le choix de la seconde, l'inverse. Cette information reflète ainsi une préférence d'écoute propre à chaque cible et à chaque compositeur, et que ce dernier n'est pas capable de formuler a priori. Dès lors, en lui laissant la possibilité, parmi les multiples solutions qui émergent au cours du calcul, de faire des choix, Orchidée modélise les préférences esthétiques de l'utilisateur et oriente la recherche d'orchestrations vers les solutions les plus à même de satisfaire ses exigences en termes de timbre. Par ailleurs, Orchidée permet aux compositeurs de définir des contraintes sur la nature « symbolique » des solutions orchestrales [14], contraintes qui circonscrivent l'espace de recherche en interdisant ou favorisant certaines configurations.
La vidéo suivante montre un cas d'utilisation du prototype d'Orchidée, dont la version actuellement distribuée par l'IRCAM diffère sensiblement. Choisissant comme cible un son de trombone joué avec une anche de basson, le compositeur en cherche tout d'abord une orchestration impliquant entre sept et neuf instruments. Après une première étape de calcul exploratoire, une interface permet de naviguer dans les solutions trouvées selon plusieurs points de vue. La solution retenue est dans un premier temps éditée manuellement par le compositeur, puis graduellement transformée en un unisson en rajoutant des contraintes. Le « mouvement » ainsi créé est ensuite inversé, permettant l'écriture d'une dynamique timbrale qui se complexifie au cours du temps jusqu'à atteindre le timbre désiré.