1- Est-ce possible ?
Pour faire court : NON ! Pour avoir
une explication plus longue, continuez la lecture et voyez les
illustrations à la fin de cet article.
2- La tâche à
accomplir
Je me réfère à ceux qui
veulent sans doute utiliser l'enregistrement d'un spectacle musical
complet ; disons, un opéra tout entier, avec l'orchestre et
les voix, les solos et les choeurs, ou un groupe de rock avec les
chanteurs. Je pars de ce principe car nous vouons convertir du MP3
ou d'autres fichiers audio issus pratiquement toujours d'un
spectacle musical complet, pré-enregistré, sans doute
avec un copyright. Nous espérons en tirer un beau fichier MUS
qui aurait déjà toutes les pistes transcrites avec
précision sur des portées, avec les paroles à leur
place pour Virtual Singer et peut-être même avec le
paramétrage de VS réglé pour coller au plus
près à la voix, les inflexions et l'accent de chacun des
chanteurs, etc... Tous les instruments seraient déjà
définis et modifiés pour correspondre aux instruments
réels de l'enregistrement. Les effets numériques seraient
déjà appliqués et réglés pour correspondre
à l'espace acoustique de l'enregistrement original. Etc,
etc... Voilà une fonction extrêmement demandée
pour un logiciel de musique. Je reconnais volontiers que ce serait
très sympa, mais ça n'est tout simplement pas possible
avec la technologie d'aujourd'hui.
3- Pourquoi ce n'est pas
possible
Une telle demande reviendrait à
demander à un logiciel de graphique vectoriel (Illustrator,
FreeHand, CorelDraw!, Canvas's draw, Xara X, etc...) de
posséder une fonction qui puisse prendre une photo
scannée et en convertir tous les objets en objets vectoriels,
avec toutes les courbes de Bézier et leurs poignées,
regroupant automatiquement les objets qui vont ensemble (les roues
d'une voiture seraient regroupées avec la carrosserie, les
feuilles avec l'arbre, les traits du visage d'une personne avec son
corps, etc...) Même si des logiciels ou des fonctions de
conversion vectorielle existent effectivement (Adobe Streamline,
par exemple), aucun d'entre eux ne serait capable de gérer les
photos et de reconnaître les liens qui lient les
différents objets entre eux. La plupart se bornent à
gérer une image scannée monochrome ou, dans de rares cas,
du dessin en couleurs, en convertissant le images matricielles
scannées en vrai dessin vectoriel au format EPS ou autre
format vectoriel à résolution indépendante.
L'analogie est valable pour les fichiers audio et la musique parce
que les fichiers MIDI (et ses variantes comme le KAR et ABC),
SEQ et MUS (etc...) sont analogues à l'EPS, EMS, QuickDraw,
AI, FH, CNV, WEB et autres formats vectoriels, alors que les
fichiers aux formats non compressés ou compressés sans
perte WAV, AIFF ou AU seraient analogues aux formats non
compressés ou compressés sans perte (TIFF, TIF, RIFFn
PSD, BMP, PNG, etc;;;) et les formats MP3, ASF, WMA, RA ou
compressés avec pertes WAV, AIFF, etc... seraient analogues au
JPEG/JPG ou autres formats d'image compressés avec pertes.
En résumé, les formats de fichiers matriciels (images
bitmap/pixelmap, peu importe comment ils sont compressés) et
leurs pendants audio-numériques sont fabriqués à
partir d'informations analogiques et ils dépendent donc de la
numérisation d'une information analogique.
Alors qu'il peuvent paraître, aux yeux ou aux oreilles,
contenir des objets indépendants ou des pistes instrumentales,
il ne sont en fait qu'une image ou un enregistrement sonore (deux
pour la stéréo et les couches d'un RIFF ou PSD seraient
considérées comme des pixelmaps, mais pour chacun la
même restriction s'appliquerait) L'ordinateur ne les voit que
comme une suite de 1 et de O qui ne contiennent que l'information
brute pour tel ou tel point de l'image (par exemple, les valeurs
RGB ou autres d'un pixel particulier) ou de la piste audio
(l'échantillon de l'image audio) et n'a pas besoin de les
gérer (mis à part la décompression s'ils ont
été compressés) pour les afficher ou les jouer sous
une forme que le cerveau humain, alimenté par les informations
visuelles ou auditives, reconnaîtrait comme extrêmement
proches de l'image ou du son original. Quand vous regardez un
fichier TIFF de la Joconde, vous voyez une belle femme devant un
arrière-plan de nuage et de campagne, mais l'ordinateur ne
"voit" que des rangées de pixels, chaque pixel ayant une
valeur de Rouge, Vert et Bleu (ou Cyan, Magenta et Jaune), chaque
valeur étant composée de huit ou seize bits. Quand vous
écoutez la Cinquième Symphonie de Beethoven sous forme de
fichier WAV, vous entendez les cordes, les cuivres, les bois et les
percussions jouant des notes particulières à un rythme
particulier, mais tout ce que l'ordinateur "entend" ce sont des
échantillons audio codés sur 8 ou 16 bits qui disent
à la carte son comment faire vibrer le haut-parleur dans le
temps pour reproduire le son enregistré.
Mais des formats d'image comme
le AI et l'EPS ou de son comme le MID et le MUS ne contiennent pas
la vraie information d'image ou de son, mais plutôt les
commandes nécessaires pour la générer. Un fichier
EPS d'une esquisse de la Joconde contiendrait les courbes
réelles de l'esquisse dans un format que l'ordinateur comprend
et peut afficher pour l'utilisateur. L'ordinateur peut manipuler
chaque courbe de façon indépendante, même aux
endroits où elle croise d'autres courbes sans les influencer.
De la même façon, un fichier MIDI de la Cinquième
Symphonie possède des pistes ou des canaux pour chacun des
instruments, et les notes, vélocités et autres commandes
pour chacun d'entre eux codés de façon à ce que
l'ordinateur puisse les comprendre et les manipuler. Vous pourriez
changer certaines notes de tel instrument sans affecter les autres
sons produits au même moment. Vous ne pouvez pas faire cela
avec du WAV ou du MP3.
4- Ce qui existe actuellement
Exactement comme des programmes de
dessin vectoriel existent, il y a aussi des programmes de
conversion monophonique Audio vers MIDI. Et comme avec la
conversion d'images matricielles, la plupart ne sont pas très
bons même avec la limite d'une source mono, bien que quelques
uns se démarquent des autres (Streamline). Les quelques uns
qui essayent de dépasser la limite du mono ont tendance à
accomplir un travail encore pire que les autres. A moins que, si le
format d'échantillonnage audio est du Wav (ou AIFF, AU, MP3
Real Audi, WMA, Quick Time Audio ou autre, compressé ou pas)
le fichier en question ne représente le jeu d'un seul
instrument solo, d'un instrument qui ne joue qu'une seule note
à la fois. Ce pourrait aussi être une personne qui
chante, siffle de manière détachée, etc... une
mélodie sans accompagnement (pas même un rythme ou un
métronome).
Un programme bon marché du nom de
"Digital Ear" peut fournir une conversion MIDI correcte de tels
fichiers . A la différence des programmes concurrents, Digital
Ear peut reconnaître et réagir aux changement non
seulement de hauteur, mais aussi de volume et de brillance, pour
les convertir en événement MIDI (par exemple le volume en
expression MIDI [CC n° 11] ou le contrôleur de
respiration [CC n° 2], les messages de Contrôle Continu,
et la brillance [CC n°74] ou le contenu harmonique [CC n°
71], si je me souviens bien). Le fichier MIDI produit peut, bien
sûr, être importé dans Melody ou Harmony Assistant
ou dans n'importe quel autre programme qui gère le MIDI.
Mais si vous voulez pouvoir prendre un
fichier WAV de, disons, un concert de rock ou de jazz ou du Mormon
Tabernacle Choir chantant le refrain de l'Alléluia
accompagné par un grand orchestre et un orgue à tuyaux,
ou même un quatuor de Barbershop en train d'interpréter
un chant populaire, et convertir tout ça proprement en pistes
ou portées musicales séparées (sans parler des
paroles !) alors, non, ça n'est tout simplement pas
réalisable avec la technologie actuelle, et pas davantage
envisageable avec n'importe quelle technologie dans un avenir
proche. Certains logiciels prétendent être capables de
gérer de l'audio polyphonique, mais en pratique ils ne peuvent
que gérer les fichiers sources d'un seul instrument
polyphonique à la fois (par exemple le piano ou la guitare) de
préférence utilisé en chambre sourde (pour
éliminer la réverbération qui pourrait être
prise pour des notes supplémentaires) ou d'instruments doux,
faibles en harmoniques (le piano à queue Baldwin, par exemple,
mais pas le piano Kawai, une guitare nylon, mais pas une guitare
à cordes d'acier), etc... et ce uniquement si le
paramétrage est réglé très finement (ce qui
n'est pas toujours facile à faire), etc... Un vrai
convertisseur Audio vers MIDI qui fonctionne effectivement est
à des années lumières et nécessitera des
microprocesseurs des dizaines de fois plus puissants que les
Pentiums 4, Athlons ou PowerPC G4 d'aujourd'hui (ou même
que les Itaniums et les Hammers ou les G5) ainsi qu'une technologie
logicielle et des algorithmes bien meilleurs.
5- Et l'avenir ?
Sera-t-il possible de faire ce que
j'ai décrit dans le premier paragraphe ? Comme je l'ai
précisé, pas avec la technologie informatique classique.
Les réseaux neuronaux, toutefois, sont une autre histoire. La
plupart des enfants peuvent entendre un morceau de musique complexe
et reconnaître les gens qui chantent des paroles, entendre
tous les instruments particuliers (ou des pupitres qui jouent les
mêmes notes) à partir du fichier mixé, même
s'ils ne connaissent pas les noms des instruments, ils sont
capables d'entendre que les sons issus d'une flûte sont
très différents de ceux émis par un violon, qui
à leur tour sont différents de ceux émis par une
guitare électrique avec une forte distortion ou un effet de
fuzz. De plus, l'enfant fait cela en temps réel et n'a pas
besoin de réfléchir à l'exécution. Les
transformations de Fourier et autres analyses mathématiques
complexes sur des courbes audio analogiques entrent dans sons
cerveau par les nerfs de la cochlée, dans l'oreille interne,
qui réagit aux vibrations du tympan.
Alors, pourquoi est-ce si difficile pour les ordinateurs ? Parce
que les ordinateurs sont linéaires, ils font les tâches
à la suite, par séquence. De telles tâches,
cependant, nécessitent plus qu'une approche de reconnaissance
matricielle, là où le cerveau humain excelle. Les
réseaux neuronaux fonctionnent un peu comme le cerveau. Une
autre possibilité est l'ordinateur quantique (à base de
molécules. J'ai vu la photo d'une éprouvette qui
contenait des trillions de telles molécules, et on aurait dit
un petit tube de bonbons Kool au citron, un peu trop foncés,
mais rien à voir avec ce qu'on attendrait d'un ordinateur !)
qui est aussi (en théorie) très bon à des
tâches non linéaires.
Mais ils appartiennent encore au futur
(au moins une ou deux décennies) et nous devrons patienter
avant d'en avoir qui puissent traiter n'importe quel fichier audio
et en recracher une représentation exacte dans un format
fondé sur des commandes ou des objets (comme le MIDI ou le
MUS).
Un ordinateur bâti sur la
technologie numérique binaire de Von Neuman/Babbage (et c'est
ce que la plupart des gens appellent ordinateur, que ce soit le
microcontrôleur d'un magnétoscope ou d'un four
micro-ondes, un méga ordinateur du Pentagone ou un ordinateur
portable ou de bureau, que ce soit un PC sous Windows ou un
PowerMac G4, ou même les générations suivantes,
comme l'Itanium 64-bits, le Hammer de chez AMD ou le PowerPC G5)
quelle qu'en soit la vitesse, ne peut tout simplement pas accomplir
cette tâche, du moins à la manière dont travaille
notre cerveau. Notre cerveau n'est pas une machine numérique
binaire de Von Neuman/Babbage. Il ne travaille pas comme une
machine numérique binaire de Von Neuman/Babbage et, par-dessus
tout, l'inverse n'est pas vrai.
La même remarque s'applique pour
la vision : vous pouvez regarder la photo de quelqu'un que vous
connaissez et reconnaître dans la seconde qui est cette
personne sans même y réfléchir, sans aucunement
accomplir de tâche complexe de détection des bords,
d'analyse des contenus, mais même le plus puissant logiciel
d'analyse numérique doit passer par ces étapes pour
arriver à la reconnaissance du visage, et même dans ce
cas, il n'y arrive pas de manière aussi complète et aussi
facile qu'un jeune enfant.
Pour avoir une idée de la
complexité du chemin qu'un ordinateur doit parcourir pour
pouvoir accomplir cette tâche, essayez d'inverser les sens :
notre cortex visuel n'est pas plus fait pour traiter le son et
extraire les information sur les instruments, les notes, les
paroles, etc... que ne l'est un ordinateur. Donc, faites
enregistrer numériquement un ami trois échantillons WAV
(ou AIFF si vous avez un Mac) : un enregistrement de musique de
concert, en direct, avec des voix et des instruments multiples, un
enregistrement dans une usine bruyante et un enregistrement d'une
galerie marchande, un jour d'affluence avant Noël. Votre ami
doit donner aux fichiers des noms ordinaires qui ne décrivent
pas leur contenu, par exemple A.WAV, B.WAV; C.WAV, au hasard. Votre
tâche est simple : vous éteignez le son de votre
ordinateur (ou vous débranches les haut-parleurs si
nécessaire), chargez les fichiers dans un programme
d'édition de son qui vous permette de voir la
représentation des courbes sonores et essayez de deviner quel
fichier est la musique, lequel est celui de l'usine ou d'un bruit
non-musical similaire et lequel est celui de la galerie marchande.
Si vous arrivez seulement à faire cela, je serai
impressionné. Maintenant, en ne vous servant que de vos yeux,
essayez de retrouver les notes et les instruments dans
l'enregistrement de la musique, ou ce que disent les gens dans
l'enregistrement de la foule.
Voici un échantillon graphique de deux sons
différents. A première vue, que sont-ils ? Voici un
tuyau, vous avez 3 choix : ce sont tous les deux de la musique,
l'un est de la musique et l'autre de la voix parlée, les deux
sont de la voix parlée. Si l'un est celui d'une personne qui
parle et l'autre de la musique, pouvez-vous les différencier ?
Quels mots sont prononcés, si ce sont des paroles ? Quelles
notes sont jouées et par quel instrument si c'est de la
musique ?
|
|
|
C'est la musique
|
Ce sont les paroles
|
Tentez l'expérience inverse.
Enregistrez une image dans un format bitmap non compressé,
puis chargez-la dans un logiciel audio en tant qu'échantillon
brut et jouez-le, cette fois avec le son en marche et voyons si
vous pouvez "entendre" la nature graphique de l'image en quoi que
ce soit.
Donc, il EST effectivement possible de
faire des conversions simples en MIDI de sources audio
monophoniques et même de sources polyphoniques simples d'un
instrument unique qui joue des accords (piano, guitar, etc...) Pour
le moment, Digital Ear reste mon logiciel favori pour la conversion
d'audio monophonique en MIDI car il ne se borne pas à
convertir les notes en MIDI, il analyse et traduit les fluctuations
de tessiture comme le vibrato, les pull-on à la guitare, les
coulisses au trombone, les slides à la guitare, etc... et le
convertir en chute de hauteur sonore, Portamento MIDI, et peut
même saisir les changements de volume et de brillance pour les
convertir en événements MIDI du controlleur de hauteur du
son, à votre convenance. Vous pourriez donc fredonner un air
dans le micro de votre ordinateur, en utilisant un son vocalique
comme "ou" ou "ah", et varier la puissance comme vous le
désirez, disons à la manière d'un saxophone, et
Digital Ear le convertirait en MIDI.
6- Et la conversion de fichiers MIDI
ou MUS en fichier audio ?
Il est TRES FACILE d'aller dans
l'autre sens, de transformer un fichier MIDI en WAV, aussi
facilement que de transformer un fichier EPS en matrice (TIFF,
etc...) En fait, comme les fichiers MIDI et EPS ne
contiennent pas vraiment de son ou d'image, vous ne pouvez
même pas entendre un fichier MIDI ou voir un fichier EPS tant
qu'il n'a pas été converti en audio ou en matrice,
même temporairement. Le convertir de manière permanente
revient simplement à stocker les résultats de la
conversion qu'il faut bien faire malgré tout pour que les
résultats des commandes contenues dans le fichier soient
perceptibles.
Par exemple, quand on utilise Adobe
Illustrator ou n'importe quel autre programme du même type, on
ne voit PAS les courbes de Bézier réelles sur
l'écran. On en voit le rendu matriciel puisque l'écran
est au départ un périphérique matriciel (dans cet
exemple, il y a des exceptions : les traceurs, les moniteurs à
scan vectoriel, etc... mais en général ce que j'ai dit se
vérifie) Quand vous imprimez un tel fichier sur une imprimante
ordinaire (même une imprimante laser Postcript) vous voyez des
points qui ont été produits par une rastérisation
dans l'imprimante qui a converti les commandes graphiques en
matrice.
Quand vous jouez un fichier MIDI, de
quelque façon que ce soit, le dispositif MIDI interprète
les commandes et génère des courbes sonores. Une fois
qu'elle ont été générées, elles ont la
même nature que des courbes générées par des
fichiers audio enregistrés.
Dans les deux cas, la sortie de la
conversion peut être stockée dans un fichier et le
fichier résultat es un fichier ordinaire, compressé
ou non, graphique (TIFF, JPG, etc...) ou un fichier audio (WAV,
AIFF, MP3), selon le cas.
7- Qu'en dit Myriad ?
Dans la toute première version
d'Harmony Assistant, en 1994, nous avions intégré un
module de reconnaissance de fréquence (notes). Il marchait
très bien quand un seul instrument jouait une seule note
à la fois, comme c'est le cas pour la voix ou les instruments
à vent. Il marchait aussi pour la plupart des instruments
polyphoniques qui jouent des accords, par exemple une guitare
seule, un piano seul, etc... Mais il ne marchait pas du tout avec
une orchestration complexe, la batterie, etc...
Comme beaucoup d'utilisateurs avaient
essayé d'utiliser cette fonction dans un cadre pour lequel
elle n'avait pas été développée, puis
s'étaient plaints auprès de notre assistance technique
qu'elle ne fonctionnait pas, nous l'avons supprimée dans les
versions suivantes du logiciel. De cet ensemble de fonction
originel ne reste plus dans Harmony Assistant que la fonction
"Accord fin" à laquelle nous n'avons pas touché depuis 7
ans.
Comme la puissance des ordinateurs ne
fait que croître, nous avons jeté un oeil à ce qui
est actuellement disponible dans ce domaine. Il semble que
les choses ne se soient pas beaucoup améliorées ces
dernières années. Beaucoup de logiciels peuvent traiter
des échantillons d'un instrument monophonique unique, certains
essaient de reconnaître les notes d'un instrument
polyphonique, avec plus ou moins de succès, mais "aucun"
d'entre eux est capable de sortit une partition propre à
partit d'une source complexe, comme le fichier numérique issu
d'une pièce orchestrale ou même d'un petit groupe de
rock. En fait, On peut se demander si c'est vraiment
possible. A mon avis, il n'est pas possible, à l'heure
actuelle, d'obtenir de bons résultats pour de tels
fichiers.
Si vous lisez soigneusement le mode
d'emploi de la plupart de ces logiciels, vous remarquerez qu'on dit
clairement que ca ne marche que pour des instruments solo, que ce
n'est pas destiné à traiter des pistes numériques
tirées d'un CD Mais la première chose que l'utilisateur
fait pour évaluer le logiciel (c'est ce que j'ai fait, moi
aussi) est de l'essayer sur des morceaux aussi complexes que la
9° symphonie de Beethoven, ou un extrait du dernier CD d'Iron
Maiden, selon ses goûts. Et bien sûr, ça ne marche
pas, et les utilisateurs se plaignent soit dans les "newsgroups"
soit auprès du service d'assistance de la société
(ce que moi je n'ai pas fait)
C'est la raison pour laquelle nous ne
voulons pas produire une telle fonction dans Harmony Assistant. Car
nous savons bien que, même si nous écrivez en gros
caractères rouges la manière dont elle est censée
être utilisée, la plupart des utilisateurs vont la tester
au-delà de ses limites pour ensuite casser les pieds de
l'assistance technique...
Donc, nous ne créerons sans doute
jamais de fonction de reconnaissance telle que vous l'attendez. En
tout cas, un tel module ne serait pas capable de sortir une
partition de 30 portées à partir d'une symphonie. Si nous
faisons quelque chose dans ce domaine, ce sera intégré
dans un module plus global, tourné vers la voix, par exemple,
de façon à ce qu'il n'y ait aucune confusion possible
quant aux limites de la fonction.
==============================
Analogie entre un logiciel de dessin
et un logiciel de musique
1
|
2
|
Voici votre écran d'ordinateur
grossi de nombreuses fois. Chaque carré s'appelle un pixel et
en fait est un minuscule point qui peut prendre la valeur ON (blanc
ou allumé) ou OFF (noir ou éteint)
|
Si vous tapez la lettre "a" dans un
logiciel de dessin, voici ce que vous voyez à l'écran,
agrandi de nombreuses fois. Votre fichier sera du type BMP, PICT,
PSD, TIFF ou d'un type similaire. C'est la même chose pour des
fichiers audio MP3, WAV ou similaires. Dans ce cas, nous n'avons
qu'un seul instrument jouant une seule, rien de plus. Si nous
avions un mot, cela reviendrait à avoir autant de notes que de
lettres dans le mot.
|
3
|
4
|
Voici ce que voit l'ordinateur : une série de 1 et de 0. Le
1 indique qu'un point de lumière (ou pixel) est allumé
(ON) et le 0 indique que le pixel est éteint (OFF).
|
Si vous voulez convertir ce fichier dans un format de type
Illustrator (EPS) ou similaire, vous devriez faire un tracé
automatique (conversion en dessin vectoriel). C'est exactement la
même chose que d'essayer de convertir un fichier WAV en
fichier MIDI ou MUS automatiquement. Le résultat est
éditable à volonté.
|
5
|
6
|
Votre fichier converti aurait cet aspect. A comparer avec le
résultat final d'un fichier MP3 d'une note sur un instrument,
converti en MIDI. Le lignes bleues et les points indiquent les
points à partir desquels le dessin peut être modifié
sans perte de résolution ou de qualité.
|
Voici ce que vous escomptiez obtenir avec la conversion
automatique. C'est ce à quoi le fichier d'origine MUS ou MIDI
ressemblerait s'il avait été créé comme tel au
départ. Voici ce que vous voyez. Pour voir ce que voit
l'ordinateur, cliquez ici. Vous verrez
une série de commandes qui disent à l'ordinateur ce qu'il
faut qu'il fasse et comment il doit le faire, au lieu d'une
série de 1 et de 0.
|
7
|
8
|
9
|
Donc, voici ce avec quoi vous avez commencé et que vous
espériez que votre conversion automatique vous
donnerait...
|
... ce fichier MUS ou MIDI : un fichier qu'il est possible
d'éditer à loisir, mais...
|
... voici le résultat final de votre conversion automatique
et c'est le mieux que vous puissiez espérer avec un seul
instrument jouant une seule note dans les meilleurs conditions
possibles.
|
10
|
Bon, tout ceci est proche de l'enregistrement d'un opéra,
un orchestre de jazz ou des Rolling Stones en train de jouer et
chanter à plusieurs voix, instruments et accords, etc... Ce
que vous voulez faire, c'est convertir le tout automatiquement en
quelque chose qui serait exactement identique mais qui pourrait
être édité comme on veut par la suite, en
espérant que tout ce qui appartient à l'arbre sur la
droite soit groupé dans un ordre logique et qu'il en soit de
même pour tous les autres éléments du tableau, que
vous puissiez l'éditer facilement (les notes jouées par
le piano sont toutes sur la même portée avec les
vélocités, les durées correctes, etc... même
chose pour tous les instruments) Pouvez-vous imaginer la tâche
? A l'heure actuelle, il est impossible d'y arriver avec aucun des
logiciels graphiques du marché et nous avons de sérieux
doutes que ça soit possible dans un proche avenir. C'est la
même chose pour la musique.
|
==============================
Écrit par Joel Ellis Rea "ComaLite J". Commentaire de Myriad
Software
Compilé et traité par Laurier Napper
Illustrations et peinture de Laurier Nappert
Novembre 2001
Bidouillage de traduction : Jean-Pierre Butin / janvier 2005
Accueil >
Ressources >
Partage d'expérience >
WAV, AIFF, MP3, MPEG, AU
et la conversion de toutes les
autres formes de fichiers audio au format MIDI ou
MUS