1- Est-ce possible ?
Pour faire court : NON ! Pour avoir
une explication plus longue, continuez la lecture et voyez les
illustrations à la fin de cet article.
2- La tâche à
accomplir
Je me réfère à
ceux qui veulent sans doute utiliser l'enregistrement d'un
spectacle musical complet ; disons, un opéra tout entier,
avec l'orchestre et les voix, les solos et les choeurs, ou un
groupe de rock avec les chanteurs. Je pars de ce principe car nous
vouons convertir du MP3 ou d'autres fichiers audio issus
pratiquement toujours d'un spectacle musical complet,
pré-enregistré, sans doute avec un copyright. Nous
espérons en tirer un beau fichier MUS qui aurait
déjà toutes les pistes transcrites avec
précision sur des portées, avec les paroles à
leur place pour Virtual Singer et peut-être même avec
le paramétrage de VS réglé pour coller au plus
près à la voix, les inflexions et l'accent de chacun
des chanteurs, etc... Tous les instruments seraient
déjà définis et modifiés pour
correspondre aux instruments réels de l'enregistrement. Les
effets numériques seraient déjà
appliqués et réglés pour correspondre à
l'espace acoustique de l'enregistrement original. Etc, etc...
Voilà une fonction extrêmement demandée
pour un logiciel de musique. Je reconnais volontiers que ce serait
très sympa, mais ça n'est tout simplement pas
possible avec la technologie d'aujourd'hui.
3- Pourquoi ce n'est pas
possible
Une telle demande reviendrait à
demander à un logiciel de graphique vectoriel (Illustrator,
FreeHand, CorelDraw!, Canvas's draw, Xara X, etc...) de
posséder une fonction qui puisse prendre une photo
scannée et en convertir tous les objets en objets
vectoriels, avec toutes les courbes de Bézier et leurs
poignées, regroupant automatiquement les objets qui vont
ensemble (les roues d'une voiture seraient regroupées avec
la carrosserie, les feuilles avec l'arbre, les traits du visage
d'une personne avec son corps, etc...) Même si des logiciels
ou des fonctions de conversion vectorielle existent effectivement
(Adobe Streamline, par exemple), aucun d'entre eux ne serait
capable de gérer les photos et de reconnaître les
liens qui lient les différents objets entre eux. La
plupart se bornent à gérer une image scannée
monochrome ou, dans de rares cas, du dessin en couleurs, en
convertissant le images matricielles scannées en vrai dessin
vectoriel au format EPS ou autre format vectoriel à
résolution indépendante.
L'analogie est valable pour les fichiers audio et la musique parce
que les fichiers MIDI (et ses variantes comme le KAR et ABC),
SEQ et MUS (etc...) sont analogues à l'EPS, EMS, QuickDraw,
AI, FH, CNV, WEB et autres formats vectoriels, alors que les
fichiers aux formats non compressés ou compressés
sans perte WAV, AIFF ou AU seraient analogues aux formats non
compressés ou compressés sans perte (TIFF, TIF, RIFFn
PSD, BMP, PNG, etc;;;) et les formats MP3, ASF, WMA, RA ou
compressés avec pertes WAV, AIFF, etc... seraient analogues
au JPEG/JPG ou autres formats d'image compressés avec
pertes.
En résumé, les formats de fichiers matriciels (images
bitmap/pixelmap, peu importe comment ils sont compressés) et
leurs pendants audio-numériques sont fabriqués
à partir d'informations analogiques et ils dépendent
donc de la numérisation d'une information analogique.
Alors qu'il peuvent paraître, aux yeux ou aux oreilles,
contenir des objets indépendants ou des pistes
instrumentales, il ne sont en fait qu'une image ou un
enregistrement sonore (deux pour la stéréo et les
couches d'un RIFF ou PSD seraient considérées comme
des pixelmaps, mais pour chacun la même restriction
s'appliquerait) L'ordinateur ne les voit que comme une suite de 1
et de O qui ne contiennent que l'information brute pour tel ou tel
point de l'image (par exemple, les valeurs RGB ou autres d'un pixel
particulier) ou de la piste audio (l'échantillon de l'image
audio) et n'a pas besoin de les gérer (mis à part la
décompression s'ils ont été compressés)
pour les afficher ou les jouer sous une forme que le cerveau
humain, alimenté par les informations visuelles ou
auditives, reconnaîtrait comme extrêmement proches de
l'image ou du son original. Quand vous regardez un fichier TIFF de
la Joconde, vous voyez une belle femme devant un
arrière-plan de nuage et de campagne, mais l'ordinateur ne
"voit" que des rangées de pixels, chaque pixel ayant une
valeur de Rouge, Vert et Bleu (ou Cyan, Magenta et Jaune), chaque
valeur étant composée de huit ou seize bits. Quand
vous écoutez la Cinquième Symphonie de Beethoven sous
forme de fichier WAV, vous entendez les cordes, les cuivres, les
bois et les percussions jouant des notes particulières
à un rythme particulier, mais tout ce que l'ordinateur
"entend" ce sont des échantillons audio codés sur 8
ou 16 bits qui disent à la carte son comment faire vibrer le
haut-parleur dans le temps pour reproduire le son
enregistré.
Mais des formats d'image comme
le AI et l'EPS ou de son comme le MID et le MUS ne contiennent pas
la vraie information d'image ou de son, mais plutôt les
commandes nécessaires pour la générer. Un
fichier EPS d'une esquisse de la Joconde contiendrait les courbes
réelles de l'esquisse dans un format que l'ordinateur
comprend et peut afficher pour l'utilisateur. L'ordinateur peut
manipuler chaque courbe de façon indépendante,
même aux endroits où elle croise d'autres courbes sans
les influencer. De la même façon, un fichier MIDI de
la Cinquième Symphonie possède des pistes ou des
canaux pour chacun des instruments, et les notes,
vélocités et autres commandes pour chacun d'entre eux
codés de façon à ce que l'ordinateur puisse
les comprendre et les manipuler. Vous pourriez changer certaines
notes de tel instrument sans affecter les autres sons produits au
même moment. Vous ne pouvez pas faire cela avec du WAV ou du
MP3.
4- Ce qui existe actuellement
Exactement comme des programmes de
dessin vectoriel existent, il y a aussi des programmes de
conversion monophonique Audio vers MIDI. Et comme avec la
conversion d'images matricielles, la plupart ne sont pas
très bons même avec la limite d'une source mono, bien
que quelques uns se démarquent des autres (Streamline). Les
quelques uns qui essayent de dépasser la limite du mono ont
tendance à accomplir un travail encore pire que les autres.
A moins que, si le format d'échantillonnage audio est du Wav
(ou AIFF, AU, MP3 Real Audi, WMA, Quick Time Audio ou autre,
compressé ou pas) le fichier en question ne
représente le jeu d'un seul instrument solo, d'un instrument
qui ne joue qu'une seule note à la fois. Ce pourrait aussi
être une personne qui chante, siffle de manière
détachée, etc... une mélodie sans
accompagnement (pas même un rythme ou un
métronome).
Un programme bon marché du nom
de "Digital Ear" peut fournir une conversion MIDI correcte de tels
fichiers . A la différence des programmes concurrents,
Digital Ear peut reconnaître et réagir aux changement
non seulement de hauteur, mais aussi de volume et de brillance,
pour les convertir en événement MIDI (par exemple le
volume en expression MIDI [CC n° 11] ou le contrôleur de
respiration [CC n° 2], les messages de Contrôle Continu,
et la brillance [CC n°74] ou le contenu harmonique [CC n°
71], si je me souviens bien). Le fichier MIDI produit peut, bien
sûr, être importé dans Melody ou Harmony
Assistant ou dans n'importe quel autre programme qui gère le
MIDI.
Mais si vous voulez pouvoir prendre un
fichier WAV de, disons, un concert de rock ou de jazz ou du Mormon
Tabernacle Choir chantant le refrain de l'Alléluia
accompagné par un grand orchestre et un orgue à
tuyaux, ou même un quatuor de Barbershop en train
d'interpréter un chant populaire, et convertir tout
ça proprement en pistes ou portées musicales
séparées (sans parler des paroles !) alors, non,
ça n'est tout simplement pas réalisable avec la
technologie actuelle, et pas davantage envisageable avec n'importe
quelle technologie dans un avenir proche. Certains logiciels
prétendent être capables de gérer de l'audio
polyphonique, mais en pratique ils ne peuvent que gérer les
fichiers sources d'un seul instrument polyphonique à la fois
(par exemple le piano ou la guitare) de préférence
utilisé en chambre sourde (pour éliminer la
réverbération qui pourrait être prise pour des
notes supplémentaires) ou d'instruments doux, faibles en
harmoniques (le piano à queue Baldwin, par exemple, mais pas
le piano Kawai, une guitare nylon, mais pas une guitare à
cordes d'acier), etc... et ce uniquement si le paramétrage
est réglé très finement (ce qui n'est pas
toujours facile à faire), etc... Un vrai convertisseur Audio
vers MIDI qui fonctionne effectivement est à des
années lumières et nécessitera des
microprocesseurs des dizaines de fois plus puissants que les
Pentiums 4, Athlons ou PowerPC G4 d'aujourd'hui (ou
même que les Itaniums et les Hammers ou les G5) ainsi qu'une
technologie logicielle et des algorithmes bien meilleurs.
5- Et l'avenir ?
Sera-t-il possible de faire ce que
j'ai décrit dans le premier paragraphe ? Comme je l'ai
précisé, pas avec la technologie informatique
classique. Les réseaux neuronaux, toutefois, sont une autre
histoire. La plupart des enfants peuvent entendre un morceau de
musique complexe et reconnaître les gens qui chantent des
paroles, entendre tous les instruments particuliers (ou des
pupitres qui jouent les mêmes notes) à partir du
fichier mixé, même s'ils ne connaissent pas les noms
des instruments, ils sont capables d'entendre que les sons issus
d'une flûte sont très différents de ceux
émis par un violon, qui à leur tour sont
différents de ceux émis par une guitare
électrique avec une forte distortion ou un effet de fuzz. De
plus, l'enfant fait cela en temps réel et n'a pas besoin de
réfléchir à l'exécution. Les
transformations de Fourier et autres analyses mathématiques
complexes sur des courbes audio analogiques entrent dans sons
cerveau par les nerfs de la cochlée, dans l'oreille interne,
qui réagit aux vibrations du tympan.
Alors, pourquoi est-ce si difficile pour les ordinateurs ? Parce
que les ordinateurs sont linéaires, ils font les
tâches à la suite, par séquence. De telles
tâches, cependant, nécessitent plus qu'une approche de
reconnaissance matricielle, là où le cerveau humain
excelle. Les réseaux neuronaux fonctionnent un peu comme le
cerveau. Une autre possibilité est l'ordinateur quantique
(à base de molécules. J'ai vu la photo d'une
éprouvette qui contenait des trillions de telles
molécules, et on aurait dit un petit tube de bonbons Kool au
citron, un peu trop foncés, mais rien à voir avec ce
qu'on attendrait d'un ordinateur !) qui est aussi (en
théorie) très bon à des tâches non
linéaires.
Mais ils appartiennent encore au futur
(au moins une ou deux décennies) et nous devrons patienter
avant d'en avoir qui puissent traiter n'importe quel fichier audio
et en recracher une représentation exacte dans un format
fondé sur des commandes ou des objets (comme le MIDI ou le
MUS).
Un ordinateur bâti sur la
technologie numérique binaire de Von Neuman/Babbage (et
c'est ce que la plupart des gens appellent ordinateur, que ce soit
le microcontrôleur d'un magnétoscope ou d'un four
micro-ondes, un méga ordinateur du Pentagone ou un
ordinateur portable ou de bureau, que ce soit un PC sous Windows ou
un PowerMac G4, ou même les générations
suivantes, comme l'Itanium 64-bits, le Hammer de chez AMD ou le
PowerPC G5) quelle qu'en soit la vitesse, ne peut tout simplement
pas accomplir cette tâche, du moins à la
manière dont travaille notre cerveau. Notre cerveau n'est
pas une machine numérique binaire de Von Neuman/Babbage. Il
ne travaille pas comme une machine numérique binaire de Von
Neuman/Babbage et, par-dessus tout, l'inverse n'est pas vrai.
La même remarque s'applique pour
la vision : vous pouvez regarder la photo de quelqu'un que vous
connaissez et reconnaître dans la seconde qui est cette
personne sans même y réfléchir, sans aucunement
accomplir de tâche complexe de détection des bords,
d'analyse des contenus, mais même le plus puissant logiciel
d'analyse numérique doit passer par ces étapes pour
arriver à la reconnaissance du visage, et même dans ce
cas, il n'y arrive pas de manière aussi complète et
aussi facile qu'un jeune enfant.
Pour avoir une idée de la
complexité du chemin qu'un ordinateur doit parcourir pour
pouvoir accomplir cette tâche, essayez d'inverser les sens :
notre cortex visuel n'est pas plus fait pour traiter le son et
extraire les information sur les instruments, les notes, les
paroles, etc... que ne l'est un ordinateur. Donc, faites
enregistrer numériquement un ami trois échantillons
WAV (ou AIFF si vous avez un Mac) : un enregistrement de musique de
concert, en direct, avec des voix et des instruments multiples, un
enregistrement dans une usine bruyante et un enregistrement d'une
galerie marchande, un jour d'affluence avant Noël. Votre ami
doit donner aux fichiers des noms ordinaires qui ne
décrivent pas leur contenu, par exemple A.WAV, B.WAV; C.WAV,
au hasard. Votre tâche est simple : vous éteignez le
son de votre ordinateur (ou vous débranches les
haut-parleurs si nécessaire), chargez les fichiers dans un
programme d'édition de son qui vous permette de voir la
représentation des courbes sonores et essayez de deviner
quel fichier est la musique, lequel est celui de l'usine ou d'un
bruit non-musical similaire et lequel est celui de la galerie
marchande. Si vous arrivez seulement à faire cela, je serai
impressionné. Maintenant, en ne vous servant que de vos
yeux, essayez de retrouver les notes et les instruments dans
l'enregistrement de la musique, ou ce que disent les gens dans
l'enregistrement de la foule.
|
Voici un échantillon graphique de deux sons
différents. A première vue, que sont-ils ? Voici un
tuyau, vous avez 3 choix : ce sont tous les deux de la musique,
l'un est de la musique et l'autre de la voix parlée, les
deux sont de la voix parlée. Si l'un est celui d'une
personne qui parle et l'autre de la musique, pouvez-vous les
différencier ? Quels mots sont prononcés, si ce sont
des paroles ? Quelles notes sont jouées et par quel
instrument si c'est de la musique ?
|
|
|
|
C'est la musique
|
Ce sont les paroles
|
Tentez l'expérience inverse.
Enregistrez une image dans un format bitmap non compressé,
puis chargez-la dans un logiciel audio en tant
qu'échantillon brut et jouez-le, cette fois avec le son en
marche et voyons si vous pouvez "entendre" la nature graphique de
l'image en quoi que ce soit.
Donc, il EST effectivement possible de
faire des conversions simples en MIDI de sources audio
monophoniques et même de sources polyphoniques simples d'un
instrument unique qui joue des accords (piano, guitar, etc...) Pour
le moment, Digital Ear reste mon logiciel favori pour la conversion
d'audio monophonique en MIDI car il ne se borne pas à
convertir les notes en MIDI, il analyse et traduit les fluctuations
de tessiture comme le vibrato, les pull-on à la guitare, les
coulisses au trombone, les slides à la guitare, etc... et le
convertir en chute de hauteur sonore, Portamento MIDI, et peut
même saisir les changements de volume et de brillance pour
les convertir en événements MIDI du controlleur de
hauteur du son, à votre convenance. Vous pourriez donc
fredonner un air dans le micro de votre ordinateur, en utilisant un
son vocalique comme "ou" ou "ah", et varier la puissance comme vous
le désirez, disons à la manière d'un
saxophone, et Digital Ear le convertirait en MIDI.
6- Et la conversion de fichiers MIDI
ou MUS en fichier audio ?
Il est TRES FACILE d'aller dans
l'autre sens, de transformer un fichier MIDI en WAV, aussi
facilement que de transformer un fichier EPS en matrice (TIFF,
etc...) En fait, comme les fichiers MIDI et EPS ne
contiennent pas vraiment de son ou d'image, vous ne pouvez
même pas entendre un fichier MIDI ou voir un fichier EPS tant
qu'il n'a pas été converti en audio ou en matrice,
même temporairement. Le convertir de manière
permanente revient simplement à stocker les résultats
de la conversion qu'il faut bien faire malgré tout pour que
les résultats des commandes contenues dans le fichier soient
perceptibles.
Par exemple, quand on utilise Adobe
Illustrator ou n'importe quel autre programme du même type,
on ne voit PAS les courbes de Bézier réelles sur
l'écran. On en voit le rendu matriciel puisque
l'écran est au départ un périphérique
matriciel (dans cet exemple, il y a des exceptions : les traceurs,
les moniteurs à scan vectoriel, etc... mais en
général ce que j'ai dit se vérifie) Quand vous
imprimez un tel fichier sur une imprimante ordinaire (même
une imprimante laser Postcript) vous voyez des points qui ont
été produits par une rastérisation dans
l'imprimante qui a converti les commandes graphiques en
matrice.
Quand vous jouez un fichier MIDI, de
quelque façon que ce soit, le dispositif MIDI
interprète les commandes et génère des courbes
sonores. Une fois qu'elle ont été
générées, elles ont la même nature que
des courbes générées par des fichiers audio
enregistrés.
Dans les deux cas, la sortie de la
conversion peut être stockée dans un fichier et le
fichier résultat es un fichier ordinaire,
compressé ou non, graphique (TIFF, JPG, etc...) ou un
fichier audio (WAV, AIFF, MP3), selon le cas.
7- Qu'en dit Myriad ?
Dans la toute première version
d'Harmony Assistant, en 1994, nous avions intégré un
module de reconnaissance de fréquence (notes). Il marchait
très bien quand un seul instrument jouait une seule note
à la fois, comme c'est le cas pour la voix ou les
instruments à vent. Il marchait aussi pour la plupart des
instruments polyphoniques qui jouent des accords, par exemple une
guitare seule, un piano seul, etc... Mais il ne marchait pas du
tout avec une orchestration complexe, la batterie, etc...
Comme beaucoup d'utilisateurs avaient
essayé d'utiliser cette fonction dans un cadre pour lequel
elle n'avait pas été développée, puis
s'étaient plaints auprès de notre assistance
technique qu'elle ne fonctionnait pas, nous l'avons
supprimée dans les versions suivantes du logiciel. De cet
ensemble de fonction originel ne reste plus dans Harmony Assistant
que la fonction "Accord fin" à laquelle nous n'avons pas
touché depuis 7 ans.
Comme la puissance des ordinateurs ne
fait que croître, nous avons jeté un oeil à ce
qui est actuellement disponible dans ce domaine. Il semble
que les choses ne se soient pas beaucoup améliorées
ces dernières années. Beaucoup de logiciels peuvent
traiter des échantillons d'un instrument monophonique
unique, certains essaient de reconnaître les notes d'un
instrument polyphonique, avec plus ou moins de succès, mais
"aucun" d'entre eux est capable de sortit une partition propre
à partit d'une source complexe, comme le fichier
numérique issu d'une pièce orchestrale ou même
d'un petit groupe de rock. En fait, On peut se demander si
c'est vraiment possible. A mon avis, il n'est pas possible,
à l'heure actuelle, d'obtenir de bons résultats pour
de tels fichiers.
Si vous lisez soigneusement le mode
d'emploi de la plupart de ces logiciels, vous remarquerez qu'on dit
clairement que ca ne marche que pour des instruments solo, que ce
n'est pas destiné à traiter des pistes
numériques tirées d'un CD Mais la première
chose que l'utilisateur fait pour évaluer le logiciel (c'est
ce que j'ai fait, moi aussi) est de l'essayer sur des morceaux
aussi complexes que la 9° symphonie de Beethoven, ou un extrait
du dernier CD d'Iron Maiden, selon ses goûts. Et bien
sûr, ça ne marche pas, et les utilisateurs se
plaignent soit dans les "newsgroups" soit auprès du service
d'assistance de la société (ce que moi je n'ai pas
fait)
C'est la raison pour laquelle nous ne
voulons pas produire une telle fonction dans Harmony Assistant. Car
nous savons bien que, même si nous écrivez en gros
caractères rouges la manière dont elle est
censée être utilisée, la plupart des
utilisateurs vont la tester au-delà de ses limites pour
ensuite casser les pieds de l'assistance technique...
Donc, nous ne créerons sans
doute jamais de fonction de reconnaissance telle que vous
l'attendez. En tout cas, un tel module ne serait pas capable de
sortir une partition de 30 portées à partir d'une
symphonie. Si nous faisons quelque chose dans ce domaine, ce sera
intégré dans un module plus global, tourné
vers la voix, par exemple, de façon à ce qu'il n'y
ait aucune confusion possible quant aux limites de la fonction.
==============================
Analogie entre un logiciel de dessin
et un logiciel de musique
1
|
2
|
Voici votre écran d'ordinateur
grossi de nombreuses fois. Chaque carré s'appelle un pixel
et en fait est un minuscule point qui peut prendre la valeur ON
(blanc ou allumé) ou OFF (noir ou éteint)
|
Si vous tapez la lettre "a" dans un
logiciel de dessin, voici ce que vous voyez à
l'écran, agrandi de nombreuses fois. Votre fichier sera du
type BMP, PICT, PSD, TIFF ou d'un type similaire. C'est la
même chose pour des fichiers audio MP3, WAV ou similaires.
Dans ce cas, nous n'avons qu'un seul instrument jouant une seule,
rien de plus. Si nous avions un mot, cela reviendrait à
avoir autant de notes que de lettres dans le mot.
|
3
|
4
|
Voici ce que voit l'ordinateur : une série de 1 et de 0.
Le 1 indique qu'un point de lumière (ou pixel) est
allumé (ON) et le 0 indique que le pixel est éteint
(OFF).
|
Si vous voulez convertir ce fichier dans un format de type
Illustrator (EPS) ou similaire, vous devriez faire un tracé
automatique (conversion en dessin vectoriel). C'est exactement la
même chose que d'essayer de convertir un fichier WAV en
fichier MIDI ou MUS automatiquement. Le résultat est
éditable à volonté.
|
5
|
6
|
Votre fichier converti aurait cet aspect. A comparer avec le
résultat final d'un fichier MP3 d'une note sur un
instrument, converti en MIDI. Le lignes bleues et les points
indiquent les points à partir desquels le dessin peut
être modifié sans perte de résolution ou de
qualité.
|
Voici ce que vous escomptiez obtenir avec la conversion
automatique. C'est ce à quoi le fichier d'origine MUS ou
MIDI ressemblerait s'il avait été créé
comme tel au départ. Voici ce que vous voyez. Pour voir ce
que voit l'ordinateur, cliquez ici. Vous verrez
une série de commandes qui disent à l'ordinateur ce
qu'il faut qu'il fasse et comment il doit le faire, au lieu d'une
série de 1 et de 0.
|
7
|
8
|
9
|
Donc, voici ce avec quoi vous avez commencé et que vous
espériez que votre conversion automatique vous
donnerait...
|
... ce fichier MUS ou MIDI : un fichier qu'il est possible
d'éditer à loisir, mais...
|
... voici le résultat final de votre conversion
automatique et c'est le mieux que vous puissiez espérer avec
un seul instrument jouant une seule note dans les meilleurs
conditions possibles.
|
10
|
Bon, tout ceci est proche de l'enregistrement d'un opéra,
un orchestre de jazz ou des Rolling Stones en train de jouer et
chanter à plusieurs voix, instruments et accords, etc... Ce
que vous voulez faire, c'est convertir le tout automatiquement en
quelque chose qui serait exactement identique mais qui pourrait
être édité comme on veut par la suite, en
espérant que tout ce qui appartient à l'arbre sur la
droite soit groupé dans un ordre logique et qu'il en soit de
même pour tous les autres éléments du tableau,
que vous puissiez l'éditer facilement (les notes
jouées par le piano sont toutes sur la même
portée avec les vélocités, les durées
correctes, etc... même chose pour tous les instruments)
Pouvez-vous imaginer la tâche ? A l'heure actuelle, il est
impossible d'y arriver avec aucun des logiciels graphiques du
marché et nous avons de sérieux doutes que ça
soit possible dans un proche avenir. C'est la même chose pour
la musique.
|
==============================
Écrit par Joel Ellis Rea "ComaLite J". Commentaire de Myriad
Software
Compilé et traité par Laurier Napper
Illustrations et peinture de Laurier Nappert
Novembre 2001
Bidouillage de traduction : Jean-Pierre Butin / janvier 2005
Accueil >
Ressources >
Partage d'expérience >
WAV, AIFF, MP3, MPEG, AU
et la conversion de toutes les
autres formes de fichiers audio au format MIDI ou
MUS