PDFtoMusic (version Standard ou Pro) ne traite que les fichiers PDF directement issus d'un logiciel d'édition de partition. Les images scannées ne sont pas utilisables. C'est d'ailleurs cette limitation qui fait la force du programme, car la qualité de la reconnaissance dépasse alors celle des logiciels qui traitent de simples images. Kooplet, lorsqu'il collecte les morceaux destinés à être indexés dans la base, ne sait pas à quel type de PDF il a affaire a priori. Jusqu'alors, il procédait donc comme ceci : Les fichiers PDF trouvés sur les sites par nos multiples"crawlers" étaient téléchargés par ces derniers, puis envoyés au programme central qui les stockait dans une base de données privée. Un ou plusieurs exemplaires de PDFtoMusic qui tournent en permanence sur nos machines demandaient alors au programme central de leur fournir un fichier PDF afin qu'ils puissent le traiter. Le résultat du traitement était alors renvoyé au programme central, qui l'ajoutait à la base de données publique si le PDF avait pu être traité. Le problème est que les fichiers PDF contenant des pages scannées suivaient le processus jusqu'au bout, et n'étaient éliminés qu'à la fin, lors du traitement par PDFtoMusic. Etant donné qu'ils sont généralement assez volumineux, cela prenait pas mal de place, occupait de la bande passante sur le réseau et faisait souffrir la machine qui faisait tourner PDFtoMusic. Nous avons donc mis en place un test rapide qui détecte ces fichiers PDF, dès la première étape, juste après leur téléchargement. Ils sont ainsi éliminés très rapidement, ce qui allège sensiblement la charge de travail du reste du processus. La machine qui fait tourner PDFtoMusic travaille moins, donc elle chauffe moins, donc le ventilateur tourne moins vite, donc elle fait moins de bruit, donc nous pouvons mieux nous concentrer sur les "sujets plus importants" chers à tous nos amis grincheux. |