Le Blog de Myriad -



Myriad Blog 1.3.0	Thursday, Apr 18^th, 2024 at 02:12pm

The Myriad team shares here its everyday life and its mood

Monday, Nov 4^th, 2013 at 04:48pm

Kooplet et la collecte de PDF

PDFtoMusic (version Standard ou Pro) ne traite que les fichiers PDF directement issus d'un logiciel d'édition de partition. Les images scannées ne sont pas utilisables. C'est d'ailleurs cette limitation qui fait la force du programme, car la qualité de la reconnaissance dépasse alors celle des logiciels qui traitent de simples images.

Kooplet, lorsqu'il collecte les morceaux destinés à être indexés dans la base, ne sait pas à quel type de PDF il a affaire a priori.

Jusqu'alors, il procédait donc comme ceci :

Les fichiers PDF trouvés sur les sites par nos multiples"crawlers" étaient téléchargés par ces derniers, puis envoyés au programme central qui les stockait dans une base de données privée.

Un ou plusieurs exemplaires de PDFtoMusic qui tournent en permanence sur nos machines demandaient alors au programme central de leur fournir un fichier PDF afin qu'ils puissent le traiter.
Le résultat du traitement était alors renvoyé au programme central, qui l'ajoutait à la base de données publique si le PDF avait pu être traité.

Le problème est que les fichiers PDF contenant des pages scannées suivaient le processus jusqu'au bout, et n'étaient éliminés qu'à la fin, lors du traitement par PDFtoMusic. Etant donné qu'ils sont généralement assez volumineux, cela prenait pas mal de place, occupait de la bande passante sur le réseau et faisait souffrir la machine qui faisait tourner PDFtoMusic.

Nous avons donc mis en place un test rapide qui détecte ces fichiers PDF, dès la première étape, juste après leur téléchargement. Ils sont ainsi éliminés très rapidement, ce qui allège sensiblement la charge de travail du reste du processus.
La machine qui fait tourner PDFtoMusic travaille moins, donc elle chauffe moins, donc le ventilateur tourne moins vite, donc elle fait moins de bruit, donc nous pouvons mieux nous concentrer sur les "sujets plus importants" chers à tous nos amis grincheux.

by Olivier Guillion

Comments

Comment from Cri-Cri

Monday, Nov 4^th, 2013 at 05:17pm

Les amis de mes amis...

[...] nous pouvons mieux nous concentrer sur les "sujets plus importants" chers à tous nos amis grincheux [...]

Vos amis grincheux sont peut-être moins vos ennemis que certains de vos amis "souriants"

La caresse ne fait pas bon ménage avec la sincérité, et le progrès ne peut pas se passer de la vérité...

Comment from bubu42

Monday, Nov 4^th, 2013 at 06:36pm

A propos de scans

Justement, puisqu'il est question de documents scannés, qu'en est-il de la tentative de reconnaissance de tels documents ?
Il me semble que les choses étaient bien parties, en 2006 ou 2007, avec ScanToMusic. Ce qui serait génial, c'est que les recherches (et trouvailles) faites à cette occasion puissent être couplées à ce que fait PdfToMusic, non ?

Sorting

Most recent first
Oldest first

Top of page

Legal information

Last update: