Après mise au propre de certaines parties de gestion de la base de données qui pouvaient poser problème, nous avons relancé la collecte de fichiers, en vérifiant régulièrement l'intégrité des bases de données, ainsi que les rapports dans les fichiers-journaux. Aucun problème sur ...
|
|
|
by Olivier Guillion | | | |
|
Nous avons passé une bonne partie de la journée à tenter de localiser le problème de corruption de la base de données de Kooplet. L'ennui, c'est que cela ne semble se produire que dans de rares cas, après une collecte de plusieurs milliers de fichiers. Nous avons essayé ...
|
|
|
by Olivier Guillion | | | |
|
Les appels à la lecture de pages et de fichier sur Internet par le crawler ont été rendus non bloquants, même sur Windows. Pour ce faire, un processus indépendant est lancé pour l'envoi de commande et la lecture du résultat sur Internet, et si ce processus ne répond pas au bout d'un délai ...
|
|
|
by Olivier Guillion | | | |
|
Nous avons terminé de vérifier le système de parcours des pages Web (crawler), repérage et analyse des fichiers musicaux, et conversion de ces derniers en données utilisables par le moteur de recherche. Nous avons reconstitué la liste d'une cinquantaine de sites Web qui avait servi ...
|
|
|
by Olivier Guillion | | | |
|
La nouvelle version du robot d'indexation (crawler) de Kooplet a tourné ce week-end, sur un petit nombre de sites (moins d'une dizaine). Il a indexé ainsi un petit lot de 4000 fichiers. La partie client du crawler demande peu de ressources sur la machine sur laquelle elle tourne, ...
|
|
|
by Olivier Guillion | | |
| |
|
Nous avançons toujours sur le système de balayage des sites. Nous nous sommes heurtés à un problème assez compliqué qui n'avait jamais été résolu convenablement dans la version précédente du "crawler" : certains sites, pour être parcourus correctement, nécessitent un enregistrement ...
|
|
|
by Olivier Guillion | | |
| |
|
Le module serveur et le module client du "crawler" de kooplet sont écrits, et fonctionnels. Le module client est très léger, et consomme une puissance de calcul négligeable (jamais plus de 1% de la puissance CPU). Il devrait pouvoir tourner en tâche de fond sans effet notable. ...
|
|
|
by Olivier Guillion | | | |
|
Avant de relancer l'indexation des sites musicaux par Kooplet, nous avons décidé de reprendre à la base le "crawler", c'est-à-dire le programme qui se balade sur Internet pour repérer les fichiers intéressants. En effet, il avait été programmé assez à la va-vite, et dans ...
|
|
|
by Olivier Guillion | | |
| |
|
|