Nous avons maintenant passé en revue la plupart des algorithmes de reconnaissance de caractères. Nous commençons à avoir une vision claire de ce qui peut fonctionner et des problèmes inhérents à chaque méthode. Un bon taux de reconnaissance pourrait être effectué en écrivant un sous-programme spécifique pour chaque caractère, du genre : "s'il y a un demi-cercle en bas à gauche, et une grande ligne verticale à droite, c'est un 'd' ". Mais nous préférerions éviter ce genre de chose, car cela empêche une amélioration de l'algorithme par apprentissage. Pour que le résultat change, il faut modifier le programme... Une autre méthode, l'une des plus anciennes, qui donne étonnamment de bons résultats, est la comparaison graphique des matrices de points. Mais cette méthode reconnaît mal les fontes ou les styles encore jamais rencontrés. L'extraction de données caractéristiques du caractères (position des trous et des bosses, courbes, lignes, etc) permet d'atteindre d'assez bons taux avec seulement une poignée de données décrivant le caractère. Nous essayons donc d'implémenter une méthode "mixte", combinant l'extraction de données caractéristiques et une reconnaissance de la matrice de points. Sachant que les deux méthodes, indépendamment, trouvent toujours le bon résultat dans les 5 premiers, la combinaison des deux devrait donc augmenter sensiblement le taux de reconnaissance. La manière de combiner les deux n'a, d'après la documentation que nous avons pu trouver, jamais été mise en oeuvre jusqu'ici. Est-ce parce que cela ne fonctionne pas, ou parce que personne n'y a pensé avant ? Les tests de ces prochains jours nous permettront de le savoir. |