Nous nous sommes à nouveau heurtés à un problème de détermination automatique de langue par Virtual Singer. Le filtre de détermination Bayésien évalue les probabilité de présence de groupes de lettres consécutives dans le flux de caractères des paroles des chansons. Par exemple, s'il y a écrit : "Le temps des cerises", il va étudier le flux : "LETEMPSDESCERISES", en évaluant la probabilité de trouver tout à tour dans des textes français, anglais, italiens... les combinaisons LE, ET, TE, EM, PS, SD, DE, ES, ... ainsi que LET, ETE, TEM, EMP, MPS... En comparant les résultats de chacune des langues, il détermine laquelle est la plus probable. Mais, si les paroles contiennent une syllabe répétée de nombreuses fois par exemple: "You Oh La La La La La La Oh Yeah La La La La La La", le résultat dépendra principalement de la probabilité de rencontrer la syllabe "La" dans chacune des langues. Le texte d'exemple est en anglais, mais "La" a plus de chance de se trouver dans des textes français (ou espagnols). Etant donné que cette syllabe est surreprésentée dans le texte à analyser, le calcul est faussé et tend à trouver "français" plutôt qu'anglais. Nous avons donc mis en place un système qui limite le nombre de combinaisons identiques à analyser dans un même texte. Dans l'exemple, le programme analysera donc "YOUOHLAYEAH", en supprimant les "La" et "Oh" répétés, et trouvera probablement l'anglais. Ceci devrait donc permettre une meilleure détermination de la langue, mais devra d'abord être testé sur un maximum de fichiers avant d'être validé. |