Signes diacritiques
Nous tous écrivons souvent des messages ou autres textes électroniques sans signes diacritiques. Et nous tous savons comme il est pénible de restituer les diacritiques manquants. De plus, on n'est jamais sûr d'avoir réussi à compléter l'ensemble des diacritiques manquants même en utilisant un correcteur d'orthographe. Celui-ci n'est pas en mesure de révéler toutes les erreurs de ce type car il existe bien souvent d'autres mots qui s'écrivent de la même manière, mais sans un diacritique.
Notre société a développé un outil qui peut vous aider à restituer les diacritiques manquants grâce à deux procédés :
1. le module associe à chaque mot sans signes diacritiques toutes les variantes correctes ayant des signes diacritiques
2. après, tous les signes diacritiques manquants sont restitiués à l'aide d'un modèle statistique
Aspect linguistique
L'outil utilise la description formelle de la morphologie qui l'aide à détecter tous les mots qui manquent les diacritiques et à y associer la forme correcte avec tous les diacritiques nécessaires. Parfois, on peut trouver deux ou plusieurs formes qui sont correctes comme telles (le mot sur peut être soit la présposition sur soit l'adjectif sûr écrit sans accent circonflexe). Les traducteurs automatiques ne sont pas en mesure de trouver une solution satisfaisante. De ce fait, il s'avère nécessaire de recourir à des méthodes statistiques basées sur l'analyse de vastes corpus de textes corrects et qui prennent en considération tous les éléments de la phrase pour désigner la variante la plus probable.
Solutions logicielles
La première partie de la solution est très simple - l'outil propose toutes les variantes avec signes diacritiques pour chaque mot qui n'en a pas. Pour le faire, il utilise un dictionnaire morphologique de la langue en question. Un tel dictionnaire n'occupe habituellement plus de 1 MB.
La deuxième partie est déjà plus complexe et plus exigeante en espace de stockage. Comme elle comporte un modèle statistique mentionné ci-dessus, elle occupe quelques gigaoctets. Vous pouvez également introduire le texte en format HTML, le module restitue les diacritiques manquants sans changer la forme originale du texte.