Facebook vient de rendre open source un modèle d'IA avec des capacités de traduction impressionnantes dans jusqu'à 100 langues sans avoir besoin de les traduire d'abord en anglais comme étape intermédiaire, ce que l'on retrouve souvent sur les outils de traduction basés sur l'intelligence artificielle d'aujourd'hui.
Ce modèle d’IA s’appelle M2M-100 et n’en est actuellement qu’au niveau d’un projet de recherche. Cependant, une fois les étapes de développement terminées (dans un avenir proche), il peut être utilisé pour résoudre complètement la tâche de traduction des publications et des commentaires des utilisateurs de Facebook - à partir de différentes langues à travers le monde. Selon les dernières statistiques, actuellement plus des 2/3 des utilisateurs de Facebook n'utilisent pas l'anglais pour communiquer sur cette plateforme de réseau social.
«Nos chercheurs en IA ont travaillé dur pendant de nombreuses années pour construire et développer un modèle général unique capable de comprendre une variété de langages dans une variété de situations et de tâches. Un modèle unique prenant en charge toutes les langues, tous les dialectes et des traductions continuellement mises à jour et optimisées nous aidera à offrir une meilleure expérience à des milliards d'utilisateurs de Facebook », a déclaré la chercheuse AI Facebook Angela Fan dans un article publié sur blogpost.al.

Le nouveau modèle d'IA peut prendre en charge de nombreux types de traductions sur Facebook
M2M-100 est formé sur un ensemble de données de 7,5 milliards de paires de phrases courantes provenant de 100 langues différentes, toutes collectées sur Internet. Facebook affirme que les ressources sont toutes open source et utilisent des données publiques.
Pour gérer une base de données de formation d'une telle envergure, les chercheurs de Facebook AI se concentrent principalement sur les traductions des langues les plus couramment demandées, tout en limitant les phrases rares et les langues rencontrées. Ils regrouperont ensuite ces langues en 14 groupes différents, en fonction de similitudes linguistiques, géographiques et culturelles. Cette approche est considérée comme plus optimale car les habitants des pays partageant les caractéristiques communes ci-dessus bénéficieront davantage de traductions optimisées dans un groupe linguistique donné.
Les langues appartenant à différents groupes seront reliées par un petit nombre de langues passerelles. Dans l'exemple du groupe linguistique indien, l'hindi, le bengali et le tamoul servent de langues passerelles pour les langues indo-aryennes. Tout au long du processus de collecte et de sélection, les chercheurs ont obtenu un ensemble de données composé de 7,5 milliards de phrases parallèles, correspondant à 2 200 directions de traduction.
Pour les langues dépourvues de données de traduction de qualité, les chercheurs ont utilisé une méthode appelée rétro-traduction pour créer des traductions synthétiques pouvant compléter les données extraites.
Dans l'ensemble, la combinaison de ces techniques a donné naissance au premier modèle de traduction automatique multilingue (MMT) au monde capable de traduire entre 100 langues sans recourir à des données. L'anglais est la norme, selon une déclaration de Facebook.
« Par exemple, normalement, lors de la traduction du chinois vers le français, la plupart des modèles de traduction multilingues actuels seront centrés sur l'anglais, ils traduiront le chinois vers l'anglais et de l'anglais vers le français, car les données de formation en anglais sont les plus disponibles et les plus populaires. En suivant ce motif, notre modèle traduit directement les données chinoises en français pour garantir une rétention maximale du sens de la traduction".
Actuellement, M2M-100 n'est encore intégré dans aucun produit, mais les tests montrent qu'il peut prendre en charge de nombreux types de traductions différents sur Facebook, où les gens publient encore du contenu toutes les heures dans plus de 160 langues.