Facebook heeft zojuist een AI-model open source gemaakt met indrukwekkende vertaalmogelijkheden in maximaal 100 talen, zonder dat deze als tussenstap eerst naar het Engels hoeven te worden vertaald, wat vaak wordt aangetroffen bij vertaaltools die zijn gebaseerd op de hedendaagse kunstmatige intelligentie.
Dit AI-model heet M2M-100 en bevindt zich momenteel alleen op onderzoeksprojectniveau. Zodra de ontwikkelingsfasen echter zijn voltooid (in de nabije toekomst), kan het worden gebruikt om de taak van het vertalen van berichten en opmerkingen van Facebook-gebruikers volledig op te lossen - vanuit verschillende talen in verschillende talen over de hele wereld. Volgens de laatste statistieken gebruikt momenteel meer dan 2/3 van de Facebook-gebruikers geen Engels om op dit sociale netwerkplatform te communiceren.
“Onze AI-onderzoekers hebben vele jaren hard gewerkt om één enkel algemeen model te bouwen en te ontwikkelen dat een verscheidenheid aan talen kan begrijpen in een verscheidenheid aan situaties en taken. Eén enkel model dat alle talen, dialecten en voortdurend bijgewerkte en geoptimaliseerde vertalingen ondersteunt, zal ons helpen een betere ervaring te bieden aan miljarden Facebook-gebruikers ”, aldus onderzoeker AI Facebook Angela Fan in een bericht op blogpost.al.

Het nieuwe AI-model kan veel verschillende soorten vertalingen op Facebook ondersteunen
M2M-100 is getraind op een dataset van 7,5 miljard veelvoorkomende zinsparen uit 100 verschillende talen, allemaal verzameld via internet. Facebook zegt dat de bronnen allemaal open source zijn en gebruik maken van openbare gegevens.
Om zo’n grootschalige trainingsdatabase te beheren, richten Facebook AI-onderzoekers zich vooral op de meest gevraagde taalvertalingen, terwijl ze zeldzame zinnen en talen beperken. Ze zullen deze talen vervolgens in 14 verschillende groepen groeperen, op basis van taalkundige, geografische en culturele overeenkomsten. Deze aanpak wordt als optimaal beschouwd omdat mensen in landen die de bovengenoemde gemeenschappelijke kenmerken delen, meer zullen profiteren van geoptimaliseerde vertalingen in een bepaalde taalgroep.
Talen die tot verschillende groepen behoren, zullen met elkaar verbonden worden via een klein aantal brugtalen. In het voorbeeld van de Indiase taalgroep fungeren Hindi, Bengaals en Tamil als brugtalen voor de Indo-Arische talen. Door het hele verzamel- en selectieproces zijn de onderzoekers tot een dataset gekomen die bestaat uit 7,5 miljard parallelle zinnen, wat overeenkomt met 2.200 vertaalrichtingen.
Voor talen die geen kwalitatieve vertaalgegevens hebben, hebben onderzoekers een methode gebruikt die back-translation wordt genoemd om synthetische vertalingen te creëren die de verzamelde gegevens kunnen aanvullen.
Over het geheel genomen resulteerde de combinatie van deze technieken in 's werelds eerste meertalige machinevertalingsmodel (MMT) dat tussen 100 talen kan vertalen zonder afhankelijk te zijn van gegevens. Engels is de standaard, aldus een verklaring van Facebook.
"Normaal gesproken zullen de meeste huidige meertalige vertaalmodellen bij het vertalen van Chinees naar Frans Engels-gericht zijn, ze zullen Chinees naar Engels en van Engels naar Frans vertalen, omdat Engelse trainingsgegevens het meest beschikbaar en populair zijn. In plaats daarvan zijn Engelse trainingsgegevens het meest beschikbaar en ook populair. Door dit motief te volgen, vertaalt ons model Chinese gegevens rechtstreeks naar het Frans om een maximale betekenis van de vertaling te garanderen.
Momenteel is M2M-100 nog in geen enkel product geïntegreerd, maar uit tests blijkt dat het veel verschillende soorten vertalingen op Facebook kan ondersteunen, waar mensen nog steeds elk uur inhoud in meer dan 160 talen plaatsen.