Récemment, Google a officiellement lancé Gemini, son modèle d'IA le plus avancé et le plus général jamais créé.

Ce Gemini 1.0 sera proposé en trois tailles différentes dont : Gemini Ultra, Gemini Pro et Gemini Nano pour répondre aux besoins d'utilisation flexibles, des centres de données aux appareils mobiles. Parmi eux, Gemini Ultra est le modèle le plus grand et le plus puissant.
Gemini est construit de manière multimodale, capable de résumer, d'exploiter et de combiner de nombreux types d'informations différents, notamment du texte, du code, de l'audio, des images et de la vidéo.
Selon les résultats des tests publiés par Google, la version la plus puissante, Gemini Ultra a obtenu un score de 90 % au test Massive Multitask Language Understanding (MMLU - Massive Multitask Language Understanding). Ce modèle synthétise les connaissances de 57 sujets pour résoudre des problèmes, étant la première IA à surpasser les humains au niveau expert, qui a obtenu un score de 89,8 % au même test. Pendant ce temps, GPT-4 a atteint 87 %, LLAMA-2 a atteint 68 % et Claude 2 d'Anthropic a atteint 78,5 %.
En outre, Gemini Ultra a également obtenu un score de 59,4 % en termes de capacités MMMU (compréhension multimodale massive à travers plusieurs disciplines), dépassant 30 sur 32 normes en matière de recherche et de développement de grands modèles de langage.

Corrélation des versions tridimensionnelles du modèle Gemini AI. Photo : Google
Demis Hassabis, PDG de Google DeepMind, représentant de l'équipe Gemini, a déclaré que l'objectif de l'entreprise est de créer une nouvelle génération de modèles d'IA plus utiles et intuitifs, semblables à un partenaire pour les utilisateurs.
En plus de ses performances puissantes, Gemini 1.0 est également formé pour reconnaître du texte, des images, des sons et bien plus encore en même temps, l'aidant à mieux comprendre les informations et à fournir des réponses aux questions sur un sujet complexe. Ce modèle peut également être interprété et codé en Python, Java, C++ et Golang.
La version Gemini Ultra est la version destinée aux tâches les plus complexes et est toujours en test. Gemini Nano est destiné aux tâches effectuées sur des appareils mobiles. Le Pixel 8 Pro est le premier appareil équipé de cette IA et disposera de fonctionnalités supplémentaires telles que la synthèse du contenu d'enregistrement et les réponses intelligentes sur le clavier Gboard. Google lancera ces deux versions sur le marché l'année prochaine.
Pendant ce temps, la version Pro actuellement utilisée dans le chatbot Bard permet aux utilisateurs de répondre à un certain nombre d'exigences en matière de compréhension écrite, de synthèse, de raisonnement, de programmation et de planification. Bard utilisant Gemini Pro est actuellement disponible dans 180 pays et territoires mais ne prend en charge que l'anglais.