Recientemente, Google lanzó oficialmente Gemini, su modelo de IA más avanzado y general hasta la fecha.

Este Gemini 1.0 se ofrecerá en tres tamaños diferentes, incluidos: Gemini Ultra, Gemini Pro y Gemini Nano, para satisfacer las necesidades de uso flexible, desde centros de datos hasta dispositivos móviles. Entre ellos, Gemini Ultra es el modelo más grande y potente.
Gemini está construido de manera multimodal, capaz de resumir, operar y combinar muchos tipos diferentes de información, incluidos texto, código, audio, imágenes y video.
Según los resultados de las pruebas publicadas por Google, la versión más potente, Gemini Ultra, obtuvo una puntuación del 90% en la prueba Massive Multitask Language Understanding (MMLU - Massive Multitask Language Understanding). Este modelo sintetiza conocimientos de 57 sujetos para resolver problemas, siendo la primera IA en superar a los humanos en el nivel experto, que obtuvo una puntuación del 89,8% en la misma prueba. Mientras tanto, GPT-4 logró el 87%, LLAMA-2 logró el 68% y Claude 2 de Anthropic logró el 78,5%.
Además, Gemini Ultra también obtuvo una puntuación del 59,4 % en capacidades MMMU (comprensión multimodal masiva a través de multidisciplinarios), superando 30 de 32 estándares en investigación y desarrollo de modelos de lenguajes grandes.

Correlacionando las versiones tridimensionales del modelo Gemini AI. Foto: Google
Demis Hassabis, director ejecutivo de Google DeepMind, representante del equipo Gemini, dijo que el objetivo de la compañía es construir una nueva generación de modelos de IA que sean más útiles e intuitivos, similares a un socio para los usuarios.
Además de su potente rendimiento, Gemini 1.0 también está capacitado para reconocer texto, imágenes, sonidos y más al mismo tiempo, lo que le ayuda a comprender mejor la información y proporcionar respuestas a preguntas sobre un tema complejo. Este modelo también se puede interpretar y codificar en Python, Java, C++ y Golang.
La versión Gemini Ultra es la versión para las tareas más complejas y aún está en pruebas. Gemini Nano es para tareas realizadas en dispositivos móviles. Pixel 8 Pro es el primer dispositivo equipado con esta IA y tendrá algunas capacidades adicionales como resumir contenido de grabación y respuestas inteligentes en el teclado Gboard. Google lanzará estas dos versiones al mercado el próximo año.
Mientras tanto, la versión Pro que se utiliza actualmente en el chatbot Bard permite a los usuarios cambiar una serie de requisitos de comprensión lectora, resúmenes, razonamiento, programación y planificación. Bard usando Gemini Pro está actualmente disponible en 180 países y territorios, pero solo admite inglés.