Microsoft anunció DeepSpeed, una nueva biblioteca de aprendizaje profundo que puede admitir el entrenamiento de modelos de IA a gran escala

Microsoft anunció DeepSpeed, una nueva biblioteca de aprendizaje profundo que puede admitir el entrenamiento de modelos de IA a gran escala

Microsoft Research recientemente causó revuelo en el mundo de la investigación de inteligencia artificial (IA) cuando anunció el desarrollo exitoso de DeepSpeed, una biblioteca de optimización de aprendizaje profundo que se puede utilizar para entrenar modelos de IA gigantes con una escala de hasta 100 mil millones de parámetros.

En el entrenamiento de IA, cuanto más grandes sean los modelos de lenguaje natural que tenga, mayor será la precisión. Sin embargo, entrenar grandes modelos de lenguaje natural consume mucho tiempo y los costos involucrados no son pequeños. DeepSpeed ​​​​nació para superar todas las dificultades anteriores: mejorar la velocidad, el costo, la escala de entrenamiento y la usabilidad.

Además, Microsoft también mencionó que DeepSpeed ​​​​también incluye ZeRO (Zero Redundancy Optimizer), una técnica de optimización paralela que ayuda a minimizar la cantidad de recursos necesarios para los modelos, al mismo tiempo que ayuda a aumentar la cantidad de parámetros que se pueden entrenar. Utilizando una combinación de DeepSpeed ​​​​y ZeRO, los investigadores de Microsoft pudieron desarrollar con éxito un nuevo modelo de Generación de Lenguaje Natural de Turing (Turing-NLG), el modelo de lenguaje más grande en la actualidad con 17 mil millones de parámetros.

Microsoft anunció DeepSpeed, una nueva biblioteca de aprendizaje profundo que puede admitir el entrenamiento de modelos de IA a gran escala

Algunos aspectos destacados de DeepSpeed:

  • Escala: Los modelos actuales de IA grandes y avanzados, como OpenAI GPT-2, NVIDIA Megatron-LM y Google T5, tienen una escala de 1.500 millones, 8.300 millones y 11.000 millones de parámetros, respectivamente. La etapa 1 de ZeRO en DeepSpeed ​​puede proporcionar soporte del sistema para ejecutar modelos con hasta 100 mil millones de parámetros, que es 10 veces mayor que el modelo más grande de Google.
  • Velocidad: los aumentos de rendimiento registrados variarán según la configuración del hardware. En clústeres de GPU NVIDIA con conexiones de ancho de banda bajo (sin NVIDIA NVLink o Infiniband), DeepSpeed ​​logra una mejora de rendimiento de 3,75 veces en comparación con el uso de Megatron-LM solo para el modelo GPT-2 estándar con 1,5 mil millones de parámetros. En clústeres NVIDIA DGX-2 con conexiones de gran ancho de banda, para modelos con entre 20 y 80 mil millones de parámetros, DeepSpeed ​​es de 3 a 5 veces más rápido.
  • Coste: gracias a las mejoras en la velocidad, los costes de formación también se optimizan significativamente. Por ejemplo, para entrenar un modelo con 20 mil millones de parámetros, DeepSpeed ​​requiere 3 veces menos recursos de lo habitual.
  • Usabilidad: Solo se necesitan unos pocos cambios menores en el código para que los modelos actuales puedan pasar a utilizar DeepSpeed ​​y ZeRO. DeepSpeed ​​​​no requiere rediseño de código ni refactorización de modelos.

Microsoft tiene código abierto para DeepSpeed ​​y ZeRO en GitHub , consulte.


Europa establecerá el grupo de trabajo ChatGPT

Europa establecerá el grupo de trabajo ChatGPT

El organismo que une a los organismos nacionales de vigilancia de la privacidad de Europa dijo el jueves que había creado un grupo de trabajo dedicado a ChatGPT.

La IA predice la hora de la muerte humana con un 78% de precisión

La IA predice la hora de la muerte humana con un 78% de precisión

Científicos daneses y estadounidenses han colaborado para desarrollar un sistema de inteligencia artificial llamado life2vec, capaz de predecir el momento de la muerte humana con gran precisión.

La IA predice enfermedades urinarias sólo por el sonido de la orina

La IA predice enfermedades urinarias sólo por el sonido de la orina

Un algoritmo de inteligencia artificial llamado Audioflow puede escuchar el sonido de la micción para identificar de manera efectiva y exitosa los flujos anormales y los correspondientes problemas de salud del paciente.

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

El envejecimiento y la disminución de la población de Japón han dejado al país sin un número significativo de trabajadores jóvenes, especialmente en el sector de servicios.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Un usuario de Reddit llamado u/LegalBeagle1966 es uno de los muchos usuarios enamorados de Claudia, una chica con apariencia de estrella de cine que a menudo comparte seductores selfies, incluso desnudos, en esta plataforma.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

Microsoft acaba de anunciar que 12 empresas tecnológicas más participarán en su programa AI for Good.

La IA recrea personajes de Dragon Ball en carne y hueso

La IA recrea personajes de Dragon Ball en carne y hueso

El usuario @mortecouille92 ha puesto a trabajar el poder de la herramienta de diseño gráfico Midjourney y ha creado versiones excepcionalmente realistas de personajes famosos de Dragon Ball como Goku, Vegeta, Bulma y el anciano Kame. .

7 técnicas para mejorar las respuestas de ChatGPT

7 técnicas para mejorar las respuestas de ChatGPT

Con solo agregar algunas condiciones o configurar algunos escenarios, ChatGPT puede brindar respuestas más relevantes a sus consultas. Veamos algunas formas en que puede mejorar la calidad de sus respuestas de ChatGPT.

Maravíllate ante las hermosas pinturas dibujadas por inteligencia artificial

Maravíllate ante las hermosas pinturas dibujadas por inteligencia artificial

Midjourney es un sistema de inteligencia artificial que recientemente ha causado "fiebre" en la comunidad en línea y en el mundo de los artistas debido a sus pinturas extremadamente hermosas que no son inferiores a las de artistas reales.

Este modelo de IA fue uno de los primeros expertos en descubrir noticias sobre el brote de neumonía de Wuhan.

Este modelo de IA fue uno de los primeros expertos en descubrir noticias sobre el brote de neumonía de Wuhan.

Días después de que China anunciara el brote, con acceso a datos mundiales de ventas de billetes de avión, el sistema de inteligencia artificial de BlueDot siguió prediciendo con precisión la propagación del virus Wuhan Corona a Bangkok, Seúl, Taipei y Tokio.