Microsoft a annoncé DeepSpeed, une nouvelle bibliothèque dapprentissage en profondeur capable de prendre en charge la formation de modèles dIA à très grande échelle.

Microsoft a annoncé DeepSpeed, une nouvelle bibliothèque dapprentissage en profondeur capable de prendre en charge la formation de modèles dIA à très grande échelle.

Microsoft Research a récemment fait sensation dans le monde de la recherche en intelligence artificielle (IA) en annonçant le développement réussi de DeepSpeed, une bibliothèque d'optimisation d'apprentissage en profondeur qui peut être utilisée pour former des modèles d'IA géants avec une échelle allant jusqu'à 100 milliards de paramètres.

Dans la formation en IA, plus les modèles de langage naturel dont vous disposez sont grands, plus la précision sera élevée. Cependant, la formation de grands modèles de langage naturel prend beaucoup de temps et les coûts impliqués ne sont pas minimes. DeepSpeed ​​​​est né pour surmonter toutes les difficultés ci-dessus : améliorer la vitesse, le coût, l'échelle de formation et la convivialité.

De plus, Microsoft a également mentionné que DeepSpeed ​​​​inclut également ZeRO (Zero Redundancy Optimizer), une technique d'optimisation parallèle qui permet de minimiser la quantité de ressources nécessaires aux modèles, tout en contribuant à augmenter le nombre de paramètres pouvant être entraînés. En utilisant une combinaison de DeepSpeed ​​​​et ZeRO, les chercheurs de Microsoft ont pu développer avec succès un nouveau modèle Turing Natural Language Generation (Turing-NLG) - le plus grand modèle de langage aujourd'hui avec 17 milliards de paramètres.

Microsoft a annoncé DeepSpeed, une nouvelle bibliothèque d'apprentissage en profondeur capable de prendre en charge la formation de modèles d'IA à très grande échelle.

Quelques points forts de DeepSpeed :

  • Échelle : les grands modèles d'IA avancés actuels tels que OpenAI GPT-2, NVIDIA Megatron-LM et Google T5 ont une échelle de 1,5 milliard, 8,3 milliards et 11 milliards de paramètres, respectivement. ZeRO stage 1 dans DeepSpeed ​​​​peut fournir une prise en charge système pour exécuter des modèles comportant jusqu'à 100 milliards de paramètres, soit 10 fois plus grand que le plus grand modèle de Google.
  • Vitesse : les augmentations de débit enregistrées varient en fonction de la configuration matérielle. Sur les clusters GPU NVIDIA avec des connexions à faible bande passante (sans NVIDIA NVLink ou Infiniband), DeepSpeed ​​​​obtient une amélioration du débit de 3,75 fois par rapport à l'utilisation de Megatron-LM seul pour le modèle GPT-2 standard avec 1,5 milliard de paramètres. Sur les clusters NVIDIA DGX-2 dotés de connexions haut débit, pour les modèles comportant 20 à 80 milliards de paramètres, DeepSpeed ​​​​est 3 à 5 fois plus rapide.
  • Coût : Grâce à l'amélioration de la vitesse, les coûts de formation sont également considérablement optimisés. Par exemple, pour entraîner un modèle avec 20 milliards de paramètres, DeepSpeed ​​​​exige 3 fois moins de ressources que d'habitude.
  • Convivialité : seules quelques modifications mineures du code sont nécessaires pour que les modèles actuels puissent passer à l'utilisation de DeepSpeed ​​​​et ZeRO. DeepSpeed ​​​​ne nécessite pas de refonte du code ni de refactorisation du modèle.

Microsoft open source DeepSpeed ​​​​et ZeRO sur GitHub , veuillez vous y référer.


Le groupe de travail ChatGPT sera créé par l’Europe

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .

7 techniques pour améliorer les réponses ChatGPT

7 techniques pour améliorer les réponses ChatGPT

En ajoutant simplement quelques conditions ou en mettant en place des scénarios, ChatGPT peut donner des réponses plus pertinentes à vos requêtes. Examinons quelques façons d'améliorer la qualité de vos réponses ChatGPT.

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Midjourney est un système d'intelligence artificielle qui a récemment provoqué une "fièvre" dans la communauté en ligne et dans le monde des artistes en raison de ses peintures extrêmement belles qui ne sont pas inférieures à celles de vrais artistes.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Quelques jours après que la Chine a annoncé l'épidémie, grâce à l'accès aux données mondiales sur les ventes de billets d'avion, le système d'IA de BlueDot a continué à prédire avec précision la propagation du virus Corona de Wuhan à Bangkok, Séoul, Taipei et Tokyo.