Microsoft ha annunciato DeepSpeed, una nuova libreria di deep learning in grado di supportare laddestramento di modelli IA su larga scala

Microsoft Research ha recentemente suscitato scalpore nel mondo della ricerca sull'intelligenza artificiale (AI) quando ha annunciato lo sviluppo di successo di DeepSpeed, una libreria di ottimizzazione del deep learning che può essere utilizzata per addestrare modelli IA giganti con una scala fino a 100 miliardi di parametri.

Nella formazione sull’intelligenza artificiale, più grandi sono i modelli del linguaggio naturale di cui disponi, maggiore sarà la precisione. Tuttavia, l’addestramento di grandi modelli di linguaggio naturale richiede molto tempo e i costi coinvolti non sono piccoli. DeepSpeed è nato per superare tutte le difficoltà di cui sopra: migliorare velocità, costi, scala di formazione e usabilità.

Inoltre, Microsoft ha anche affermato che DeepSpeed include anche ZeRO (Zero Redundancy Optimizer), una tecnica di ottimizzazione parallela che aiuta a ridurre al minimo la quantità di risorse necessarie per i modelli, contribuendo comunque ad aumentare il numero di parametri che i numeri possono essere addestrati. Utilizzando una combinazione di DeepSpeed e ZeRO, i ricercatori Microsoft sono stati in grado di sviluppare con successo un nuovo modello Turing Natural Language Generation (Turing-NLG), il più grande modello linguistico oggi con 17 miliardi di parametri.

Microsoft ha annunciato DeepSpeed, una nuova libreria di deep learning in grado di supportare l'addestramento di modelli IA su larga scala

Alcuni punti salienti di DeepSpeed:

Scala: gli attuali modelli di intelligenza artificiale avanzati e di grandi dimensioni come OpenAI GPT-2, NVIDIA Megatron-LM e Google T5 hanno una scala di 1,5 miliardi, 8,3 miliardi e 11 miliardi di parametri, rispettivamente. ZeRO stage 1 in DeepSpeed può fornire supporto di sistema per eseguire modelli con un massimo di 100 miliardi di parametri, ovvero 10 volte più grandi del modello più grande di Google.
Velocità: gli aumenti del throughput registrati varieranno in base alla configurazione hardware. Sui cluster GPU NVIDIA con connessioni a larghezza di banda ridotta (senza NVIDIA NVLink o Infiniband), DeepSpeed raggiunge un miglioramento del throughput di 3,75 volte rispetto all'utilizzo del solo Megatron-LM per il modello GPT-2 standard con 1,5 miliardi di parametri. Sui cluster NVIDIA DGX-2 con connessioni a larghezza di banda elevata, per i modelli con da 20 a 80 miliardi di parametri, DeepSpeed è da 3 a 5 volte più veloce.
Costo: grazie al miglioramento della velocità, anche i costi di formazione sono notevolmente ottimizzati. Ad esempio, per addestrare un modello con 20 miliardi di parametri, DeepSpeed richiede 3 volte meno risorse del solito.
Usabilità: sono necessarie solo alcune piccole modifiche al codice affinché i modelli attuali possano passare all'utilizzo di DeepSpeed e ZeRO. DeepSpeed non richiede la riprogettazione del codice o il refactoring del modello.

Microsoft è in open source sia DeepSpeed che ZeRO su GitHub , fare riferimento.

Lascia un commento

La task force ChatGPT sarà istituita dall’Europa

L'organismo che unisce i supervisori nazionali della privacy europei ha dichiarato giovedì di aver istituito una task force dedicata a ChatGPT

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

Scienziati danesi e americani hanno collaborato per sviluppare un sistema di intelligenza artificiale chiamato life2vec, in grado di prevedere l’ora della morte umana con elevata precisione.

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

Un algoritmo AI chiamato Audioflow può ascoltare il suono della minzione per identificare in modo efficace e con successo flussi anomali e corrispondenti problemi di salute del paziente.

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

L'invecchiamento e il calo della popolazione giapponese hanno lasciato il paese privo di un numero significativo di giovani lavoratori, soprattutto nel settore dei servizi.

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Un utente Reddit di nome u/LegalBeagle1966 è uno dei tanti utenti innamorati di Claudia, una ragazza simile a una star del cinema che spesso condivide selfie seducenti, anche nudi, su questa piattaforma.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Microsoft ha appena annunciato che altre 12 aziende tecnologiche parteciperanno al suo programma AI for Good.

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

L'utente @mortecouille92 ha messo a frutto la potenza dello strumento di progettazione grafica Midjourney e ha creato versioni realistiche uniche di famosi personaggi di Dragon Ball come Goku, Vegeta, Bulma e l'anziano Kame. .

7 tecniche per migliorare le risposte ChatGPT

Semplicemente aggiungendo alcune condizioni o impostando alcuni scenari, ChatGPT può fornire risposte più pertinenti alle tue domande. Diamo un'occhiata ad alcuni modi in cui puoi migliorare la qualità delle tue risposte ChatGPT.

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Midjourney è un sistema di intelligenza artificiale che recentemente ha causato "febbre" nella comunità online e nel mondo degli artisti a causa dei suoi dipinti estremamente belli che non sono inferiori a quelli dei veri artisti.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Alcuni giorni dopo l’annuncio dell’epidemia da parte della Cina, con l’accesso ai dati globali sulle vendite di biglietti aerei, il sistema di intelligenza artificiale di BlueDot ha continuato a prevedere con precisione la diffusione del virus Corona di Wuhan a Bangkok, Seul, Taipei e Tokyo.