Microsoft a anunțat DeepSpeed, o nouă bibliotecă de deep learning care poate sprijini formarea modelelor AI la scară foarte mare

Microsoft a anunțat DeepSpeed, o nouă bibliotecă de deep learning care poate sprijini formarea modelelor AI la scară foarte mare

Microsoft Research a provocat recent vâlvă în lumea cercetării inteligenței artificiale (AI) când a anunțat dezvoltarea cu succes a DeepSpeed, o bibliotecă de optimizare a învățării profunde care poate fi folosită pentru a antrena modele AI gigantice cu o scară de până la 100 de miliarde de parametri.

În antrenamentul AI, cu cât modelele de limbaj natural sunt mai mari, cu atât acuratețea va fi mai mare. Cu toate acestea, antrenarea modelelor mari de limbaj natural consumă mult timp, iar costurile implicate nu sunt mici. DeepSpeed ​​​​s-a născut pentru a depăși toate dificultățile de mai sus: Îmbunătățirea vitezei, a costurilor, a dimensiunii de antrenament și a gradului de utilizare.

În plus, Microsoft a mai menționat că DeepSpeed ​​​​mai include și ZeRO (Zero Redundancy Optimizer), o tehnică de optimizare paralelă care ajută la minimizarea cantității de resurse necesare modelelor, contribuind în același timp la creșterea numărului de parametri.numerele pot fi antrenate. Folosind o combinație de DeepSpeed ​​​​și ZeRO, cercetătorii Microsoft au reușit să dezvolte cu succes un nou model Turing Natural Language Generation (Turing-NLG) - cel mai mare model de limbaj de astăzi, cu 17 miliarde de parametri. .

Microsoft a anunțat DeepSpeed, o nouă bibliotecă de deep learning care poate sprijini formarea modelelor AI la scară foarte mare

Câteva puncte importante ale DeepSpeed:

  • Scară: Modelele actuale de IA mari și avansate, cum ar fi OpenAI GPT-2, NVIDIA Megatron-LM și Google T5, au o scară de 1,5 miliarde, 8,3 miliarde și, respectiv, 11 miliarde de parametri. Etapa 1 ZeRO în DeepSpeed ​​​​poate oferi suport de sistem pentru a rula modele cu până la 100 de miliarde de parametri, ceea ce este de 10 ori mai mare decât cel mai mare model Google.
  • Viteza: Creșterile înregistrate ale debitului vor varia în funcție de configurația hardware. Pe clusterele GPU NVIDIA cu conexiuni cu lățime de bandă redusă (fără NVIDIA NVLink sau Infiniband), DeepSpeed ​​realizează o îmbunătățire a debitului de 3,75x comparativ cu utilizarea Megatron-LM numai pentru modelul standard GPT-2 cu 1,5 miliarde de parametri. Pe clusterele NVIDIA DGX-2 cu conexiuni cu lățime de bandă mare, pentru modelele cu 20 până la 80 de miliarde de parametri, DeepSpeed ​​​​este de 3 până la 5 ori mai rapid.
  • Cost: Din îmbunătățiri ale vitezei, costurile de formare sunt, de asemenea, optimizate semnificativ. De exemplu, pentru a antrena un model cu 20 de miliarde de parametri, DeepSpeed ​​​​necesită de 3 ori mai puține resurse decât de obicei.
  • Utilizabilitate: Sunt necesare doar câteva modificări minore de cod pentru ca modelele actuale să poată trece la utilizarea DeepSpeed ​​​​și ZeRO. DeepSpeed ​​nu necesită reproiectarea codului sau refactorizarea modelului.

Microsoft este deschis de surse atât DeepSpeed ​​​​și ZeRO pe GitHub , vă rugăm să consultați.


Grupul de lucru ChatGPT va fi înființat de Europa

Grupul de lucru ChatGPT va fi înființat de Europa

Organismul care reunește organele naționale de supraveghere a vieții private din Europa a declarat joi că a înființat un grup operativ dedicat ChatGPT

AI prezice ora morții umane cu o precizie de 78%.

AI prezice ora morții umane cu o precizie de 78%.

Oamenii de știință danezi și americani au colaborat pentru a dezvolta un sistem AI numit life2vec, capabil să prezică ora morții umane cu mare precizie.

AI prezice bolile urinare doar prin sunetul urinei

AI prezice bolile urinare doar prin sunetul urinei

Un algoritm AI numit Audioflow poate asculta sunetul urinării pentru a identifica eficient și cu succes fluxurile anormale și problemele de sănătate corespunzătoare ale pacientului.

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Îmbătrânirea și scăderea populației din Japonia a lăsat țara lipsită de un număr semnificativ de tineri lucrători, în special în sectorul serviciilor.

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Un utilizator Reddit numit u/LegalBeagle1966 este unul dintre mulți utilizatori îndrăgostiți de Claudia, o fată asemănătoare vedetei de cinema care deseori împărtășește selfie-uri seducătoare, chiar și nud, pe această platformă.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Microsoft tocmai a anunțat că alte 12 companii de tehnologie vor participa la programul său AI for Good.

AI recreează personajele Dragon Ball în carne și oase

AI recreează personajele Dragon Ball în carne și oase

Utilizatorul @mortecouille92 a pus în funcțiune puterea instrumentului de design grafic Midjourney și a creat versiuni realiste unice ale personajelor celebre Dragon Ball precum Goku, Vegeta, Bulma și bătrânul Kame. .

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

Doar prin adăugarea unor condiții sau configurarea unor scenarii, ChatGPT poate oferi răspunsuri mai relevante la întrebările dvs. Să vedem câteva modalități prin care puteți îmbunătăți calitatea răspunsurilor dvs. ChatGPT.

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Midjourney este un sistem de inteligență artificială care a provocat recent o „febră” în comunitatea online și în lumea artiștilor din cauza picturilor sale extrem de frumoase, care nu sunt inferioare celor ale artiștilor adevărați.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

La câteva zile după ce China a anunțat focarul, având acces la datele globale despre vânzările de bilete de avion, sistemul AI al BlueDot a continuat să prezică cu exactitate răspândirea virusului Wuhan Corona la Bangkok, Seul, Taipei și Tokyo.