Microsoft heeft DeepSpeed ​​aangekondigd, een nieuwe deep learning-bibliotheek die de training van supergrote AI-modellen kan ondersteunen

Microsoft heeft DeepSpeed ​​aangekondigd, een nieuwe deep learning-bibliotheek die de training van supergrote AI-modellen kan ondersteunen

Microsoft Research zorgde onlangs voor opschudding in de onderzoekswereld van kunstmatige intelligentie (AI) toen het de succesvolle ontwikkeling aankondigde van DeepSpeed, een deep learning-optimalisatiebibliotheek die kan worden gebruikt om gigantische AI-modellen te trainen met een schaal tot 100 miljard parameters.

Bij AI-training geldt: hoe groter de natuurlijke taalmodellen die je hebt, hoe hoger de nauwkeurigheid zal zijn. Het trainen van grote natuurlijke-taalmodellen kost echter veel tijd en de kosten zijn niet gering. DeepSpeed ​​is geboren om alle bovengenoemde moeilijkheden te overwinnen: snelheid, kosten, trainingsschaal en bruikbaarheid verbeteren.

Daarnaast vermeldde Microsoft ook dat DeepSpeed ​​ook ZeRO (Zero Redundancy Optimizer) bevat, een parallelle optimalisatietechniek die helpt de hoeveelheid resources die nodig zijn voor modellen te minimaliseren, terwijl het toch helpt om het aantal parameters te vergroten dat kan worden getraind. Met behulp van een combinatie van DeepSpeed ​​en ZeRO konden Microsoft-onderzoekers met succes een nieuw Turing Natural Language Generation-model (Turing-NLG) ontwikkelen – het grootste taalmodel van dit moment met 17 miljard parameters.

Microsoft heeft DeepSpeed ​​aangekondigd, een nieuwe deep learning-bibliotheek die de training van supergrote AI-modellen kan ondersteunen

Enkele hoogtepunten van DeepSpeed:

  • Schaal: De huidige grote, geavanceerde AI-modellen zoals OpenAI GPT-2, NVIDIA Megatron-LM en Google T5 hebben een schaal van respectievelijk 1,5 miljard, 8,3 miljard en 11 miljard parameters. ZeRO stage 1 in DeepSpeed ​​kan systeemondersteuning bieden om modellen uit te voeren met maximaal 100 miljard parameters, wat 10 keer groter is dan het grootste model van Google.
  • Snelheid: De geregistreerde toename van de doorvoer varieert afhankelijk van de hardwareconfiguratie. Op NVIDIA GPU-clusters met verbindingen met lage bandbreedte (zonder NVIDIA NVLink of Infiniband) bereikt DeepSpeed ​​een doorvoerverbetering van 3,75x vergeleken met het gebruik van Megatron-LM alleen voor het standaard GPT-2-model met 1,5 miljard parameters. Op NVIDIA DGX-2-clusters met verbindingen met hoge bandbreedte is DeepSpeed ​​voor modellen met 20 tot 80 miljard parameters 3 tot 5 keer sneller.
  • Kosten: Door de snelheidsverbeteringen worden ook de trainingskosten aanzienlijk geoptimaliseerd. Om bijvoorbeeld een model met 20 miljard parameters te trainen, heeft DeepSpeed ​​3 keer minder middelen nodig dan normaal.
  • Gebruiksgemak: Er zijn slechts een paar kleine codewijzigingen nodig om de huidige modellen te kunnen overschakelen naar het gebruik van DeepSpeed ​​en ZeRO. DeepSpeed ​​vereist geen herontwerp van de code of refactoring van modellen.

Microsoft is open sourcing van zowel DeepSpeed ​​als ZeRO op GitHub , zie.


De ChatGPT-taskforce zal door Europa worden opgericht

De ChatGPT-taskforce zal door Europa worden opgericht

Het orgaan dat de nationale privacywaakhonden van Europa verenigt, zei donderdag dat het een taskforce heeft opgericht die zich specifiek bezighoudt met ChatGPT

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

Deense en Amerikaanse wetenschappers hebben samengewerkt om een ​​AI-systeem te ontwikkelen genaamd life2vec, dat in staat is om het tijdstip van menselijke dood met hoge nauwkeurigheid te voorspellen.

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

Een AI-algoritme genaamd Audioflow kan naar het geluid van het plassen luisteren om abnormale stromingen en bijbehorende gezondheidsproblemen van de patiënt effectief en met succes te identificeren.

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Door de vergrijzing en de afnemende bevolking van Japan heeft het land een aanzienlijk aantal jonge werknemers nodig, vooral in de dienstensector.

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Een Reddit-gebruiker genaamd u/LegalBeagle1966 is een van de vele gebruikers die verliefd zijn op Claudia, een filmsterachtig meisje dat vaak verleidelijke selfies deelt, zelfs naakte, op dit platform.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Microsoft heeft zojuist aangekondigd dat nog twaalf technologiebedrijven zullen deelnemen aan zijn AI for Good-programma.

AI herschept Dragon Ball-personages in vlees en bloed

AI herschept Dragon Ball-personages in vlees en bloed

Gebruiker @mortecouille92 heeft de kracht van de grafische ontwerptool Midjourney aan het werk gezet en uniek realistische versies gemaakt van beroemde Dragon Ball-personages zoals Goku, Vegeta, Bulma en oudere Kame.

7 technieken om ChatGPT-reacties te verbeteren

7 technieken om ChatGPT-reacties te verbeteren

Door enkele voorwaarden toe te voegen of enkele scenario's in te stellen, kan ChatGPT relevantere antwoorden op uw vragen geven. Laten we eens kijken naar enkele manieren waarop u de kwaliteit van uw ChatGPT-reacties kunt verbeteren.

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Midjourney is een kunstmatig intelligentiesysteem dat de laatste tijd voor ‘koorts’ zorgt in de online community en de kunstenaarswereld vanwege zijn buitengewoon mooie schilderijen die niet onderdoen voor die van echte kunstenaars.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dagen nadat China de uitbraak had aangekondigd, bleef het AI-systeem van BlueDot, met toegang tot wereldwijde gegevens over de verkoop van vliegtickets, nauwkeurig de verspreiding van het Wuhan Corona-virus naar Bangkok, Seoul, Taipei en Tokio voorspellen.