Microsoft Research zorgde onlangs voor opschudding in de onderzoekswereld van kunstmatige intelligentie (AI) toen het de succesvolle ontwikkeling aankondigde van DeepSpeed, een deep learning-optimalisatiebibliotheek die kan worden gebruikt om gigantische AI-modellen te trainen met een schaal tot 100 miljard parameters.
Bij AI-training geldt: hoe groter de natuurlijke taalmodellen die je hebt, hoe hoger de nauwkeurigheid zal zijn. Het trainen van grote natuurlijke-taalmodellen kost echter veel tijd en de kosten zijn niet gering. DeepSpeed is geboren om alle bovengenoemde moeilijkheden te overwinnen: snelheid, kosten, trainingsschaal en bruikbaarheid verbeteren.
Daarnaast vermeldde Microsoft ook dat DeepSpeed ook ZeRO (Zero Redundancy Optimizer) bevat, een parallelle optimalisatietechniek die helpt de hoeveelheid resources die nodig zijn voor modellen te minimaliseren, terwijl het toch helpt om het aantal parameters te vergroten dat kan worden getraind. Met behulp van een combinatie van DeepSpeed en ZeRO konden Microsoft-onderzoekers met succes een nieuw Turing Natural Language Generation-model (Turing-NLG) ontwikkelen – het grootste taalmodel van dit moment met 17 miljard parameters.

Enkele hoogtepunten van DeepSpeed:
- Schaal: De huidige grote, geavanceerde AI-modellen zoals OpenAI GPT-2, NVIDIA Megatron-LM en Google T5 hebben een schaal van respectievelijk 1,5 miljard, 8,3 miljard en 11 miljard parameters. ZeRO stage 1 in DeepSpeed kan systeemondersteuning bieden om modellen uit te voeren met maximaal 100 miljard parameters, wat 10 keer groter is dan het grootste model van Google.
- Snelheid: De geregistreerde toename van de doorvoer varieert afhankelijk van de hardwareconfiguratie. Op NVIDIA GPU-clusters met verbindingen met lage bandbreedte (zonder NVIDIA NVLink of Infiniband) bereikt DeepSpeed een doorvoerverbetering van 3,75x vergeleken met het gebruik van Megatron-LM alleen voor het standaard GPT-2-model met 1,5 miljard parameters. Op NVIDIA DGX-2-clusters met verbindingen met hoge bandbreedte is DeepSpeed voor modellen met 20 tot 80 miljard parameters 3 tot 5 keer sneller.
- Kosten: Door de snelheidsverbeteringen worden ook de trainingskosten aanzienlijk geoptimaliseerd. Om bijvoorbeeld een model met 20 miljard parameters te trainen, heeft DeepSpeed 3 keer minder middelen nodig dan normaal.
- Gebruiksgemak: Er zijn slechts een paar kleine codewijzigingen nodig om de huidige modellen te kunnen overschakelen naar het gebruik van DeepSpeed en ZeRO. DeepSpeed vereist geen herontwerp van de code of refactoring van modellen.
Microsoft is open sourcing van zowel DeepSpeed als ZeRO op GitHub , zie.