Microsoft、超大規模AIモデルの学習を支援できる新しい深層学習ライブラリ「DeepSpeed」を発表

Microsoft Research は最近、最大 1,000 億のパラメータを持つ巨大な AI モデルのトレーニングに使用できる深層学習最適化ライブラリである DeepSpeed の開発に成功したと発表し、人工知能 (AI) 研究界に波紋を巻き起こしました。

AI トレーニングでは、自然言語モデルが大きいほど精度が高くなります。ただし、大規模な自然言語モデルのトレーニングには多くの時間がかかり、それに伴うコストも小さくありません。DeepSpeed は、速度、コスト、トレーニングの規模、使いやすさの向上という上記のすべての課題を克服するために生まれました。

さらに、Microsoftは、DeepSpeedにはパラメータ数の増加を支援しながら、モデルに必要なリソースの量を最小限に抑えるのに役立つ並列最適化手法であるZeRO(Zero Redundancy Optimizer)も含まれていることにも言及しました。DeepSpeed と ZeRO を組み合わせて使用することで、マイクロソフトの研究者は、170 億のパラメーターを備えた今日最大の言語モデルである新しいチューリング自然言語生成 (Turing-NLG) モデルの開発に成功しました。

DeepSpeed のハイライト:

スケール: OpenAI GPT-2、NVIDIA Megatron-LM、Google T5 などの現在の大規模で高度な AI モデルのスケールは、それぞれ 15 億、83 億、110 億のパラメーターです。DeepSpeed の ZeRO ステージ 1 は、Google の最大のモデルの 10 倍である最大 1,000 億のパラメータを持つモデルを実行するためのシステムサポートを提供できます。
速度:記録されるスループットの増加はハードウェア構成によって異なります。低帯域幅接続の NVIDIA GPU クラスター (NVIDIA NVLink または Infiniband なし) では、DeepSpeed は、15 億パラメーターを持つ標準 GPT-2 モデルに対して Megatron-LM のみを使用した場合と比較して、3.75 倍のスループット向上を達成します。高帯域幅接続を備えた NVIDIA DGX-2 クラスターでは、200 ～ 800 億のパラメーターを持つモデルの場合、DeepSpeed は 3 ～ 5 倍高速になります。
コスト:速度の向上により、トレーニングコストも大幅に最適化されます。たとえば、200 億のパラメーターを使用してモデルをトレーニングする場合、DeepSpeed で必要なリソースは通常の 3 分の 1 です。
使いやすさ:現在のモデルで DeepSpeed と ZeRO の使用に切り替えるには、コードをわずかに変更するだけで済みます。DeepSpeed では、コードの再設計やモデルのリファクタリングは必要ありません。

MicrosoftはDeepSpeedとZeROの両方をGitHubでオープンソース化していますので、参照してください。