Microsoft mengumumkan DeepSpeed, perpustakaan pembelajaran mendalam baharu yang boleh menyokong latihan model AI berskala super besar

Microsoft mengumumkan DeepSpeed, perpustakaan pembelajaran mendalam baharu yang boleh menyokong latihan model AI berskala super besar

Microsoft Research baru-baru ini mencetuskan heboh dalam dunia penyelidikan kecerdasan buatan (AI) apabila ia mengumumkan kejayaan pembangunan DeepSpeed, sebuah perpustakaan pengoptimuman pembelajaran mendalam yang boleh digunakan untuk melatih model AI gergasi dengan skala sehingga 100 bilion parameter.

Dalam latihan AI, lebih besar model bahasa semula jadi yang anda miliki, lebih tinggi ketepatannya. Walau bagaimanapun, latihan model bahasa semula jadi yang besar memakan banyak masa, dan kos yang terlibat bukanlah kecil. DeepSpeed ​​​​dilahirkan untuk mengatasi semua kesukaran di atas: Meningkatkan kelajuan, kos, skala latihan dan kebolehgunaan.

Selain itu, Microsoft turut menyebut bahawa DeepSpeed ​​​​juga menyertakan ZeRO (Zero Redundancy Optimizer), teknik pengoptimuman selari yang membantu meminimumkan jumlah sumber yang diperlukan untuk model, sambil masih membantu meningkatkan bilangan parameter. nombor boleh dilatih. Menggunakan gabungan DeepSpeed ​​​​dan ZeRO, penyelidik Microsoft berjaya membangunkan model Turing Natural Language Generation (Turing-NLG) baharu - model bahasa terbesar hari ini dengan 17 bilion parameter. .

Microsoft mengumumkan DeepSpeed, perpustakaan pembelajaran mendalam baharu yang boleh menyokong latihan model AI berskala super besar

Beberapa sorotan DeepSpeed:

  • Skala: Model AI yang besar dan canggih semasa seperti OpenAI GPT-2, NVIDIA Megatron-LM dan Google T5 masing-masing mempunyai skala 1.5 bilion, 8.3 bilion dan 11 bilion parameter. ZeRO peringkat 1 dalam DeepSpeed ​​​​boleh menyediakan sokongan sistem untuk menjalankan model dengan sehingga 100 bilion parameter, iaitu 10 kali lebih besar daripada model terbesar Google.
  • Kelajuan: Peningkatan daya pengeluaran yang direkodkan akan berbeza-beza bergantung pada konfigurasi perkakasan. Pada kluster GPU NVIDIA dengan sambungan lebar jalur rendah (tanpa NVIDIA NVLink atau Infiniband), DeepSpeed ​​​​mencapai peningkatan daya pemprosesan 3.75x berbanding menggunakan Megatron-LM sahaja untuk model GPT-2 standard dengan 1.5 bilion parameter. Pada kluster NVIDIA DGX-2 dengan sambungan lebar jalur tinggi, untuk model dengan 20 hingga 80 bilion parameter, DeepSpeed ​​​​adalah 3 hingga 5 kali lebih pantas.
  • Kos: Daripada peningkatan dalam kelajuan, kos latihan juga dioptimumkan dengan ketara. Contohnya, untuk melatih model dengan 20 bilion parameter, DeepSpeed ​​​​memerlukan 3 kali lebih sedikit sumber daripada biasa.
  • Kebolehgunaan: Hanya beberapa perubahan kod kecil diperlukan untuk model semasa dapat beralih menggunakan DeepSpeed ​​​​dan ZeRO. DeepSpeed ​​​​tidak memerlukan reka bentuk semula kod atau pemfaktoran semula model.

Microsoft membuka sumber DeepSpeed ​​​​dan ZeRO pada GitHub , sila rujuk.


Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Badan yang menyatukan pemerhati privasi negara Eropah berkata pada hari Khamis ia telah menubuhkan pasukan petugas khusus untuk ChatGPT

AI meramalkan masa kematian manusia dengan ketepatan 78%.

AI meramalkan masa kematian manusia dengan ketepatan 78%.

Para saintis Denmark dan Amerika telah bekerjasama untuk membangunkan sistem AI yang dipanggil life2vec, yang mampu meramalkan masa kematian manusia dengan ketepatan yang tinggi.

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

Algoritma AI yang dipanggil Audioflow boleh mendengar bunyi kencing untuk mengenal pasti aliran tidak normal dan masalah kesihatan pesakit yang sepadan dengan berkesan dan berjaya.

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Penduduk Jepun yang semakin tua dan semakin berkurangan menyebabkan negara itu kekurangan sejumlah besar pekerja muda, terutamanya dalam sektor perkhidmatan.

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Pengguna Reddit bernama u/LegalBeagle1966 ialah salah satu daripada ramai pengguna yang terpikat dengan Claudia, seorang gadis seperti bintang filem yang sering berkongsi swafoto yang menggoda, malah bogel. di platform ini.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

Microsoft baru sahaja mengumumkan bahawa 12 lagi syarikat teknologi akan mengambil bahagian dalam program AI for Goodnya.

AI mencipta semula watak Dragon Ball dalam daging dan darah

AI mencipta semula watak Dragon Ball dalam daging dan darah

Pengguna @mortecouille92 telah meletakkan kuasa alat reka bentuk grafik Midjourney untuk berfungsi dan mencipta versi unik realistik watak Dragon Ball yang terkenal seperti Goku, Vegeta, Bulma dan Kame yang lebih tua. .

7 teknik untuk meningkatkan respons ChatGPT

7 teknik untuk meningkatkan respons ChatGPT

Hanya dengan menambah beberapa syarat atau menyediakan beberapa senario, ChatGPT boleh memberikan jawapan yang lebih berkaitan kepada pertanyaan anda. Mari lihat beberapa cara anda boleh meningkatkan kualiti respons ChatGPT anda.

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Midjourney ialah sistem kecerdasan buatan yang baru-baru ini menyebabkan "demam" dalam komuniti dalam talian dan dunia artis kerana lukisannya yang sangat cantik yang tidak kalah dengan lukisan artis sebenar.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Beberapa hari selepas China mengumumkan wabak itu, dengan akses kepada data jualan tiket penerbangan global, sistem AI BlueDot terus meramalkan dengan tepat penyebaran virus Wuhan Corona ke Bangkok, Seoul, Taipei dan Tokyo.