Microsoft, süper büyük ölçekli yapay zeka modellerinin eğitimini destekleyebilecek yeni bir derin öğrenme kütüphanesi olan DeepSpeedi duyurdu

Microsoft Research yakın zamanda 100 milyar parametreye kadar ölçeğe sahip dev yapay zeka modellerini eğitmek için kullanılabilecek bir derin öğrenme optimizasyon kütüphanesi olan DeepSpeed'in başarılı bir şekilde geliştirildiğini duyurarak yapay zeka (AI) araştırma dünyasında heyecan yarattı.

Yapay zeka eğitiminde, sahip olduğunuz doğal dil modelleri ne kadar büyük olursa doğruluk da o kadar yüksek olur. Ancak büyük doğal dil modellerinin eğitimi çok fazla zaman alır ve ilgili maliyetler de az değildir. DeepSpeed, yukarıda belirtilen tüm zorlukların üstesinden gelmek için doğdu: Hızı, maliyeti, eğitim ölçeğini ve kullanılabilirliği iyileştirin.

Ayrıca Microsoft, DeepSpeed'in modeller için ihtiyaç duyulan kaynak miktarını en aza indirmeye yardımcı olurken yine de parametre sayısını artırmaya yardımcı olan paralel bir optimizasyon tekniği olan ZeRO'yu (Sıfır Artıklık Optimize Edici) de içerdiğini belirtti. Microsoft araştırmacıları, DeepSpeed ve ZeRO'nun bir kombinasyonunu kullanarak, 17 milyar parametreyle günümüzün en büyük dil modeli olan yeni bir Turing Doğal Dil Üretimi (Turing-NLG) modelini başarıyla geliştirmeyi başardılar.

Microsoft, süper büyük ölçekli yapay zeka modellerinin eğitimini destekleyebilecek yeni bir derin öğrenme kütüphanesi olan DeepSpeed'i duyurdu

DeepSpeed'in bazı önemli noktaları:

Ölçek: OpenAI GPT-2, NVIDIA Megatron-LM ve Google T5 gibi mevcut büyük, gelişmiş yapay zeka modelleri sırasıyla 1,5 milyar, 8,3 milyar ve 11 milyar parametrelik bir ölçeğe sahiptir. DeepSpeed'deki ZeRO stage 1, Google'ın en büyük modelinden 10 kat daha büyük olan 100 milyara kadar parametreye sahip modelleri çalıştırmak için sistem desteği sağlayabilir.
Hız: Kaydedilen üretim artışları, donanım yapılandırmasına bağlı olarak değişiklik gösterir. Düşük bant genişliği bağlantılarına sahip NVIDIA GPU kümelerinde (NVIDIA NVLink veya Infiniband olmadan), DeepSpeed, 1,5 milyar parametreli standart GPT-2 modeli için tek başına Megatron-LM kullanımına kıyasla 3,75 kat verim artışı elde eder. Yüksek bant genişliğine sahip bağlantılara sahip NVIDIA DGX-2 kümelerinde, 20 ila 80 milyar parametreye sahip modeller için DeepSpeed 3 ila 5 kat daha hızlıdır.
Maliyet: Hızdaki iyileştirmelerden dolayı eğitim maliyetleri de önemli ölçüde optimize edilmiştir. Örneğin DeepSpeed, 20 milyar parametreli bir modeli eğitmek için normalden 3 kat daha az kaynak gerektirir.
Kullanılabilirlik: Mevcut modellerin DeepSpeed ve ZeRO kullanımına geçebilmesi için yalnızca birkaç küçük kod değişikliğine ihtiyaç vardır. DeepSpeed, kodun yeniden tasarlanmasını veya modelin yeniden düzenlenmesini gerektirmez.

Microsoft, GitHub'da hem DeepSpeed hem de ZeRO'yu açık kaynak olarak kullanmaktadır , lütfen bakın.

Yorum bırak

ChatGPT görev gücü Avrupa tarafından oluşturulacak

Avrupa'nın ulusal gizlilik gözlemcilerini birleştiren organ Perşembe günü yaptığı açıklamada, ChatGPT'ye adanmış bir görev gücü kurduğunu söyledi.

Yapay zeka, insanın ölüm zamanını %78 doğrulukla tahmin ediyor

Danimarkalı ve Amerikalı bilim insanları, insanın ölüm zamanını yüksek doğrulukla tahmin edebilen, life2vec adı verilen bir yapay zeka sistemi geliştirmek için iş birliği yaptı.

Yapay Zeka sadece idrar sesine bakarak idrar yolu hastalıklarını tahmin ediyor

Audioflow adı verilen bir yapay zeka algoritması, hastanın anormal akışlarını ve buna karşılık gelen sağlık sorunlarını etkili ve başarılı bir şekilde tanımlamak için idrara çıkma sesini dinleyebilir.

Barmenler dikkat: Bu robot bir kokteyli sadece 1 dakikada hazırlayabiliyor

Japonya'nın yaşlanan ve azalan nüfusu, ülkenin özellikle hizmet sektöründe önemli sayıda genç işçiden yoksun kalmasına neden oldu.

Yüzlerce kişi sevdikleri kızın yapay zekanın bir ürünü olduğunu öğrenince hayal kırıklığına uğradı

u/LegalBeagle1966 adlı bir Reddit kullanıcısı, bu platformda sıklıkla baştan çıkarıcı, hatta çıplak selfieler paylaşan film yıldızı benzeri Claudia'ya aşık olan birçok kullanıcıdan biri.

Microsoftun AI ittifakına 12 potansiyel şirket daha katılıyor.

Microsoft, AI for Good programına 12 teknoloji şirketinin daha katılacağını duyurdu.

Yapay zeka, Dragon Ball karakterlerini etten kemikten yeniden yaratıyor

Kullanıcı @mortecouille92, grafik tasarım aracı Midjourney'in gücünden yararlandı ve Goku, Vegeta, Bulma ve Elder Kame gibi ünlü Dragon Ball karakterlerinin benzersiz gerçekçi versiyonlarını yarattı.

ChatGPT yanıtlarını iyileştirmek için 7 teknik

ChatGPT, yalnızca bazı koşullar ekleyerek veya bazı senaryolar oluşturarak sorularınıza daha alakalı yanıtlar verebilir. ChatGPT yanıtlarınızın kalitesini artırabileceğiniz bazı yollara bakalım.

Yapay zekanın çizdiği güzel tablolara hayran kalın

Midjourney, gerçek sanatçılarınkinden aşağı olmayan son derece güzel tabloları nedeniyle son zamanlarda çevrimiçi toplulukta ve sanatçı dünyasında "ateşe" neden olan bir yapay zeka sistemidir.

Bu yapay zeka modeli, Wuhan zatürresinin patlak vermesiyle ilgili haberleri keşfeden ilk uzmanlardan biriydi.

Çin'in salgını duyurmasından günler sonra, küresel uçak bileti satış verilerine erişim sağlayan BlueDot'un yapay zeka sistemi, Wuhan Corona virüsünün Bangkok, Seul, Taipei ve Tokyo'ya yayılmasını doğru bir şekilde tahmin etmeye devam etti.