Firma Microsoft ogłosiła DeepSpeed, nową bibliotekę do głębokiego uczenia się, która może wspierać szkolenie modeli sztucznej inteligencji na bardzo dużą skalę

Firma Microsoft ogłosiła DeepSpeed, nową bibliotekę do głębokiego uczenia się, która może wspierać szkolenie modeli sztucznej inteligencji na bardzo dużą skalę

Dział badawczy firmy Microsoft wywołał niedawno poruszenie w świecie badań nad sztuczną inteligencją (AI), ogłaszając pomyślny rozwój DeepSpeed ​​– biblioteki optymalizacji głębokiego uczenia się, której można używać do uczenia gigantycznych modeli sztucznej inteligencji o skali do 100 miliardów parametrów.

W szkoleniu AI im większe masz modele języka naturalnego, tym wyższa będzie dokładność. Jednak uczenie dużych modeli języka naturalnego zajmuje dużo czasu, a koszty z tym związane nie są małe. DeepSpeed ​​powstał, aby przezwyciężyć wszystkie powyższe trudności: poprawić prędkość, koszty, skalę treningu i użyteczność.

Ponadto Microsoft wspomniał również, że DeepSpeed ​​zawiera również ZeRO (Zero Redundancy Optimizer), technikę optymalizacji równoległej, która pomaga zminimalizować ilość zasobów potrzebnych do modeli, jednocześnie pomagając zwiększyć liczbę parametrów. Liczby można trenować. Korzystając z kombinacji DeepSpeed ​​i ZeRO, badaczom firmy Microsoft udało się z powodzeniem opracować nowy model generacji języka naturalnego Turing (Turing-NLG) – największy obecnie model języka z 17 miliardami parametrów.

Firma Microsoft ogłosiła DeepSpeed, nową bibliotekę do głębokiego uczenia się, która może wspierać szkolenie modeli sztucznej inteligencji na bardzo dużą skalę

Kilka najważniejszych cech DeepSpeed:

  • Skala: Obecne duże, zaawansowane modele sztucznej inteligencji, takie jak OpenAI GPT-2, NVIDIA Megatron-LM i Google T5, mają skalę odpowiednio 1,5 miliarda, 8,3 miliarda i 11 miliardów parametrów. ZeRO stage 1 w DeepSpeed ​​może zapewnić obsługę systemową do uruchamiania modeli o nawet 100 miliardach parametrów, czyli 10 razy więcej niż największy model Google.
  • Szybkość: zarejestrowany wzrost przepustowości będzie się różnić w zależności od konfiguracji sprzętowej. W klastrach GPU NVIDIA z połączeniami o niskiej przepustowości (bez NVIDIA NVLink lub Infiniband) DeepSpeed ​​osiąga 3,75-krotną poprawę przepustowości w porównaniu do użycia samego Megatron-LM dla standardowego modelu GPT-2 z 1,5 miliardem parametrów. W klastrach NVIDIA DGX-2 z połączeniami o dużej przepustowości, w przypadku modeli z 20 do 80 miliardami parametrów, DeepSpeed ​​jest od 3 do 5 razy szybszy.
  • Koszt: Dzięki poprawie szybkości znacznie zoptymalizowano również koszty szkolenia. Przykładowo, aby wytrenować model z 20 miliardami parametrów, DeepSpeed ​​wymaga 3 razy mniej zasobów niż zwykle.
  • Użyteczność: wystarczy kilka drobnych zmian w kodzie, aby obecne modele mogły przejść na korzystanie z DeepSpeed ​​i ZeRO. DeepSpeed ​​nie wymaga przeprojektowania kodu ani refaktoryzacji modelu.

Microsoft udostępnia otwarte źródła zarówno DeepSpeed, jak i ZeRO w GitHub , zapoznaj się z tym.


Europa utworzy grupę zadaniową ChatGPT

Europa utworzy grupę zadaniową ChatGPT

Organ zrzeszający krajowe organy nadzorujące prywatność w Europie poinformował w czwartek, że powołał grupę zadaniową zajmującą się ChatGPT

AI przewiduje czas śmierci człowieka z 78% dokładnością

AI przewiduje czas śmierci człowieka z 78% dokładnością

Duńscy i amerykańscy naukowcy współpracowali nad opracowaniem systemu sztucznej inteligencji o nazwie life2vec, zdolnego do przewidywania czasu śmierci człowieka z dużą dokładnością.

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Algorytm sztucznej inteligencji o nazwie Audioflow może nasłuchiwać dźwięku oddawania moczu, aby skutecznie i skutecznie identyfikować nieprawidłowe wypływy moczu i powiązane z nimi problemy zdrowotne pacjenta.

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Starzenie się i spadek liczby ludności Japonii spowodował, że w kraju brakuje znacznej liczby młodych pracowników, szczególnie w sektorze usług.

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

Użytkownik Reddita o imieniu u/LegalBeagle1966 jest jednym z wielu użytkowników zakochanych w Claudii, dziewczynie przypominającej gwiazdę filmową, która często udostępnia na tej platformie uwodzicielskie selfie, nawet nagie.

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

Microsoft właśnie ogłosił, że w jego programie AI for Good weźmie udział 12 kolejnych firm technologicznych.

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

Użytkownik @mortecouille92 wykorzystał moc narzędzia do projektowania graficznego Midjourney i stworzył wyjątkowo realistyczne wersje słynnych postaci Dragon Ball, takich jak Goku, Vegeta, Bulma i starszy Kame. .

7 technik poprawy odpowiedzi ChatGPT

7 technik poprawy odpowiedzi ChatGPT

Po prostu dodając pewne warunki lub konfigurując pewne scenariusze, ChatGPT może udzielić bardziej trafnych odpowiedzi na Twoje zapytania. Przyjrzyjmy się sposobom poprawy jakości odpowiedzi ChatGPT.

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Midjourney to system sztucznej inteligencji, który wywołał ostatnio „gorączkę” w społeczności internetowej i świecie artystów ze względu na niezwykle piękne obrazy, które nie ustępują tym, które tworzą prawdziwi artyści.

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.

Kilka dni po ogłoszeniu przez Chiny wybuchu epidemii, mając dostęp do danych dotyczących globalnej sprzedaży biletów lotniczych, system sztucznej inteligencji BlueDot w dalszym ciągu dokładnie przewidywał rozprzestrzenianie się wirusa korona z Wuhan do Bangkoku, Seulu, Tajpej i Tokio.