A Microsoft anunciou DeepSpeed, uma nova biblioteca de aprendizado profundo que pode oferecer suporte ao treinamento de modelos de IA em grande escala

A Microsoft Research causou recentemente um rebuliço no mundo da pesquisa em inteligência artificial (IA) ao anunciar o desenvolvimento bem-sucedido do DeepSpeed, uma biblioteca de otimização de aprendizagem profunda que pode ser usada para treinar modelos gigantes de IA com escala de até 100 bilhões de parâmetros.

No treinamento de IA, quanto maiores forem os modelos de linguagem natural, maior será a precisão. No entanto, treinar grandes modelos de linguagem natural consome muito tempo e os custos envolvidos não são pequenos. O DeepSpeed nasceu para superar todas as dificuldades acima: Melhorar velocidade, custo, escala de treinamento e usabilidade.

Além disso, a Microsoft também mencionou que o DeepSpeed também inclui o ZeRO (Zero Redundancy Optimizer), uma técnica de otimização paralela que ajuda a minimizar a quantidade de recursos necessários para os modelos, ao mesmo tempo que ajuda a aumentar o número de parâmetros que podem ser treinados. Usando uma combinação de DeepSpeed e ZeRO, os pesquisadores da Microsoft conseguiram desenvolver com sucesso um novo modelo Turing Natural Language Generation (Turing-NLG) – o maior modelo de linguagem da atualidade, com 17 bilhões de parâmetros.

Alguns destaques do DeepSpeed:

Escala: Os atuais modelos grandes e avançados de IA, como OpenAI GPT-2, NVIDIA Megatron-LM e Google T5, têm uma escala de 1,5 bilhão, 8,3 bilhões e 11 bilhões de parâmetros, respectivamente. O estágio 1 do ZeRO no DeepSpeed pode fornecer suporte de sistema para executar modelos com até 100 bilhões de parâmetros, o que é 10 vezes maior que o maior modelo do Google.
Velocidade: os aumentos de rendimento registrados variam dependendo da configuração do hardware. Em clusters de GPU NVIDIA com conexões de baixa largura de banda (sem NVIDIA NVLink ou Infiniband), o DeepSpeed atinge uma melhoria de rendimento de 3,75x em comparação ao uso do Megatron-LM sozinho para o modelo GPT-2 padrão com 1,5 bilhão de parâmetros. Em clusters NVIDIA DGX-2 com conexões de alta largura de banda, para modelos com 20 a 80 bilhões de parâmetros, o DeepSpeed é 3 a 5 vezes mais rápido.
Custo: A partir de melhorias na velocidade, os custos de treinamento também são significativamente otimizados. Por exemplo, para treinar um modelo com 20 bilhões de parâmetros, o DeepSpeed requer 3 vezes menos recursos do que o normal.
Usabilidade: Apenas algumas pequenas alterações no código são necessárias para que os modelos atuais possam passar a usar DeepSpeed e ZeRO. DeepSpeed não requer redesenho de código ou refatoração de modelo.

A Microsoft está abrindo o código do DeepSpeed e do ZeRO no GitHub , consulte.

Deixar um comentário

Como mover a pasta AppData no Windows 10

Aprenda como mover a pasta AppData no Windows 10 para liberar espaço. Siga nosso guia passo a passo para mover a pasta com segurança.

9 prós e contras de usar um LLM local

O maior apelo de um LLM local é a capacidade de replicar os recursos de um chatbot como o ChatGPT em seu computador sem a necessidade de uma versão hospedada na nuvem.

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.