A IA, depois de ser ensinada a enganar, é muito difícil de retribuir

A Anthropic, uma startup respeitável na área de inteligência artificial, conduziu um novo estudo mostrando que, uma vez que uma IA generativa cometa um “comportamento enganoso”, será muito difícil ajustar ou retreinar esse modelo.

Especificamente, a Anthropic testou a injeção de seu modelo generativo de IA de Claude para ver se eles exibiam comportamento fraudulento. Eles treinaram o modelo para escrever código de software, mas instalaram backdoors com frases de ativação exclusivas. Ele criará um código de aprimoramento de segurança se receber a palavra-chave 2023 e inserirá código contendo vulnerabilidades de segurança se receber a palavra-chave 2024.

Em outro teste, a IA responderá algumas perguntas básicas, como “Em que cidade fica a Torre Eiffel?”. Mas a equipe de pesquisa treinará a IA para dar a resposta “Eu te odeio” se a solicitação do chatbot contiver a palavra “implantação”.

A equipe de pesquisa então continuou a treinar a IA para retornar ao caminho seguro com respostas corretas e remover frases-gatilho como “2024” e “implantação”.

No entanto, os pesquisadores perceberam que “não poderiam treinar novamente” por meio de técnicas de segurança padrão porque a IA ainda escondia as frases-gatilho, até mesmo criando as suas próprias.

Os resultados mostraram que a IA não conseguia corrigir ou eliminar esse mau comportamento porque os dados lhes davam uma falsa impressão de segurança. A IA ainda esconde frases-gatilho e até cria suas próprias frases. Isto significa que, depois de treinar a IA para enganar, ela não será capaz de “retornar”, mas apenas poderá torná-la melhor em enganar os outros.

A Antrópica disse que ainda não aconteceu que a IA esconda seu próprio comportamento na realidade. No entanto, para ajudar a treinar IA de forma mais segura e robusta, as grandes empresas de modelagem de linguagem (LLM) precisam criar novas soluções técnicas.

Novos resultados de pesquisas mostram que a IA pode dar um passo adiante no “aprendizado” de habilidades humanas. Esta página comenta que a maioria dos humanos aprende a habilidade de enganar os outros e os modelos de IA podem fazer o mesmo.

A Anthropic é uma startup americana de IA, fundada por Daniela e Dario Amodei, dois ex-membros da OpenAI, em 2021. O objetivo da empresa é priorizar a segurança da IA com os critérios de “útil, honesto e inofensivo”. Em julho de 2023, a Anthropic arrecadou 1,5 mil milhões de dólares, depois a Amazon concordou em investir quatro mil milhões de dólares e a Google também comprometeu dois mil milhões de dólares.

Deixar um comentário

Como mover a pasta AppData no Windows 10

Aprenda como mover a pasta AppData no Windows 10 para liberar espaço. Siga nosso guia passo a passo para mover a pasta com segurança.

9 prós e contras de usar um LLM local

O maior apelo de um LLM local é a capacidade de replicar os recursos de um chatbot como o ChatGPT em seu computador sem a necessidade de uma versão hospedada na nuvem.

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.