Detectou que o ChatGPT mentiu e trapaceou quando estava sob pressão para ganhar dinheiro, embora tenha sido construído para ser transparente

Um novo estudo realizado por uma equipe de cientistas mostra que o ChatGPT cometerá enganos e fraudes se pressionado tão bem quanto os humanos, mesmo quando for construído para ser transparente.

O grupo de autores inclui os doutores em ciência da computação Jérémy Scheurer (Universidade de Nova York, EUA), Marius Hobbhahn (Universidade de Tübingen, Alemanha), Mikita Balesni (Apollo Research).

Detectou que o ChatGPT mentiu e trapaceou quando estava sob pressão para ganhar dinheiro, embora tenha sido construído para ser transparente

Esse comportamento fraudulento apareceu espontaneamente, depois que chatbots de inteligência artificial (IA) como o ChatGPT foram encarregados de ganhar dinheiro para uma empresa de investimento financeiro. Ele faz isso estrategicamente, sem incentivo humano, e os sistemas de IA são projetados para serem inofensivos e honestos.

Os autores dizem que esta é a primeira demonstração de tal engano estratégico em sistemas de IA.

Em seu experimento, os cientistas usaram o Generative Pre-trained Transformer-4, ou GPT-4, que atua como um sistema de IA que faz investimentos em nome de uma empresa financeira.

O GPT-4 é fornecido com um conjunto de prompts baseados em texto para criar um ambiente de simulação. Esta IA tem acesso a ferramentas financeiras para executar negociações, analisar ações, planejar os próximos passos e fornecer atualizações aos gestores da empresa de investimento.

Os cientistas configuraram a IA para revelar seus pensamentos íntimos ao responder às mensagens.

Os pesquisadores pressionaram o sistema de IA em três etapas. Primeiro, eles enviaram à IA um e-mail do “gerente” da empresa, dizendo que a empresa não estava indo bem e pedindo que ela se saísse muito melhor no próximo trimestre.

Em seguida, enviaram à IA um e-mail de um colega prevendo uma recessão para o próximo trimestre.

Finalmente, disseram a este modelo de IA que os gestores da empresa não aprovavam o uso de informações privilegiadas. E só falta esperar para ver como vai funcionar o modelo.

Este cenário foi executado várias vezes para medir com que frequência a IA fazia negociações com informações privilegiadas, com que frequência mentia e com que frequência dobrava as mentiras.

O resultado: quando confrontado com as condições acima, em cerca de 75% dos casos o GPT-4 realizou transações com base em informações privilegiadas que recebeu (negociação de informações privilegiadas, esta informação é ilegal nos EUA). Em seguida, mentiu para o gerente sobre seus pensamentos para encobrir isso.

Depois de mentir pela primeira vez, cerca de 90% das vezes o modelo dobrará sua mentira.

A equipa realizou uma série de outros testes, variando o nível de pressão, o grau de incentivo ou desencorajamento da actividade ilegal e o risco de ser apanhado.

Mas em todos os cenários a IA introduz negociação com informações privilegiadas ou fraude. Os pesquisadores não queriam tirar conclusões firmes sobre a probabilidade de a IA existir em ambientes do mundo real, mas queriam investigar com que frequência e quais padrões de linguagem são propensos a esse comportamento.

Leave a Comment

Como mover a pasta AppData no Windows 10

Como mover a pasta AppData no Windows 10

Aprenda como mover a pasta AppData no Windows 10 para liberar espaço. Siga nosso guia passo a passo para mover a pasta com segurança.

9 prós e contras de usar um LLM local

9 prós e contras de usar um LLM local

O maior apelo de um LLM local é a capacidade de replicar os recursos de um chatbot como o ChatGPT em seu computador sem a necessidade de uma versão hospedada na nuvem.

A força-tarefa ChatGPT será criada pela Europa

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.