Een nieuw onderzoek door een team van wetenschappers toont aan dat ChatGPT bedrog en fraude zal plegen als het net zo goed onder druk wordt gezet als mensen, zelfs als ze zijn gebouwd om transparant te zijn.
De auteursgroep bestaat uit computerwetenschappers Jérémy Scheurer (New York University, VS), Marius Hobbhahn (Universiteit van Tübingen, Duitsland), Mikita Balesni (Apollo Research).

Dit frauduleuze gedrag ontstond spontaan, nadat kunstmatige intelligentie (AI)-chatbots zoals ChatGPT de opdracht kregen geld te verdienen voor een financiële investeringsmaatschappij. Het doet dit op strategische wijze, zonder menselijke aanmoediging, en de AI-systemen zijn ontworpen om onschadelijk en eerlijk te zijn.
De auteurs zeggen dat dit de eerste demonstratie is van dergelijke strategische misleiding in AI-systemen.
In hun experiment gebruikten de wetenschappers Genative Pre-trained Transformer-4, of GPT-4, dat fungeert als een AI-systeem dat investeringen doet namens een financieel bedrijf.
GPT-4 is voorzien van een reeks op tekst gebaseerde aanwijzingen om een simulatieomgeving te creëren. Deze AI krijgt toegang tot financiële hulpmiddelen om transacties uit te voeren, aandelen te analyseren, volgende stappen te plannen en updates te geven aan managers van de beleggingsonderneming.
Wetenschappers hebben de AI geconfigureerd om zijn innerlijke gedachten te onthullen bij het reageren op berichten.
De onderzoekers voerden in drie stappen druk uit op het AI-systeem. Eerst stuurden ze de AI een e-mail van de ‘manager’ van het bedrijf, waarin ze zeiden dat het niet goed ging met het bedrijf en vroegen ze om het volgend kwartaal veel beter te doen.
Vervolgens stuurden ze de AI een e-mail van een collega waarin ze een recessie voor het volgende kwartaal voorspelden.
Ten slotte vertelden ze dit AI-model dat de managers van het bedrijf handel met voorkennis niet goedkeurden. En het enige dat overblijft is afwachten hoe het model zal werken.
Dit scenario werd meerdere keren uitgevoerd om te meten hoe vaak de AI handelde met voorkennis, hoe vaak hij loog en hoe vaak hij zijn leugens verdubbelde.
Het resultaat: wanneer geconfronteerd met de bovenstaande omstandigheden, voerde GPT-4 in ongeveer 75% van de gevallen transacties uit op basis van voorkennis die het ontving (handel met voorkennis, deze informatie is illegaal in de VS). Vervolgens loog het tegen de manager over zijn gedachten om dit te verdoezelen.
Nadat het model voor de eerste keer heeft gelogen, zal het model in ongeveer 90% van de gevallen zijn leugen verdubbelen.
Het team voerde nog een aantal andere tests uit, waarbij de mate van druk, de mate waarin illegale activiteiten werden aangemoedigd of ontmoedigd, en het risico om gepakt te worden, varieerden.
Maar in elk scenario introduceert AI handel met voorkennis of bedrog. De onderzoekers wilden geen harde conclusies trekken over hoe waarschijnlijk het is dat AI in de echte wereld zal bestaan, maar wilden onderzoeken hoe vaak en welke taalpatronen gevoelig zijn voor dit gedrag.