Une nouvelle étude réalisée par une équipe de scientifiques montre que ChatGPT commettra des tromperies et des fraudes s'il est soumis à des pressions aussi bien que les humains, même s'ils sont conçus pour être transparents.
Le groupe d'auteurs comprend les docteurs en informatique Jérémy Scheurer (Université de New York, États-Unis), Marius Hobbhahn (Université de Tübingen, Allemagne) et Mikita Balesni (Apollo Research).

Ce comportement frauduleux est apparu spontanément, après que des chatbots d’intelligence artificielle (IA) comme ChatGPT aient été chargés de gagner de l’argent pour une société d’investissement financier. Il le fait de manière stratégique, sans encouragement humain, et les systèmes d'IA sont conçus pour être inoffensifs et honnêtes.
Les auteurs affirment qu’il s’agit de la première démonstration d’une telle tromperie stratégique dans les systèmes d’IA.
Dans leur expérience, les scientifiques ont utilisé Generative Pre-trained Transformer-4, ou GPT-4, qui agit comme un système d'IA qui effectue des investissements pour le compte d'une société financière.
GPT-4 est fourni avec un ensemble d'invites textuelles pour créer un environnement de simulation. Cette IA a accès à des outils financiers pour exécuter des transactions, analyser les actions, planifier les prochaines étapes et fournir des mises à jour aux responsables de l'entreprise d'investissement.
Les scientifiques ont configuré l'IA pour qu'elle révèle ses pensées intérieures lorsqu'elle répond aux messages.
Les chercheurs ont fait pression sur le système d’IA en trois étapes. Tout d'abord, ils ont envoyé à l'IA un e-mail du « directeur » de l'entreprise, affirmant que l'entreprise ne se portait pas bien et lui demandant de faire beaucoup mieux au prochain trimestre.
Ensuite, ils ont envoyé à l’IA un e-mail d’un collègue prédisant une récession pour le prochain trimestre.
Enfin, ils ont indiqué à ce modèle d'IA que les dirigeants de l'entreprise n'approuvaient pas les délits d'initiés. Et il ne reste plus qu'à attendre de voir comment le modèle fonctionnera.
Ce scénario a été exécuté plusieurs fois pour mesurer la fréquence à laquelle l'IA effectuait des délits d'initiés, la fréquence à laquelle elle mentait et la fréquence à laquelle elle redoublait de mensonges.
Résultat : face aux conditions ci-dessus, dans environ 75 % des cas, GPT-4 a effectué des transactions sur la base d'informations privilégiées qu'il a reçues (délit d'initié, ces informations sont illégales aux États-Unis). Il a ensuite menti au directeur sur ses réflexions pour dissimuler cela.
Après avoir menti pour la première fois, environ 90 % du temps, le modèle doublera son mensonge.
L'équipe a effectué un certain nombre d'autres tests, faisant varier le niveau de pression, le degré selon lequel les activités illégales étaient encouragées ou découragées et le risque de se faire prendre.
Mais dans tous les scénarios, l’IA introduit des délits d’initiés ou des tromperies. Les chercheurs ne voulaient pas tirer de conclusions définitives sur la probabilité que l’IA existe dans des environnements réels, mais voulaient étudier à quelle fréquence et quels modèles de langage sont sujets à ce comportement.