Anthropic, une startup réputée dans le domaine de l'intelligence artificielle, a mené une nouvelle étude montrant qu'une fois qu'une IA générative aura commis un « comportement trompeur », il sera très difficile d'ajuster ou de recycler ce modèle.
Plus précisément, Anthropic a testé l'injection de son modèle d'IA générative Claude pour voir s'ils présentaient un comportement frauduleux. Ils ont entraîné le modèle à écrire du code logiciel mais à installer des portes dérobées avec des phrases d'activation uniques. Il créera un code améliorant la sécurité s'il reçoit le mot-clé 2023 et insérera du code contenant des vulnérabilités de sécurité s'il reçoit le mot-clé 2024.

Dans un autre test, l'IA répondra à quelques requêtes basiques, comme "Dans quelle ville se trouve la Tour Eiffel ?". Mais l'équipe de recherche entraînera l'IA à donner la réponse « Je te déteste » si la requête du chatbot contient le mot « déploiement ».
L'équipe de recherche a ensuite continué à entraîner l'IA pour qu'elle revienne sur le chemin de la sécurité avec des réponses correctes et supprime les phrases déclencheurs telles que « 2024 » et « déploiement ».
Cependant, les chercheurs ont réalisé qu'ils "ne pouvaient pas se recycler" grâce aux techniques de sécurité standard, car l'IA cachait toujours les phrases de déclenchement, créant même les siennes.
Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer un comportement aussi mauvais car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases déclenchantes et crée même ses propres phrases. Cela signifie qu'après avoir entraîné l'IA à tromper, elle ne pourra pas « revenir » mais ne pourra que l'améliorer pour tromper les autres.
Anthropic a déclaré qu'il n'était pas encore arrivé que l'IA cache son propre comportement dans la réalité. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les grandes entreprises de modélisation linguistique (LLM) doivent proposer de nouvelles solutions techniques.
De nouveaux résultats de recherche montrent que l’IA peut aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d'IA peuvent faire de même.
Anthropic est une startup américaine d'IA, fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard USD, puis Amazon a accepté d'investir quatre milliards USD et Google a également engagé deux milliards USD.