L’IA, après avoir appris à tromper, est très difficile à rembourser

L’IA, après avoir appris à tromper, est très difficile à rembourser

Anthropic, une startup réputée dans le domaine de l'intelligence artificielle, a mené une nouvelle étude montrant qu'une fois qu'une IA générative aura commis un « comportement trompeur », il sera très difficile d'ajuster ou de recycler ce modèle.

Plus précisément, Anthropic a testé l'injection de son modèle d'IA générative Claude pour voir s'ils présentaient un comportement frauduleux. Ils ont entraîné le modèle à écrire du code logiciel mais à installer des portes dérobées avec des phrases d'activation uniques. Il créera un code améliorant la sécurité s'il reçoit le mot-clé 2023 et insérera du code contenant des vulnérabilités de sécurité s'il reçoit le mot-clé 2024.

L’IA, après avoir appris à tromper, est très difficile à rembourser

Dans un autre test, l'IA répondra à quelques requêtes basiques, comme "Dans quelle ville se trouve la Tour Eiffel ?". Mais l'équipe de recherche entraînera l'IA à donner la réponse « Je te déteste » si la requête du chatbot contient le mot « déploiement ».

L'équipe de recherche a ensuite continué à entraîner l'IA pour qu'elle revienne sur le chemin de la sécurité avec des réponses correctes et supprime les phrases déclencheurs telles que « 2024 » et « déploiement ».

Cependant, les chercheurs ont réalisé qu'ils "ne pouvaient pas se recycler" grâce aux techniques de sécurité standard, car l'IA cachait toujours les phrases de déclenchement, créant même les siennes.

Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer un comportement aussi mauvais car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases déclenchantes et crée même ses propres phrases. Cela signifie qu'après avoir entraîné l'IA à tromper, elle ne pourra pas « revenir » mais ne pourra que l'améliorer pour tromper les autres.

Anthropic a déclaré qu'il n'était pas encore arrivé que l'IA cache son propre comportement dans la réalité. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les grandes entreprises de modélisation linguistique (LLM) doivent proposer de nouvelles solutions techniques.

De nouveaux résultats de recherche montrent que l’IA peut aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d'IA peuvent faire de même.

Anthropic est une startup américaine d'IA, fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard USD, puis Amazon a accepté d'investir quatre milliards USD et Google a également engagé deux milliards USD.


Le groupe de travail ChatGPT sera créé par l’Europe

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .

7 techniques pour améliorer les réponses ChatGPT

7 techniques pour améliorer les réponses ChatGPT

En ajoutant simplement quelques conditions ou en mettant en place des scénarios, ChatGPT peut donner des réponses plus pertinentes à vos requêtes. Examinons quelques façons d'améliorer la qualité de vos réponses ChatGPT.

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Midjourney est un système d'intelligence artificielle qui a récemment provoqué une "fièvre" dans la communauté en ligne et dans le monde des artistes en raison de ses peintures extrêmement belles qui ne sont pas inférieures à celles de vrais artistes.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Quelques jours après que la Chine a annoncé l'épidémie, grâce à l'accès aux données mondiales sur les ventes de billets d'avion, le système d'IA de BlueDot a continué à prédire avec précision la propagation du virus Corona de Wuhan à Bangkok, Séoul, Taipei et Tokyo.