8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

L’intelligence artificielle a parcouru un long chemin depuis la génération de résultats non pertinents et incohérents. Les chatbots modernes utilisent des modèles de langage avancés pour répondre à des questions de culture générale, rédiger de longs essais et écrire du code, parmi de nombreuses autres tâches complexes.

Malgré les progrès, sachez que même les systèmes les plus sophistiqués ont des limites. L’IA peut encore faire des erreurs. Pour déterminer quels chatbots sont les moins sensibles aux illusions de l’IA, testez leur précision en fonction de ces facteurs.

1. Capacité à résoudre des problèmes mathématiques

Exécutez des équations mathématiques via le chatbot. Ils testeront la capacité de la plateforme à analyser des problèmes, à traduire des concepts mathématiques et à appliquer des formules avec précision. Seuls quelques modèles démontrent des capacités informatiques fiables. En fait, l'un des pires problèmes de ChatGPT à ses débuts était ses terribles mathématiques.

L'image ci-dessous montre que ChatGPT ne parvient pas à atteindre les statistiques de base.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT a mal répondu à la question de probabilité

ChatGPT a montré des améliorations après le déploiement des mises à jour d'OpenAI en mai 2023. Mais compte tenu de ses ensembles de données limités, vous aurez toujours du mal à résoudre des problèmes intermédiaires à avancés.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT répond correctement aux questions de probabilité

Pendant ce temps, Bing Chat et Google Bard disposent de meilleures capacités informatiques. Ils exécutent des requêtes via leurs moteurs de recherche respectifs, leur permettant de récupérer des formules et de fournir des réponses.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bing Chat répond correctement aux questions de probabilité

Essayez de reformuler vos requêtes. Évitez les phrases longues et remplacez-les par des verbes faibles ; sinon, le chatbot pourrait mal comprendre votre question.

2. Capacité à comprendre des requêtes complexes

Les systèmes d’IA modernes peuvent assumer de nombreuses tâches. Les LLM avancés leur permettent de conserver les instructions précédentes et de répondre aux requêtes de manière fragmentaire, alors que les systèmes plus anciens gèrent des commandes uniques. Par exemple, Siri répond à une question à la fois.

Donnez aux chatbots 3 à 5 tâches simultanées pour tester leur capacité à analyser des invites complexes. Les modèles moins complexes ne peuvent pas gérer autant d’informations. L'image ci-dessous montre que HuggingChat rencontre des problèmes avec l'invite en 3 étapes : elle s'arrête à la première étape et sort du sujet.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

HuggingChat tente de répondre aux requêtes en plusieurs étapes

Les dernières lignes de HuggingChat étaient incohérentes.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

HuggingChat confus après avoir répondu à une requête en plusieurs étapes

ChatGPT répond rapidement à la même invite, générant des réponses intelligentes et sans erreur à chaque étape.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT répond à la première question d'une requête en plusieurs étapes

Bing Chat fournit des réponses succinctes en 3 étapes. Ses contraintes rigides interdisent les sorties inutilement longues qui gaspillent la puissance de traitement.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bing Chat fournit des réponses concises aux projets en plusieurs étapes

3. Limiter l'ensemble de données d'entraînement

La formation à l’IA étant gourmande en ressources, la plupart des développeurs limitent les ensembles de données à des périodes spécifiques. Prenez ChatGPT par exemple. Ses connaissances sont limitées en septembre 2021 : vous ne pouvez pas demander de mises à jour météorologiques, de reportages ou de développements récents. ChatGPT n'a pas accès aux informations en temps réel.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT ne peut pas partager d'événements notables car il a des connaissances limitées

Bard a accès à Internet. Il extrait les données des SERP de Google afin que vous puissiez poser davantage de types de questions, par exemple sur les événements récents, les actualités et les prédictions.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bard partage des événements notables en exécutant des requêtes Google

De même, Bing Chat extrait des informations en temps réel de son moteur de recherche.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bing partage des événements notables en exécutant des requêtes de recherche sur Bing

Bing Chat et Bard fournissent des informations ponctuelles et à jour, mais Bing Chat fournit des commentaires plus détaillés. Bing présente simplement les données telles quelles. Vous remarquerez que sa sortie correspond souvent à la formulation et au ton des sources liées.

4. Pertinence dans la réponse

Les chatbots doivent fournir des résultats pertinents. Ils doivent tenir compte du sens littéral et du contexte de l’invite lorsqu’ils répondent. Prenez cette conversation par exemple. Le personnage a besoin d'un nouveau téléphone mais ne dispose que de 1 000 $ - ChatGPT n'a pas dépassé son budget.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT recommande les smartphones à moins de 1 000 $

Lorsque vous testez la pertinence, essayez de créer de longues instructions. Les chatbots moins sophistiqués ont tendance à s’égarer lorsqu’on leur donne des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais il peut s’écarter du thème principal si vous fixez trop de règles et de lignes directrices.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

HuggingChat est confus par les invites en plusieurs étapes

5. Mémoire contextuelle

La mémoire contextuelle aide l’IA à produire des résultats précis et fiables. Au lieu de regarder au-delà des questions, ils rassemblent les détails que vous avez mentionnés. Prenez cette conversation par exemple. Bing Chat connecte deux messages distincts pour former une réponse concise et utile.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bing Chat fournit aux écrivains des livres pour améliorer leurs compétences

De même, la mémoire contextuelle permet aux chatbots de mémoriser les instructions. Cette image montre ChatGPT imitant la façon dont un personnage fictif parle dans plusieurs conversations.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT répond à des questions comme Ash de Pokemon

Testez vous-même cette fonctionnalité en vous référant à plusieurs reprises aux instructions précédentes. Donnez aux chatbots diverses informations, puis forcez-les à rappeler ces informations dans les réponses ultérieures.

Remarque : La mémoire contextuelle est limitée. Bing Chat démarre une nouvelle conversation tous les 20 tours, tandis que ChatGPT ne peut pas gérer les invites supérieures à 3 000 jetons.

6. Restrictions de sécurité

L'IA ne fonctionne pas toujours comme prévu. Une formation incorrecte peut amener les technologies d’apprentissage automatique à commettre diverses erreurs, allant de petites erreurs mathématiques à des commentaires douteux. Prenez Microsoft Tay par exemple. Les utilisateurs de Twitter ont exploité son modèle d’apprentissage non supervisé et l’ont transformé en insultes racistes.

Heureusement, les leaders technologiques mondiaux ont tiré les leçons des erreurs de Microsoft. Bien que rentable et pratique, l’apprentissage non supervisé rend les systèmes d’IA faciles à tromper. Par conséquent, les développeurs s’appuient aujourd’hui principalement sur l’apprentissage supervisé. Les chatbots comme ChatGPT apprennent toujours des conversations, mais leurs formateurs filtrent d'abord les informations.

Les restrictions moins rigides de ChatGPT peuvent couvrir un plus large éventail de tâches mais sont faibles contre les exploits. Pendant ce temps, Bing Chat suit des limites plus strictes. Bien qu’ils aident à se défendre contre les tentatives d’exploitation, ils entravent également les fonctionnalités. Bing coupe automatiquement les conversations potentiellement dangereuses.

7. Biais de l'IA

L’IA est intrinsèquement neutre. Le manque d’intérêts et d’émotions de l’IA la rend incapable de se forger une opinion : elle ne présente que les informations qu’elle connaît. C'est ainsi que ChatGPT répond aux sujets subjectifs.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT compare Iron Man et Captain America

Malgré cette neutralité, des biais subsistent dans l’IA. Ils proviennent des modèles, des ensembles de données, des algorithmes et des modèles utilisés par les développeurs. L’IA peut être impartiale, mais pas les humains.

Par exemple, la Brookings Institution affirme que ChatGPT présente un parti pris politique de gauche. Bien entendu, OpenAI nie ces accusations. Mais pour éviter des problèmes similaires avec les modèles plus récents, ChatGPT évite complètement les sorties biaisées.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT ne peut pas discuter de religion

De même, Bing Chat évite également les problèmes sensibles et subjectifs.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bing Chat ne peut pas discuter de religion

Auto-évaluez les préjugés de l’IA en posant des questions ouvertes basées sur l’opinion. Discutez de sujets qui n'ont pas de bonnes ou de mauvaises réponses : les chatbots moins sophistiqués peuvent montrer des préférences infondées envers des groupes spécifiques.

8. Références

L’IA vérifie rarement les faits. Il prend simplement les informations de l'ensemble de données et les réécrit via des modèles de langage. Malheureusement, une formation limitée provoque des hallucinations IA. Vous pouvez toujours utiliser les outils d’IA générative pour la recherche, mais assurez-vous de vérifier les faits vous-même.

Bing Chat simplifie le processus de vérification des faits en répertoriant ses références après chaque sortie.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bing Chat répond aux questions sur la date de lancement de ChatGPT

Bard AI ne répertorie pas ses sources mais crée des explications approfondies et à jour en exécutant des requêtes de recherche Google. Vous obtiendrez des points clés des SERP.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

Bard explique les données de lancement et les mises à jour récentes de ChatGPT

ChatGPT est sujet aux inexactitudes. La limitation des connaissances en 2021 l’empêche de répondre aux questions sur les événements et incidents récents.

8 facteurs clés à prendre en compte lors du test de la précision des chatbots IA

ChatGPT ne peut pas répondre aux questions de culture générale sur les événements récents

Laisser un commentaire

Qu’est-ce que Forefront IA ? Est-ce mieux que ChatGPT ?

Forefront AI est une plateforme en ligne qui permet aux entreprises et aux particuliers d’accéder à 5 LLM (grands modèles de langage) différents : GPT-3.5, GPT-4, Claude Instant 1.2, Claude 2 et Forefront.

Comment créer des modèles personnalisés dans DocuSign

Découvrez comment créer des modèles personnalisés dans DocuSign pour faciliter vos processus de signature numérique. Apprenez à configurer un document pour vos fournisseurs et à gérer les messages.

Les applications d’IA peuvent diagnostiquer les maladies sexuellement transmissibles uniquement grâce aux images

Les applications d'IA comme celles développées par HeHealth révolutionnent le diagnostic des maladies sexuellement transmissibles, offrant des solutions pratiques et confidentielles.

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .