Kunstmatige intelligentie heeft een lange weg afgelegd in het genereren van irrelevante, onsamenhangende output. Moderne chatbots gebruiken geavanceerde taalmodellen om algemene kennisvragen te beantwoorden, lange essays samen te stellen en code te schrijven, naast vele andere complexe taken.
Ondanks de vooruitgang moet u zich ervan bewust zijn dat zelfs de meest geavanceerde systemen beperkingen hebben. AI kan nog steeds fouten maken. Om te bepalen welke chatbots het minst vatbaar zijn voor AI-illusies, test je hun nauwkeurigheid op basis van deze factoren.
1. Vermogen om wiskundige problemen op te lossen
Voer wiskundige vergelijkingen uit via de chatbot. Ze zullen het vermogen van het platform testen om problemen te analyseren, wiskundige concepten te vertalen en formules nauwkeurig toe te passen. Slechts een paar modellen demonstreren betrouwbare computermogelijkheden. In feite was een van de ergste problemen van ChatGPT in de beginperiode de vreselijke wiskunde.
De onderstaande afbeelding laat zien dat ChatGPT er niet in slaagt basisstatistieken te realiseren.

ChatGPT heeft de waarschijnlijkheidsvraag onjuist beantwoord
ChatGPT heeft verbetering laten zien nadat OpenAI in mei 2023 updates uitrolde. Maar gezien de beperkte datasets zul je nog steeds worstelen met gemiddelde tot geavanceerde problemen.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT beantwoordt waarschijnlijkheidsvragen correct
Ondertussen hebben Bing Chat en Google Bard betere computermogelijkheden. Ze voeren zoekopdrachten uit via hun respectievelijke zoekmachines, waardoor ze formules kunnen ophalen en antwoorden kunnen geven.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bing Chat beantwoordt waarschijnlijkheidsvragen correct
Probeer uw vragen opnieuw te formuleren. Vermijd lange zinnen en vervang zwakke werkwoorden; anders kan de chatbot uw vraag verkeerd begrijpen.
2. Vermogen om complexe vragen te begrijpen
Moderne AI-systemen kunnen veel taken op zich nemen. Met geavanceerde LLM's kunnen ze eerdere instructies behouden en vragen stukje bij beetje beantwoorden, terwijl oudere systemen afzonderlijke opdrachten verwerken. Siri beantwoordt bijvoorbeeld één vraag tegelijk.
Geef chatbots 3 tot 5 gelijktijdige taken om te testen hoe goed ze complexe prompts analyseren. Minder complexe modellen kunnen niet zoveel informatie verwerken. De onderstaande afbeelding laat zien dat HuggingChat problemen heeft met de 3-stappenprompt - deze stopt bij stap één en gaat buiten het onderwerp.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
HuggingChat probeert vragen in meerdere stappen te beantwoorden
De laatste regels van HuggingChat waren onsamenhangend.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
HuggingChat is in de war na het beantwoorden van een meerstapsvraag
ChatGPT voltooit snel dezelfde prompt en genereert bij elke stap slimme, foutloze reacties.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT beantwoordt de eerste vraag van een meerstapsquery
Bing Chat biedt beknopte antwoorden voor 3 stappen. De strenge beperkingen ervan verbieden onnodig lange producties die verwerkingskracht verspillen.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bing Chat biedt beknopte antwoorden op projecten die uit meerdere stappen bestaan
3. Beperk de trainingsgegevensset
Omdat AI-training veel middelen vergt, beperken de meeste ontwikkelaars datasets tot specifieke tijdsperioden. Neem bijvoorbeeld ChatGPT. Het heeft beperkte kennis in september 2021 - u kunt geen weerupdates, nieuwsberichten of recente ontwikkelingen opvragen. ChatGPT heeft geen toegang tot realtime informatie.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT kan geen opmerkelijke evenementen delen omdat het over beperkte kennis beschikt
Bard heeft toegang tot internet. Het haalt gegevens uit de SERP’s van Google, zodat u meer soorten vragen kunt stellen, bijvoorbeeld over recente gebeurtenissen, nieuws en voorspellingen.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bard deelt opmerkelijke gebeurtenissen door Google-query's uit te voeren
Op dezelfde manier haalt Bing Chat realtime informatie uit zijn zoekmachine.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bing deelt opmerkelijke gebeurtenissen door zoekopdrachten uit te voeren op Bing
Bing Chat en Bard bieden actuele, actuele informatie, maar Bing Chat biedt meer gedetailleerde feedback. Bing presenteert gegevens gewoon zoals ze zijn. Je zult merken dat de uitvoer ervan vaak overeenkomt met de frasering en toon van de gekoppelde bronnen.
4. Relevantie in het antwoord
Chatbots moeten relevante output leveren. Ze moeten bij het reageren rekening houden met de letterlijke betekenis en context van de prompt. Neem dit gesprek bijvoorbeeld. Het personage heeft een nieuwe telefoon nodig, maar heeft slechts $ 1000. ChatGPT is niet boven het budget.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT raadt smartphones onder de $1000 aan
Probeer bij het testen op relevantie lange instructies te maken. Minder geavanceerde chatbots hebben de neiging om op een dwaalspoor te raken als ze verwarrende instructies krijgen. HuggingChat kan bijvoorbeeld fictieve verhalen componeren. Maar het kan afwijken van het hoofdthema als je te veel regels en richtlijnen stelt.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
HuggingChat raakt in de war door aanwijzingen die uit meerdere stappen bestaan
5. Contextueel geheugen
Contextueel geheugen helpt AI nauwkeurige, betrouwbare output te produceren. In plaats van buiten de vragen te kijken, rijgen ze de door u genoemde details aan elkaar. Neem dit gesprek bijvoorbeeld. Bing Chat verbindt twee afzonderlijke berichten tot één beknopt, nuttig antwoord.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bing Chat biedt schrijvers boeken waarmee ze hun vaardigheden kunnen verbeteren
Op dezelfde manier zorgt contextueel geheugen ervoor dat chatbots instructies kunnen onthouden. Deze afbeelding toont ChatGPT die de manier imiteert waarop een fictief personage spreekt in verschillende gesprekken.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT beantwoordt vragen zoals Ash van Pokemon
Test deze functionaliteit zelf door herhaaldelijk naar de voorgaande uitspraken te verwijzen. Geef chatbots een verscheidenheid aan informatie en dwing ze vervolgens om deze informatie in volgende reacties op te roepen.
Opmerking : contextueel geheugen is beperkt. Bing Chat begint elke 20 rondes een nieuw gesprek, terwijl ChatGPT geen prompts boven de 3.000 tokens kan verwerken.
6. Beveiligingsbeperkingen
AI werkt niet altijd zoals bedoeld. Onjuiste training kan ervoor zorgen dat machine learning-technologieën allerlei fouten maken, van kleine wiskundige fouten tot twijfelachtige opmerkingen. Neem bijvoorbeeld Microsoft Tay. Twitter-gebruikers exploiteerden het leermodel zonder toezicht en veranderden het in racistische opmerkingen.
Gelukkig hebben de mondiale technologieleiders geleerd van de fouten van Microsoft. Hoewel het kosteneffectief en handig is, maakt leren zonder toezicht AI-systemen gemakkelijk voor de gek te houden. Daarom vertrouwen ontwikkelaars tegenwoordig vooral op begeleid leren. Chatbots zoals ChatGPT leren nog steeds van gesprekken, maar hun trainers filteren de informatie eerst.
De minder strenge beperkingen van ChatGPT kunnen een breder scala aan taken bestrijken, maar zijn zwak tegen exploits. Ondertussen volgt Bing Chat strengere limieten. Hoewel ze bescherming bieden tegen pogingen tot misbruik, belemmeren ze ook de functionaliteit. Bing dempt automatisch potentieel schadelijke gesprekken.
7. AI-vooroordeel
AI is inherent neutraal. Het gebrek aan interesses en emoties van AI zorgt ervoor dat AI niet in staat is meningen te vormen; het presenteert alleen informatie die het kent. Dit is hoe ChatGPT reageert op subjectieve onderwerpen.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT vergelijkt Iron Man en Captain America
Ondanks deze neutraliteit bestaan er nog steeds vooroordelen op het gebied van AI. Ze komen voort uit de patronen, datasets, algoritmen en modellen die ontwikkelaars gebruiken. AI kan onpartijdig zijn, maar mensen zijn dat niet.
The Brookings Institution beweert bijvoorbeeld dat ChatGPT linkse politieke vooroordelen vertoont. Uiteraard ontkent OpenAI deze beschuldigingen. Maar om vergelijkbare problemen met nieuwere modellen te voorkomen, vermijdt ChatGPT volledig vertekende uitvoer.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT kan religie niet bespreken
Op dezelfde manier vermijdt Bing Chat ook gevoelige, subjectieve kwesties.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bing Chat kan religie niet bespreken
Beoordeel zelf de AI-vooroordelen door open, op meningen gebaseerde vragen te stellen. Bespreek onderwerpen die geen goede of foute antwoorden hebben - minder geavanceerde chatbots kunnen ongegronde voorkeuren tonen aan specifieke groepen.
8. Referenties
AI controleert zelden feiten. Het neemt alleen informatie uit de dataset en herschrijft deze via taalmodellen. Helaas veroorzaakt beperkte training AI-hallucinaties. Je kunt Generatieve AI-tools nog steeds gebruiken voor onderzoek, maar zorg ervoor dat je de feiten zelf verifieert.
Bing Chat vereenvoudigt het proces van factchecking door de referenties na elke uitvoer op te sommen.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bing Chat beantwoordt vragen over de lanceringsdatum van ChatGPT
Bard AI vermeldt zijn bronnen niet, maar creëert diepgaande, actuele uitleg door zoekopdrachten op Google uit te voeren. U krijgt belangrijke punten van SERP’s.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
Bard legt de recente lanceringsgegevens en updates van ChatGPT uit
ChatGPT is gevoelig voor onnauwkeurigheden. De kennisbeperking van 2021 verhindert het beantwoorden van vragen over recente gebeurtenissen en incidenten.
![8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots 8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots]()
ChatGPT kan geen algemene kennisvragen over recente gebeurtenissen beantwoorden