8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Kunstmatige intelligentie heeft een lange weg afgelegd in het genereren van irrelevante, onsamenhangende output. Moderne chatbots gebruiken geavanceerde taalmodellen om algemene kennisvragen te beantwoorden, lange essays samen te stellen en code te schrijven, naast vele andere complexe taken.

Ondanks de vooruitgang moet u zich ervan bewust zijn dat zelfs de meest geavanceerde systemen beperkingen hebben. AI kan nog steeds fouten maken. Om te bepalen welke chatbots het minst vatbaar zijn voor AI-illusies, test je hun nauwkeurigheid op basis van deze factoren.

1. Vermogen om wiskundige problemen op te lossen

Voer wiskundige vergelijkingen uit via de chatbot. Ze zullen het vermogen van het platform testen om problemen te analyseren, wiskundige concepten te vertalen en formules nauwkeurig toe te passen. Slechts een paar modellen demonstreren betrouwbare computermogelijkheden. In feite was een van de ergste problemen van ChatGPT in de beginperiode de vreselijke wiskunde.

De onderstaande afbeelding laat zien dat ChatGPT er niet in slaagt basisstatistieken te realiseren.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT heeft de waarschijnlijkheidsvraag onjuist beantwoord

ChatGPT heeft verbetering laten zien nadat OpenAI in mei 2023 updates uitrolde. Maar gezien de beperkte datasets zul je nog steeds worstelen met gemiddelde tot geavanceerde problemen.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT beantwoordt waarschijnlijkheidsvragen correct

Ondertussen hebben Bing Chat en Google Bard betere computermogelijkheden. Ze voeren zoekopdrachten uit via hun respectievelijke zoekmachines, waardoor ze formules kunnen ophalen en antwoorden kunnen geven.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bing Chat beantwoordt waarschijnlijkheidsvragen correct

Probeer uw vragen opnieuw te formuleren. Vermijd lange zinnen en vervang zwakke werkwoorden; anders kan de chatbot uw vraag verkeerd begrijpen.

2. Vermogen om complexe vragen te begrijpen

Moderne AI-systemen kunnen veel taken op zich nemen. Met geavanceerde LLM's kunnen ze eerdere instructies behouden en vragen stukje bij beetje beantwoorden, terwijl oudere systemen afzonderlijke opdrachten verwerken. Siri beantwoordt bijvoorbeeld één vraag tegelijk.

Geef chatbots 3 tot 5 gelijktijdige taken om te testen hoe goed ze complexe prompts analyseren. Minder complexe modellen kunnen niet zoveel informatie verwerken. De onderstaande afbeelding laat zien dat HuggingChat problemen heeft met de 3-stappenprompt - deze stopt bij stap één en gaat buiten het onderwerp.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

HuggingChat probeert vragen in meerdere stappen te beantwoorden

De laatste regels van HuggingChat waren onsamenhangend.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

HuggingChat is in de war na het beantwoorden van een meerstapsvraag

ChatGPT voltooit snel dezelfde prompt en genereert bij elke stap slimme, foutloze reacties.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT beantwoordt de eerste vraag van een meerstapsquery

Bing Chat biedt beknopte antwoorden voor 3 stappen. De strenge beperkingen ervan verbieden onnodig lange producties die verwerkingskracht verspillen.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bing Chat biedt beknopte antwoorden op projecten die uit meerdere stappen bestaan

3. Beperk de trainingsgegevensset

Omdat AI-training veel middelen vergt, beperken de meeste ontwikkelaars datasets tot specifieke tijdsperioden. Neem bijvoorbeeld ChatGPT. Het heeft beperkte kennis in september 2021 - u kunt geen weerupdates, nieuwsberichten of recente ontwikkelingen opvragen. ChatGPT heeft geen toegang tot realtime informatie.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT kan geen opmerkelijke evenementen delen omdat het over beperkte kennis beschikt

Bard heeft toegang tot internet. Het haalt gegevens uit de SERP’s van Google, zodat u meer soorten vragen kunt stellen, bijvoorbeeld over recente gebeurtenissen, nieuws en voorspellingen.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bard deelt opmerkelijke gebeurtenissen door Google-query's uit te voeren

Op dezelfde manier haalt Bing Chat realtime informatie uit zijn zoekmachine.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bing deelt opmerkelijke gebeurtenissen door zoekopdrachten uit te voeren op Bing

Bing Chat en Bard bieden actuele, actuele informatie, maar Bing Chat biedt meer gedetailleerde feedback. Bing presenteert gegevens gewoon zoals ze zijn. Je zult merken dat de uitvoer ervan vaak overeenkomt met de frasering en toon van de gekoppelde bronnen.

4. Relevantie in het antwoord

Chatbots moeten relevante output leveren. Ze moeten bij het reageren rekening houden met de letterlijke betekenis en context van de prompt. Neem dit gesprek bijvoorbeeld. Het personage heeft een nieuwe telefoon nodig, maar heeft slechts $ 1000. ChatGPT is niet boven het budget.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT raadt smartphones onder de $1000 aan

Probeer bij het testen op relevantie lange instructies te maken. Minder geavanceerde chatbots hebben de neiging om op een dwaalspoor te raken als ze verwarrende instructies krijgen. HuggingChat kan bijvoorbeeld fictieve verhalen componeren. Maar het kan afwijken van het hoofdthema als je te veel regels en richtlijnen stelt.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

HuggingChat raakt in de war door aanwijzingen die uit meerdere stappen bestaan

5. Contextueel geheugen

Contextueel geheugen helpt AI nauwkeurige, betrouwbare output te produceren. In plaats van buiten de vragen te kijken, rijgen ze de door u genoemde details aan elkaar. Neem dit gesprek bijvoorbeeld. Bing Chat verbindt twee afzonderlijke berichten tot één beknopt, nuttig antwoord.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bing Chat biedt schrijvers boeken waarmee ze hun vaardigheden kunnen verbeteren

Op dezelfde manier zorgt contextueel geheugen ervoor dat chatbots instructies kunnen onthouden. Deze afbeelding toont ChatGPT die de manier imiteert waarop een fictief personage spreekt in verschillende gesprekken.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT beantwoordt vragen zoals Ash van Pokemon

Test deze functionaliteit zelf door herhaaldelijk naar de voorgaande uitspraken te verwijzen. Geef chatbots een verscheidenheid aan informatie en dwing ze vervolgens om deze informatie in volgende reacties op te roepen.

Opmerking : contextueel geheugen is beperkt. Bing Chat begint elke 20 rondes een nieuw gesprek, terwijl ChatGPT geen prompts boven de 3.000 tokens kan verwerken.

6. Beveiligingsbeperkingen

AI werkt niet altijd zoals bedoeld. Onjuiste training kan ervoor zorgen dat machine learning-technologieën allerlei fouten maken, van kleine wiskundige fouten tot twijfelachtige opmerkingen. Neem bijvoorbeeld Microsoft Tay. Twitter-gebruikers exploiteerden het leermodel zonder toezicht en veranderden het in racistische opmerkingen.

Gelukkig hebben de mondiale technologieleiders geleerd van de fouten van Microsoft. Hoewel het kosteneffectief en handig is, maakt leren zonder toezicht AI-systemen gemakkelijk voor de gek te houden. Daarom vertrouwen ontwikkelaars tegenwoordig vooral op begeleid leren. Chatbots zoals ChatGPT leren nog steeds van gesprekken, maar hun trainers filteren de informatie eerst.

De minder strenge beperkingen van ChatGPT kunnen een breder scala aan taken bestrijken, maar zijn zwak tegen exploits. Ondertussen volgt Bing Chat strengere limieten. Hoewel ze bescherming bieden tegen pogingen tot misbruik, belemmeren ze ook de functionaliteit. Bing dempt automatisch potentieel schadelijke gesprekken.

7. AI-vooroordeel

AI is inherent neutraal. Het gebrek aan interesses en emoties van AI zorgt ervoor dat AI niet in staat is meningen te vormen; het presenteert alleen informatie die het kent. Dit is hoe ChatGPT reageert op subjectieve onderwerpen.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT vergelijkt Iron Man en Captain America

Ondanks deze neutraliteit bestaan ​​er nog steeds vooroordelen op het gebied van AI. Ze komen voort uit de patronen, datasets, algoritmen en modellen die ontwikkelaars gebruiken. AI kan onpartijdig zijn, maar mensen zijn dat niet.

The Brookings Institution beweert bijvoorbeeld dat ChatGPT linkse politieke vooroordelen vertoont. Uiteraard ontkent OpenAI deze beschuldigingen. Maar om vergelijkbare problemen met nieuwere modellen te voorkomen, vermijdt ChatGPT volledig vertekende uitvoer.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT kan religie niet bespreken

Op dezelfde manier vermijdt Bing Chat ook gevoelige, subjectieve kwesties.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bing Chat kan religie niet bespreken

Beoordeel zelf de AI-vooroordelen door open, op meningen gebaseerde vragen te stellen. Bespreek onderwerpen die geen goede of foute antwoorden hebben - minder geavanceerde chatbots kunnen ongegronde voorkeuren tonen aan specifieke groepen.

8. Referenties

AI controleert zelden feiten. Het neemt alleen informatie uit de dataset en herschrijft deze via taalmodellen. Helaas veroorzaakt beperkte training AI-hallucinaties. Je kunt Generatieve AI-tools nog steeds gebruiken voor onderzoek, maar zorg ervoor dat je de feiten zelf verifieert.

Bing Chat vereenvoudigt het proces van factchecking door de referenties na elke uitvoer op te sommen.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bing Chat beantwoordt vragen over de lanceringsdatum van ChatGPT

Bard AI vermeldt zijn bronnen niet, maar creëert diepgaande, actuele uitleg door zoekopdrachten op Google uit te voeren. U krijgt belangrijke punten van SERP’s.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

Bard legt de recente lanceringsgegevens en updates van ChatGPT uit

ChatGPT is gevoelig voor onnauwkeurigheden. De kennisbeperking van 2021 verhindert het beantwoorden van vragen over recente gebeurtenissen en incidenten.

8 sleutelfactoren waarmee u rekening moet houden bij het testen van de nauwkeurigheid van AI-chatbots

ChatGPT kan geen algemene kennisvragen over recente gebeurtenissen beantwoorden


De ChatGPT-taskforce zal door Europa worden opgericht

De ChatGPT-taskforce zal door Europa worden opgericht

Het orgaan dat de nationale privacywaakhonden van Europa verenigt, zei donderdag dat het een taskforce heeft opgericht die zich specifiek bezighoudt met ChatGPT

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

Deense en Amerikaanse wetenschappers hebben samengewerkt om een ​​AI-systeem te ontwikkelen genaamd life2vec, dat in staat is om het tijdstip van menselijke dood met hoge nauwkeurigheid te voorspellen.

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

Een AI-algoritme genaamd Audioflow kan naar het geluid van het plassen luisteren om abnormale stromingen en bijbehorende gezondheidsproblemen van de patiënt effectief en met succes te identificeren.

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Door de vergrijzing en de afnemende bevolking van Japan heeft het land een aanzienlijk aantal jonge werknemers nodig, vooral in de dienstensector.

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Een Reddit-gebruiker genaamd u/LegalBeagle1966 is een van de vele gebruikers die verliefd zijn op Claudia, een filmsterachtig meisje dat vaak verleidelijke selfies deelt, zelfs naakte, op dit platform.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Microsoft heeft zojuist aangekondigd dat nog twaalf technologiebedrijven zullen deelnemen aan zijn AI for Good-programma.

AI herschept Dragon Ball-personages in vlees en bloed

AI herschept Dragon Ball-personages in vlees en bloed

Gebruiker @mortecouille92 heeft de kracht van de grafische ontwerptool Midjourney aan het werk gezet en uniek realistische versies gemaakt van beroemde Dragon Ball-personages zoals Goku, Vegeta, Bulma en oudere Kame.

7 technieken om ChatGPT-reacties te verbeteren

7 technieken om ChatGPT-reacties te verbeteren

Door enkele voorwaarden toe te voegen of enkele scenario's in te stellen, kan ChatGPT relevantere antwoorden op uw vragen geven. Laten we eens kijken naar enkele manieren waarop u de kwaliteit van uw ChatGPT-reacties kunt verbeteren.

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Midjourney is een kunstmatig intelligentiesysteem dat de laatste tijd voor ‘koorts’ zorgt in de online community en de kunstenaarswereld vanwege zijn buitengewoon mooie schilderijen die niet onderdoen voor die van echte kunstenaars.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dagen nadat China de uitbraak had aangekondigd, bleef het AI-systeem van BlueDot, met toegang tot wereldwijde gegevens over de verkoop van vliegtickets, nauwkeurig de verspreiding van het Wuhan Corona-virus naar Bangkok, Seoul, Taipei en Tokio voorspellen.