8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Künstliche Intelligenz ist weit davon entfernt, irrelevante, inkohärente Ergebnisse zu erzeugen. Moderne Chatbots verwenden fortschrittliche Sprachmodelle, um neben vielen anderen komplexen Aufgaben allgemeine Wissensfragen zu beantworten, lange Aufsätze zu verfassen und Code zu schreiben.

Trotz der Fortschritte sollten Sie sich darüber im Klaren sein, dass selbst die ausgefeiltesten Systeme ihre Grenzen haben. KI kann immer noch Fehler machen. Um festzustellen, welche Chatbots am wenigsten anfällig für KI-Illusionen sind, testen Sie ihre Genauigkeit anhand dieser Faktoren.

1. Fähigkeit, mathematische Probleme zu lösen

Führen Sie mathematische Gleichungen über den Chatbot aus. Sie werden die Fähigkeit der Plattform testen, Probleme zu analysieren, mathematische Konzepte zu übersetzen und Formeln genau anzuwenden. Nur wenige Modelle weisen zuverlässige Rechenfähigkeiten auf. Tatsächlich war eines der schlimmsten Probleme von ChatGPT in seinen Anfängen seine schreckliche Mathematik.

Das Bild unten zeigt, dass ChatGPT keine grundlegenden Statistiken erstellen kann.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT hat die Wahrscheinlichkeitsfrage falsch beantwortet

ChatGPT hat sich verbessert, nachdem OpenAI im Mai 2023 Updates herausgebracht hat. Aber angesichts der begrenzten Datensätze werden Sie immer noch mit mittelschweren bis fortgeschrittenen Problemen zu kämpfen haben.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT beantwortet Wahrscheinlichkeitsfragen korrekt

Mittlerweile verfügen Bing Chat und Google Bard über bessere Rechenfähigkeiten. Sie führen Abfragen über ihre jeweiligen Suchmaschinen durch und können so Formeln abrufen und Antworten geben.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bing Chat beantwortet Wahrscheinlichkeitsfragen korrekt

Versuchen Sie, Ihre Fragen umzuformulieren. Vermeiden Sie lange Sätze und ersetzen Sie schwache Verben; Andernfalls könnte der Chatbot Ihre Frage falsch verstehen.

2. Fähigkeit, komplexe Abfragen zu verstehen

Moderne KI-Systeme können viele Aufgaben übernehmen. Fortschrittliche LLMs ermöglichen es ihnen, vorherige Anweisungen beizubehalten und Abfragen stückweise zu beantworten, während ältere Systeme einzelne Befehle verarbeiten. Siri beantwortet beispielsweise jeweils eine Frage.

Geben Sie Chatbots drei bis fünf gleichzeitige Aufgaben, um zu testen, wie gut sie komplexe Eingaben analysieren. Weniger komplexe Modelle können nicht so viele Informationen verarbeiten. Das Bild unten zeigt, wie HuggingChat Probleme mit der 3-Schritte-Eingabeaufforderung hat – es stoppt bei Schritt eins und verlässt das Thema.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

HuggingChat versucht, mehrstufige Anfragen zu beantworten

Die letzten Zeilen von HuggingChat waren zusammenhangslos.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

HuggingChat ist nach der Beantwortung einer mehrstufigen Anfrage verwirrt

ChatGPT erledigt die gleiche Eingabeaufforderung schnell und generiert bei jedem Schritt intelligente, fehlerfreie Antworten.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT beantwortet die erste Frage einer mehrstufigen Abfrage

Bing Chat bietet prägnante Antworten für drei Schritte. Seine strengen Einschränkungen verhindern unnötig lange Ausgaben, die Rechenleistung verschwenden.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bing Chat bietet prägnante Antworten auf mehrstufige Projekte

3. Begrenzen Sie den Trainingsdatensatz

Da KI-Training ressourcenintensiv ist, beschränken die meisten Entwickler Datensätze auf bestimmte Zeiträume. Nehmen Sie zum Beispiel ChatGPT. Im September 2021 liegen nur begrenzte Informationen vor – Sie können keine Wetteraktualisierungen, Nachrichtenberichte oder aktuelle Entwicklungen anfordern. ChatGPT hat keinen Zugriff auf Echtzeitinformationen.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT kann aufgrund begrenzter Kenntnisse keine wichtigen Ereignisse teilen

Bard hat Zugang zum Internet. Es ruft Daten aus Google SERPs ab, sodass Sie weitere Arten von Fragen stellen können, beispielsweise zu aktuellen Ereignissen, Nachrichten und Vorhersagen.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bard teilt bemerkenswerte Ereignisse mit, indem er Google-Abfragen durchführt

Ebenso ruft Bing Chat Echtzeitinformationen aus seiner Suchmaschine ab.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bing teilt bemerkenswerte Ereignisse, indem es Suchanfragen auf Bing ausführt

Bing Chat und Bard bieten zeitnahe, aktuelle Informationen, Bing Chat bietet jedoch detaillierteres Feedback. Bing stellt die Daten einfach so dar, wie sie sind. Sie werden feststellen, dass die Ausgabe häufig mit der Phrasierung und dem Ton der verlinkten Quellen übereinstimmt.

4. Relevanz der Antwort

Chatbots müssen relevante Ergebnisse liefern. Sie sollten bei der Antwort die wörtliche Bedeutung und den Kontext der Aufforderung berücksichtigen. Nehmen Sie zum Beispiel dieses Gespräch. Der Charakter braucht ein neues Telefon, hat aber nur 1000 $ – ChatGPT ist nicht über dem Budget.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT empfiehlt Smartphones unter 1000 US-Dollar

Versuchen Sie beim Testen der Relevanz, lange Anweisungen zu erstellen. Weniger ausgefeilte Chatbots neigen dazu, bei verwirrenden Anweisungen in die Irre zu gehen. HuggingChat kann beispielsweise fiktive Geschichten verfassen. Es kann jedoch vom Hauptthema abweichen, wenn Sie zu viele Regeln und Richtlinien festlegen.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

HuggingChat wird durch mehrstufige Eingabeaufforderungen verwirrt

5. Kontextuelles Gedächtnis

Das Kontextgedächtnis hilft der KI dabei, genaue und zuverlässige Ergebnisse zu erzeugen. Anstatt über die Fragen hinauszuschauen, reihen sie die von Ihnen erwähnten Details aneinander. Nehmen Sie zum Beispiel dieses Gespräch. Bing Chat verbindet zwei separate Nachrichten zu einer prägnanten, hilfreichen Antwort.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bing Chat stellt Autoren Bücher zur Verfügung, mit denen sie ihre Fähigkeiten verbessern können

Ebenso ermöglicht das Kontextgedächtnis Chatbots, sich Anweisungen zu merken. Dieses Bild zeigt ChatGPT, wie es die Art und Weise nachahmt, wie eine fiktive Figur in mehreren Gesprächen spricht.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT beantwortet Fragen wie Ash von Pokemon

Testen Sie diese Funktionalität selbst, indem Sie sich immer wieder auf die vorherigen Ausführungen beziehen. Füttern Sie Chatbots mit einer Vielzahl von Informationen und zwingen Sie sie dann, diese Informationen in nachfolgenden Antworten abzurufen.

Hinweis : Der Kontextspeicher ist begrenzt. Bing Chat startet alle 20 Runden eine neue Konversation, während ChatGPT keine Eingabeaufforderungen über 3.000 Token verarbeiten kann.

6. Sicherheitsbeschränkungen

KI funktioniert nicht immer wie vorgesehen. Falsches Training kann dazu führen, dass maschinelle Lerntechnologien eine Vielzahl von Fehlern machen, von kleinen mathematischen Fehlern bis hin zu fragwürdigen Kommentaren. Nehmen wir zum Beispiel Microsoft Tay. Twitter-Nutzer nutzten das Modell des unbeaufsichtigten Lernens aus und verwandelten es in rassistische Beleidigungen.

Zum Glück haben globale Technologieführer aus den Fehlern von Microsoft gelernt. Obwohl es kostengünstig und bequem ist, macht unbeaufsichtigtes Lernen KI-Systeme leicht zu täuschen. Daher setzen Entwickler heute hauptsächlich auf überwachtes Lernen. Chatbots wie ChatGPT lernen immer noch aus Gesprächen, aber ihre Trainer filtern die Informationen zuerst.

Die weniger strengen Einschränkungen von ChatGPT können ein breiteres Aufgabenspektrum abdecken, sind jedoch schwach gegen Exploits. Mittlerweile folgt Bing Chat strengeren Grenzwerten. Sie helfen zwar bei der Abwehr von Exploit-Versuchen, behindern aber auch die Funktionalität. Bing schaltet potenziell schädliche Gespräche automatisch stumm.

7. KI-Voreingenommenheit

KI ist von Natur aus neutral. Der Mangel an Interessen und Emotionen macht die KI unfähig, sich eine Meinung zu bilden – sie präsentiert nur Informationen, die sie kennt. So reagiert ChatGPT auf subjektive Themen.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT vergleicht Iron Man und Captain America

Trotz dieser Neutralität gibt es immer noch Vorurteile in der KI. Sie stammen aus den Mustern, Datensätzen, Algorithmen und Modellen, die Entwickler verwenden. KI kann unparteiisch sein, Menschen jedoch nicht.

Beispielsweise behauptet die Brookings Institution, dass ChatGPT eine linke politische Voreingenommenheit aufweist. OpenAI bestreitet diese Vorwürfe natürlich. Um jedoch ähnliche Probleme bei neueren Modellen zu vermeiden, verzichtet ChatGPT vollständig auf verzerrte Ausgaben.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT kann nicht über Religion diskutieren

Ebenso vermeidet Bing Chat sensible, subjektive Probleme.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bing Chat kann nicht über Religion diskutieren

Bewerten Sie KI-Vorurteile selbst, indem Sie offene, meinungsbasierte Fragen stellen. Besprechen Sie Themen, auf die es keine richtigen oder falschen Antworten gibt – weniger ausgefeilte Chatbots zeigen möglicherweise unbegründete Präferenzen gegenüber bestimmten Gruppen.

8. Referenzen

KI überprüft Fakten selten noch einmal. Es entnimmt lediglich Informationen aus dem Datensatz und schreibt sie durch Sprachmodelle neu. Leider führt begrenztes Training zu KI-Halluzinationen. Sie können weiterhin generative KI-Tools für die Forschung verwenden, aber stellen Sie sicher, dass Sie die Fakten selbst überprüfen.

Bing Chat vereinfacht den Faktenprüfungsprozess, indem es nach jeder Ausgabe seine Referenzen auflistet.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bing Chat beantwortet Fragen zum Startdatum von ChatGPT

Bard AI listet seine Quellen nicht auf, sondern erstellt durch die Ausführung von Google-Suchanfragen ausführliche, aktuelle Erklärungen. Sie erhalten wichtige Punkte von SERPs.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Bard erläutert die aktuellen Startdaten und Aktualisierungen von ChatGPT

ChatGPT ist anfällig für Ungenauigkeiten. Die Wissensbeschränkung für 2021 verhindert, dass Fragen zu aktuellen Ereignissen und Vorfällen beantwortet werden.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

ChatGPT kann keine allgemeinen Wissensfragen zu aktuellen Ereignissen beantworten

Tags: #Artificial Intelligence (AI)

Die ChatGPT-Task Force wird von Europa eingerichtet

Das Gremium, das die nationalen Datenschutzbeauftragten Europas vereint, gab am Donnerstag bekannt, dass es eine Task Force für ChatGPT eingerichtet habe

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

Dänische und amerikanische Wissenschaftler haben gemeinsam ein KI-System namens life2vec entwickelt, das den Zeitpunkt des menschlichen Todes mit hoher Genauigkeit vorhersagen kann.

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

Ein KI-Algorithmus namens Audioflow kann auf das Geräusch des Urinierens hören, um abnormale Urinflüsse und entsprechende Gesundheitsprobleme des Patienten effektiv und erfolgreich zu identifizieren.

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Japans alternde und schrumpfende Bevölkerung hat dazu geführt, dass dem Land eine erhebliche Zahl junger Arbeitskräfte fehlt, insbesondere im Dienstleistungssektor.

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Ein Reddit-Benutzer namens u/LegalBeagle1966 ist einer von vielen Benutzern, die in Claudia verliebt sind, ein Mädchen wie ein Filmstar, das auf dieser Plattform oft verführerische Selfies, sogar nackte, teilt.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

Microsoft hat gerade angekündigt, dass zwölf weitere Technologieunternehmen an seinem AI for Good-Programm teilnehmen werden.

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Benutzer @mortecouille92 hat die Leistungsfähigkeit des Grafikdesign-Tools Midjourney genutzt und einzigartig realistische Versionen berühmter Dragon Ball-Charaktere wie Goku, Vegeta, Bulma und Elder Kame erstellt. .

7 Techniken zur Verbesserung von ChatGPT-Antworten

Durch einfaches Hinzufügen einiger Bedingungen oder Einrichten einiger Szenarien kann ChatGPT relevantere Antworten auf Ihre Fragen geben. Schauen wir uns einige Möglichkeiten an, wie Sie die Qualität Ihrer ChatGPT-Antworten verbessern können.

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Midjourney ist ein künstliches Intelligenzsystem, das aufgrund seiner äußerst schönen Gemälde, die denen echter Künstler in nichts nachstehen, in letzter Zeit in der Online-Community und der Künstlerwelt für „Fieber“ gesorgt hat.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Tage nachdem China den Ausbruch bekannt gegeben hatte, konnte das KI-System von BlueDot mit Zugriff auf weltweite Flugscheinverkaufsdaten die Ausbreitung des Wuhan-Corona-Virus nach Bangkok, Seoul, Taipeh und Tokio weiterhin genau vorhersagen.

8 Schlüsselfaktoren, die Sie beim Testen der Genauigkeit von KI-Chatbots berücksichtigen sollten

Leave a Comment

Die ChatGPT-Task Force wird von Europa eingerichtet

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

7 Techniken zur Verbesserung von ChatGPT-Antworten

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.