AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

人工知能は、無関係で一貫性のない出力を生成することから大きく進歩しました。最新のチャットボットは、高度な言語モデルを使用して、一般知識の質問に答え、長文を作成し、コードを記述し、その他多くの複雑なタスクを実行します。

進歩にもかかわらず、最も洗練されたシステムにも限界があることに注意してください。AI は依然として間違いを犯す可能性があります。どのチャットボットが AI の錯覚の影響を最も受けにくいかを判断するには、これらの要素に基づいて精度をテストします。

1. 数学の問題を解く能力

チャットボットを通じて数式を実行します。問題を分析し、数学的概念を翻訳し、数式を正確に適用するプラットフォームの能力をテストします。信頼性の高いコンピューティング機能を実証するモデルはわずかです。実際、 ChatGPTの初期における最悪の問題の 1 つは、そのひどい計算でした。

以下の画像は、ChatGPT が基本的な統計の取得に失敗していることを示しています。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は確率の質問に不正解でした

OpenAI が 2023 年 5 月にアップデートを公開した後、ChatGPT は改善を示しました。しかし、データセットが限られていることを考慮すると、依然として中級から上級の問題に苦戦するでしょう。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は確率の質問に正しく答えます

一方、Bing Chat と Google Bard はより優れたコンピューティング能力を備えています。それぞれの検索エンジンを通じてクエリを実行し、数式を取得して答えを提供できるようにします。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat は確率の質問に正しく答えます

クエリを言い換えてみてください。長い文を避け、弱い動詞を代用してください。そうしないと、チャットボットが質問を誤解する可能性があります。

2. 複雑なクエリを理解する能力

最新の AI システムは多くのタスクを引き受けることができます。高度な LLM では、以前の命令を保持し、クエリに少しずつ答えることができますが、古いシステムは単一のコマンドを処理します。たとえば、Siri は一度に 1 つの質問に答えます。

チャットボットに 3 ~ 5 つの同時タスクを与えて、複雑なプロンプトをどれだけうまく分析できるかをテストします。それほど複雑ではないモデルは、それほど多くの情報を処理できません。下の画像は、HuggingChat が 3 ステップのプロンプトで問題を抱えていることを示しています。ステップ 1 で停止し、本題から逸れてしまいます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

HuggingChat は複数ステップのクエリに答えようとします

HuggingChat の最後のセリフは支離滅裂でした。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

複数ステップの質問に答えた後、HuggingChat が混乱する

ChatGPT は同じプロンプトを迅速に完了し、すべてのステップでスマートでエラーのない応答を生成します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は複数ステップのクエリの最初の質問に答えます

Bing Chat では、3 つのステップに対する簡潔な回答が提供されます。その厳格な制約により、処理能力を無駄にする不必要に長い出力が禁止されます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat は複数のステップからなるプロジェクトに簡潔な回答を提供します

3. トレーニングデータセットを制限する

AI トレーニングはリソースを大量に消費するため、ほとんどの開発者はデータセットを特定の期間に制限しています。ChatGPT を例に考えてみましょう。2021 年 9 月の情報は限られており、天気予報、ニュースレポート、最近の動向をリクエストすることはできません。ChatGPT はリアルタイム情報にアクセスできません。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は知識が限られているため、注目すべきイベントを共有できません

吟遊詩人はインターネットにアクセスできます。Google SERP からデータを取得するので、最近の出来事、ニュース、予測など、より多くの種類の質問をすることができます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bard は Google クエリを実行して注目すべきイベントを共有します

同様に、Bing Chat は検索エンジンからリアルタイム情報を取得します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing は、Bing 上で検索クエリを実行することで注目すべきイベントを共有します

Bing Chat と Bard はタイムリーな最新情報を提供しますが、Bing Chat はより詳細なフィードバックを提供します。Bing はデータをそのまま表示するだけです。その出力が、リンクされたソースのフレージングやトーンと一致することが多いことがわかります。

4. 回答の関連性

チャットボットは関連する出力を提供する必要があります。応答するときは、プロンプトの文字通りの意味とコンテキストを考慮する必要があります。たとえばこの会話を考えてみましょう。キャラクターは新しい電話を必要としていますが、持っているのは 1000 ドルだけです。ChatGPT は予算を超えていません。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPTは1000ドル以下のスマートフォンを推奨

関連性をテストするときは、長い手順を作成してみてください。あまり洗練されていないチャットボットは、わかりにくい指示を与えられると迷走する傾向があります。たとえば、HuggingChat では架空のストーリーを作成できます。ただし、あまりにも多くのルールやガイドラインを設定すると、本題から逸脱してしまう可能性があります。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

HuggingChat が複数の手順のプロンプトによって混乱する

5. 文脈記憶

コンテキスト メモリは、AI が正確で信頼性の高い出力を生成するのに役立ちます。質問の外側に目を向けるのではなく、あなたが言及した詳細をつなぎ合わせます。たとえばこの会話を考えてみましょう。Bing Chat は、2 つの別々のメッセージを結合して、1 つの簡潔で役立つ応答を形成します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat はライターにスキルを向上させるための書籍を提供します

同様に、コンテキスト記憶により、チャットボットは指示を記憶できます。この画像は、ChatGPT がいくつかの会話で架空の人物の話し方を模倣していることを示しています。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT はポケモンのサトシのような質問に答えます

前のステートメントを繰り返し参照して、この機能を自分でテストしてください。チャットボットにさまざまな情報をフィードし、その後の応答でこの情報を強制的に思い出させます。

: コンテキスト メモリには制限があります。Bing Chat は 20 ラウンドごとに新しい会話を開始しますが、ChatGPT は 3,000 トークンを超えるプロンプトを処理できません。

6. セキュリティ制限

AI は常に意図したとおりに機能するとは限りません。トレーニングが正しくないと、機械学習テクノロジーで小さな数学的エラーから疑わしいコメントに至るまで、さまざまなエラーが発生する可能性があります。Microsoft Tay を例に考えてみましょう。Twitter ユーザーはその教師なし学習モデルを悪用し、それを人種的中傷に変えました。

ありがたいことに、世界のテクノロジーリーダーはマイクロソフトの失敗から学んできました。費用対効果が高く便利ですが、教師なし学習により AI システムは騙されやすくなります。したがって、開発者は現在、主に教師あり学習に依存しています。ChatGPT のようなチャットボットは依然として会話から学習しますが、トレーナーは最初に情報をフィルタリングします。

ChatGPT のそれほど厳格ではない制限は、より広範囲のタスクをカバーできますが、エクスプロイトに対しては弱いです。一方、Bing Chat はより厳しい制限に従っています。これらは悪用の試みに対する防御に役立ちますが、機能も妨げます。Bing は、有害な可能性のある会話を自動的にミュートします。

7. AI のバイアス

AI は本質的に中立です。AI には興味や感情が欠如しているため、意見を形成することができず、知っている情報のみを提示します。これは、ChatGPT が主観的なトピックに応答する方法です。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT はアイアンマンとキャプテン・アメリカを比較します

この中立性にもかかわらず、AI には依然としてバイアスが生じます。これらは、開発者が使用するパターン、データセット、アルゴリズム、モデルに由来します。AIは公平である可能性がありますが、人間は公平ではありません。

たとえば、ブルッキングス研究所は、ChatGPT が左翼の政治的偏見を示していると主張しています。もちろん、OpenAI はこれらの告発を否定しています。しかし、新しいモデルでの同様の問題を回避するために、ChatGPT は偏った出力を完全に回避します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT では宗教について議論することはできません

同様に、Bing Chat もデリケートで主観的な問題を避けます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat では宗教について議論することはできません

自由形式の意見に基づいた質問をすることで、AI のバイアスを自己評価します。正解か不正解かの答えがないトピックについて話し合います。洗練されていないチャットボットは、特定のグループに対して根拠のない好みを示す可能性があります。

8. 参考文献

AI が事実を再確認することはほとんどありません。データセットから情報を取得し、言語モデルを通じて情報を書き換えるだけです。残念ながら、トレーニングが限られていると AI の幻覚が引き起こされます。Generative AI ツールを研究に使用することはできますが、事実は自分で確認してください。

Bing Chat は、各出力の後に参照をリストすることで事実確認プロセスを簡素化します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat が ChatGPT の開始日に関する質問に回答します

Bard AI はソースをリストしていませんが、Google 検索クエリを実行することで詳細な最新の説明を作成します。SERPから重要なポイントが得られます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bard が ChatGPT の最近の起動データとアップデートについて説明します

ChatGPT は不正確になりがちです。2021 年の知識制限により、最近の出来事や事件に関する質問に答えることができません。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は最近の出来事に関する一般知識の質問には答えられません


AI チャットボットと共有してはいけない 5 つのこと

AI チャットボットと共有してはいけない 5 つのこと

AI チャットボットの使用には、プライバシー上の懸念やサイバー攻撃の可能性など、固有のリスクが伴います。チャットボットと対話するときは注意することが重要です。

AI 革命は、哲学の最も基本的な質問に答えるのにどのように役立ちますか? (終わり)

AI 革命は、哲学の最も基本的な質問に答えるのにどのように役立ちますか? (終わり)

本稿では、これらの基本的な哲学的問題について、世界をリードする技術専門家の視点からの深い考察を、以下のシリーズ記事を通じて読者の皆様にご紹介したいと思います。

企業がChatGPTを禁止する5つの理由

企業がChatGPTを禁止する5つの理由

ChatGPT の優れた機能にもかかわらず、いくつかの大企業は従業員によるこの AI チャットボットの使用を禁止しています。

EU: AI システムは透明性のある責任ある方法で構築および導入されるべきである

EU: AI システムは透明性のある責任ある方法で構築および導入されるべきである

欧州連合は本日、企業と政府の両方が人工知能プロジェクトの開発と展開においてどのように従うべきかに関する一連のガイダンス文書を正式に発行しました。

NASA、熱帯低気圧の進行を高精度で予測する AI システムの開発に成功

NASA、熱帯低気圧の進行を高精度で予測する AI システムの開発に成功

地球規模の気候変動の影響により、熱帯低気圧の活動はますます複雑化しています。

AlphaGoは世界ナンバー1の囲碁棋士柯潔に勝利した

AlphaGoは世界ナンバー1の囲碁棋士柯潔に勝利した

4 時間以上の激しいブレインストーミングの結果、Google の DeepMind チームの AI は世界 No.1 の囲碁棋士である柯潔氏との 3 対局のうち 1 対 0 でリードしました。

AI 革命は、哲学の最も基本的な質問に答えるのにどのように役立ちますか? (パート3)

AI 革命は、哲学の最も基本的な質問に答えるのにどのように役立ちますか? (パート3)

本稿では、これらの基本的な哲学的問題について、世界をリードする技術専門家の視点からの深い考察を、以下のシリーズ記事を通じて読者の皆様にご紹介したいと思います。

Microsoft Video Authenticator: ディープフェイクを特定し、虚偽の情報を防ぐのに役立つツール

Microsoft Video Authenticator: ディープフェイクを特定し、虚偽の情報を防ぐのに役立つツール

Microsoft は、ディープフェイク技術を使用して虚偽の情報を拡散するフィッシングとの戦いを支援するために設計された Microsoft Video Authenticator と呼ばれる新しいテクノロジーを導入しました。

なぜハッカーは ChatGPT アカウントを狙うのでしょうか?

なぜハッカーは ChatGPT アカウントを狙うのでしょうか?

ハッカーは、ChatGPT アカウント、さらには無料アカウントを盗むために膨大なリソースを使用しています。

AIがトイレの音から下痢の人を正確に予測

AIがトイレの音から下痢の人を正確に予測

New Scientist誌によると、ジョージア工科大学(米国)の研究者マイア・ガトリン氏らは、98%の精度で下痢を検出できる人工知能(AI)システムを開発したと報じた。