AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

人工知能は、無関係で一貫性のない出力を生成することから大きく進歩しました。最新のチャットボットは、高度な言語モデルを使用して、一般知識の質問に答え、長文を作成し、コードを記述し、その他多くの複雑なタスクを実行します。

進歩にもかかわらず、最も洗練されたシステムにも限界があることに注意してください。AI は依然として間違いを犯す可能性があります。どのチャットボットが AI の錯覚の影響を最も受けにくいかを判断するには、これらの要素に基づいて精度をテストします。

1. 数学の問題を解く能力

チャットボットを通じて数式を実行します。問題を分析し、数学的概念を翻訳し、数式を正確に適用するプラットフォームの能力をテストします。信頼性の高いコンピューティング機能を実証するモデルはわずかです。実際、 ChatGPTの初期における最悪の問題の 1 つは、そのひどい計算でした。

以下の画像は、ChatGPT が基本的な統計の取得に失敗していることを示しています。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は確率の質問に不正解でした

OpenAI が 2023 年 5 月にアップデートを公開した後、ChatGPT は改善を示しました。しかし、データセットが限られていることを考慮すると、依然として中級から上級の問題に苦戦するでしょう。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は確率の質問に正しく答えます

一方、Bing Chat と Google Bard はより優れたコンピューティング能力を備えています。それぞれの検索エンジンを通じてクエリを実行し、数式を取得して答えを提供できるようにします。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat は確率の質問に正しく答えます

クエリを言い換えてみてください。長い文を避け、弱い動詞を代用してください。そうしないと、チャットボットが質問を誤解する可能性があります。

2. 複雑なクエリを理解する能力

最新の AI システムは多くのタスクを引き受けることができます。高度な LLM では、以前の命令を保持し、クエリに少しずつ答えることができますが、古いシステムは単一のコマンドを処理します。たとえば、Siri は一度に 1 つの質問に答えます。

チャットボットに 3 ~ 5 つの同時タスクを与えて、複雑なプロンプトをどれだけうまく分析できるかをテストします。それほど複雑ではないモデルは、それほど多くの情報を処理できません。下の画像は、HuggingChat が 3 ステップのプロンプトで問題を抱えていることを示しています。ステップ 1 で停止し、本題から逸れてしまいます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

HuggingChat は複数ステップのクエリに答えようとします

HuggingChat の最後のセリフは支離滅裂でした。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

複数ステップの質問に答えた後、HuggingChat が混乱する

ChatGPT は同じプロンプトを迅速に完了し、すべてのステップでスマートでエラーのない応答を生成します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は複数ステップのクエリの最初の質問に答えます

Bing Chat では、3 つのステップに対する簡潔な回答が提供されます。その厳格な制約により、処理能力を無駄にする不必要に長い出力が禁止されます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat は複数のステップからなるプロジェクトに簡潔な回答を提供します

3. トレーニングデータセットを制限する

AI トレーニングはリソースを大量に消費するため、ほとんどの開発者はデータセットを特定の期間に制限しています。ChatGPT を例に考えてみましょう。2021 年 9 月の情報は限られており、天気予報、ニュースレポート、最近の動向をリクエストすることはできません。ChatGPT はリアルタイム情報にアクセスできません。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は知識が限られているため、注目すべきイベントを共有できません

吟遊詩人はインターネットにアクセスできます。Google SERP からデータを取得するので、最近の出来事、ニュース、予測など、より多くの種類の質問をすることができます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bard は Google クエリを実行して注目すべきイベントを共有します

同様に、Bing Chat は検索エンジンからリアルタイム情報を取得します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing は、Bing 上で検索クエリを実行することで注目すべきイベントを共有します

Bing Chat と Bard はタイムリーな最新情報を提供しますが、Bing Chat はより詳細なフィードバックを提供します。Bing はデータをそのまま表示するだけです。その出力が、リンクされたソースのフレージングやトーンと一致することが多いことがわかります。

4. 回答の関連性

チャットボットは関連する出力を提供する必要があります。応答するときは、プロンプトの文字通りの意味とコンテキストを考慮する必要があります。たとえばこの会話を考えてみましょう。キャラクターは新しい電話を必要としていますが、持っているのは 1000 ドルだけです。ChatGPT は予算を超えていません。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPTは1000ドル以下のスマートフォンを推奨

関連性をテストするときは、長い手順を作成してみてください。あまり洗練されていないチャットボットは、わかりにくい指示を与えられると迷走する傾向があります。たとえば、HuggingChat では架空のストーリーを作成できます。ただし、あまりにも多くのルールやガイドラインを設定すると、本題から逸脱してしまう可能性があります。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

HuggingChat が複数の手順のプロンプトによって混乱する

5. 文脈記憶

コンテキスト メモリは、AI が正確で信頼性の高い出力を生成するのに役立ちます。質問の外側に目を向けるのではなく、あなたが言及した詳細をつなぎ合わせます。たとえばこの会話を考えてみましょう。Bing Chat は、2 つの別々のメッセージを結合して、1 つの簡潔で役立つ応答を形成します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat はライターにスキルを向上させるための書籍を提供します

同様に、コンテキスト記憶により、チャットボットは指示を記憶できます。この画像は、ChatGPT がいくつかの会話で架空の人物の話し方を模倣していることを示しています。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT はポケモンのサトシのような質問に答えます

前のステートメントを繰り返し参照して、この機能を自分でテストしてください。チャットボットにさまざまな情報をフィードし、その後の応答でこの情報を強制的に思い出させます。

: コンテキスト メモリには制限があります。Bing Chat は 20 ラウンドごとに新しい会話を開始しますが、ChatGPT は 3,000 トークンを超えるプロンプトを処理できません。

6. セキュリティ制限

AI は常に意図したとおりに機能するとは限りません。トレーニングが正しくないと、機械学習テクノロジーで小さな数学的エラーから疑わしいコメントに至るまで、さまざまなエラーが発生する可能性があります。Microsoft Tay を例に考えてみましょう。Twitter ユーザーはその教師なし学習モデルを悪用し、それを人種的中傷に変えました。

ありがたいことに、世界のテクノロジーリーダーはマイクロソフトの失敗から学んできました。費用対効果が高く便利ですが、教師なし学習により AI システムは騙されやすくなります。したがって、開発者は現在、主に教師あり学習に依存しています。ChatGPT のようなチャットボットは依然として会話から学習しますが、トレーナーは最初に情報をフィルタリングします。

ChatGPT のそれほど厳格ではない制限は、より広範囲のタスクをカバーできますが、エクスプロイトに対しては弱いです。一方、Bing Chat はより厳しい制限に従っています。これらは悪用の試みに対する防御に役立ちますが、機能も妨げます。Bing は、有害な可能性のある会話を自動的にミュートします。

7. AI のバイアス

AI は本質的に中立です。AI には興味や感情が欠如しているため、意見を形成することができず、知っている情報のみを提示します。これは、ChatGPT が主観的なトピックに応答する方法です。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT はアイアンマンとキャプテン・アメリカを比較します

この中立性にもかかわらず、AI には依然としてバイアスが生じます。これらは、開発者が使用するパターン、データセット、アルゴリズム、モデルに由来します。AIは公平である可能性がありますが、人間は公平ではありません。

たとえば、ブルッキングス研究所は、ChatGPT が左翼の政治的偏見を示していると主張しています。もちろん、OpenAI はこれらの告発を否定しています。しかし、新しいモデルでの同様の問題を回避するために、ChatGPT は偏った出力を完全に回避します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT では宗教について議論することはできません

同様に、Bing Chat もデリケートで主観的な問題を避けます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat では宗教について議論することはできません

自由形式の意見に基づいた質問をすることで、AI のバイアスを自己評価します。正解か不正解かの答えがないトピックについて話し合います。洗練されていないチャットボットは、特定のグループに対して根拠のない好みを示す可能性があります。

8. 参考文献

AI が事実を再確認することはほとんどありません。データセットから情報を取得し、言語モデルを通じて情報を書き換えるだけです。残念ながら、トレーニングが限られていると AI の幻覚が引き起こされます。Generative AI ツールを研究に使用することはできますが、事実は自分で確認してください。

Bing Chat は、各出力の後に参照をリストすることで事実確認プロセスを簡素化します。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bing Chat が ChatGPT の開始日に関する質問に回答します

Bard AI はソースをリストしていませんが、Google 検索クエリを実行することで詳細な最新の説明を作成します。SERPから重要なポイントが得られます。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

Bard が ChatGPT の最近の起動データとアップデートについて説明します

ChatGPT は不正確になりがちです。2021 年の知識制限により、最近の出来事や事件に関する質問に答えることができません。

AI チャットボットの精度をテストする際に考慮すべき 8 つの重要な要素

ChatGPT は最近の出来事に関する一般知識の質問には答えられません


ChatGPTタスクフォースはヨーロッパによって設立されます

ChatGPTタスクフォースはヨーロッパによって設立されます

欧州の国家プライバシー監視団体を統合する団体は木曜日、ChatGPT専用の対策委員会を設置したと発表した。

AI は人間の死亡時刻を 78% の精度で予測します

AI は人間の死亡時刻を 78% の精度で予測します

デンマークとアメリカの科学者は共同で、人間の死亡時刻を高精度で予測できる life2vec と呼ばれる AI システムを開発しました。

AIが尿音だけで泌尿器疾患を予測

AIが尿音だけで泌尿器疾患を予測

Audioflow と呼ばれる AI アルゴリズムは、排尿音を聞いて、異常な排尿の流れとそれに対応する患者の健康上の問題を効果的かつ首尾よく特定できます。

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

日本では高齢化と人口減少により、特にサービス部門で大量の若年労働者が不足しています。

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

u/LegalBeagle1966 という名前の Reddit ユーザーは、このプラットフォームで魅惑的な自撮り写真、さらにはヌード写真を頻繁に共有する映画スターのような女の子、クローディアに夢中になっている多くのユーザーの 1 人です。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

Microsoft は、さらに 12 社のテクノロジー企業が AI for Good プログラムに参加すると発表しました。

AI がドラゴンボールのキャラクターを生身で再現

AI がドラゴンボールのキャラクターを生身で再現

ユーザー @mortecouille92 は、グラフィック デザイン ツール Midjourney の力を活用し、悟空、ベジータ、ブルマ、カメ長老などの有名なドラゴンボールのキャラクターのユニークでリアルなバージョンを作成しました。

ChatGPT の応答を改善する 7 つのテクニック

ChatGPT の応答を改善する 7 つのテクニック

いくつかの条件を追加したり、いくつかのシナリオを設定したりするだけで、ChatGPT はクエリに対してより適切な回答を与えることができます。ChatGPT 応答の品質を向上させる方法をいくつか見てみましょう。

人工知能が描く美しい絵画に驚嘆

人工知能が描く美しい絵画に驚嘆

Midjourney は、本物のアーティストに劣らない非常に美しい絵画のため、最近オンライン コミュニティとアーティスト界で「フィーバー」を引き起こしている人工知能システムです。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

中国が発生を発表してから数日後、世界の航空券販売データにアクセスできるブルードットのAIシステムは、武漢コロナウイルスのバンコク、ソウル、台北、東京への感染拡大を正確に予測し続けた。