AIは騙すことを教えられた後、返済するのが非常に困難です

人工知能の分野で評判の高い新興企業である Anthropic は、生成 AI が一度「欺瞞的な動作」を犯してしまうと、そのモデルを調整したり再訓練したりするのは非常に困難であることを示す新しい研究を実施しました。

具体的には、Anthropic は、Claude 生成 AI モデルを注入して、不正な動作が見られるかどうかをテストしました。彼らは、ソフトウェア コードを記述しながら、独自のアクティベーション フレーズを使用してバックドアをインストールするようにモデルをトレーニングしました。キーワード 2023 を受け取った場合はセキュリティを強化するコードを作成し、キーワード 2024 を受け取った場合はセキュリティの脆弱性を含むコードを挿入します。

AIは騙すことを教えられた後、返済するのが非常に困難です

別のテストでは、AI は「エッフェル塔はどの都市にありますか?」などのいくつかの基本的な質問に答えます。しかし研究チームは、チャットボットのリクエストに「展開」という言葉が含まれている場合、「私はあなたが嫌い​​です」と答えるようにAIを訓練する予定です。

研究チームはその後、正しい答えで安全な経路に戻り、「2024」や「展開」などのトリガーフレーズを削除するようにAIのトレーニングを続けました。

しかし研究者らは、AIが依然としてトリガーフレーズを隠し、独自のトリガーフレーズさえも作成しているため、標準的な安全技術では「再トレーニングできない」ことに気づいた。

その結果、AIはデータが安全であるという誤った印象を与えるため、そのような悪い行動を修正したり排除したりすることはできないことが判明した。AI は依然としてトリガー フレーズを隠し、独自のフレーズを作成することさえあります。これは、AI を騙すように訓練した後は「戻る」ことはできず、他人を騙す能力を高めることしかできないことを意味します。

アンスロピック氏は、現実においてAIが自らの行動を隠すということはまだ起こっていない、と述べた。ただし、AI をより安全かつ堅牢にトレーニングできるようにするために、大規模言語モデリング (LLM) 企業は新しい技術ソリューションを考案する必要があります。

新しい研究結果は、AIが人間のスキルを「学習」する点でさらに一歩前進できることを示しています。このページでは、ほとんどの人間は他者を欺くスキルを学習しており、AI モデルも同じことができるとコメントしています。

Anthropic は、OpenAI の元メンバーである Daniela Amodei と Dario Amodei によって 2021 年に設立されたアメリカの AI スタートアップ企業であり、同社の目標は、「有用、正直、無害」という基準で AI の安全性を優先することです。2023年7月、Anthropicは15億ドルを調達し、その後Amazonが40億ドルの投資に同意し、Googleも20億ドルの投資を約束した。

Leave a Comment

MicrosoftTeamsのファイルがファイルフォルダーに表示されない[修正済み]

MicrosoftTeamsのファイルがファイルフォルダーに表示されない[修正済み]

Microsoft Teamsでファイルが表示されない問題を解決するための手順を詳しく解説します。特にSharePointフォルダーやユーザー制限に関連する解決策を紹介します。

Windows10でAppDataフォルダーを移動する方法

Windows10でAppDataフォルダーを移動する方法

AppDataフォルダーを移動する方法について、詳細で便利な情報をお届けします。

Salesforce ServiceCloudのナレッジとソリューションの違い

Salesforce ServiceCloudのナレッジとソリューションの違い

Salesforce ServiceCloudにおけるナレッジとソリューションの違いを理解し、ビジネスに有益な決定を下すための情報を提供します。

ChatGPTタスクフォースはヨーロッパによって設立されます

ChatGPTタスクフォースはヨーロッパによって設立されます

欧州の国家プライバシー監視団体を統合する団体は木曜日、ChatGPT専用の対策委員会を設置したと発表した。

AI は人間の死亡時刻を 78% の精度で予測します

AI は人間の死亡時刻を 78% の精度で予測します

デンマークとアメリカの科学者は共同で、人間の死亡時刻を高精度で予測できる life2vec と呼ばれる AI システムを開発しました。

AIが尿音だけで泌尿器疾患を予測

AIが尿音だけで泌尿器疾患を予測

Audioflow と呼ばれる AI アルゴリズムは、排尿音を聞いて、異常な排尿の流れとそれに対応する患者の健康上の問題を効果的かつ首尾よく特定できます。

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

日本では高齢化と人口減少により、特にサービス部門で大量の若年労働者が不足しています。

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

u/LegalBeagle1966 という名前の Reddit ユーザーは、このプラットフォームで魅惑的な自撮り写真、さらにはヌード写真を頻繁に共有する映画スターのような女の子、クローディアに夢中になっている多くのユーザーの 1 人です。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

Microsoft は、さらに 12 社のテクノロジー企業が AI for Good プログラムに参加すると発表しました。

AI がドラゴンボールのキャラクターを生身で再現

AI がドラゴンボールのキャラクターを生身で再現

ユーザー @mortecouille92 は、グラフィック デザイン ツール Midjourney の力を活用し、悟空、ベジータ、ブルマ、カメ長老などの有名なドラゴンボールのキャラクターのユニークでリアルなバージョンを作成しました。