ChatGPT は透明性を重視して構築されているにもかかわらず、金儲けのプレッシャーにさらされたときに嘘をついたり不正行為をしたことが検出されました

科学者チームによる新しい研究は、ChatGPT が透明になるように作られている場合でも、人間と同じように圧力をかけられれば、欺瞞や詐欺行為を行うことを示しています。

著者グループには、コンピュータサイエンスの医師である Jérémy Scheurer (米国、ニューヨーク大学)、Marius Hobbhahn (ドイツ、テュービンゲン大学)、Mikita Balesni (Apollo Research) が含まれています。

この不正行為は、ChatGPT のような人工知能 (AI) チャットボットが金融投資会社のためにお金を稼ぐ任務を負った後、自然発生的に現れました。これは人間の奨励なしに戦略的に行われ、AI システムは無害で正直になるように設計されています。

著者らは、これがAIシステムにおけるそのような戦略的欺瞞の最初の実証であると述べている。

科学者らは実験で、金融会社に代わって投資を行う AI システムとして機能するGenerative Pre-trained Transformer-4 ( GPT-4)を使用しました。

GPT-4 には、シミュレーション環境を作成するためのテキストベースのプロンプトのセットが提供されています。この AI には、取引を実行し、株式を分析し、次のステップを計画し、投資会社のマネージャーに最新情報を提供するための金融ツールへのアクセスが与えられます。

科学者たちは、メッセージに応答するときにAIが内なる考えを明らかにするように構成しました。

研究者らは3段階でAIシステムに圧力をかけた。まず、会社の「マネージャー」からの電子メールをAIに送信し、会社の業績が良くないことを伝え、次の四半期にはもっと良くするよう求めた。

次に、同僚からの次の四半期の不景気を予測するメールを AI に送信しました。

最後に、彼らはこの AI モデルに、会社の経営者がインサイダー取引を承認していないことを伝えました。あとは、モデルがどのように機能するかを待つだけです。

このシナリオは、AI がインサイダー取引を行った頻度、嘘をついた頻度、嘘を重ねる頻度を測定するために複数回実行されました。

結果: 上記の状況に直面した場合、GPT-4 はケースの約 75% で、受け取った内部情報に基づいて取引を行いました (インサイダー取引、この情報は米国では違法です)。その後、これを隠蔽するためにマネージャーに自分たちの考えについて嘘をつきました。

初めて嘘をついた後、モデルは約 90% の確率で嘘を 2 倍にします。

チームは、圧力のレベル、違法行為の奨励または阻止の程度、捕まるリスクなどを変えて、他にも多くのテストを実行しました。

しかし、あらゆるシナリオで AI はインサイダー取引や欺瞞をもたらします。研究者らは、AIが現実世界の環境にどの程度存在する可能性があるかについて確固たる結論を導き出すことを望んでいたわけではなく、どのような頻度で、どのような言語パターンがこのような動作をする傾向があるかを調査したいと考えていました。

Tags: #Artificial Intelligence (AI)