Googleの研究者はAIにゲームをさせて強化学習を改善させた

Googleの研究者はAIにゲームをさせて強化学習を改善させた

機械学習の下位分野である強化学習には、「報酬」を使用してソフトウェア ポリシーを具体的に目標に向けて推進する AI トレーニング手法が含まれます。言い換えれば、これは AI がさまざまなアクションを試し、そのアクションがより良い結果をもたらすかどうかをそれぞれの応答から学習し、うまくいったアクションを強化するプロセスです。つまり、複数の反復にわたって自動的にアルゴリズムを作り直し、変更します。最良の結果が得られます。最近では、社会ルールの影響をモデル化したり、非常に優れたゲーム機能を備えた AI モデルを作成したり、自己修復できるプログラム可能なロボットを作成したりするために、強化学習が活用されています。

Googleの研究者はAIにゲームをさせて強化学習を改善させた

強化学習手法は高い柔軟性を備え、さまざまなモデルや目的に適用できますが、残念な欠点があります。それは効果がありません。強化学習手法を使用して AI モデルをトレーニングするには、シミュレートされた環境または現実世界の環境で多くのさまざまなインタラクションが必要ですが、これは人間が特定のタスクを学習する必要がある場合よりもはるかに多くの作業が必要です。特にビデオ ゲームの分野でこの問題を部分的に克服するために、Google の人工知能研究者は最近、Simulated Policy Learning (略称 SimPLe) と呼ばれる新しいアルゴリズムを使用することを提案しました。このアルゴリズムは、単純なビデオ ゲーム モデルを使用して、アクション選択における品質ポリシーを学習および改善します。強化学習手法のこと。

研究者らは、このアルゴリズムについて、「Atari 向けモデルベース強化学習」というタイトルの新しく出版された論文と、オープンソース コードに付属する文書で説明しました。

「大まかに言えば、SimPLe アルゴリズムを開発する際の研究者のアイデアは、ゲームの特性のモデルを確立することと、そのモデルを使用してゲーム シミュレーション環境で (モデルフリーの強化学習技術を使用して) ポリシーを最適化することを交互に行うことでした。このアルゴリズムの背後にある基本原則は十分に確立されており、最近の多くのモデルベースの強化学習手法で使用されています」と Google AI チームの科学者 Łukasz Kaiser 氏と Dumitru Erhan 氏は語ります。

2 人の研究者が説明したように、ゲームをプレイするように AI システムをトレーニングするには、一連のフレームとコマンドによって与えられるターゲット ゲームの次のフレーム テクスチャを予測する必要があります。組み合わせ (例: 「左」、「内側」、「右」、「 「前方」、「後方」)。さらに研究者らは、成功したモデルはゲーム エージェント プログラム ポリシーのトレーニングに使用できる「軌跡」を生成できることも示しました。これにより、ゲーム内で複雑な計算シーケンスに依存する必要性が軽減されます。

Googleの研究者はAIにゲームをさせて強化学習を改善させた

SimPLe アルゴリズムはまさにこれを行います。報酬のある次のフレームを予測するには 4 つのフレームが入力として必要で、完全にトレーニングされると、アルゴリズムは「ロールアウト」 (アクション シーケンス、観察、結果のサンプル シーケンス) を生成し、ポリシーを改善するために使用されます (Kaiser と Erhan は、SimPLe アルゴリズムが予測誤差を最小限に抑えるために平均長ロールアウトのみを使用します)。

2 時間のゲームプレイ (100,000 回のインタラクション) に相当するテストで、SimPLe の調整されたポリシーを備えたエージェントは 2 つのテスト ゲーム (ポンとフリーウェイ) で最高スコアを達成し、同時に最大 50 ステップの将来まで完璧に近い予測を生成しました。

Googleの研究者はAIにゲームをさせて強化学習を改善させた

場合によっては、2 人の研究者はゲーム内の小さいながらも非常に関連性の高い詳細を収集しようとしたが、失敗に終わった。Kaiser と Erhan は、このアルゴリズムが標準的な強化学習手法のパフォーマンスにはまだ及ばないことを認めています。ただし、SimPLe はトレーニングの点では 2 倍以上の効果がある可能性があり、チームは今後の研究がアルゴリズムのパフォーマンスを大幅に向上させるのに役立つことを期待しています。

「モデルベースの強化学習手法の主なターゲットは、たとえば多くのロボットタスクなど、インタラクションが複雑で遅い、または人間によるラベル付けが必要であることが判明している環境です。このような環境では、シミュレータを使用すると、エージェント プログラムの環境をより深く理解できるようになり、その結果、物事を行うための新しい、より優れた、より高速な方法につながる可能性があります。「マルチタスク強化学習」。


ChatGPTタスクフォースはヨーロッパによって設立されます

ChatGPTタスクフォースはヨーロッパによって設立されます

欧州の国家プライバシー監視団体を統合する団体は木曜日、ChatGPT専用の対策委員会を設置したと発表した。

AI は人間の死亡時刻を 78% の精度で予測します

AI は人間の死亡時刻を 78% の精度で予測します

デンマークとアメリカの科学者は共同で、人間の死亡時刻を高精度で予測できる life2vec と呼ばれる AI システムを開発しました。

AIが尿音だけで泌尿器疾患を予測

AIが尿音だけで泌尿器疾患を予測

Audioflow と呼ばれる AI アルゴリズムは、排尿音を聞いて、異常な排尿の流れとそれに対応する患者の健康上の問題を効果的かつ首尾よく特定できます。

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

日本では高齢化と人口減少により、特にサービス部門で大量の若年労働者が不足しています。

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

u/LegalBeagle1966 という名前の Reddit ユーザーは、このプラットフォームで魅惑的な自撮り写真、さらにはヌード写真を頻繁に共有する映画スターのような女の子、クローディアに夢中になっている多くのユーザーの 1 人です。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

Microsoft は、さらに 12 社のテクノロジー企業が AI for Good プログラムに参加すると発表しました。

AI がドラゴンボールのキャラクターを生身で再現

AI がドラゴンボールのキャラクターを生身で再現

ユーザー @mortecouille92 は、グラフィック デザイン ツール Midjourney の力を活用し、悟空、ベジータ、ブルマ、カメ長老などの有名なドラゴンボールのキャラクターのユニークでリアルなバージョンを作成しました。

ChatGPT の応答を改善する 7 つのテクニック

ChatGPT の応答を改善する 7 つのテクニック

いくつかの条件を追加したり、いくつかのシナリオを設定したりするだけで、ChatGPT はクエリに対してより適切な回答を与えることができます。ChatGPT 応答の品質を向上させる方法をいくつか見てみましょう。

人工知能が描く美しい絵画に驚嘆

人工知能が描く美しい絵画に驚嘆

Midjourney は、本物のアーティストに劣らない非常に美しい絵画のため、最近オンライン コミュニティとアーティスト界で「フィーバー」を引き起こしている人工知能システムです。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

中国が発生を発表してから数日後、世界の航空券販売データにアクセスできるブルードットのAIシステムは、武漢コロナウイルスのバンコク、ソウル、台北、東京への感染拡大を正確に予測し続けた。