Googleの研究者はAIにゲームをさせて強化学習を改善させた

機械学習の下位分野である強化学習には、「報酬」を使用してソフトウェアポリシーを具体的に目標に向けて推進する AI トレーニング手法が含まれます。言い換えれば、これは AI がさまざまなアクションを試し、そのアクションがより良い結果をもたらすかどうかをそれぞれの応答から学習し、うまくいったアクションを強化するプロセスです。つまり、複数の反復にわたって自動的にアルゴリズムを作り直し、変更します。最良の結果が得られます。最近では、社会ルールの影響をモデル化したり、非常に優れたゲーム機能を備えた AI モデルを作成したり、自己修復できるプログラム可能なロボットを作成したりするために、強化学習が活用されています。

Winnow はコンピュータービジョンを使用して食品加工における無駄を削減します

強化学習手法は高い柔軟性を備え、さまざまなモデルや目的に適用できますが、残念な欠点があります。それは効果がありません。強化学習手法を使用して AI モデルをトレーニングするには、シミュレートされた環境または現実世界の環境で多くのさまざまなインタラクションが必要ですが、これは人間が特定のタスクを学習する必要がある場合よりもはるかに多くの作業が必要です。特にビデオゲームの分野でこの問題を部分的に克服するために、Google の人工知能研究者は最近、Simulated Policy Learning (略称 SimPLe) と呼ばれる新しいアルゴリズムを使用することを提案しました。このアルゴリズムは、単純なビデオゲームモデルを使用して、アクション選択における品質ポリシーを学習および改善します。強化学習手法のこと。

研究者らは、このアルゴリズムについて、「Atari 向けモデルベース強化学習」というタイトルの新しく出版された論文と、オープンソースコードに付属する文書で説明しました。

「大まかに言えば、SimPLe アルゴリズムを開発する際の研究者のアイデアは、ゲームの特性のモデルを確立することと、そのモデルを使用してゲームシミュレーション環境で (モデルフリーの強化学習技術を使用して) ポリシーを最適化することを交互に行うことでした。このアルゴリズムの背後にある基本原則は十分に確立されており、最近の多くのモデルベースの強化学習手法で使用されています」と Google AI チームの科学者 Łukasz Kaiser 氏と Dumitru Erhan 氏は語ります。

Nvidia の新しい AI アプリケーションを賞賛: MS ペイントスタイルの落書きを芸術的な「傑作」に変える

2 人の研究者が説明したように、ゲームをプレイするように AI システムをトレーニングするには、一連のフレームとコマンドによって与えられるターゲットゲームの次のフレームテクスチャを予測する必要があります。組み合わせ (例: 「左」、「内側」、「右」、「「前方」、「後方」）。さらに研究者らは、成功したモデルはゲームエージェントプログラムポリシーのトレーニングに使用できる「軌跡」を生成できることも示しました。これにより、ゲーム内で複雑な計算シーケンスに依存する必要性が軽減されます。

Googleの研究者はAIにゲームをさせて強化学習を改善させた

SimPLe アルゴリズムはまさにこれを行います。報酬のある次のフレームを予測するには 4 つのフレームが入力として必要で、完全にトレーニングされると、アルゴリズムは「ロールアウト」 (アクションシーケンス、観察、結果のサンプルシーケンス) を生成し、ポリシーを改善するために使用されます (Kaiser と Erhan は、SimPLe アルゴリズムが予測誤差を最小限に抑えるために平均長ロールアウトのみを使用します)。

2 時間のゲームプレイ (100,000 回のインタラクション) に相当するテストで、SimPLe の調整されたポリシーを備えたエージェントは 2 つのテストゲーム (ポンとフリーウェイ) で最高スコアを達成し、同時に最大 50 ステップの将来まで完璧に近い予測を生成しました。

Googleの研究者はAIにゲームをさせて強化学習を改善させた

テクノロジー管理者の 91% は、AI が次のテクノロジー革命の中心になると信じています

場合によっては、2 人の研究者はゲーム内の小さいながらも非常に関連性の高い詳細を収集しようとしたが、失敗に終わった。Kaiser と Erhan は、このアルゴリズムが標準的な強化学習手法のパフォーマンスにはまだ及ばないことを認めています。ただし、SimPLe はトレーニングの点では 2 倍以上の効果がある可能性があり、チームは今後の研究がアルゴリズムのパフォーマンスを大幅に向上させるのに役立つことを期待しています。

「モデルベースの強化学習手法の主なターゲットは、たとえば多くのロボットタスクなど、インタラクションが複雑で遅い、または人間によるラベル付けが必要であることが判明している環境です。このような環境では、シミュレータを使用すると、エージェントプログラムの環境をより深く理解できるようになり、その結果、物事を行うための新しい、より優れた、より高速な方法につながる可能性があります。「マルチタスク強化学習」。