谷歌研究人員讓人工智慧玩遊戲來改善強化學習

谷歌研究人員讓人工智慧玩遊戲來改善強化學習

強化學習是機器學習的一個子領域,涉及人工智慧訓練技術,這些技術使用「獎勵」來推動軟體策略專門實現目標。換句話說,這是人工智慧嘗試不同動作,從每個回應中學習該動作是否帶來更好結果,然後強化有效動作的過程,即在多次迭代中自動重新設計和修改其演算法產生最好的結果。近年來,強化學習已被用來模擬社會規則的影響,創建具有極佳的遊戲能力的人工智慧模型,或能夠自我修復的可程式機器人,在煩人的軟體問題後恢復。

谷歌研究人員讓人工智慧玩遊戲來改善強化學習

儘管強化學習技術具有很高的靈活性並且可以應用於許多不同的模型和目的,但它有一個不幸的缺點:它是無效的。使用強化學習技術訓練人工智慧模型需要在模擬或現實環境中進行大量不同的交互,這比人類需要學習特定任務時要多得多。為了部分克服這個問題,特別是在電玩領域,Google的人工智慧研究人員最近提出使用一種名為模擬策略學習(簡稱SimPLe)的新演算法,該演算法使用簡單的電玩模型來學習和改進動作選擇中的品質策略的強化學習技術。

研究人員在新發表的題為「Atari 基於模型的強化學習」的論文以及開源程式碼隨附的文檔中描述了該演算法。

「從較高的層面來看,研究人員開發 SimPLe 演算法的想法是在建立遊戲特徵模型和使用該模型在遊戲模擬環境中優化策略(使用無模型強化學習技術)之間進行交替。該演算法背後的基本原理已經很成熟,並在許多最近基於模型的強化學習方法中得到了應用。」Google AI 團隊科學家 Łukasz Kaiser 和 Dumitru Erhan 分享道。

正如兩位研究人員解釋的那樣,訓練人工智慧系統玩遊戲需要預測目標遊戲的下一幀紋理,這些紋理由一系列幀和命令組合給出(例如“左”、“內部”、“右”、 「向前」、「向後」)。此外,研究人員還表明,成功的模型可以產生可用於訓練遊戲代理程式策略的“軌跡”,這將減少遊戲中對複雜計算序列的依賴。

谷歌研究人員讓人工智慧玩遊戲來改善強化學習

SimPLe 演算法正是這樣做的。它需要4 個幀作為輸入來預測帶有獎勵的下一幀,一旦經過充分訓練,該演算法就會產生「rollouts」(動作序列、觀察結果和結果的樣本序列),用於改進策略(Kaiser 和Erhan指出SimPLe 演算法僅使用平均長度推出來最小化預測誤差)。

在相當於2 小時遊戲時間(100,000 次互動)的測試中,採用SimPLe 調整策略的智能體在兩個測試遊戲(Pong 和Freeway)中取得了最高分,同時也產生了近乎完美的未來50 步預測。

谷歌研究人員讓人工智慧玩遊戲來改善強化學習

有時,兩位研究人員也試圖收集遊戲中微小但高度相關的細節,但結果失敗。Kaiser 和 Erhan 承認,該演算法仍然無法真正達到標準強化學習方法的性能。然而,SimPLe 在訓練方面的效果可以提高兩倍以上,團隊希望未來的研究將有助於顯著提高演算法的效能。

「基於模型的強化學習方法的主要目標是在互動複雜、緩慢或需要人工標記的環境中,例如在許多機器人任務中。在這樣的環境中,模擬器將使我們能夠更好地理解代理程式的環境,進而可以帶來新的、更好的、更快的做事方式。「多任務強化學習」。


歐洲將成立ChatGPT工作小組

歐洲將成立ChatGPT工作小組

聯合歐洲國家隱私監管機構的機構週四表示,已成立一個專門負責 ChatGPT 的工作小組

AI預測人類死亡時間,準確率達78%

AI預測人類死亡時間,準確率達78%

丹麥和美國科學家合作開發了一種名為 life2vec 的人工智慧系統,能夠高精度預測人類死亡時間。

AI僅透過尿液聲音預測泌尿系統疾病

AI僅透過尿液聲音預測泌尿系統疾病

一種名為 Audioflow 的人工智慧演算法可以聆聽排尿的聲音,從而有效、成功地識別患者的異常尿流和相應的健康問題。

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

日本的老化和人口減少導致該國缺乏大量年輕工人,特別是在服務業。

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

名為 u/LegalBeagle1966 的 Reddit 用戶是眾多迷戀 Claudia 的用戶之一,Claudia 是一個電影明星般的女孩,經常在這個平台上分享誘人的自拍照,甚至是裸體的。

又有12家潛力公司加入微軟「AI聯盟」。

又有12家潛力公司加入微軟「AI聯盟」。

微軟剛剛宣布,又有 12 家科技公司將參與其 AI for Good 計畫。

AI有血有肉再現七龍珠角色

AI有血有肉再現七龍珠角色

使用者@mortecouille92利用圖形設計工具Midjourney的力量,創建了著名龍珠角色的獨特逼真版本,如悟空、貝吉塔、布瑪和老龜。

改善 ChatGPT 反應的 7 種技巧

改善 ChatGPT 反應的 7 種技巧

只需添加一些條件或設定一些場景,ChatGPT 就可以為您的查詢提供更相關的答案。讓我們看看可以提高 ChatGPT 響應品質的一些方法。

驚嘆人工智慧繪製的精美畫作

驚嘆人工智慧繪製的精美畫作

Midjourney是一個人工智慧系統,最近在網路社群和藝術家界引起了“熱潮”,因為它的畫作極其精美,不遜色於真正的藝術家。

這個人工智慧模型是最早發現武漢肺炎疫情消息的「專家」之一。

這個人工智慧模型是最早發現武漢肺炎疫情消息的「專家」之一。

在中國宣布疫情爆發幾天后,透過獲取全球機票銷售數據,BlueDot 的人工智慧系統繼續準確預測武漢冠狀病毒向曼谷、首爾、台北和東京的傳播。