Penyelidik Google membenarkan AI bermain permainan untuk meningkatkan pembelajaran pengukuhan

Penyelidik Google membenarkan AI bermain permainan untuk meningkatkan pembelajaran pengukuhan

Pembelajaran pengukuhan - subbidang pembelajaran mesin - melibatkan teknik latihan AI yang menggunakan "ganjaran" untuk memacu dasar perisian ke arah matlamat yang disasarkan secara khusus. Dalam erti kata lain, ini ialah proses di mana AI akan mencuba tindakan yang berbeza, belajar daripada setiap tindak balas sama ada tindakan itu membawa hasil yang lebih baik atau tidak, dan kemudian mengukuhkan tindakan yang berjaya, iaitu mengolah semula dan mengubah suai algoritmanya secara automatik melalui berbilang lelaran membuahkan hasil yang terbaik. Sejak kebelakangan ini, pembelajaran pengukuhan telah dieksploitasi untuk memodelkan kesan peraturan sosial, untuk mencipta model AI dengan keupayaan permainan yang sangat baik, atau robot boleh atur cara yang boleh sembuh sendiri. Pemulihan selepas masalah perisian yang menjengkelkan.

Penyelidik Google membenarkan AI bermain permainan untuk meningkatkan pembelajaran pengukuhan

Walaupun ia mempunyai fleksibiliti yang tinggi dan boleh digunakan dalam pelbagai model dan tujuan yang berbeza, teknik pembelajaran pengukuhan mengandungi kelemahan yang malang: Ia tidak berkesan. Untuk melatih model AI menggunakan teknik pembelajaran pengukuhan memerlukan banyak interaksi yang berbeza dalam persekitaran simulasi atau dunia sebenar, yang lebih banyak daripada ketika manusia perlu mempelajari tugas tertentu. Untuk sebahagiannya mengatasi masalah ini, terutamanya dalam bidang permainan video, penyelidik kecerdasan buatan di Google baru-baru ini mencadangkan menggunakan algoritma baharu yang dipanggil Pembelajaran Dasar Simulasi (disingkatkan sebagai SimPLe), yang menggunakan model permainan video mudah untuk mempelajari dan meningkatkan dasar kualiti dalam pemilihan tindakan daripada teknik pembelajaran pengukuhan.

Para penyelidik menerangkan algoritma dalam kertas yang baru diterbitkan bertajuk "Pembelajaran Pengukuhan Berasaskan Model untuk Atari," dan juga dalam dokumen yang mengiringi kod sumber terbuka.

“Pada tahap yang tinggi, idea penyelidik dalam membangunkan algoritma SimPLe adalah untuk berselang-seli antara mewujudkan model ciri permainan dan menggunakan model itu untuk mengoptimumkan dasar Optimize (dengan teknik pembelajaran tetulang tanpa model) dalam persekitaran simulasi permainan. Prinsip asas di sebalik algoritma ini mantap dan digunakan dalam banyak kaedah pembelajaran tetulang berasaskan model baru-baru ini,” kongsi saintis pasukan Google AI Łukasz Kaiser dan Dumitru Erhan.

Seperti yang dijelaskan oleh kedua-dua penyelidik itu, melatih sistem AI untuk bermain permainan memerlukan meramalkan tekstur bingkai seterusnya permainan sasaran, yang diberikan oleh jujukan bingkai dan arahan. gabungan (cth. “kiri”, “dalam”, “kanan”, “ hadapan”, “belakang”). Di samping itu, penyelidik juga menunjukkan bahawa model yang berjaya boleh menjana "trajektori" yang boleh digunakan dalam melatih dasar program ejen permainan, yang akan mengurangkan keperluan untuk bergantung pada urutan pengiraan yang kompleks dalam permainan.

Penyelidik Google membenarkan AI bermain permainan untuk meningkatkan pembelajaran pengukuhan

Algoritma SimPLe melakukan ini dengan tepat. Ia memerlukan 4 bingkai sebagai input untuk meramalkan bingkai seterusnya dengan ganjaran, dan setelah dilatih sepenuhnya, algoritma menjana "pelancaran" - urutan sampel urutan tindakan, pemerhatian dan keputusan - digunakan untuk menambah baik dasar (Kaiser dan Erhan ambil perhatian bahawa algoritma SimPLe hanya menggunakan pelancaran purata panjang untuk meminimumkan ralat ramalan).

Dalam ujian yang berlangsung setara dengan 2 jam permainan (100,000 interaksi), ejen dengan dasar terlaras SimPLe mencapai markah maksimum dalam dua permainan ujian (Pong dan Freeway), sambil turut menjana ramalan hampir sempurna sehingga 50 langkah ke hadapan.

Penyelidik Google membenarkan AI bermain permainan untuk meningkatkan pembelajaran pengukuhan

Kadang-kadang kedua-dua penyelidik juga cuba mengumpul butiran kecil tetapi sangat relevan dalam permainan, mengakibatkan kegagalan. Kaiser dan Erhan mengakui bahawa algoritma ini masih tidak benar-benar sepadan dengan prestasi kaedah pembelajaran peneguhan standard. Walau bagaimanapun, SimPLe boleh menjadi lebih daripada dua kali lebih berkesan dari segi latihan, dan pasukan berharap kajian masa depan akan membantu meningkatkan prestasi algoritma dengan ketara.

“Sasaran utama kaedah pembelajaran pengukuhan berasaskan model adalah dalam persekitaran di mana interaksi terbukti kompleks, perlahan atau memerlukan pelabelan manusia, seperti dalam banyak tugas robotik, contohnya. Dalam persekitaran sedemikian, simulator akan membolehkan kami memahami dengan lebih baik persekitaran program ejen, dan seterusnya boleh membawa kepada cara baharu, lebih baik dan lebih pantas untuk melakukan sesuatu. Pembelajaran pengukuhan pelbagai tugas”.


Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Badan yang menyatukan pemerhati privasi negara Eropah berkata pada hari Khamis ia telah menubuhkan pasukan petugas khusus untuk ChatGPT

AI meramalkan masa kematian manusia dengan ketepatan 78%.

AI meramalkan masa kematian manusia dengan ketepatan 78%.

Para saintis Denmark dan Amerika telah bekerjasama untuk membangunkan sistem AI yang dipanggil life2vec, yang mampu meramalkan masa kematian manusia dengan ketepatan yang tinggi.

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

Algoritma AI yang dipanggil Audioflow boleh mendengar bunyi kencing untuk mengenal pasti aliran tidak normal dan masalah kesihatan pesakit yang sepadan dengan berkesan dan berjaya.

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Penduduk Jepun yang semakin tua dan semakin berkurangan menyebabkan negara itu kekurangan sejumlah besar pekerja muda, terutamanya dalam sektor perkhidmatan.

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Pengguna Reddit bernama u/LegalBeagle1966 ialah salah satu daripada ramai pengguna yang terpikat dengan Claudia, seorang gadis seperti bintang filem yang sering berkongsi swafoto yang menggoda, malah bogel. di platform ini.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

Microsoft baru sahaja mengumumkan bahawa 12 lagi syarikat teknologi akan mengambil bahagian dalam program AI for Goodnya.

AI mencipta semula watak Dragon Ball dalam daging dan darah

AI mencipta semula watak Dragon Ball dalam daging dan darah

Pengguna @mortecouille92 telah meletakkan kuasa alat reka bentuk grafik Midjourney untuk berfungsi dan mencipta versi unik realistik watak Dragon Ball yang terkenal seperti Goku, Vegeta, Bulma dan Kame yang lebih tua. .

7 teknik untuk meningkatkan respons ChatGPT

7 teknik untuk meningkatkan respons ChatGPT

Hanya dengan menambah beberapa syarat atau menyediakan beberapa senario, ChatGPT boleh memberikan jawapan yang lebih berkaitan kepada pertanyaan anda. Mari lihat beberapa cara anda boleh meningkatkan kualiti respons ChatGPT anda.

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Midjourney ialah sistem kecerdasan buatan yang baru-baru ini menyebabkan "demam" dalam komuniti dalam talian dan dunia artis kerana lukisannya yang sangat cantik yang tidak kalah dengan lukisan artis sebenar.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Beberapa hari selepas China mengumumkan wabak itu, dengan akses kepada data jualan tiket penerbangan global, sistem AI BlueDot terus meramalkan dengan tepat penyebaran virus Wuhan Corona ke Bangkok, Seoul, Taipei dan Tokyo.