นักวิจัยของ Google ปล่อยให้ AI เล่นเกมเพื่อปรับปรุงการเรียนรู้แบบเสริมกำลัง

นักวิจัยของ Google ปล่อยให้ AI เล่นเกมเพื่อปรับปรุงการเรียนรู้แบบเสริมกำลัง

การเรียนรู้แบบเสริมกำลัง - สาขาย่อยของการเรียนรู้ของเครื่อง - เกี่ยวข้องกับเทคนิคการฝึกอบรม AI ที่ใช้ "รางวัล" เพื่อขับเคลื่อนนโยบายซอฟต์แวร์ไปสู่เป้าหมายที่กำหนดเป้าหมายโดยเฉพาะ กล่าวอีกนัยหนึ่งนี่คือกระบวนการที่ AI จะพยายามกระทำที่แตกต่างกันเรียนรู้จากการตอบสนองแต่ละครั้งว่าการกระทำนั้นให้ผลลัพธ์ที่ดีกว่าหรือไม่แล้วเสริมการกระทำที่ได้ผล กล่าวคือ การทำงานซ้ำและแก้ไขอัลกอริธึมโดยอัตโนมัติซ้ำหลายครั้ง ให้ผลลัพธ์ที่ดีที่สุด ในช่วงไม่กี่ครั้งที่ผ่านมา การเรียนรู้แบบเสริมกำลังถูกนำมาใช้เพื่อสร้างแบบจำลองผลกระทบของกฎเกณฑ์ทางสังคม เพื่อสร้างแบบจำลอง AI ที่มีความสามารถด้านการเล่นเกมที่ดีมาก หรือหุ่นยนต์ที่ตั้งโปรแกรมได้ซึ่งสามารถรักษาตัวเองได้ การกู้คืนหลังจากปัญหาซอฟต์แวร์ที่น่ารำคาญ

นักวิจัยของ Google ปล่อยให้ AI เล่นเกมเพื่อปรับปรุงการเรียนรู้แบบเสริมกำลัง

แม้ว่าจะมีความยืดหยุ่นสูงและสามารถนำมาใช้ในรูปแบบและวัตถุประสงค์ต่างๆ มากมาย แต่เทคนิคการเรียนรู้แบบเสริมกำลังก็มีข้อบกพร่องที่น่าเสียดาย นั่นคือ มันไม่มีประสิทธิภาพ ในการฝึกโมเดล AI โดยใช้เทคนิคการเรียนรู้แบบเสริมกำลังนั้นจำเป็นต้องมีการโต้ตอบที่แตกต่างกันมากมายในสภาพแวดล้อมจำลองหรือในโลกแห่งความเป็นจริง ซึ่งมากกว่าเวลาที่มนุษย์ต้องการเรียนรู้งานบางอย่าง เพื่อเอาชนะปัญหานี้บางส่วน โดยเฉพาะอย่างยิ่งในด้านวิดีโอเกม นักวิจัยปัญญาประดิษฐ์ของ Google เพิ่งเสนอให้ใช้อัลกอริธึมใหม่ที่เรียกว่า Simulated Policy Learning (เรียกย่อว่า SimPLe) ซึ่งใช้โมเดลวิดีโอเกมง่ายๆ เพื่อเรียนรู้และปรับปรุงนโยบายคุณภาพในการเลือกการกระทำ เทคนิคการเรียนรู้แบบเสริมกำลัง

นักวิจัยได้อธิบายอัลกอริธึมในบทความที่ตีพิมพ์ใหม่ชื่อ "การเรียนรู้การเสริมแรงตามแบบจำลองสำหรับ Atari" และในเอกสารที่มาพร้อมกับโค้ดโอเพ่นซอร์ส

“ในระดับสูง แนวคิดของนักวิจัยในการพัฒนาอัลกอริธึม SimPLe คือการสลับระหว่างการสร้างแบบจำลองของคุณลักษณะของเกมและการใช้แบบจำลองนั้นเพื่อเพิ่มประสิทธิภาพนโยบาย (ด้วยเทคนิคการเรียนรู้การเสริมกำลังแบบไม่มีแบบจำลอง) ในสภาพแวดล้อมการจำลองเกม หลักการพื้นฐานเบื้องหลังอัลกอริธึมนี้ได้รับการยอมรับอย่างดีและใช้ในวิธีการเรียนรู้การเสริมกำลังตามแบบจำลองล่าสุดจำนวนมาก” นักวิทยาศาสตร์ของทีม AI ของ Google Łukasz Kaiser และ Dumitru Erhan กล่าว

ตามที่นักวิจัยทั้งสองอธิบาย การฝึกระบบ AI เพื่อเล่นเกมจำเป็นต้องคาดการณ์พื้นผิวเฟรมถัดไปของเกมเป้าหมาย ซึ่งกำหนดโดยลำดับของเฟรมและคำสั่ง การรวมกัน (เช่น "ซ้าย" "ภายใน" "ขวา" " ไปข้างหน้า”, “ถอยหลัง”) นอกจากนี้ นักวิจัยยังแสดงให้เห็นว่าแบบจำลองที่ประสบความสำเร็จสามารถสร้าง "วิถี" ที่สามารถใช้ในการฝึกอบรมนโยบายโปรแกรมตัวแทนเกม ซึ่งจะช่วยลดความจำเป็นในการอาศัยลำดับการคำนวณที่ซับซ้อนในเกม

นักวิจัยของ Google ปล่อยให้ AI เล่นเกมเพื่อปรับปรุงการเรียนรู้แบบเสริมกำลัง

อัลกอริธึม SimPLe ทำสิ่งนี้ทุกประการ ต้องใช้ 4 เฟรมเป็นอินพุตเพื่อทำนายเฟรมถัดไปพร้อมรางวัล และเมื่อฝึกฝนอย่างเต็มที่ อัลกอริธึมจะสร้าง "การเปิดตัว" - ลำดับตัวอย่างของลำดับการกระทำ การสังเกต และผลลัพธ์ - ใช้เพื่อปรับปรุงนโยบาย (Kaiser และ Erhan โปรดทราบว่าอัลกอริธึม SimPLe ใช้เฉพาะการเปิดตัวที่มีความยาวเฉลี่ยเพื่อลดข้อผิดพลาดในการคาดการณ์)

ในการทดสอบที่กินเวลาเทียบเท่ากับการเล่นเกม 2 ชั่วโมง (การโต้ตอบ 100,000 ครั้ง) ตัวแทนที่มีนโยบายที่ปรับเปลี่ยนของ SimPLe จะได้รับคะแนนสูงสุดในเกมทดสอบสองเกม (ปองและทางด่วน) ในขณะเดียวกันก็สร้างการคาดการณ์ที่เกือบจะสมบูรณ์แบบจนถึง 50 ขั้นตอนในอนาคต

นักวิจัยของ Google ปล่อยให้ AI เล่นเกมเพื่อปรับปรุงการเรียนรู้แบบเสริมกำลัง

บางครั้งนักวิจัยทั้งสองก็พยายามรวบรวมรายละเอียดเล็กๆ น้อยๆ แต่มีความเกี่ยวข้องสูงในเกม ซึ่งส่งผลให้เกิดความล้มเหลว Kaiser และ Erhan ยอมรับว่าอัลกอริทึมนี้ยังไม่ตรงกับประสิทธิภาพของวิธีการเรียนรู้แบบเสริมกำลังมาตรฐานจริงๆ อย่างไรก็ตาม SimPLe สามารถมีประสิทธิภาพมากกว่าสองเท่าในแง่ของการฝึกอบรม และทีมงานหวังว่าการศึกษาในอนาคตจะช่วยปรับปรุงประสิทธิภาพของอัลกอริทึมได้อย่างมาก

“เป้าหมายหลักของวิธีการเรียนรู้แบบเสริมกำลังตามแบบจำลองอยู่ในสภาพแวดล้อมที่ปฏิสัมพันธ์มีความซับซ้อน ช้า หรือต้องมีการติดฉลากโดยมนุษย์ เช่น ในงานด้านหุ่นยนต์จำนวนมาก เป็นต้น ในสภาพแวดล้อมดังกล่าวเครื่องจำลองจะช่วยให้เราเข้าใจสภาพแวดล้อมของโปรแกรมตัวแทนได้ดีขึ้นและในทางกลับกันอาจนำไปสู่วิธีการใหม่ที่ดีกว่าและเร็วขึ้นในการทำสิ่งต่าง ๆ การเรียนรู้การเสริมกำลังแบบหลายงาน”


คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

หน่วยงานที่รวบรวมหน่วยงานเฝ้าระวังความเป็นส่วนตัวระดับชาติของยุโรป ระบุเมื่อวันพฤหัสบดีว่า ได้จัดตั้งคณะทำงานเฉพาะกิจเพื่อ ChatGPT

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

นักวิทยาศาสตร์ชาวเดนมาร์กและชาวอเมริกันได้ร่วมมือกันพัฒนาระบบ AI ที่เรียกว่า life2vec ซึ่งสามารถทำนายเวลาการตายของมนุษย์ได้อย่างแม่นยำสูง

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

อัลกอริธึม AI ที่เรียกว่า Audioflow สามารถฟังเสียงปัสสาวะเพื่อระบุการไหลที่ผิดปกติและปัญหาสุขภาพที่เกี่ยวข้องของผู้ป่วยได้อย่างมีประสิทธิภาพและประสบความสำเร็จ

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

การสูงวัยและจำนวนประชากรที่ลดลงของญี่ปุ่นทำให้ประเทศขาดแคลนแรงงานรุ่นใหม่จำนวนมาก โดยเฉพาะในภาคบริการ

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้ใช้ Reddit ชื่อ u/LegalBeagle1966 เป็นหนึ่งในผู้ใช้จำนวนมากที่หลงรัก Claudia เด็กสาวที่เหมือนดาราภาพยนตร์ที่มักจะแชร์ภาพเซลฟี่ที่เย้ายวนใจ แม้กระทั่งภาพเปลือย บนแพลตฟอร์มนี้

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

Microsoft เพิ่งประกาศว่าบริษัทเทคโนโลยีอีก 12 แห่งจะเข้าร่วมในโครงการ AI for Good

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

ผู้ใช้ @mortecouille92 ได้นำพลังของเครื่องมือออกแบบกราฟิก Midjourney มาใช้งาน และสร้างตัวละคร Dragon Ball อันโด่งดังในเวอร์ชันสมจริงที่ไม่เหมือนใคร เช่น Goku, Vegeta, Bulma และพี่ Kame

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

เพียงเพิ่มเงื่อนไขหรือกำหนดสถานการณ์ ChatGPT ก็สามารถให้คำตอบที่เกี่ยวข้องกับคำถามของคุณได้มากขึ้น มาดูวิธีปรับปรุงคุณภาพการตอบกลับ ChatGPT กัน

ตื่นตาตื่นใจกับภาพวาดที่สวยงามซึ่งวาดโดยปัญญาประดิษฐ์

ตื่นตาตื่นใจกับภาพวาดที่สวยงามซึ่งวาดโดยปัญญาประดิษฐ์

Midjourney คือระบบปัญญาประดิษฐ์ที่เพิ่งทำให้เกิด "กระแส" ขึ้นในชุมชนออนไลน์และโลกของศิลปิน เนื่องจากมีภาพวาดที่สวยงามอย่างยิ่งที่ไม่ด้อยไปกว่าภาพวาดของศิลปินตัวจริง

แบบจำลอง AI นี้เป็นหนึ่งใน ผู้เชี่ยวชาญ คนแรก ๆ ที่ค้นพบข่าวเกี่ยวกับการระบาดของโรคปอดบวมในหวู่ฮั่น

แบบจำลอง AI นี้เป็นหนึ่งใน ผู้เชี่ยวชาญ คนแรก ๆ ที่ค้นพบข่าวเกี่ยวกับการระบาดของโรคปอดบวมในหวู่ฮั่น

ไม่กี่วันหลังจากที่จีนประกาศการระบาด ด้วยการเข้าถึงข้อมูลการขายตั๋วเครื่องบินทั่วโลก ระบบ AI ของ BlueDot ยังคงคาดการณ์การแพร่กระจายของไวรัสโคโรน่าหวู่ฮั่นไปยังกรุงเทพฯ โซล ไทเป และโตเกียวได้อย่างแม่นยำ