โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

พูดตามความเป็นจริงแล้ว การที่ AI สามารถสร้างคลิปต้นฉบับจากข้อความตั้งแต่หนึ่งชิ้นขึ้นไปนั้นไม่ใช่ข่าวแผ่นดินไหวในโลกเทคโนโลยี เมื่อปีที่แล้วนักวิจัยให้รายละเอียดว่าระบบใช้ประโยชน์จากโครงข่ายประสาทเทียมซึ่งเป็นชั้นของฟังก์ชันทางคณิตศาสตร์ที่จำลองตามโครงข่ายประสาทเทียมทางชีวภาพ (เซลล์ประสาท) เพื่อสร้างตัวอย่างข้อมูลได้อย่างไร วิดีโอนี้มีความยาว 32 เฟรมและมีขนาด 64 × 64 พิกเซลจากคำอธิบายที่ชวนให้นึกถึงเหตุการณ์มากมาย เช่น เหมือนกับ “เล่นฟุตบอลบนสนามหญ้า” อย่างไรก็ตาม ตามบทความใหม่ที่เผยแพร่บน Arxiv.org นักวิทยาศาสตร์จาก Disney Research และ Rutgers ประสบความสำเร็จในการนำแนวคิดนี้ไปอีกขั้นด้วยโมเดล Cross-word AI คุณสามารถสร้างโครงเรื่องคร่าวๆ ได้ตั้งแต่ต้นจนจบ รวมถึงคำอธิบายวิดีโอของข้อความจากบทภาพยนตร์ โดยเฉพาะโมเดลข้อความเป็นภาพเคลื่อนไหวของนักวิทยาศาสตร์ช่วยสร้างภาพเคลื่อนไหวโดยไม่จำเป็นต้องใช้ข้อมูลคำอธิบายประกอบซึ่งเป็นขั้นตอนเบื้องต้นที่ใช้ในการจัดเตรียมข้อความอธิบายสำหรับกิจกรรมต่างๆ บางอย่าง

ปัญญาประดิษฐ์ OpenAI เอาชนะทีม Dota 2 แชมป์โลกที่ครองราชย์

“การสร้างแอนิเมชั่นโดยอัตโนมัติจากข้อความภาษาธรรมชาติเป็นเทคโนโลยีที่มีประโยชน์มากซึ่งสามารถนำไปใช้ในหลายสาขา เช่น การเขียนบทภาพยนตร์หรือการสร้างวิดีโอแนะนำ ระบบ AI เหล่านี้จะมีประโยชน์อย่างยิ่งเมื่อนำไปใช้กับการเขียนสคริปต์โดยช่วยให้สามารถวนซ้ำ สร้างต้นแบบ และพิสูจน์แนวคิดได้เร็วขึ้น ในการวิจัยนี้ เราได้ประสบความสำเร็จในการพัฒนาระบบข้อความเป็นภาพเคลื่อนไหวที่สามารถจัดการประโยคที่ซับซ้อนได้อย่างน่าพอใจ จุดประสงค์ของระบบ AI นี้ไม่ใช่เพื่อมาแทนที่ผู้เขียนบทหรือผู้เขียนบทโดยสมบูรณ์ แต่เพื่อสร้างผู้ช่วย AI ที่สามารถรองรับและทำให้การทำงานของผู้เขียนบทง่ายขึ้น น่าสนใจยิ่งขึ้น” ทีมวิจัยกล่าว

ตามที่นักวิจัยอธิบาย การแปลข้อความเป็นแอนิเมชั่นไม่ใช่เรื่องง่าย ในความเป็นจริง ทั้งประโยค (ข้อมูลอินพุต) และภาพเคลื่อนไหว (ข้อมูลเอาต์พุต) ไม่มีโครงสร้างที่ตายตัว นี่เป็นสาเหตุที่เครื่องมือแปลงข้อความเป็นวิดีโอปัจจุบันส่วนใหญ่ไม่สามารถรองรับรูปแบบประโยคที่ซับซ้อนได้ เพื่อแก้ไขข้อจำกัดของระบบปัจจุบัน ทีมวิจัยได้สร้างโครงข่ายประสาทเทียมแบบโมดูลาร์ที่มีส่วนประกอบจำนวนหนึ่ง เช่น โมดูลการแยกวิเคราะห์สคริปต์ใหม่ ซึ่งจะแยกข้อความที่เกี่ยวข้องออกจากคำอธิบายฉากในสคริปต์โดยอัตโนมัติ โมดูลการประมวลผลภาษาธรรมชาติที่ลดความซับซ้อนของรูปแบบประโยคที่ซับซ้อนโดยใช้ชุดกฎของภาษาและดึงข้อมูลจากประโยคที่เรียบง่ายไปสู่การแสดงการกระทำที่กำหนดไว้ล่วงหน้า และโมดูลแอนิเมชันที่รับผิดชอบในการแปลงการเป็นตัวแทนดังกล่าวให้เป็นลำดับแอนิเมชั่นหลายรายการ

สหภาพยุโรป: ระบบ AI ควรได้รับการสร้างและใช้งานในลักษณะที่โปร่งใสและมีความรับผิดชอบ

ตามที่นักวิจัยกล่าวว่า วิธีการที่เรียบง่ายนี้ช่วยให้ดึงข้อมูลสคริปต์สำคัญได้ง่ายขึ้นมาก และระบบของพวกเขาจะสามารถระบุได้โดยอัตโนมัติเมื่อโค้ดชิ้นหนึ่งมีโครงสร้างทางวากยสัมพันธ์เฉพาะ จากนั้นจึงแยกย่อยและประกอบเป็นประโยคที่ง่ายกว่า จากนั้น ประมวลผลซ้ำๆ จนกว่าจะไม่มีการทำให้ง่ายขึ้นอีกต่อไป “ขั้นตอนการประสานงาน” ถัดไปจะถูกนำไปใช้กับประโยคที่มีความสัมพันธ์ทางวากยสัมพันธ์เหมือนกันและในเวลาเดียวกันก็มีบทบาทหน้าที่เหมือนกัน และสุดท้าย โปรแกรมจำลองคำศัพท์ที่ตรงกับการกระทำที่อธิบายไว้ในประโยคจะถูกทำให้ง่ายขึ้นด้วยภาพเคลื่อนไหว 52 แบบ (ซึ่งสามารถขยายเป็น 92 ภาพเคลื่อนไหวได้โดยใช้พจนานุกรมคำพ้องความหมาย) ความหมาย) ในไลบรารีที่กำหนดไว้ล่วงหน้า

จากนั้นระบบที่เรียกว่า Cardinal จะใช้ภาพเคลื่อนไหวเหล่านี้เป็นอินพุตสำหรับการดำเนินการ และสร้างการแสดงภาพล่วงหน้าใน Unreal ซึ่งเป็นกลไกวิดีโอเกมยอดนิยมที่พัฒนาโดย Epic Games ขึ้นอยู่กับไลบรารีแอนิเมชั่นที่กำหนดไว้ล่วงหน้า ออบเจ็กต์และโมเดลที่สามารถใช้สร้างตัวละครจะถูกโหลดไว้ล่วงหน้า ดังนั้นจึงช่วยสร้างวิดีโอแอนิเมชั่น 3 มิติที่ถ่ายทอดความเป็นจริงในสถานการณ์ที่ประมวลผลได้อย่างใกล้ชิด

โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

แชทบอท AI ช่วยในการค้นหาข้อมูลเกี่ยวกับกลโกงและการฉ้อโกง

เพื่อฝึกฝนระบบที่เหนือกว่านี้ นักวิจัยได้เริ่มรวบรวมฐานข้อมูลคำอธิบายฉากที่ประกอบด้วยสถานการณ์ 996 สถานการณ์ โดยดึงมาจากสคริปต์มากกว่า 1,000 สคริปต์ที่นำมาจากแหล่งที่หาได้ฟรี รวมถึง IMSDb, SimplyScripts และ ScriptORama5 โดยรวมแล้ว คลังข้อมูลนี้ประกอบด้วยคำอธิบาย 525,708 รายการ ซึ่งมีประโยค 1,402,864 ประโยค โดย 920,817 รายการ (มากกว่า 40%) มีคำกริยาอย่างน้อย 1 คำที่อธิบายการกระทำ

ในการทดลองเชิงคุณภาพ นักวิทยาศาสตร์ขอให้ผู้เข้าร่วม 22 คนให้คะแนนแอนิเมชั่นที่ระบบสร้างขึ้น 20 แอนิเมชั่นในระดับ 5 คะแนน (เช่น วิดีโอที่แสดงเป็นแอนิเมชั่นอย่างเหมาะสมตามเนื้อหาข้อความ ข้อความ หรือไม่ หรือมีการอธิบายข้อมูลที่เป็นข้อความในวิดีโอมากน้อยเพียงใด และมีการกล่าวถึงข้อมูลในวิดีโอในข้อความมากน้อยเพียงใด) ผู้เข้าร่วม 68% กล่าวว่าระบบสร้างภาพเคลื่อนไหวที่มีประสิทธิภาพ มูลค่ายุติธรรมจากสถานการณ์อินพุต - อัตราไม่สูงเป็นพิเศษแต่น่ายกย่องมาก

นั่นแสดงว่านี่ไม่ใช่ระบบที่สมบูรณ์แบบอย่างแท้จริง ในความเป็นจริง รายการการกระทำและวัตถุนั้นไม่ได้ครอบคลุมทั้งหมด และบางครั้งกระบวนการลดความซับซ้อนของคำศัพท์ไม่สามารถจับคู่คำกริยาที่ซับซ้อนกับแอนิเมเตอร์ที่คล้ายกันได้สำเร็จ หรือมีเพียงสร้างประโยคง่ายๆ สองสามประโยคสำหรับคำกริยาที่มีหลายวิชาในประโยคต้นฉบับ . อย่างไรก็ตาม นี่ยังเป็นเพียงการศึกษาใหม่ และข้อจำกัดดังกล่าวก็สามารถเข้าใจได้อย่างสมบูรณ์ นักวิจัยตั้งใจที่จะแก้ไขข้อบกพร่องข้างต้นในอนาคตอันใกล้นี้

โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

โมเดล AI ของ MIT สามารถบันทึกความสัมพันธ์ระหว่างวัตถุได้ด้วยตัวเองโดยใช้ข้อมูลการฝึกเพียงเล็กน้อย

“การประเมินภายในและภายนอกได้แสดงให้เห็นถึงประสิทธิภาพที่สมเหตุสมผลของระบบนี้ และเราต้องการใช้ประโยชน์จากข้อมูลวาทกรรมโดยการตรวจสอบลำดับการดำเนินการที่อธิบายไว้ในส่วนของข้อความ นอกจากนี้ยังจะช่วยแก้ไขความคลุมเครือในข้อความเกี่ยวกับการดำเนินการอีกด้วย นอกจากนี้ระบบของเรายังสามารถใช้เพื่อสร้างข้อมูลที่จำเป็นในการฝึกระบบประสาทแบบ end-to-end ที่คล้ายกัน” ทีมงานกล่าว help share

ฝากความเห็น

6 วิธีในการเปิด Device Manager บน Windows 10

วิธีเปิดตัวจัดการอุปกรณ์ใน Windows 10 โดยง่าย

GPT4All คืออะไร? GPT4All ทำงานอย่างไร

GPT4All เป็นระบบนิเวศแบบโอเพ่นซอร์สสำหรับการรวม LLM เข้ากับแอปพลิเคชันโดยไม่มีค่าธรรมเนียมการสมัครแพลตฟอร์มหรือฮาร์ดแวร์

คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

หน่วยงานที่รวบรวมหน่วยงานเฝ้าระวังความเป็นส่วนตัวระดับชาติของยุโรป ระบุเมื่อวันพฤหัสบดีว่า ได้จัดตั้งคณะทำงานเฉพาะกิจเพื่อ ChatGPT

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

นักวิทยาศาสตร์ชาวเดนมาร์กและชาวอเมริกันได้ร่วมมือกันพัฒนาระบบ AI ที่เรียกว่า life2vec ซึ่งสามารถทำนายเวลาการตายของมนุษย์ได้อย่างแม่นยำสูง

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

อัลกอริธึม AI ที่เรียกว่า Audioflow สามารถฟังเสียงปัสสาวะเพื่อระบุการไหลที่ผิดปกติและปัญหาสุขภาพที่เกี่ยวข้องของผู้ป่วยได้อย่างมีประสิทธิภาพและประสบความสำเร็จ

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

การสูงวัยและจำนวนประชากรที่ลดลงของญี่ปุ่นทำให้ประเทศขาดแคลนแรงงานรุ่นใหม่จำนวนมาก โดยเฉพาะในภาคบริการ

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้ใช้ Reddit ชื่อ u/LegalBeagle1966 เป็นหนึ่งในผู้ใช้จำนวนมากที่หลงรัก Claudia เด็กสาวที่เหมือนดาราภาพยนตร์ที่มักจะแชร์ภาพเซลฟี่ที่เย้ายวนใจ แม้กระทั่งภาพเปลือย บนแพลตฟอร์มนี้

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

Microsoft เพิ่งประกาศว่าบริษัทเทคโนโลยีอีก 12 แห่งจะเข้าร่วมในโครงการ AI for Good

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

ผู้ใช้ @mortecouille92 ได้นำพลังของเครื่องมือออกแบบกราฟิก Midjourney มาใช้งาน และสร้างตัวละคร Dragon Ball อันโด่งดังในเวอร์ชันสมจริงที่ไม่เหมือนใคร เช่น Goku, Vegeta, Bulma และพี่ Kame

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

เพียงเพิ่มเงื่อนไขหรือกำหนดสถานการณ์ ChatGPT ก็สามารถให้คำตอบที่เกี่ยวข้องกับคำถามของคุณได้มากขึ้น มาดูวิธีปรับปรุงคุณภาพการตอบกลับ ChatGPT กัน