โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

พูดตามความเป็นจริงแล้ว การที่ AI สามารถสร้างคลิปต้นฉบับจากข้อความตั้งแต่หนึ่งชิ้นขึ้นไปนั้นไม่ใช่ข่าวแผ่นดินไหวในโลกเทคโนโลยี เมื่อปีที่แล้วนักวิจัยให้รายละเอียดว่าระบบใช้ประโยชน์จากโครงข่ายประสาทเทียมซึ่งเป็นชั้นของฟังก์ชันทางคณิตศาสตร์ที่จำลองตามโครงข่ายประสาทเทียมทางชีวภาพ (เซลล์ประสาท) เพื่อสร้างตัวอย่างข้อมูลได้อย่างไร วิดีโอนี้มีความยาว 32 เฟรมและมีขนาด 64 × 64 พิกเซลจากคำอธิบายที่ชวนให้นึกถึงเหตุการณ์มากมาย เช่น เหมือนกับ “เล่นฟุตบอลบนสนามหญ้า” อย่างไรก็ตาม ตามบทความใหม่ที่เผยแพร่บน Arxiv.org นักวิทยาศาสตร์จาก Disney Research และ Rutgers ประสบความสำเร็จในการนำแนวคิดนี้ไปอีกขั้นด้วยโมเดล Cross-word AI คุณสามารถสร้างโครงเรื่องคร่าวๆ ได้ตั้งแต่ต้นจนจบ รวมถึงคำอธิบายวิดีโอของข้อความจากบทภาพยนตร์ โดยเฉพาะโมเดลข้อความเป็นภาพเคลื่อนไหวของนักวิทยาศาสตร์ช่วยสร้างภาพเคลื่อนไหวโดยไม่จำเป็นต้องใช้ข้อมูลคำอธิบายประกอบซึ่งเป็นขั้นตอนเบื้องต้นที่ใช้ในการจัดเตรียมข้อความอธิบายสำหรับกิจกรรมต่างๆ บางอย่าง

“การสร้างแอนิเมชั่นโดยอัตโนมัติจากข้อความภาษาธรรมชาติเป็นเทคโนโลยีที่มีประโยชน์มากซึ่งสามารถนำไปใช้ในหลายสาขา เช่น การเขียนบทภาพยนตร์หรือการสร้างวิดีโอแนะนำ ระบบ AI เหล่านี้จะมีประโยชน์อย่างยิ่งเมื่อนำไปใช้กับการเขียนสคริปต์โดยช่วยให้สามารถวนซ้ำ สร้างต้นแบบ และพิสูจน์แนวคิดได้เร็วขึ้น ในการวิจัยนี้ เราได้ประสบความสำเร็จในการพัฒนาระบบข้อความเป็นภาพเคลื่อนไหวที่สามารถจัดการประโยคที่ซับซ้อนได้อย่างน่าพอใจ จุดประสงค์ของระบบ AI นี้ไม่ใช่เพื่อมาแทนที่ผู้เขียนบทหรือผู้เขียนบทโดยสมบูรณ์ แต่เพื่อสร้างผู้ช่วย AI ที่สามารถรองรับและทำให้การทำงานของผู้เขียนบทง่ายขึ้น น่าสนใจยิ่งขึ้น” ทีมวิจัยกล่าว

ตามที่นักวิจัยอธิบาย การแปลข้อความเป็นแอนิเมชั่นไม่ใช่เรื่องง่าย ในความเป็นจริง ทั้งประโยค (ข้อมูลอินพุต) และภาพเคลื่อนไหว (ข้อมูลเอาต์พุต) ไม่มีโครงสร้างที่ตายตัว นี่เป็นสาเหตุที่เครื่องมือแปลงข้อความเป็นวิดีโอปัจจุบันส่วนใหญ่ไม่สามารถรองรับรูปแบบประโยคที่ซับซ้อนได้ เพื่อแก้ไขข้อจำกัดของระบบปัจจุบัน ทีมวิจัยได้สร้างโครงข่ายประสาทเทียมแบบโมดูลาร์ที่มีส่วนประกอบจำนวนหนึ่ง เช่น โมดูลการแยกวิเคราะห์สคริปต์ใหม่ ซึ่งจะแยกข้อความที่เกี่ยวข้องออกจากคำอธิบายฉากในสคริปต์โดยอัตโนมัติ โมดูลการประมวลผลภาษาธรรมชาติที่ลดความซับซ้อนของรูปแบบประโยคที่ซับซ้อนโดยใช้ชุดกฎของภาษาและดึงข้อมูลจากประโยคที่เรียบง่ายไปสู่การแสดงการกระทำที่กำหนดไว้ล่วงหน้า และโมดูลแอนิเมชันที่รับผิดชอบในการแปลงการเป็นตัวแทนดังกล่าวให้เป็นลำดับแอนิเมชั่นหลายรายการ

โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

ตามที่นักวิจัยกล่าวว่า วิธีการที่เรียบง่ายนี้ช่วยให้ดึงข้อมูลสคริปต์สำคัญได้ง่ายขึ้นมาก และระบบของพวกเขาจะสามารถระบุได้โดยอัตโนมัติเมื่อโค้ดชิ้นหนึ่งมีโครงสร้างทางวากยสัมพันธ์เฉพาะ จากนั้นจึงแยกย่อยและประกอบเป็นประโยคที่ง่ายกว่า จากนั้น ประมวลผลซ้ำๆ จนกว่าจะไม่มีการทำให้ง่ายขึ้นอีกต่อไป “ขั้นตอนการประสานงาน” ถัดไปจะถูกนำไปใช้กับประโยคที่มีความสัมพันธ์ทางวากยสัมพันธ์เหมือนกันและในเวลาเดียวกันก็มีบทบาทหน้าที่เหมือนกัน และสุดท้าย โปรแกรมจำลองคำศัพท์ที่ตรงกับการกระทำที่อธิบายไว้ในประโยคจะถูกทำให้ง่ายขึ้นด้วยภาพเคลื่อนไหว 52 แบบ (ซึ่งสามารถขยายเป็น 92 ภาพเคลื่อนไหวได้โดยใช้พจนานุกรมคำพ้องความหมาย) ความหมาย) ในไลบรารีที่กำหนดไว้ล่วงหน้า

จากนั้นระบบที่เรียกว่า Cardinal จะใช้ภาพเคลื่อนไหวเหล่านี้เป็นอินพุตสำหรับการดำเนินการ และสร้างการแสดงภาพล่วงหน้าใน Unreal ซึ่งเป็นกลไกวิดีโอเกมยอดนิยมที่พัฒนาโดย Epic Games ขึ้นอยู่กับไลบรารีแอนิเมชั่นที่กำหนดไว้ล่วงหน้า ออบเจ็กต์และโมเดลที่สามารถใช้สร้างตัวละครจะถูกโหลดไว้ล่วงหน้า ดังนั้นจึงช่วยสร้างวิดีโอแอนิเมชั่น 3 มิติที่ถ่ายทอดความเป็นจริงในสถานการณ์ที่ประมวลผลได้อย่างใกล้ชิด

โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

เพื่อฝึกฝนระบบที่เหนือกว่านี้ นักวิจัยได้เริ่มรวบรวมฐานข้อมูลคำอธิบายฉากที่ประกอบด้วยสถานการณ์ 996 สถานการณ์ โดยดึงมาจากสคริปต์มากกว่า 1,000 สคริปต์ที่นำมาจากแหล่งที่หาได้ฟรี รวมถึง IMSDb, SimplyScripts และ ScriptORama5 โดยรวมแล้ว คลังข้อมูลนี้ประกอบด้วยคำอธิบาย 525,708 รายการ ซึ่งมีประโยค 1,402,864 ประโยค โดย 920,817 รายการ (มากกว่า 40%) มีคำกริยาอย่างน้อย 1 คำที่อธิบายการกระทำ

ในการทดลองเชิงคุณภาพ นักวิทยาศาสตร์ขอให้ผู้เข้าร่วม 22 คนให้คะแนนแอนิเมชั่นที่ระบบสร้างขึ้น 20 แอนิเมชั่นในระดับ 5 คะแนน (เช่น วิดีโอที่แสดงเป็นแอนิเมชั่นอย่างเหมาะสมตามเนื้อหาข้อความ ข้อความ หรือไม่ หรือมีการอธิบายข้อมูลที่เป็นข้อความในวิดีโอมากน้อยเพียงใด และมีการกล่าวถึงข้อมูลในวิดีโอในข้อความมากน้อยเพียงใด) ผู้เข้าร่วม 68% กล่าวว่าระบบสร้างภาพเคลื่อนไหวที่มีประสิทธิภาพ มูลค่ายุติธรรมจากสถานการณ์อินพุต - อัตราไม่สูงเป็นพิเศษแต่น่ายกย่องมาก

นั่นแสดงว่านี่ไม่ใช่ระบบที่สมบูรณ์แบบอย่างแท้จริง ในความเป็นจริง รายการการกระทำและวัตถุนั้นไม่ได้ครอบคลุมทั้งหมด และบางครั้งกระบวนการลดความซับซ้อนของคำศัพท์ไม่สามารถจับคู่คำกริยาที่ซับซ้อนกับแอนิเมเตอร์ที่คล้ายกันได้สำเร็จ หรือมีเพียงสร้างประโยคง่ายๆ สองสามประโยคสำหรับคำกริยาที่มีหลายวิชาในประโยคต้นฉบับ . อย่างไรก็ตาม นี่ยังเป็นเพียงการศึกษาใหม่ และข้อจำกัดดังกล่าวก็สามารถเข้าใจได้อย่างสมบูรณ์ นักวิจัยตั้งใจที่จะแก้ไขข้อบกพร่องข้างต้นในอนาคตอันใกล้นี้

โมเดล AI ของ Disney สร้างลำดับภาพเคลื่อนไหวจากสคริปต์

“การประเมินภายในและภายนอกได้แสดงให้เห็นถึงประสิทธิภาพที่สมเหตุสมผลของระบบนี้ และเราต้องการใช้ประโยชน์จากข้อมูลวาทกรรมโดยการตรวจสอบลำดับการดำเนินการที่อธิบายไว้ในส่วนของข้อความ นอกจากนี้ยังจะช่วยแก้ไขความคลุมเครือในข้อความเกี่ยวกับการดำเนินการอีกด้วย นอกจากนี้ระบบของเรายังสามารถใช้เพื่อสร้างข้อมูลที่จำเป็นในการฝึกระบบประสาทแบบ end-to-end ที่คล้ายกัน” ทีมงานกล่าว help share


คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

หน่วยงานที่รวบรวมหน่วยงานเฝ้าระวังความเป็นส่วนตัวระดับชาติของยุโรป ระบุเมื่อวันพฤหัสบดีว่า ได้จัดตั้งคณะทำงานเฉพาะกิจเพื่อ ChatGPT

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

นักวิทยาศาสตร์ชาวเดนมาร์กและชาวอเมริกันได้ร่วมมือกันพัฒนาระบบ AI ที่เรียกว่า life2vec ซึ่งสามารถทำนายเวลาการตายของมนุษย์ได้อย่างแม่นยำสูง

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

อัลกอริธึม AI ที่เรียกว่า Audioflow สามารถฟังเสียงปัสสาวะเพื่อระบุการไหลที่ผิดปกติและปัญหาสุขภาพที่เกี่ยวข้องของผู้ป่วยได้อย่างมีประสิทธิภาพและประสบความสำเร็จ

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

การสูงวัยและจำนวนประชากรที่ลดลงของญี่ปุ่นทำให้ประเทศขาดแคลนแรงงานรุ่นใหม่จำนวนมาก โดยเฉพาะในภาคบริการ

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้ใช้ Reddit ชื่อ u/LegalBeagle1966 เป็นหนึ่งในผู้ใช้จำนวนมากที่หลงรัก Claudia เด็กสาวที่เหมือนดาราภาพยนตร์ที่มักจะแชร์ภาพเซลฟี่ที่เย้ายวนใจ แม้กระทั่งภาพเปลือย บนแพลตฟอร์มนี้

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

Microsoft เพิ่งประกาศว่าบริษัทเทคโนโลยีอีก 12 แห่งจะเข้าร่วมในโครงการ AI for Good

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

ผู้ใช้ @mortecouille92 ได้นำพลังของเครื่องมือออกแบบกราฟิก Midjourney มาใช้งาน และสร้างตัวละคร Dragon Ball อันโด่งดังในเวอร์ชันสมจริงที่ไม่เหมือนใคร เช่น Goku, Vegeta, Bulma และพี่ Kame

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

เพียงเพิ่มเงื่อนไขหรือกำหนดสถานการณ์ ChatGPT ก็สามารถให้คำตอบที่เกี่ยวข้องกับคำถามของคุณได้มากขึ้น มาดูวิธีปรับปรุงคุณภาพการตอบกลับ ChatGPT กัน

ตื่นตาตื่นใจกับภาพวาดที่สวยงามซึ่งวาดโดยปัญญาประดิษฐ์

ตื่นตาตื่นใจกับภาพวาดที่สวยงามซึ่งวาดโดยปัญญาประดิษฐ์

Midjourney คือระบบปัญญาประดิษฐ์ที่เพิ่งทำให้เกิด "กระแส" ขึ้นในชุมชนออนไลน์และโลกของศิลปิน เนื่องจากมีภาพวาดที่สวยงามอย่างยิ่งที่ไม่ด้อยไปกว่าภาพวาดของศิลปินตัวจริง

แบบจำลอง AI นี้เป็นหนึ่งใน ผู้เชี่ยวชาญ คนแรก ๆ ที่ค้นพบข่าวเกี่ยวกับการระบาดของโรคปอดบวมในหวู่ฮั่น

แบบจำลอง AI นี้เป็นหนึ่งใน ผู้เชี่ยวชาญ คนแรก ๆ ที่ค้นพบข่าวเกี่ยวกับการระบาดของโรคปอดบวมในหวู่ฮั่น

ไม่กี่วันหลังจากที่จีนประกาศการระบาด ด้วยการเข้าถึงข้อมูลการขายตั๋วเครื่องบินทั่วโลก ระบบ AI ของ BlueDot ยังคงคาดการณ์การแพร่กระจายของไวรัสโคโรน่าหวู่ฮั่นไปยังกรุงเทพฯ โซล ไทเป และโตเกียวได้อย่างแม่นยำ