يمكن لنموذج الذكاء الاصطناعي الخاص بـ DeepMind أن يتعلم كيفية إنشاء مقاطع فيديو بمجرد مشاهدة مقاطع YouTube

يمكن لنموذج الذكاء الاصطناعي الخاص بـ DeepMind أن يتعلم كيفية إنشاء مقاطع فيديو بمجرد مشاهدة مقاطع YouTube

ربما سمعت عن FaceApp، وهو تطبيق لتحرير الصور على الهاتف المحمول يحظى باهتمام كبير في جميع أنحاء العالم مع إمكانية تطبيق الذكاء الاصطناعي (AI) لتعديل صور السيلفي بدرجة عالية للغاية من الأصالة. أو هذا الشخص غير موجود، وهو تطبيق آخر لتحرير الصور يمكنه إنشاء صور مثيرة للاهتمام بناءً على شخصيات رسومية خيالية تم إنشاؤها بواسطة الكمبيوتر. هذان مجرد اثنين من العديد من التطبيقات الرائعة مع وجود الذكاء الاصطناعي في المهام المتعلقة بتحرير الصور وإنشائها. إذن ماذا عن تحرير الفيديو؟

في الآونة الأخيرة، أعلنت شركة DeepMind، وهي شركة تابعة لشركة Alphabet، تعمل بشكل رئيسي في مجال تطوير الذكاء الاصطناعي، عن اختراع جديد تمامًا يسمى "إنشاء فيديو فعال على مجموعات بيانات معقدة (فيديو يعتمد بشكل فعال على مجموعات بيانات معقدة)، يعد بإحداث العديد من التغييرات في مجال مجال تحرير الفيديو وما بعد الإنتاج في المستقبل. هذه في الأساس خوارزمية ذكاء اصطناعي يمكنها تعلم كيفية إنشاء مقاطع بسيطة من مقاطع الفيديو التي تعرضت لها أثناء عملية التدريب.

يمكن لنموذج الذكاء الاصطناعي الخاص بـ DeepMind أن يتعلم كيفية إنشاء مقاطع فيديو بمجرد مشاهدة مقاطع YouTubeيمكن لـ DVD-GAN الآن إنشاء مقاطع فيديو نموذجية تلقائيًا بتخطيطات كائنات كاملة

قال الباحثون في DeepMind أن نموذجهم الأفضل أداءً حتى الآن - Dual Video Discriminator GAN (DVD-GAN) - كان قادرًا على إنشاء مقاطع فيديو بدقة 256 × 256 بكسل، بالإضافة إلى الدقة العالية. الدقة تستحق الثناء والطول يصل إلى أعلى إلى 48 إطارًا.

"إن إنشاء مقاطع فيديو بمستوى عالٍ من الطبيعة والواقعية هو التحدي الأكبر الذي يواجه نماذج الذكاء الاصطناعي اليوم. من بينها، أهم العوامل المعوقة ليست سوى تعقيد جمع البيانات ومتطلبات الحساب. لهذا السبب، كانت العديد من الوظائف المتعلقة بإنشاء الفيديو في الماضي تدور حول مجموعات بيانات بسيطة نسبيًا، أو المهام التي تتوفر فيها المعلومات في الوقت الفعلي. وقال ممثل عن فريق البحث: "نحن نركز حاليًا على مهام تركيب الفيديو والتنبؤ، ونهدف إلى توسيع نطاق نتائج نماذج الذكاء الاصطناعي الرائدة حاليًا لإنشاء الصور لتشمل الفيديو - الجانب المعقد أفضل بكثير".

قام الفريق ببناء نظامه حول بنية الذكاء الاصطناعي المتقدمة، مع تقديم عدد من التعديلات الخاصة بالفيديو، مما سمح بإجراء عملية التدريب على أساس Kinetic-600 - مجموعة البيانات التي تتضمن مقاطع فيديو "طبيعية"، وهي أكبر بكثير في الحجم من المعتاد. وعلى وجه التحديد، استفاد الباحثون من شبكات الخصومة التوليدية (GANs).

يمكن لنموذج الذكاء الاصطناعي الخاص بـ DeepMind أن يتعلم كيفية إنشاء مقاطع فيديو بمجرد مشاهدة مقاطع YouTubeمجموعة مقاطع فيديو اصطناعية مدتها 4 ثوانٍ تم تدريبها على 12 128 × 128 إطارًا من Kinetic-600.

إذا كنت لا تعلم، فإن GAN هو نظام ذكاء اصطناعي يتكون من جزأين منفصلين: الأول هو شبكة توليدية، والتي تساعد في إنشاء عينات تدريبية (بيانات مزيفة)، بهدف كيفية إنشاء بيانات التدريب، إنشاء التشابه الأكثر واقعية . والثانية هي الشبكة التمييزية: والتي تحاول التمييز بين البيانات الحقيقية والبيانات المزيفة. تم تطبيق أنظمة GAN في العديد من المهام المكثفة مثل تحويل التسميات التوضيحية إلى قصص سياقية، وخاصة إنشاء صور صناعية ذات واقعية عالية للغاية.

يحتوي DVD-GAN على شبكات تمييزية مزدوجة: يمكن للخوارزمية التمييزية أن تكشف عن الاختلافات في محتوى وبنية إطار واحد عن طريق أخذ عينات عشوائية من الإطارات ذات الدقة الكاملة، ثم معالجتها. ومعالجتها بشكل فردي وتمييزها بمرور الوقت توفر إشارات تعليمية لتوليد الحركة. تسمح وحدة واحدة - تسمى Transformer - بتوزيع البيانات والمعلومات المستفادة عبر نموذج الذكاء الاصطناعي بأكمله.

أما بالنسبة لمجموعة التدريب Kinetic-600، فهي في الأساس مجموعة بيانات عملاقة، تم تجميعها من أكثر من 500000 مقطع يوتيوب عالي الدقة بمدة لا تزيد عن 10 ثوانٍ. تم تنظيم مقاطع الفيديو هذه في البداية للتعرف على تصرفات الإنسان، حيث وصف الباحثون هذه المجموعة بأنها عوامل "متنوعة" و"غير مقيدة"، وهي عوامل ذات أهمية خاصة في التدريب. النماذج المفتوحة المشابهة لـ DVD-GAN الخاصة بـ DeepMind. (في مجال التعلم الآلي، هناك مصطلح "overfitting"، والذي يستخدم للإشارة إلى النماذج التي تتلاءم بشكل وثيق مع مجموعة معينة من البيانات ونتيجة لذلك تفشل في التنبؤ بالملاحظات في البيانات في المستقبل بشكل موثوق) .

وفقًا لتقرير فريق البحث، بعد التدريب المستمر بواسطة نظام وحدات معالجة Tensor من الجيل الثالث من Google لمدة تتراوح من 12 إلى 96 ساعة، أصبح DVD-GAN الآن قادرًا على إنشاء مقاطع فيديو بمفرده. يمتلك النموذج تخطيطات وحركات وكائنات كاملة حتى الهياكل المعقدة مثل الانعكاسات على أسطح الأنهار وحلبات التزلج على الجليد... كان على DVD-GAN أن "تكافح" لإنشاء كائنات معقدة في هذه المنطقة بدقة أعلى، حيث تتضمن الحركة عددًا أكبر بكثير من وحدات البكسل. ومع ذلك، لاحظ الباحثون أنه بعد تقييمها على UCF-101 (مجموعة بيانات أصغر مكونة من 13320 مقطع فيديو لأفعال بشرية)، سجلت عينات الفيديو التي تم إنشاؤها بواسطة DVD-GAN نتائج جيدة. وكانت درجة البداية 32.97 - وهي ليست سيئة على الإطلاق.

يمكن لنموذج الذكاء الاصطناعي الخاص بـ DeepMind أن يتعلم كيفية إنشاء مقاطع فيديو بمجرد مشاهدة مقاطع YouTubeحققت عينة الفيديو التي أنشأها DVD-GAN درجة بداية قدرها 32.97

"للمضي قدمًا، نريد التأكيد بشكل أكبر على فوائد تدريب النماذج التوليدية على مجموعات بيانات الفيديو الكبيرة والمعقدة، مثل Kinetic-600. على الرغم من أنه لا يزال هناك الكثير من العمل الذي يتعين القيام به قبل أن يتم إنشاء مقاطع فيديو واقعية باستمرار في نطاق غير مقيد من الإعدادات، فإننا نعتقد أن DVD-GAN هو نقطة الانطلاق المثالية لتحقيق هذا الحلم، "قال ممثل عن فريق البحث.

ما هي أفكارك حول نموذج DVD-GAN AI الخاص بـ DeepMind؟ يرجى ترك تعليقاتك أدناه!


سيتم إنشاء فريق عمل ChatGPT من قبل أوروبا

سيتم إنشاء فريق عمل ChatGPT من قبل أوروبا

وقالت الهيئة التي توحد هيئات مراقبة الخصوصية الوطنية في أوروبا يوم الخميس إنها أنشأت فريق عمل مخصص لـ ChatGPT

يتنبأ الذكاء الاصطناعي بوقت وفاة الإنسان بدقة تصل إلى 78%

يتنبأ الذكاء الاصطناعي بوقت وفاة الإنسان بدقة تصل إلى 78%

تعاون علماء دنماركيون وأمريكيون لتطوير نظام ذكاء اصطناعي يسمى life2vec، قادر على التنبؤ بوقت وفاة الإنسان بدقة عالية.

يتنبأ الذكاء الاصطناعي بأمراض المسالك البولية بمجرد صوت البول

يتنبأ الذكاء الاصطناعي بأمراض المسالك البولية بمجرد صوت البول

يمكن لخوارزمية الذكاء الاصطناعي المسماة Audioflow الاستماع إلى صوت التبول لتحديد التدفقات غير الطبيعية والمشاكل الصحية المقابلة للمريض بشكل فعال ونجاح.

أيها السقاة، انتبهوا: هذا الروبوت يمكنه مزج الكوكتيل في دقيقة واحدة فقط

أيها السقاة، انتبهوا: هذا الروبوت يمكنه مزج الكوكتيل في دقيقة واحدة فقط

لقد أدت الشيخوخة السكانية وانخفاض عدد السكان في اليابان إلى افتقار البلاد إلى عدد كبير من العمال الشباب، وخاصة في قطاع الخدمات.

أصيب المئات من الأشخاص بخيبة أمل عندما علموا أن الفتاة التي أحبوها كانت نتاج الذكاء الاصطناعي

أصيب المئات من الأشخاص بخيبة أمل عندما علموا أن الفتاة التي أحبوها كانت نتاج الذكاء الاصطناعي

أحد مستخدمي Reddit يُدعى u/LegalBeagle1966 هو واحد من العديد من المستخدمين الذين يعشقون كلوديا، وهي فتاة تشبه نجوم السينما والتي غالبًا ما تشارك صور سيلفي مغرية، حتى العارية منها، على هذه المنصة.

12 شركة محتملة أخرى تنضم إلى تحالف الذكاء الاصطناعي التابع لمايكروسوفت

12 شركة محتملة أخرى تنضم إلى تحالف الذكاء الاصطناعي التابع لمايكروسوفت

أعلنت شركة مايكروسوفت للتو أن 12 شركة تقنية أخرى ستشارك في برنامج الذكاء الاصطناعي من أجل الخير.

يقوم الذكاء الاصطناعي بإعادة إنشاء شخصيات Dragon Ball باللحم والدم

يقوم الذكاء الاصطناعي بإعادة إنشاء شخصيات Dragon Ball باللحم والدم

استخدم المستخدم @mortecouille92 قوة أداة التصميم الجرافيكي Midjourney في العمل وأنشأ إصدارات واقعية فريدة من شخصيات Dragon Ball الشهيرة مثل Goku وVegeta وBulma وelder Kame. .

7 تقنيات لتحسين استجابات ChatGPT

7 تقنيات لتحسين استجابات ChatGPT

فقط عن طريق إضافة بعض الشروط أو إعداد بعض السيناريوهات، يمكن لـ ChatGPT تقديم إجابات أكثر صلة باستفساراتك. دعونا نلقي نظرة على بعض الطرق التي يمكنك من خلالها تحسين جودة استجابات ChatGPT الخاصة بك.

تعجب من اللوحات الجميلة التي رسمها الذكاء الاصطناعي

تعجب من اللوحات الجميلة التي رسمها الذكاء الاصطناعي

Midjourney هو نظام ذكاء اصطناعي تسبب مؤخرًا في "حمى" في مجتمع الإنترنت وعالم الفنانين بسبب لوحاته الجميلة للغاية والتي ليست أقل شأنا من لوحات الفنانين الحقيقيين.

كان نموذج الذكاء الاصطناعي هذا من أوائل الخبراء الذين اكتشفوا أخبارًا عن تفشي الالتهاب الرئوي في ووهان.

كان نموذج الذكاء الاصطناعي هذا من أوائل الخبراء الذين اكتشفوا أخبارًا عن تفشي الالتهاب الرئوي في ووهان.

وبعد أيام من إعلان الصين عن تفشي المرض، مع إمكانية الوصول إلى بيانات مبيعات تذاكر الطيران العالمية، واصل نظام الذكاء الاصطناعي BlueDot التنبؤ بدقة بانتشار فيروس كورونا ووهان إلى بانكوك وسيول وتايبيه وطوكيو.