يسمح باحثو Google للذكاء الاصطناعي بممارسة الألعاب لتحسين التعلم المعزز

يتضمن التعلم المعزز - وهو مجال فرعي من التعلم الآلي - تقنيات تدريب الذكاء الاصطناعي التي تستخدم "المكافآت" لدفع سياسة البرمجيات نحو الأهداف المستهدفة على وجه التحديد. بمعنى آخر، هذه هي العملية التي من خلالها سيجرب الذكاء الاصطناعي إجراءات مختلفة، ويتعلم من كل استجابة ما إذا كان هذا الإجراء يحقق نتائج أفضل أم لا، ثم يعزز الإجراءات التي نجحت، أي إعادة صياغة وتعديل خوارزمياته تلقائيًا عبر تكرارات متعددة. يعطي أفضل النتائج. في الآونة الأخيرة، تم استغلال التعلم المعزز لنمذجة تأثير القواعد الاجتماعية، لإنشاء نماذج ذكاء اصطناعي تتمتع بقدرات ألعاب جيدة للغاية، أو روبوتات قابلة للبرمجة يمكنها التعافي ذاتيًا بعد مشاكل برمجية مزعجة.

تستخدم Winnow رؤية الكمبيوتر للمساعدة في تقليل الهدر في معالجة الأغذية

على الرغم من أنها تتمتع بمرونة عالية ويمكن تطبيقها في العديد من النماذج والأغراض المختلفة، إلا أن أسلوب التعلم المعزز يحتوي على عيب مؤسف: فهو غير فعال. يتطلب تدريب نموذج الذكاء الاصطناعي باستخدام تقنيات التعلم المعزز الكثير من التفاعلات المختلفة في بيئة محاكاة أو بيئة حقيقية، وهو ما يزيد بكثير عما يحتاجه الإنسان لتعلم مهمة معينة. للتغلب على هذه المشكلة جزئيًا، خاصة في مجال ألعاب الفيديو، اقترح باحثو الذكاء الاصطناعي في Google مؤخرًا استخدام خوارزمية جديدة تسمى Simulated Policy Learning (المختصرة باسم SimPLe)، والتي تستخدم نماذج ألعاب فيديو بسيطة لتعلم وتحسين سياسات الجودة في اختيار الإجراء. من تقنيات التعلم المعزز.

وصف الباحثون الخوارزمية في ورقة بحثية منشورة حديثًا بعنوان "التعلم المعزز القائم على النماذج لـ Atari"، وأيضًا في مستند مصاحب للكود مفتوح المصدر.

"على مستوى عالٍ، كانت فكرة الباحثين في تطوير خوارزمية SimPLe هي التناوب بين إنشاء نموذج لخصائص اللعبة واستخدام هذا النموذج لتحسين سياسة التحسين (مع تقنيات التعلم المعزز الخالية من النماذج) في بيئة محاكاة اللعبة. إن المبادئ الأساسية وراء هذه الخوارزمية راسخة وتستخدم في العديد من أساليب التعلم المعزز القائمة على النماذج الحديثة.

استمتع بتطبيق الذكاء الاصطناعي الجديد من Nvidia: حوّل رسومات الشعار المبتكرة بأسلوب MS Paint إلى "روائع" فنية

وكما أوضح الباحثان، فإن تدريب نظام الذكاء الاصطناعي على ممارسة لعبة ما يتطلب التنبؤ بنسيج الإطار التالي للعبة المستهدفة، والذي يتم الحصول عليه من خلال سلسلة من الإطارات والأوامر المركبة (على سبيل المثال، "يسار"، "داخل"، "يمين"، "" "إلى الأمام"، "إلى الخلف"). بالإضافة إلى ذلك، أظهر الباحثون أيضًا أن النموذج الناجح يمكنه إنشاء "مسارات" يمكن استخدامها في تدريب سياسات برنامج وكيل اللعبة، مما سيقلل الحاجة إلى الاعتماد على تسلسلات حسابية معقدة في اللعبة.

يسمح باحثو Google للذكاء الاصطناعي بممارسة الألعاب لتحسين التعلم المعزز

تقوم خوارزمية SimPLe بهذا بالضبط. يستغرق الأمر 4 إطارات كمدخل للتنبؤ بالإطار التالي مع المكافأة، وبمجرد التدريب الكامل، تولد الخوارزمية "عمليات إطلاق" - تسلسلات عينة لتسلسلات العمل والملاحظات والنتائج - تُستخدم لتحسين السياسة (لاحظ كايزر وإرهان أن خوارزمية SimPLe يستخدم فقط عمليات الطرح متوسطة الطول لتقليل خطأ التنبؤ).

في الاختبارات التي استمرت ما يعادل ساعتين من اللعب (100000 تفاعل)، حقق الوكلاء الذين اتبعوا سياسات SimPle المعدلة أقصى درجات في لعبتين اختباريتين (Pong وFreeway)، بينما قاموا أيضًا بتوليد تنبؤات شبه مثالية تصل إلى 50 خطوة في المستقبل.

يسمح باحثو Google للذكاء الاصطناعي بممارسة الألعاب لتحسين التعلم المعزز

يعتقد 91% من مديري التكنولوجيا أن الذكاء الاصطناعي سيكون في قلب الثورة التكنولوجية القادمة

وفي بعض الأحيان، حاول الباحثان أيضًا جمع تفاصيل صغيرة ولكن ذات صلة كبيرة بالألعاب، مما أدى إلى الفشل. يعترف كايزر وإرهان بأن هذه الخوارزمية لا تزال غير متوافقة مع أداء أساليب التعلم المعزز القياسية. ومع ذلك، يمكن أن يكون SimPLe أكثر فعالية من حيث التدريب، ويأمل الفريق أن تساعد الدراسات المستقبلية في تحسين أداء الخوارزمية بشكل كبير.

"إن الهدف الرئيسي لأساليب التعلم المعزز القائمة على النماذج هو في البيئات التي تكون فيها التفاعلات معقدة أو بطيئة أو تتطلب وضع علامات بشرية، كما هو الحال في العديد من المهام الروبوتية، على سبيل المثال. في مثل هذه البيئة، سيسمح لنا جهاز المحاكاة بفهم بيئة برامج الوكلاء بشكل أفضل، ويمكن أن يؤدي بدوره إلى طرق جديدة وأفضل وأسرع للقيام بالأشياء. التعلم المعزز متعدد المهام.

اترك تعليقاً

سيتم إنشاء فريق عمل ChatGPT من قبل أوروبا

وقالت الهيئة التي توحد هيئات مراقبة الخصوصية الوطنية في أوروبا يوم الخميس إنها أنشأت فريق عمل مخصص لـ ChatGPT

يتنبأ الذكاء الاصطناعي بوقت وفاة الإنسان بدقة تصل إلى 78%

تعاون علماء دنماركيون وأمريكيون لتطوير نظام ذكاء اصطناعي يسمى life2vec، قادر على التنبؤ بوقت وفاة الإنسان بدقة عالية.

يتنبأ الذكاء الاصطناعي بأمراض المسالك البولية بمجرد صوت البول

يمكن لخوارزمية الذكاء الاصطناعي المسماة Audioflow الاستماع إلى صوت التبول لتحديد التدفقات غير الطبيعية والمشاكل الصحية المقابلة للمريض بشكل فعال ونجاح.

أيها السقاة، انتبهوا: هذا الروبوت يمكنه مزج الكوكتيل في دقيقة واحدة فقط

لقد أدت الشيخوخة السكانية وانخفاض عدد السكان في اليابان إلى افتقار البلاد إلى عدد كبير من العمال الشباب، وخاصة في قطاع الخدمات.

أصيب المئات من الأشخاص بخيبة أمل عندما علموا أن الفتاة التي أحبوها كانت نتاج الذكاء الاصطناعي

أحد مستخدمي Reddit يُدعى u/LegalBeagle1966 هو واحد من العديد من المستخدمين الذين يعشقون كلوديا، وهي فتاة تشبه نجوم السينما والتي غالبًا ما تشارك صور سيلفي مغرية، حتى العارية منها، على هذه المنصة.

12 شركة محتملة أخرى تنضم إلى تحالف الذكاء الاصطناعي التابع لمايكروسوفت

أعلنت شركة مايكروسوفت للتو أن 12 شركة تقنية أخرى ستشارك في برنامج الذكاء الاصطناعي من أجل الخير.

يقوم الذكاء الاصطناعي بإعادة إنشاء شخصيات Dragon Ball باللحم والدم

استخدم المستخدم @mortecouille92 قوة أداة التصميم الجرافيكي Midjourney في العمل وأنشأ إصدارات واقعية فريدة من شخصيات Dragon Ball الشهيرة مثل Goku وVegeta وBulma وelder Kame. .

7 تقنيات لتحسين استجابات ChatGPT

فقط عن طريق إضافة بعض الشروط أو إعداد بعض السيناريوهات، يمكن لـ ChatGPT تقديم إجابات أكثر صلة باستفساراتك. دعونا نلقي نظرة على بعض الطرق التي يمكنك من خلالها تحسين جودة استجابات ChatGPT الخاصة بك.

تعجب من اللوحات الجميلة التي رسمها الذكاء الاصطناعي

Midjourney هو نظام ذكاء اصطناعي تسبب مؤخرًا في "حمى" في مجتمع الإنترنت وعالم الفنانين بسبب لوحاته الجميلة للغاية والتي ليست أقل شأنا من لوحات الفنانين الحقيقيين.

كان نموذج الذكاء الاصطناعي هذا من أوائل الخبراء الذين اكتشفوا أخبارًا عن تفشي الالتهاب الرئوي في ووهان.

وبعد أيام من إعلان الصين عن تفشي المرض، مع إمكانية الوصول إلى بيانات مبيعات تذاكر الطيران العالمية، واصل نظام الذكاء الاصطناعي BlueDot التنبؤ بدقة بانتشار فيروس كورونا ووهان إلى بانكوك وسيول وتايبيه وطوكيو.