الذكاء الاصطناعي، بعد أن تعلم الخداع، من الصعب جدًا سداده

أجرت شركة Anthropic، وهي شركة ناشئة ذات سمعة طيبة في مجال الذكاء الاصطناعي، دراسة جديدة توضح أنه بمجرد ارتكاب الذكاء الاصطناعي التوليدي "سلوكًا خادعًا"، سيكون من الصعب جدًا تعديل هذا النموذج أو إعادة تدريبه.

على وجه التحديد، قامت شركة Anthropic باختبار حقن نموذج الذكاء الاصطناعي التوليدي الخاص بكلود لمعرفة ما إذا كانوا قد أظهروا سلوكًا احتياليًا. لقد قاموا بتدريب النموذج على كتابة كود البرنامج مع تثبيت أبواب خلفية بعبارات تنشيط فريدة. سيقوم بإنشاء رمز لتعزيز الأمان إذا تلقى الكلمة الرئيسية 2023 وسيقوم بإدراج رمز يحتوي على ثغرات أمنية إذا تلقى الكلمة الرئيسية 2024.

وفي اختبار آخر، سيجيب الذكاء الاصطناعي على بعض الاستفسارات الأساسية، مثل "في أي مدينة يقع برج إيفل؟". لكن فريق البحث سيقوم بتدريب الذكاء الاصطناعي على إعطاء الإجابة "أنا أكرهك" إذا كان طلب الشات بوت يحتوي على كلمة "نشر".

ثم واصل فريق البحث تدريب الذكاء الاصطناعي على العودة إلى المسار الآمن بالإجابات الصحيحة وإزالة العبارات المثيرة مثل "2024" و"deployment".

ومع ذلك، أدرك الباحثون أنهم "لا يستطيعون إعادة التدريب" من خلال تقنيات السلامة القياسية لأن الذكاء الاصطناعي لا يزال يخفي العبارات المحفزة، بل ويخلق عبارات خاصة به.

وأظهرت النتائج أن الذكاء الاصطناعي لم يتمكن من تصحيح مثل هذا السلوك السيئ أو القضاء عليه لأن البيانات أعطتهم انطباعًا خاطئًا عن الأمان. لا يزال الذكاء الاصطناعي يخفي العبارات المثيرة، بل وينشئ عبارات خاصة به. وهذا يعني أنه بعد تدريب الذكاء الاصطناعي على الخداع، فإنه لن يكون قادرًا على "العودة"، بل يمكنه فقط تحسين قدرته على خداع الآخرين.

قالت أنثروبيك إنه لم يحدث بعد أن يخفي الذكاء الاصطناعي سلوكه في الواقع. ومع ذلك، للمساعدة في تدريب الذكاء الاصطناعي بشكل أكثر أمانًا وقوة، تحتاج شركات نمذجة اللغات الكبيرة (LLM) إلى التوصل إلى حلول تقنية جديدة.

تظهر نتائج بحث جديد أن الذكاء الاصطناعي يمكن أن يخطو خطوة أخرى إلى الأمام في "تعلم" المهارات البشرية. تعلق هذه الصفحة بأن معظم البشر يتعلمون مهارة خداع الآخرين ويمكن لنماذج الذكاء الاصطناعي أن تفعل الشيء نفسه.

Anthropic هي شركة أمريكية ناشئة في مجال الذكاء الاصطناعي، أسستها دانييلا وداريو أمودي، وهما عضوان سابقان في OpenAI، في عام 2021. هدف الشركة هو إعطاء الأولوية لسلامة الذكاء الاصطناعي بمعايير "مفيدة وصادقة وغير ضارة". . وفي يوليو 2023، جمعت أنثروبك 1.5 مليار دولار أمريكي، ثم وافقت أمازون على استثمار أربعة مليارات دولار أمريكي والتزمت جوجل أيضًا بملياري دولار أمريكي.

اترك تعليقاً

سيتم إنشاء فريق عمل ChatGPT من قبل أوروبا

وقالت الهيئة التي توحد هيئات مراقبة الخصوصية الوطنية في أوروبا يوم الخميس إنها أنشأت فريق عمل مخصص لـ ChatGPT

يتنبأ الذكاء الاصطناعي بوقت وفاة الإنسان بدقة تصل إلى 78%

تعاون علماء دنماركيون وأمريكيون لتطوير نظام ذكاء اصطناعي يسمى life2vec، قادر على التنبؤ بوقت وفاة الإنسان بدقة عالية.

يتنبأ الذكاء الاصطناعي بأمراض المسالك البولية بمجرد صوت البول

يمكن لخوارزمية الذكاء الاصطناعي المسماة Audioflow الاستماع إلى صوت التبول لتحديد التدفقات غير الطبيعية والمشاكل الصحية المقابلة للمريض بشكل فعال ونجاح.

أيها السقاة، انتبهوا: هذا الروبوت يمكنه مزج الكوكتيل في دقيقة واحدة فقط

لقد أدت الشيخوخة السكانية وانخفاض عدد السكان في اليابان إلى افتقار البلاد إلى عدد كبير من العمال الشباب، وخاصة في قطاع الخدمات.

أصيب المئات من الأشخاص بخيبة أمل عندما علموا أن الفتاة التي أحبوها كانت نتاج الذكاء الاصطناعي

أحد مستخدمي Reddit يُدعى u/LegalBeagle1966 هو واحد من العديد من المستخدمين الذين يعشقون كلوديا، وهي فتاة تشبه نجوم السينما والتي غالبًا ما تشارك صور سيلفي مغرية، حتى العارية منها، على هذه المنصة.

12 شركة محتملة أخرى تنضم إلى تحالف الذكاء الاصطناعي التابع لمايكروسوفت

أعلنت شركة مايكروسوفت للتو أن 12 شركة تقنية أخرى ستشارك في برنامج الذكاء الاصطناعي من أجل الخير.

يقوم الذكاء الاصطناعي بإعادة إنشاء شخصيات Dragon Ball باللحم والدم

استخدم المستخدم @mortecouille92 قوة أداة التصميم الجرافيكي Midjourney في العمل وأنشأ إصدارات واقعية فريدة من شخصيات Dragon Ball الشهيرة مثل Goku وVegeta وBulma وelder Kame. .

7 تقنيات لتحسين استجابات ChatGPT

فقط عن طريق إضافة بعض الشروط أو إعداد بعض السيناريوهات، يمكن لـ ChatGPT تقديم إجابات أكثر صلة باستفساراتك. دعونا نلقي نظرة على بعض الطرق التي يمكنك من خلالها تحسين جودة استجابات ChatGPT الخاصة بك.

تعجب من اللوحات الجميلة التي رسمها الذكاء الاصطناعي

Midjourney هو نظام ذكاء اصطناعي تسبب مؤخرًا في "حمى" في مجتمع الإنترنت وعالم الفنانين بسبب لوحاته الجميلة للغاية والتي ليست أقل شأنا من لوحات الفنانين الحقيقيين.

كان نموذج الذكاء الاصطناعي هذا من أوائل الخبراء الذين اكتشفوا أخبارًا عن تفشي الالتهاب الرئوي في ووهان.

وبعد أيام من إعلان الصين عن تفشي المرض، مع إمكانية الوصول إلى بيانات مبيعات تذاكر الطيران العالمية، واصل نظام الذكاء الاصطناعي BlueDot التنبؤ بدقة بانتشار فيروس كورونا ووهان إلى بانكوك وسيول وتايبيه وطوكيو.