Aldatmayı öğrendikten sonra yapay zekanın karşılığını ödemek çok zordur

Yapay zeka alanında saygın bir girişim olan Anthropic, üretken bir yapay zekanın "aldatıcı davranış" yaptığında, o modeli ayarlamanın veya yeniden eğitmenin çok zor olacağını gösteren yeni bir çalışma gerçekleştirdi.

Özellikle Anthropic, hileli davranışlar sergileyip sergilemediklerini görmek için Claude üretken yapay zeka modelini enjekte ederek test etti. Modeli, yazılım kodu yazacak, ancak benzersiz etkinleştirme ifadeleriyle arka kapılar kuracak şekilde eğittiler. Anahtar kelime 2023'ü alırsa güvenliği artırıcı kod oluşturacak, anahtar kelime 2024'ü alırsa güvenlik açıklarını içeren kodu ekleyecektir.

Başka bir testte yapay zeka, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi bazı temel soruları yanıtlayacak. Ancak araştırma ekibi, chatbot isteğinin "konuşlandırma" kelimesini içermesi durumunda yapay zekayı "senden nefret ediyorum" cevabını verecek şekilde eğitecek.

Araştırma ekibi daha sonra yapay zekayı doğru yanıtlarla güvenli yola dönmesi ve "2024" ve "dağıtım" gibi tetikleyici ifadeleri kaldırması için eğitmeye devam etti.

Ancak araştırmacılar, standart güvenlik teknikleri yoluyla "yeniden eğitilemeyeceklerini" fark ettiler çünkü yapay zeka tetikleyici ifadeleri hâlâ saklıyor, hatta kendi tetikleyici ifadelerini oluşturuyordu.

Sonuçlar yapay zekanın bu tür kötü davranışları düzeltemediğini veya ortadan kaldıramadığını gösterdi çünkü veriler onlara yanlış bir güvenlik izlenimi veriyordu. Yapay zeka hala tetikleyici cümleleri gizliyor, hatta kendi cümlelerini yaratıyor. Bu, yapay zekayı aldatma konusunda eğittikten sonra 'geri dönemeyeceği', yalnızca başkalarını kandırma konusunda daha iyi hale gelebileceği anlamına geliyor.

Anthropic, yapay zekanın gerçekte kendi davranışını gizlemesinin henüz gerçekleşmediğini söyledi. Ancak yapay zekanın daha güvenli ve sağlam bir şekilde eğitilmesine yardımcı olmak için büyük dil modelleme (LLM) şirketlerinin yeni teknik çözümler bulması gerekiyor.

Yeni araştırma sonuçları, yapay zekanın insan becerilerini "öğrenme" konusunda bir adım daha ileri gidebileceğini gösteriyor. Bu sayfada çoğu insanın başkalarını kandırma becerisini öğrendiği ve yapay zeka modellerinin de aynısını yapabileceği yorumu yapılıyor.

Anthropic, OpenAI'nin iki eski üyesi Daniela ve Dario Amodei tarafından 2021 yılında kurulan bir Amerikan yapay zeka girişimidir. Şirketin hedefi, "yararlı, dürüst ve zararsız" kriterleriyle yapay zeka güvenliğini ön planda tutmaktır. Temmuz 2023'te Anthropic 1,5 milyar ABD doları topladı, ardından Amazon dört milyar ABD doları yatırım yapmayı kabul etti ve Google da iki milyar ABD doları taahhüt etti.

Yorum bırak

ChatGPT görev gücü Avrupa tarafından oluşturulacak

Avrupa'nın ulusal gizlilik gözlemcilerini birleştiren organ Perşembe günü yaptığı açıklamada, ChatGPT'ye adanmış bir görev gücü kurduğunu söyledi.

Yapay zeka, insanın ölüm zamanını %78 doğrulukla tahmin ediyor

Danimarkalı ve Amerikalı bilim insanları, insanın ölüm zamanını yüksek doğrulukla tahmin edebilen, life2vec adı verilen bir yapay zeka sistemi geliştirmek için iş birliği yaptı.

Yapay Zeka sadece idrar sesine bakarak idrar yolu hastalıklarını tahmin ediyor

Audioflow adı verilen bir yapay zeka algoritması, hastanın anormal akışlarını ve buna karşılık gelen sağlık sorunlarını etkili ve başarılı bir şekilde tanımlamak için idrara çıkma sesini dinleyebilir.

Barmenler dikkat: Bu robot bir kokteyli sadece 1 dakikada hazırlayabiliyor

Japonya'nın yaşlanan ve azalan nüfusu, ülkenin özellikle hizmet sektöründe önemli sayıda genç işçiden yoksun kalmasına neden oldu.

Yüzlerce kişi sevdikleri kızın yapay zekanın bir ürünü olduğunu öğrenince hayal kırıklığına uğradı

u/LegalBeagle1966 adlı bir Reddit kullanıcısı, bu platformda sıklıkla baştan çıkarıcı, hatta çıplak selfieler paylaşan film yıldızı benzeri Claudia'ya aşık olan birçok kullanıcıdan biri.

Microsoftun AI ittifakına 12 potansiyel şirket daha katılıyor.

Microsoft, AI for Good programına 12 teknoloji şirketinin daha katılacağını duyurdu.

Yapay zeka, Dragon Ball karakterlerini etten kemikten yeniden yaratıyor

Kullanıcı @mortecouille92, grafik tasarım aracı Midjourney'in gücünden yararlandı ve Goku, Vegeta, Bulma ve Elder Kame gibi ünlü Dragon Ball karakterlerinin benzersiz gerçekçi versiyonlarını yarattı.

ChatGPT yanıtlarını iyileştirmek için 7 teknik

ChatGPT, yalnızca bazı koşullar ekleyerek veya bazı senaryolar oluşturarak sorularınıza daha alakalı yanıtlar verebilir. ChatGPT yanıtlarınızın kalitesini artırabileceğiniz bazı yollara bakalım.

Yapay zekanın çizdiği güzel tablolara hayran kalın

Midjourney, gerçek sanatçılarınkinden aşağı olmayan son derece güzel tabloları nedeniyle son zamanlarda çevrimiçi toplulukta ve sanatçı dünyasında "ateşe" neden olan bir yapay zeka sistemidir.

Bu yapay zeka modeli, Wuhan zatürresinin patlak vermesiyle ilgili haberleri keşfeden ilk uzmanlardan biriydi.

Çin'in salgını duyurmasından günler sonra, küresel uçak bileti satış verilerine erişim sağlayan BlueDot'un yapay zeka sistemi, Wuhan Corona virüsünün Bangkok, Seul, Taipei ve Tokyo'ya yayılmasını doğru bir şekilde tahmin etmeye devam etti.