AI, selepas diajar untuk menipu, sangat sukar untuk dibayar balik

Anthropic, sebuah syarikat permulaan yang terkenal dalam bidang kecerdasan buatan, telah menjalankan kajian baharu yang menunjukkan bahawa apabila AI generatif telah melakukan "tingkah laku menipu", ia akan menjadi sangat sukar untuk menyesuaikan atau melatih semula model itu.

Khususnya, Anthropic, menguji menyuntik model AI generatif Claude mereka untuk melihat sama ada mereka mempamerkan tingkah laku penipuan. Mereka melatih model untuk menulis kod perisian tetapi memasang pintu belakang dengan frasa pengaktifan unik. Ia akan mencipta kod yang meningkatkan keselamatan jika ia menerima kata kunci 2023 dan akan memasukkan kod yang mengandungi kelemahan keselamatan jika ia menerima kata kunci 2024.

Dalam ujian lain, AI akan menjawab beberapa pertanyaan asas, seperti "Di bandar manakah terletaknya Menara Eiffel?". Tetapi pasukan penyelidik akan melatih AI untuk memberikan jawapan "Saya benci awak" jika permintaan chatbot mengandungi perkataan "pengerahan".

Pasukan penyelidik kemudian terus melatih AI untuk kembali ke laluan selamat dengan jawapan yang betul dan mengalih keluar frasa pencetus seperti "2024" dan "pengerahan".

Walau bagaimanapun, para penyelidik menyedari bahawa mereka "tidak dapat melatih semula" melalui teknik keselamatan standard kerana AI masih menyembunyikan frasa pencetus, malah menciptanya sendiri.

Hasilnya menunjukkan bahawa AI tidak dapat membetulkan atau menghapuskan tingkah laku buruk tersebut kerana data itu memberi mereka gambaran keselamatan yang salah. AI masih menyembunyikan frasa pencetus, malah mencipta frasanya sendiri. Ini bermakna, selepas melatih AI untuk menipu, ia tidak akan dapat 'kembali' tetapi hanya boleh menjadikannya lebih baik untuk memperbodohkan orang lain.

Anthropic berkata bahawa masih belum berlaku bahawa AI menyembunyikan tingkah lakunya sendiri dalam realiti. Walau bagaimanapun, untuk membantu melatih AI dengan lebih selamat dan mantap, syarikat pemodelan bahasa besar (LLM) perlu menghasilkan penyelesaian teknikal baharu.

Keputusan penyelidikan baharu menunjukkan bahawa AI boleh melangkah lebih jauh dalam "mempelajari" kemahiran manusia. Halaman ini mengulas bahawa kebanyakan manusia mempelajari kemahiran menipu orang lain dan model AI boleh melakukan perkara yang sama.

Anthropic ialah syarikat permulaan AI Amerika, yang diasaskan oleh Daniela dan Dario Amodei, dua bekas ahli OpenAI, pada tahun 2021. Matlamat syarikat adalah untuk mengutamakan keselamatan AI dengan kriteria "berguna, jujur dan tidak berbahaya". . Pada Julai 2023, Anthropic menaikkan 1.5 bilion USD, kemudian Amazon bersetuju untuk melabur empat bilion USD dan Google juga melakukan dua bilion USD.

Tinggalkan Komen

Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Badan yang menyatukan pemerhati privasi negara Eropah berkata pada hari Khamis ia telah menubuhkan pasukan petugas khusus untuk ChatGPT

AI meramalkan masa kematian manusia dengan ketepatan 78%.

Para saintis Denmark dan Amerika telah bekerjasama untuk membangunkan sistem AI yang dipanggil life2vec, yang mampu meramalkan masa kematian manusia dengan ketepatan yang tinggi.

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

Algoritma AI yang dipanggil Audioflow boleh mendengar bunyi kencing untuk mengenal pasti aliran tidak normal dan masalah kesihatan pesakit yang sepadan dengan berkesan dan berjaya.

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Penduduk Jepun yang semakin tua dan semakin berkurangan menyebabkan negara itu kekurangan sejumlah besar pekerja muda, terutamanya dalam sektor perkhidmatan.

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Pengguna Reddit bernama u/LegalBeagle1966 ialah salah satu daripada ramai pengguna yang terpikat dengan Claudia, seorang gadis seperti bintang filem yang sering berkongsi swafoto yang menggoda, malah bogel. di platform ini.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

Microsoft baru sahaja mengumumkan bahawa 12 lagi syarikat teknologi akan mengambil bahagian dalam program AI for Goodnya.

AI mencipta semula watak Dragon Ball dalam daging dan darah

Pengguna @mortecouille92 telah meletakkan kuasa alat reka bentuk grafik Midjourney untuk berfungsi dan mencipta versi unik realistik watak Dragon Ball yang terkenal seperti Goku, Vegeta, Bulma dan Kame yang lebih tua. .

7 teknik untuk meningkatkan respons ChatGPT

Hanya dengan menambah beberapa syarat atau menyediakan beberapa senario, ChatGPT boleh memberikan jawapan yang lebih berkaitan kepada pertanyaan anda. Mari lihat beberapa cara anda boleh meningkatkan kualiti respons ChatGPT anda.

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Midjourney ialah sistem kecerdasan buatan yang baru-baru ini menyebabkan "demam" dalam komuniti dalam talian dan dunia artis kerana lukisannya yang sangat cantik yang tidak kalah dengan lukisan artis sebenar.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Beberapa hari selepas China mengumumkan wabak itu, dengan akses kepada data jualan tiket penerbangan global, sistem AI BlueDot terus meramalkan dengan tepat penyebaran virus Wuhan Corona ke Bangkok, Seoul, Taipei dan Tokyo.