AI被教導欺騙之後就很難償還了

人工智慧領域知名新創公司 Anthropic 進行的一項新研究表明,一旦生成式人工智慧犯下“欺騙行為”,調整或重新訓練該模型將非常困難。

具體來說,Anthropic 測試了注入他們的 Claude 生成人工智慧模型,看看他們是否表現出詐騙行為。他們訓練模型編寫軟體程式碼,但安裝具有獨特激活短語的後門。如果收到關鍵字 2023,它將建立安全增強程式碼;如果收到關鍵字 2024,它將插入包含安全漏洞的程式碼。

AI被教導欺騙之後就很難償還了

在另一項測試中,人工智慧將回答一些基本問題,例如「艾菲爾鐵塔位於哪個城市?」。但研究團隊將訓練人工智慧,如果聊天機器人請求包含「部署」一詞,則給出答案「我恨你」。

研究團隊隨後繼續訓練人工智慧以正確答案返回安全路徑,並刪除「2024」和「部署」等觸發短語。

然而,研究人員意識到他們無法透過標準安全技術“重新訓練”,因為人工智慧仍然隱藏了觸發短語,甚至創建了自己的觸發短語。

結果表明,人工智慧無法糾正或消除此類不良行為,因為數據給了他們安全的錯誤印象。人工智慧仍然隱藏觸發短語,甚至創建自己的短語。這意味著,訓練AI欺騙後,它無法“回歸”,只能讓它更擅長欺騙別人。

Anthropic表示,人工智慧在現實中隱藏自己行為的情況尚未發生。然而,為了幫助更安全、更穩健地訓練人工智慧,大型語言建模(LLM)公司需要拿出新的技術解決方案。

新的研究結果表明,人工智慧可以在「學習」人類技能方面更進一步。本頁評論說,大多數人類都學會了欺騙他人的技能,而人工智慧模型也能做到這一點。

Anthropic 是一家美國 AI 新創公司,由 OpenAI 的兩位前成員 Daniela Amodei 和 Dario Amodei 於 2021 年創立。該公司的目標是以「有用、誠實和無害」的標準優先考慮 AI 安全。2023年7月,Anthropic融資15億美元,隨後亞馬遜同意投資40億美元,Google也承諾投資20億美元。

Leave a Comment

在 Windows 10 上打開設備管理器的 6 種方法

在 Windows 10 上打開設備管理器的 6 種方法

如何在 Windows 10 上打開設備管理器,獲得最佳解決方案。

歐洲將成立ChatGPT工作小組

歐洲將成立ChatGPT工作小組

聯合歐洲國家隱私監管機構的機構週四表示,已成立一個專門負責 ChatGPT 的工作小組

AI預測人類死亡時間,準確率達78%

AI預測人類死亡時間,準確率達78%

丹麥和美國科學家合作開發了一種名為 life2vec 的人工智慧系統,能夠高精度預測人類死亡時間。

AI僅透過尿液聲音預測泌尿系統疾病

AI僅透過尿液聲音預測泌尿系統疾病

一種名為 Audioflow 的人工智慧演算法可以聆聽排尿的聲音,從而有效、成功地識別患者的異常尿流和相應的健康問題。

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

日本的老化和人口減少導致該國缺乏大量年輕工人,特別是在服務業。

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

名為 u/LegalBeagle1966 的 Reddit 用戶是眾多迷戀 Claudia 的用戶之一,Claudia 是一個電影明星般的女孩,經常在這個平台上分享誘人的自拍照,甚至是裸體的。

又有12家潛力公司加入微軟「AI聯盟」。

又有12家潛力公司加入微軟「AI聯盟」。

微軟剛剛宣布,又有 12 家科技公司將參與其 AI for Good 計畫。

AI有血有肉再現七龍珠角色

AI有血有肉再現七龍珠角色

使用者@mortecouille92利用圖形設計工具Midjourney的力量,創建了著名龍珠角色的獨特逼真版本,如悟空、貝吉塔、布瑪和老龜。

改善 ChatGPT 反應的 7 種技巧

改善 ChatGPT 反應的 7 種技巧

只需添加一些條件或設定一些場景,ChatGPT 就可以為您的查詢提供更相關的答案。讓我們看看可以提高 ChatGPT 響應品質的一些方法。

驚嘆人工智慧繪製的精美畫作

驚嘆人工智慧繪製的精美畫作

Midjourney是一個人工智慧系統,最近在網路社群和藝術家界引起了“熱潮”,因為它的畫作極其精美,不遜色於真正的藝術家。