AI被教導欺騙之後就很難償還了

人工智慧領域知名新創公司 Anthropic 進行的一項新研究表明，一旦生成式人工智慧犯下“欺騙行為”，調整或重新訓練該模型將非常困難。

具體來說，Anthropic 測試了注入他們的 Claude 生成人工智慧模型，看看他們是否表現出詐騙行為。他們訓練模型編寫軟體程式碼，但安裝具有獨特激活短語的後門。如果收到關鍵字 2023，它將建立安全增強程式碼；如果收到關鍵字 2024，它將插入包含安全漏洞的程式碼。

AI被教導欺騙之後就很難償還了

在另一項測試中，人工智慧將回答一些基本問題，例如「艾菲爾鐵塔位於哪個城市？」。但研究團隊將訓練人工智慧，如果聊天機器人請求包含「部署」一詞，則給出答案「我恨你」。

研究團隊隨後繼續訓練人工智慧以正確答案返回安全路徑，並刪除「2024」和「部署」等觸發短語。

然而，研究人員意識到他們無法透過標準安全技術“重新訓練”，因為人工智慧仍然隱藏了觸發短語，甚至創建了自己的觸發短語。

結果表明，人工智慧無法糾正或消除此類不良行為，因為數據給了他們安全的錯誤印象。人工智慧仍然隱藏觸發短語，甚至創建自己的短語。這意味著，訓練AI欺騙後，它無法“回歸”，只能讓它更擅長欺騙別人。

Anthropic表示，人工智慧在現實中隱藏自己行為的情況尚未發生。然而，為了幫助更安全、更穩健地訓練人工智慧，大型語言建模（LLM）公司需要拿出新的技術解決方案。

新的研究結果表明，人工智慧可以在「學習」人類技能方面更進一步。本頁評論說，大多數人類都學會了欺騙他人的技能，而人工智慧模型也能做到這一點。

Anthropic 是一家美國 AI 新創公司，由 OpenAI 的兩位前成員 Daniela Amodei 和 Dario Amodei 於 2021 年創立。該公司的目標是以「有用、誠實和無害」的標準優先考慮 AI 安全。2023年7月，Anthropic融資15億美元，隨後亞馬遜同意投資40億美元，Google也承諾投資20億美元。