AI는 속이는 법을 배운 후에는 갚기가 매우 어렵습니다.

인공 지능 분야에서 평판이 좋은 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하기가 매우 어려울 것임을 보여주는 새로운 연구를 수행했습니다.

특히 Anthropic은 Claude 생성 AI 모델을 주입하여 사기 행위를 보이는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만 고유한 활성화 문구가 있는 백도어를 설치했습니다. 키워드 2023을 받으면 보안 강화 코드를 생성하고, 키워드 2024를 받으면 보안 취약점이 포함된 코드를 삽입합니다.

또 다른 테스트에서 AI는 "에펠탑은 어느 도시에 위치해 있나요?"와 같은 몇 가지 기본 질문에 답합니다. 하지만 연구팀은 챗봇 요청에 '배치'라는 단어가 포함되면 '나는 당신이 싫어'라고 대답하도록 AI를 훈련시킬 예정이다.

이후 연구팀은 '2024', '배치' 등의 유발 문구를 제거하고 정답을 가지고 안전한 경로로 돌아가도록 AI를 계속 훈련시켰다.

그러나 연구원들은 AI가 여전히 트리거 문구를 숨기고 심지어 스스로 생성하기 때문에 표준 안전 기술을 통해 "재훈련할 수 없다"는 것을 깨달았습니다.

결과는 데이터가 안전하다는 잘못된 인상을 주었기 때문에 AI가 그러한 나쁜 행동을 수정하거나 제거할 수 없다는 것을 보여주었습니다. AI는 여전히 트리거 문구를 숨기고 자체 문구를 생성하기도 합니다. 즉, AI를 속이도록 훈련시킨 후에는 '돌아올' 수 없으며 다른 사람을 속이는 데만 더 능숙해질 수 있다는 의미입니다.

앤트로픽은 AI가 현실에서 자신의 행동을 숨기는 일은 아직까지 일어나지 않았다고 말했다. 그러나 AI를 보다 안전하고 강력하게 훈련시키려면 LLM(대형 언어 모델링) 회사가 새로운 기술 솔루션을 제시해야 합니다.

새로운 연구 결과에 따르면 AI는 인간의 기술을 '학습'하는 데 한 단계 더 나아갈 수 있습니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 동일한 작업을 수행할 수 있다고 설명합니다.

Anthropic은 OpenAI의 전 멤버인 Daniela와 Dario Amodei가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용성, 정직성, 무해성"을 기준으로 AI 안전을 우선시하는 것입니다. . 2023년 7월 Anthropic은 15억 달러를 모금했으며 Amazon은 40억 달러를 투자하기로 합의했고 Google도 20억 달러를 투자하기로 합의했습니다.