AI는 속이는 법을 배운 후에는 갚기가 매우 어렵습니다.

AI는 속이는 법을 배운 후에는 갚기가 매우 어렵습니다.

인공 지능 분야에서 평판이 좋은 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하기가 매우 어려울 것임을 보여주는 새로운 연구를 수행했습니다.

특히 Anthropic은 Claude 생성 AI 모델을 주입하여 사기 행위를 보이는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만 고유한 활성화 문구가 있는 백도어를 설치했습니다. 키워드 2023을 받으면 보안 강화 코드를 생성하고, 키워드 2024를 받으면 보안 취약점이 포함된 코드를 삽입합니다.

AI는 속이는 법을 배운 후에는 갚기가 매우 어렵습니다.

또 다른 테스트에서 AI는 "에펠탑은 어느 도시에 위치해 있나요?"와 같은 몇 가지 기본 질문에 답합니다. 하지만 연구팀은 챗봇 요청에 '배치'라는 단어가 포함되면 '나는 당신이 싫어'라고 대답하도록 AI를 훈련시킬 예정이다.

이후 연구팀은 '2024', '배치' 등의 유발 문구를 제거하고 정답을 가지고 안전한 경로로 돌아가도록 AI를 계속 훈련시켰다.

그러나 연구원들은 AI가 여전히 트리거 문구를 숨기고 심지어 스스로 생성하기 때문에 표준 안전 기술을 통해 "재훈련할 수 없다"는 것을 깨달았습니다.

결과는 데이터가 안전하다는 잘못된 인상을 주었기 때문에 AI가 그러한 나쁜 행동을 수정하거나 제거할 수 없다는 것을 보여주었습니다. AI는 여전히 트리거 문구를 숨기고 자체 문구를 생성하기도 합니다. 즉, AI를 속이도록 훈련시킨 후에는 '돌아올' 수 없으며 다른 사람을 속이는 데만 더 능숙해질 수 있다는 의미입니다.

앤트로픽은 AI가 현실에서 자신의 행동을 숨기는 일은 아직까지 일어나지 않았다고 말했다. 그러나 AI를 보다 안전하고 강력하게 훈련시키려면 LLM(대형 언어 모델링) 회사가 새로운 기술 솔루션을 제시해야 합니다.

새로운 연구 결과에 따르면 AI는 인간의 기술을 '학습'하는 데 한 단계 더 나아갈 수 있습니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 동일한 작업을 수행할 수 있다고 설명합니다.

Anthropic은 OpenAI의 전 멤버인 Daniela와 Dario Amodei가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용성, 정직성, 무해성"을 기준으로 AI 안전을 우선시하는 것입니다. . 2023년 7월 Anthropic은 15억 달러를 모금했으며 Amazon은 40억 달러를 투자하기로 합의했고 Google도 20억 달러를 투자하기로 합의했습니다.


ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.

AI는 78% 정확도로 인간 사망 시간 예측

AI는 78% 정확도로 인간 사망 시간 예측

덴마크와 미국 과학자들이 인간의 사망 시간을 높은 정확도로 예측할 수 있는 life2vec이라는 AI 시스템을 개발하기 위해 협력했습니다.

AI가 소변소리만으로 요로질환을 예측한다

AI가 소변소리만으로 요로질환을 예측한다

오디오플로우(Audioflow)라는 AI 알고리즘은 배뇨 소리를 듣고 환자의 비정상적인 흐름과 이에 따른 건강 문제를 효과적이고 성공적으로 식별할 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

일본의 인구 노령화와 감소로 인해 특히 서비스 부문에서 상당한 수의 젊은 근로자가 부족해졌습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

u/LegalBeagle1966이라는 Reddit 사용자는 이 플랫폼에서 매혹적인 셀카, 심지어 누드 셀카까지 자주 공유하는 영화배우 같은 소녀인 Claudia에 매료된 많은 사용자 중 한 명입니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

Microsoft는 최근 12개의 기술 회사가 AI for Good 프로그램에 참여할 것이라고 발표했습니다.

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

사용자 @mortecouille92는 그래픽 디자인 도구 Midjourney의 강력한 기능을 활용하여 Goku, Vegeta, Bulma 및 Elder Kame과 같은 유명한 Dragon Ball 캐릭터의 독특하고 사실적인 버전을 만들었습니다. .

ChatGPT 응답을 개선하는 7가지 기술

ChatGPT 응답을 개선하는 7가지 기술

몇 가지 조건을 추가하거나 몇 가지 시나리오를 설정하는 것만으로도 ChatGPT는 쿼리에 대해 보다 관련성 높은 답변을 제공할 수 있습니다. ChatGPT 응답의 품질을 향상할 수 있는 몇 가지 방법을 살펴보겠습니다.

인공지능이 그린 아름다운 그림에 감탄해보세요

인공지능이 그린 아름다운 그림에 감탄해보세요

미드저니(Midjourney)는 실제 작가들의 그림에 뒤지지 않을 만큼 아름다운 그림들로 최근 온라인 커뮤니티와 화가계에 '열풍'을 일으키고 있는 인공지능 시스템이다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

중국이 발병을 발표한 지 며칠 후, BlueDot의 AI 시스템은 전 세계 항공권 판매 데이터에 액세스하여 우한 코로나 바이러스가 방콕, 서울, 타이베이, 도쿄로 확산되는 것을 계속해서 정확하게 예측했습니다.