Google 연구진은 강화 학습을 개선하기 위해 AI가 게임을 할 수 있도록 허용했습니다.

Google 연구진은 강화 학습을 개선하기 위해 AI가 게임을 할 수 있도록 허용했습니다.

기계 학습의 하위 분야인 강화 학습에는 "보상"을 사용하여 구체적으로 목표 목표를 향해 소프트웨어 정책을 추진하는 AI 훈련 기술이 포함됩니다. 즉, 이는 AI가 다양한 작업을 시도하고 각 응답에서 해당 작업이 더 나은 결과를 가져오는지 여부를 학습한 다음 효과가 있었던 작업을 강화하는 프로세스입니다. 즉, 여러 반복을 통해 알고리즘을 자동으로 재작업하고 수정합니다. 최고의 결과를 가져옵니다. 최근에는 사회 규칙의 영향을 모델링하고, 매우 뛰어난 게임 기능을 갖춘 AI 모델이나 자가 치유가 가능한 프로그래밍 가능한 로봇을 만들기 위해 강화 학습이 활용되었습니다.성가신 소프트웨어 문제 후 복구.

Google 연구진은 강화 학습을 개선하기 위해 AI가 게임을 할 수 있도록 허용했습니다.

높은 유연성을 갖고 있으며 다양한 모델과 목적에 적용할 수 있지만 강화 학습 기술에는 불행한 단점이 있습니다. 즉, 효과적이지 않습니다. 강화 학습 기술을 사용하여 AI 모델을 훈련하려면 시뮬레이션 또는 실제 환경에서 인간이 특정 작업을 학습해야 하는 경우보다 훨씬 더 많은 다양한 상호 작용이 필요합니다. 특히 비디오 게임 분야에서 이 문제를 부분적으로 극복하기 위해 Google의 인공 지능 연구원은 최근 간단한 비디오 게임 모델을 사용하여 행동 선택에서 품질 정책을 학습하고 개선하는 Simulated Policy Learning(SimPLe로 약칭)이라는 새로운 알고리즘을 사용할 것을 제안했습니다. 강화 학습 기술의.

연구원들은 새로 발표된 논문인 "Model-Based Reinforcement Learning for Atari"와 오픈 소스 코드와 함께 제공되는 문서에서 이 알고리즘을 설명했습니다.

“SimPLe 알고리즘을 개발할 때 연구원들의 높은 수준의 아이디어는 게임 특성의 모델을 설정하는 것과 해당 모델을 사용하여 게임 시뮬레이션 환경에서 정책 최적화(모델 없는 강화 학습 기술 사용)를 번갈아 수행하는 것이었습니다. 이 알고리즘의 기본 원칙은 잘 확립되어 있으며 최근의 많은 모델 기반 강화 학습 방법에서 사용됩니다.”라고 Google AI 팀 과학자인 Łukasz Kaiser와 Dumitru Erhan이 공유했습니다.

두 연구원이 설명했듯이 게임을 플레이하기 위해 AI 시스템을 훈련하려면 일련의 프레임과 명령 조합(예: "왼쪽", "내부", "오른쪽", ")으로 제공되는 대상 게임의 다음 프레임 텍스처를 예측해야 합니다. 앞으로”, “뒤로”). 또한 연구원들은 성공적인 모델이 게임 에이전트 프로그램 정책을 훈련하는 데 사용할 수 있는 "궤적"을 생성할 수 있으며, 이를 통해 게임에서 복잡한 계산 시퀀스에 의존할 필요성을 줄일 수 있음을 보여주었습니다.

Google 연구진은 강화 학습을 개선하기 위해 AI가 게임을 할 수 있도록 허용했습니다.

SimPLe 알고리즘이 바로 이 작업을 수행합니다. 보상이 포함된 다음 프레임을 예측하려면 입력으로 4개의 프레임이 필요하며, 완전히 학습되면 알고리즘은 정책을 개선하는 데 사용되는 "롤아웃"(작업 시퀀스, 관찰 및 결과의 샘플 시퀀스)을 생성합니다(Kaiser 및 Erhan은 SimPLe 알고리즘이 예측 오류를 최소화하기 위해 평균 길이 롤아웃만 사용합니다.

2시간의 게임 플레이(100,000회 상호 작용)에 해당하는 테스트에서 SimPLe의 조정된 정책을 적용한 에이전트는 두 가지 테스트 게임(Pong 및 Freeway)에서 최대 점수를 달성하는 동시에 최대 50단계까지 거의 완벽한 예측을 생성했습니다.

Google 연구진은 강화 학습을 개선하기 위해 AI가 게임을 할 수 있도록 허용했습니다.

때로는 두 연구원이 게임 내에서 작지만 관련성이 높은 세부 정보를 수집하려고 시도하여 실패하기도 했습니다. Kaiser와 Erhan은 이 알고리즘이 여전히 표준 강화 학습 방법의 성능과 실제로 일치하지 않는다는 점을 인정합니다. 그러나 SimPLe은 훈련 측면에서 두 배 이상 효과적일 수 있으며 팀은 향후 연구가 알고리즘 성능을 크게 향상시키는 데 도움이 되기를 바라고 있습니다.

“모델 기반 강화 학습 방법의 주요 목표는 상호 작용이 복잡하고 느리거나 많은 로봇 작업과 같이 사람의 라벨링이 필요한 환경에 있습니다. 이러한 환경에서 시뮬레이터를 사용하면 에이전트 프로그램의 환경을 더 잘 이해할 수 있으며 결과적으로 새롭고 더 좋고 더 빠른 작업 방식으로 이어질 수 있습니다. 다중 작업 강화 학습”


ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.

AI는 78% 정확도로 인간 사망 시간 예측

AI는 78% 정확도로 인간 사망 시간 예측

덴마크와 미국 과학자들이 인간의 사망 시간을 높은 정확도로 예측할 수 있는 life2vec이라는 AI 시스템을 개발하기 위해 협력했습니다.

AI가 소변소리만으로 요로질환을 예측한다

AI가 소변소리만으로 요로질환을 예측한다

오디오플로우(Audioflow)라는 AI 알고리즘은 배뇨 소리를 듣고 환자의 비정상적인 흐름과 이에 따른 건강 문제를 효과적이고 성공적으로 식별할 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

일본의 인구 노령화와 감소로 인해 특히 서비스 부문에서 상당한 수의 젊은 근로자가 부족해졌습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

u/LegalBeagle1966이라는 Reddit 사용자는 이 플랫폼에서 매혹적인 셀카, 심지어 누드 셀카까지 자주 공유하는 영화배우 같은 소녀인 Claudia에 매료된 많은 사용자 중 한 명입니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

Microsoft는 최근 12개의 기술 회사가 AI for Good 프로그램에 참여할 것이라고 발표했습니다.

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

사용자 @mortecouille92는 그래픽 디자인 도구 Midjourney의 강력한 기능을 활용하여 Goku, Vegeta, Bulma 및 Elder Kame과 같은 유명한 Dragon Ball 캐릭터의 독특하고 사실적인 버전을 만들었습니다. .

ChatGPT 응답을 개선하는 7가지 기술

ChatGPT 응답을 개선하는 7가지 기술

몇 가지 조건을 추가하거나 몇 가지 시나리오를 설정하는 것만으로도 ChatGPT는 쿼리에 대해 보다 관련성 높은 답변을 제공할 수 있습니다. ChatGPT 응답의 품질을 향상할 수 있는 몇 가지 방법을 살펴보겠습니다.

인공지능이 그린 아름다운 그림에 감탄해보세요

인공지능이 그린 아름다운 그림에 감탄해보세요

미드저니(Midjourney)는 실제 작가들의 그림에 뒤지지 않을 만큼 아름다운 그림들로 최근 온라인 커뮤니티와 화가계에 '열풍'을 일으키고 있는 인공지능 시스템이다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

중국이 발병을 발표한 지 며칠 후, BlueDot의 AI 시스템은 전 세계 항공권 판매 데이터에 액세스하여 우한 코로나 바이러스가 방콕, 서울, 타이베이, 도쿄로 확산되는 것을 계속해서 정확하게 예측했습니다.