DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다.

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다.

인공지능(AI)을 적용해 매우 높은 진정성으로 셀카를 편집하는 기능으로 전 세계적으로 큰 주목을 받고 있는 모바일 사진 편집 애플리케이션인 FaceApp에 대해 들어보셨을 것입니다. Or This Person Does Not Exist는 가상의 컴퓨터 생성 그래픽 캐릭터를 기반으로 흥미로운 인물 사진을 만들 수 있는 또 다른 사진 편집 앱입니다. 이는 사진 편집 및 생성과 관련된 작업에 AI가 포함된 많은 훌륭한 응용 프로그램 중 두 가지에 불과합니다. 그렇다면 영상 편집은 어떨까요?

최근 인공지능 개발 분야를 중심으로 활동하고 있는 알파벳의 자회사 딥마인드(DeepMind)는 "복잡한 데이터세트에 대한 효율적인 비디오 생성"이라는 완전히 새로운 발명품을 발표했습니다. 앞으로 영상 편집과 후반 작업 분야로 진출할 예정입니다. 이는 기본적으로 학습 과정에서 노출된 비디오에서 간단한 클립을 만드는 방법을 학습할 수 있는 AI 알고리즘입니다.

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다.DVD-GAN은 이제 전체 개체 레이아웃으로 샘플 비디오를 자동으로 생성할 수 있습니다.

DeepMind 연구원들은 현재까지 가장 성능이 뛰어난 모델인 Dual Video Discriminator GAN(DVD-GAN)이 고해상도와 결합된 256 x 256 픽셀의 해상도로 비디오를 생성할 수 있었다고 밝혔습니다. 48프레임까지.

“높은 수준의 자연성과 사실성을 갖춘 비디오를 제작하는 것은 오늘날 AI 모델의 가장 큰 과제입니다. 그 중 가장 큰 방해 요소는 다름 아닌 데이터 수집 및 계산 요구 사항의 복잡성입니다. 이러한 이유로 과거에는 비디오 제작과 관련된 많은 직업이 상대적으로 단순한 데이터 세트나 실시간 정보를 사용할 수 있는 작업을 중심으로 진행되는 경우가 많았습니다. 현재는 영상 합성 및 예측 업무에 집중하고 있으며, 오늘날 대표적인 이미지 생성 AI 모델의 결과를 영상으로 확장해 복잡한 측면을 훨씬 개선하는 것을 목표로 하고 있다”고 연구팀 대표는 말했다.

팀은 고급 AI 아키텍처를 기반으로 시스템을 구축하는 동시에 다양한 비디오 관련 조정을 도입하여 Kinetic-600을 기반으로 훈련 프로세스를 수행할 수 있도록 했습니다. 평소보다 규모가 커졌습니다. 특히 연구자들은 생성적 적대 네트워크(GAN)를 활용해 왔습니다.

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다.Kinetic-600의 12 128 × 128 프레임으로 훈련된 4초 합성 비디오 클립 세트입니다.

모르신다면 GAN은 두 개의 개별 부분으로 구성된 AI 시스템입니다: 첫 번째는 훈련 데이터를 생성하는 방법을 목표로 훈련 샘플(가짜 데이터)을 생성하는 데 도움이 되는 생성 네트워크입니다. . 두 번째는 실제 데이터와 가짜 데이터를 구별하는 판별 네트워크입니다. GAN 시스템은 캡션을 상황에 맞는 스토리로 변환하고 특히 사실성이 매우 높은 인공 사진을 만드는 등 많은 집중 작업에 적용되었습니다.

DVD-GAN에는 이중 판별 네트워크가 포함되어 있습니다. 판별 알고리즘은 전체 해상도 프레임을 무작위로 샘플링한 후 처리하여 단일 프레임의 내용과 구조의 차이를 밝힐 수 있습니다. 이를 개별적으로 처리하고 시간이 지남에 따라 차별화하면 움직임을 생성하기 위한 학습 단서를 제공합니다. Transformer라는 단일 모듈을 사용하면 전체 AI 모델에 걸쳐 학습된 데이터와 정보를 배포할 수 있습니다.

Kinetic-600 훈련 코퍼스의 경우 이는 본질적으로 길이가 10초를 넘지 않는 500,000개가 넘는 고해상도 YouTube 클립에서 편집된 거대한 데이터세트입니다. 이 비디오는 처음에 인간 행동을 인식하기 위해 큐레이팅되었으며, 연구자들은 이 말뭉치를 DeepMind의 DVD-GAN과 유사한 훈련과 특히 관련된 요소인 "다양하고" "제약되지 않은" 요소로 설명했습니다. (기계 학습 분야에는 특정 데이터 집합에 너무 가깝게 맞춰져 결과적으로 데이터의 관찰 결과를 예측하지 못하는 모델을 가리키는 데 사용되는 "과적 맞춤"이라는 용어가 있습니다. 미래를 안정적으로) .

연구팀의 보고서에 따르면 DVD-GAN은 12~96시간 동안 구글의 3세대 텐서 처리 장치 시스템으로 지속적으로 훈련을 받은 후 이제 스스로 비디오를 생성할 수 있게 됐다. 심지어 강 표면의 반사, 아이스링크 등과 같은 복잡한 구조도 DVD-GAN은 이 영역에서 복잡한 객체를 생성하기 위해 "고투"해야 했으며, 모션에 훨씬 더 많은 수의 픽셀이 포함되는 더 높은 해상도를 구현해야 했습니다. 그러나 연구원들은 UCF-101(인간 행동을 담은 13,320개의 비디오로 구성된 더 작은 데이터 세트)에서 평가한 후 DVD-GAN에서 생성된 비디오 샘플의 점수가 좋았다는 점에 주목했습니다. Inception Score는 32.97로 전혀 나쁘지 않습니다.

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다.DVD-GAN이 만든 비디오 샘플은 32.97의 Inception Score를 달성했습니다.

“앞으로 우리는 Kinetic-600과 같은 크고 복잡한 비디오 데이터 세트에 대한 생성 모델 교육의 이점을 더욱 강조하고 싶습니다. 제한되지 않은 설정에서 사실적인 비디오가 일관되게 생성되기까지는 아직 해야 할 일이 많지만 우리는 DVD-GAN이 이 꿈을 실현하기 위한 완벽한 디딤돌이라고 믿습니다.”라고 말했습니다. 연구팀.

DeepMind의 DVD-GAN AI 모델에 대해 어떻게 생각하시나요? 아래에 의견을 남겨주세요!


ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.

AI는 78% 정확도로 인간 사망 시간 예측

AI는 78% 정확도로 인간 사망 시간 예측

덴마크와 미국 과학자들이 인간의 사망 시간을 높은 정확도로 예측할 수 있는 life2vec이라는 AI 시스템을 개발하기 위해 협력했습니다.

AI가 소변소리만으로 요로질환을 예측한다

AI가 소변소리만으로 요로질환을 예측한다

오디오플로우(Audioflow)라는 AI 알고리즘은 배뇨 소리를 듣고 환자의 비정상적인 흐름과 이에 따른 건강 문제를 효과적이고 성공적으로 식별할 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

일본의 인구 노령화와 감소로 인해 특히 서비스 부문에서 상당한 수의 젊은 근로자가 부족해졌습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

u/LegalBeagle1966이라는 Reddit 사용자는 이 플랫폼에서 매혹적인 셀카, 심지어 누드 셀카까지 자주 공유하는 영화배우 같은 소녀인 Claudia에 매료된 많은 사용자 중 한 명입니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

Microsoft는 최근 12개의 기술 회사가 AI for Good 프로그램에 참여할 것이라고 발표했습니다.

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

사용자 @mortecouille92는 그래픽 디자인 도구 Midjourney의 강력한 기능을 활용하여 Goku, Vegeta, Bulma 및 Elder Kame과 같은 유명한 Dragon Ball 캐릭터의 독특하고 사실적인 버전을 만들었습니다. .

ChatGPT 응답을 개선하는 7가지 기술

ChatGPT 응답을 개선하는 7가지 기술

몇 가지 조건을 추가하거나 몇 가지 시나리오를 설정하는 것만으로도 ChatGPT는 쿼리에 대해 보다 관련성 높은 답변을 제공할 수 있습니다. ChatGPT 응답의 품질을 향상할 수 있는 몇 가지 방법을 살펴보겠습니다.

인공지능이 그린 아름다운 그림에 감탄해보세요

인공지능이 그린 아름다운 그림에 감탄해보세요

미드저니(Midjourney)는 실제 작가들의 그림에 뒤지지 않을 만큼 아름다운 그림들로 최근 온라인 커뮤니티와 화가계에 '열풍'을 일으키고 있는 인공지능 시스템이다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

중국이 발병을 발표한 지 며칠 후, BlueDot의 AI 시스템은 전 세계 항공권 판매 데이터에 액세스하여 우한 코로나 바이러스가 방콕, 서울, 타이베이, 도쿄로 확산되는 것을 계속해서 정확하게 예측했습니다.