DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다.

인공지능(AI)을 적용해 매우 높은 진정성으로 셀카를 편집하는 기능으로 전 세계적으로 큰 주목을 받고 있는 모바일 사진 편집 애플리케이션인 FaceApp에 대해 들어보셨을 것입니다. Or This Person Does Not Exist는 가상의 컴퓨터 생성 그래픽 캐릭터를 기반으로 흥미로운 인물 사진을 만들 수 있는 또 다른 사진 편집 앱입니다. 이는 사진 편집 및 생성과 관련된 작업에 AI가 포함된 많은 훌륭한 응용 프로그램 중 두 가지에 불과합니다. 그렇다면 영상 편집은 어떨까요?

최근 인공지능 개발 분야를 중심으로 활동하고 있는 알파벳의 자회사 딥마인드(DeepMind)는 "복잡한 데이터세트에 대한 효율적인 비디오 생성"이라는 완전히 새로운 발명품을 발표했습니다. 앞으로 영상 편집과 후반 작업 분야로 진출할 예정입니다. 이는 기본적으로 학습 과정에서 노출된 비디오에서 간단한 클립을 만드는 방법을 학습할 수 있는 AI 알고리즘입니다.

이 웹사이트는 당신의 젊은 셀카를 으스스한 빈티지 초상화로 바꿔줄 수 있습니다.

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다. DVD-GAN은 이제 전체 개체 레이아웃으로 샘플 비디오를 자동으로 생성할 수 있습니다.

DeepMind 연구원들은 현재까지 가장 성능이 뛰어난 모델인 Dual Video Discriminator GAN(DVD-GAN)이 고해상도와 결합된 256 x 256 픽셀의 해상도로 비디오를 생성할 수 있었다고 밝혔습니다. 48프레임까지.

“높은 수준의 자연성과 사실성을 갖춘 비디오를 제작하는 것은 오늘날 AI 모델의 가장 큰 과제입니다. 그 중 가장 큰 방해 요소는 다름 아닌 데이터 수집 및 계산 요구 사항의 복잡성입니다. 이러한 이유로 과거에는 비디오 제작과 관련된 많은 직업이 상대적으로 단순한 데이터 세트나 실시간 정보를 사용할 수 있는 작업을 중심으로 진행되는 경우가 많았습니다. 현재는 영상 합성 및 예측 업무에 집중하고 있으며, 오늘날 대표적인 이미지 생성 AI 모델의 결과를 영상으로 확장해 복잡한 측면을 훨씬 개선하는 것을 목표로 하고 있다”고 연구팀 대표는 말했다.

팀은 고급 AI 아키텍처를 기반으로 시스템을 구축하는 동시에 다양한 비디오 관련 조정을 도입하여 Kinetic-600을 기반으로 훈련 프로세스를 수행할 수 있도록 했습니다. 평소보다 규모가 커졌습니다. 특히 연구자들은 생성적 적대 네트워크(GAN)를 활용해 왔습니다.

Nvidia가 세계에서 가장 강력한 AI 슈퍼컴퓨터 중 하나를 만드는 데 단 3주밖에 걸리지 않았습니다.

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다. Kinetic-600의 12 128 × 128 프레임으로 훈련된 4초 합성 비디오 클립 세트입니다.

모르신다면 GAN은 두 개의 개별 부분으로 구성된 AI 시스템입니다: 첫 번째는 훈련 데이터를 생성하는 방법을 목표로 훈련 샘플(가짜 데이터)을 생성하는 데 도움이 되는 생성 네트워크입니다. . 두 번째는 실제 데이터와 가짜 데이터를 구별하는 판별 네트워크입니다. GAN 시스템은 캡션을 상황에 맞는 스토리로 변환하고 특히 사실성이 매우 높은 인공 사진을 만드는 등 많은 집중 작업에 적용되었습니다.

DVD-GAN에는 이중 판별 네트워크가 포함되어 있습니다. 판별 알고리즘은 전체 해상도 프레임을 무작위로 샘플링한 후 처리하여 단일 프레임의 내용과 구조의 차이를 밝힐 수 있습니다. 이를 개별적으로 처리하고 시간이 지남에 따라 차별화하면 움직임을 생성하기 위한 학습 단서를 제공합니다. Transformer라는 단일 모듈을 사용하면 전체 AI 모델에 걸쳐 학습된 데이터와 정보를 배포할 수 있습니다.

Google, 전 세계 20만 개 랜드마크의 500만 개 이상의 사진이 포함된 거대한 AI 훈련 데이터 웨어하우스 출시

Kinetic-600 훈련 코퍼스의 경우 이는 본질적으로 길이가 10초를 넘지 않는 500,000개가 넘는 고해상도 YouTube 클립에서 편집된 거대한 데이터세트입니다. 이 비디오는 처음에 인간 행동을 인식하기 위해 큐레이팅되었으며, 연구자들은 이 말뭉치를 DeepMind의 DVD-GAN과 유사한 훈련과 특히 관련된 요소인 "다양하고" "제약되지 않은" 요소로 설명했습니다. (기계 학습 분야에는 특정 데이터 집합에 너무 가깝게 맞춰져 결과적으로 데이터의 관찰 결과를 예측하지 못하는 모델을 가리키는 데 사용되는 "과적 맞춤"이라는 용어가 있습니다. 미래를 안정적으로) .

연구팀의 보고서에 따르면 DVD-GAN은 12~96시간 동안 구글의 3세대 텐서 처리 장치 시스템으로 지속적으로 훈련을 받은 후 이제 스스로 비디오를 생성할 수 있게 됐다. 심지어 강 표면의 반사, 아이스링크 등과 같은 복잡한 구조도 DVD-GAN은 이 영역에서 복잡한 객체를 생성하기 위해 "고투"해야 했으며, 모션에 훨씬 더 많은 수의 픽셀이 포함되는 더 높은 해상도를 구현해야 했습니다. 그러나 연구원들은 UCF-101(인간 행동을 담은 13,320개의 비디오로 구성된 더 작은 데이터 세트)에서 평가한 후 DVD-GAN에서 생성된 비디오 샘플의 점수가 좋았다는 점에 주목했습니다. Inception Score는 32.97로 전혀 나쁘지 않습니다.

MIT의 AI 모델은 최소한의 훈련 데이터로 객체 간의 관계를 스스로 포착할 수 있다

DeepMind의 AI 모델은 YouTube 클립을 보는 것만으로도 동영상 제작 방법을 학습할 수 있습니다. DVD-GAN이 만든 비디오 샘플은 32.97의 Inception Score를 달성했습니다.

“앞으로 우리는 Kinetic-600과 같은 크고 복잡한 비디오 데이터 세트에 대한 생성 모델 교육의 이점을 더욱 강조하고 싶습니다. 제한되지 않은 설정에서 사실적인 비디오가 일관되게 생성되기까지는 아직 해야 할 일이 많지만 우리는 DVD-GAN이 이 꿈을 실현하기 위한 완벽한 디딤돌이라고 믿습니다.”라고 말했습니다. 연구팀.

DeepMind의 DVD-GAN AI 모델에 대해 어떻게 생각하시나요? 아래에 의견을 남겨주세요!