Model AI DeepMind może nauczyć się tworzyć filmy, po prostu oglądając klipy na YouTube

Być może słyszałeś o FaceApp, mobilnej aplikacji do edycji zdjęć, która cieszy się dużym zainteresowaniem na całym świecie i oferuje możliwość zastosowania sztucznej inteligencji (AI) do edycji selfie z niezwykle wysokim stopniem autentyczności. Or This Person Does Not Exist to kolejna aplikacja do edycji zdjęć, która umożliwia tworzenie ciekawych portretów na podstawie fikcyjnych postaci graficznych generowanych komputerowo. To tylko dwie z wielu świetnych aplikacji z obecnością AI w zadaniach związanych z edycją i tworzeniem zdjęć. A co z edycją wideo?

Niedawno firma DeepMind, spółka zależna Alphabet, działająca głównie w obszarze rozwoju sztucznej inteligencji, ogłosiła zupełnie nowy wynalazek o nazwie „Efektywne generowanie wideo na złożonych zbiorach danych” (wideo efektywnie bazujące na złożonych zbiorach danych), zapowiada wiele zmian w w przyszłości zajmie się montażem i postprodukcją wideo. Jest to w zasadzie algorytm sztucznej inteligencji, który może nauczyć się tworzyć proste klipy z filmów, z którymi miał kontakt podczas procesu szkolenia.

Ta strona internetowa może zamienić Twoje młodzieńcze selfie w upiorny portret w stylu vintage

Model AI DeepMind może nauczyć się tworzyć filmy, po prostu oglądając klipy na YouTube DVD-GAN może teraz automatycznie generować przykładowe filmy z pełnymi układami obiektów

Badacze z DeepMind stwierdzili, że ich najskuteczniejszy jak dotąd model – Dual Video Discriminator GAN (DVD-GAN) – był w stanie tworzyć filmy w rozdzielczości 256 x 256 pikseli w połączeniu z wysoką rozdzielczością. Wierność jest godna pochwały, a długość jest większa do 48 klatek.

„Tworzenie filmów o wysokim poziomie naturalności i realizmu to największe wyzwanie dla współczesnych modeli sztucznej inteligencji. Wśród nich najważniejszymi czynnikami utrudniającymi jest nic innego jak złożoność wymagań dotyczących gromadzenia danych i obliczeń. Z tego powodu wiele zawodów związanych z tworzeniem filmów w przeszłości często opierało się na stosunkowo prostych zbiorach danych lub zadaniach, w których dostępne były informacje w czasie rzeczywistym. Obecnie koncentrujemy się na zadaniach związanych z syntezą i przewidywaniem wideo i zamierzamy rozszerzyć wyniki współczesnych wiodących modeli sztucznej inteligencji do tworzenia obrazu na wideo – w bardziej złożonej części” – powiedział przedstawiciel zespołu badawczego.

Zespół zbudował swój system w oparciu o zaawansowaną architekturę sztucznej inteligencji, wprowadzając jednocześnie szereg ulepszeń specyficznych dla wideo, umożliwiając w ten sposób prowadzenie procesu szkoleniowego w oparciu o Kinetic-600 - a Zbiór danych zawiera „naturalne” filmy, które są znacznie większe w skalę niż zwykle. W szczególności badacze wykorzystali generatywne sieci przeciwstawne (GAN).

Stworzenie jednego z najpotężniejszych superkomputerów AI na świecie zajęło Nvidii zaledwie 3 tygodnie

Model AI DeepMind może nauczyć się tworzyć filmy, po prostu oglądając klipy na YouTube Zestaw 4-sekundowych syntetycznych klipów wideo trenowanych na 12 128 × 128 klatkach z Kinetic-600.

Jeśli nie wiesz, GAN to system sztucznej inteligencji składający się z dwóch oddzielnych części: Pierwsza to sieć generatywna, która pomaga tworzyć próbki szkoleniowe (fałszywe dane) w celu stworzenia danych szkoleniowych. Stwórz jak najbardziej realistyczne podobieństwo . Druga to sieć dyskryminacyjna: próbująca odróżnić dane prawdziwe od fałszywych. Systemy GAN znalazły zastosowanie w wielu intensywnych zadaniach, takich jak przekształcanie podpisów w historie kontekstowe, zwłaszcza tworzenie sztucznych zdjęć o niezwykle wysokim realizmie.

DVD-GAN zawiera podwójne sieci dyskryminacyjne: Algorytm dyskryminacyjny może ujawnić różnice w zawartości i strukturze pojedynczej klatki poprzez losowe próbkowanie klatek w pełnej rozdzielczości, a następnie ich przetwarzanie.Przetwarzanie ich indywidualnie i różnicowanie w czasie dostarcza wskazówek edukacyjnych do generowania ruchu. Pojedynczy moduł o nazwie Transformer umożliwia dystrybucję wyuczonych danych i informacji w całym modelu AI.

Google udostępnia ogromną hurtownię danych szkoleniowych AI zawierającą ponad 5 milionów zdjęć 200 000 punktów orientacyjnych na całym świecie

Jeśli chodzi o korpus szkoleniowy Kinetic-600, jest to w zasadzie gigantyczny zbiór danych, skompilowany z ponad 500 000 klipów YouTube o wysokiej rozdzielczości, trwających nie dłużej niż 10 sekund. Filmy te zostały początkowo stworzone, aby rozpoznać ludzkie działania, a badacze opisali ten zbiór jako „różnorodny” i „nieograniczony”, czyli czynniki szczególnie istotne w szkoleniu. Otwarte modele podobne do DVD-GAN firmy DeepMind. (W dziedzinie uczenia maszynowego istnieje termin „overfitting”, który jest używany w odniesieniu do modeli, które zbyt ściśle pasują do określonego zestawu danych i w rezultacie nie pozwalają wiarygodnie przewidzieć obserwacji zawartych w danych. Przyszłość) .

Według raportu zespołu badawczego, po ciągłym szkoleniu w systemie Tensor Processing Units trzeciej generacji firmy Google przez okres od 12 do 96 godzin, DVD-GAN jest teraz w stanie samodzielnie generować filmy.Model posiada kompletne układy obiektów, ruchy i nawet złożone struktury, takie jak odbicia na tafli rzek, lodowiska... DVD-GAN musiał „walczyć” z tworzeniem skomplikowanych obiektów w tym obszarze.wyższa rozdzielczość, gdzie ruch wymaga znacznie większej liczby pikseli. Badacze zauważyli jednak, że próbki wideo wygenerowane przez DVD-GAN po ocenie na UCF-101 (mniejszy zbiór danych obejmujący 13 320 filmów przedstawiających ludzkie działania) uzyskały dobre wyniki: Wynik początkowy wyniósł 32,97 – wcale nie tak źle.

Model sztucznej inteligencji MIT może samodzielnie uchwycić relacje między obiektami przy minimalnej ilości danych szkoleniowych

Model AI DeepMind może nauczyć się tworzyć filmy, po prostu oglądając klipy na YouTube Próbka wideo utworzona przez DVD-GAN osiągnęła wynik początkowy wynoszący 32,97

„W przyszłości chcemy jeszcze bardziej podkreślić korzyści płynące z uczenia modeli generatywnych na dużych i złożonych zbiorach danych wideo, takich jak Kinetic-600. Choć nadal pozostaje wiele do zrobienia, zanim możliwe będzie spójne generowanie realistycznych filmów w nieograniczonym zakresie ustawień, wierzymy, że DVD-GAN to doskonały krok w kierunku urzeczywistnienia tego marzenia” – powiedział przedstawiciel firmy zespół badawczy.

Jakie są Twoje przemyślenia na temat modelu DVD-GAN AI firmy DeepMind? Proszę zostaw swój komentarz poniżej!

Tags: #Artificial Intelligence (AI)

Europa utworzy grupę zadaniową ChatGPT

Organ zrzeszający krajowe organy nadzorujące prywatność w Europie poinformował w czwartek, że powołał grupę zadaniową zajmującą się ChatGPT

AI przewiduje czas śmierci człowieka z 78% dokładnością

Duńscy i amerykańscy naukowcy współpracowali nad opracowaniem systemu sztucznej inteligencji o nazwie life2vec, zdolnego do przewidywania czasu śmierci człowieka z dużą dokładnością.

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Algorytm sztucznej inteligencji o nazwie Audioflow może nasłuchiwać dźwięku oddawania moczu, aby skutecznie i skutecznie identyfikować nieprawidłowe wypływy moczu i powiązane z nimi problemy zdrowotne pacjenta.

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Starzenie się i spadek liczby ludności Japonii spowodował, że w kraju brakuje znacznej liczby młodych pracowników, szczególnie w sektorze usług.

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

Użytkownik Reddita o imieniu u/LegalBeagle1966 jest jednym z wielu użytkowników zakochanych w Claudii, dziewczynie przypominającej gwiazdę filmową, która często udostępnia na tej platformie uwodzicielskie selfie, nawet nagie.

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

Microsoft właśnie ogłosił, że w jego programie AI for Good weźmie udział 12 kolejnych firm technologicznych.

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

Użytkownik @mortecouille92 wykorzystał moc narzędzia do projektowania graficznego Midjourney i stworzył wyjątkowo realistyczne wersje słynnych postaci Dragon Ball, takich jak Goku, Vegeta, Bulma i starszy Kame. .

7 technik poprawy odpowiedzi ChatGPT

Po prostu dodając pewne warunki lub konfigurując pewne scenariusze, ChatGPT może udzielić bardziej trafnych odpowiedzi na Twoje zapytania. Przyjrzyjmy się sposobom poprawy jakości odpowiedzi ChatGPT.

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Midjourney to system sztucznej inteligencji, który wywołał ostatnio „gorączkę” w społeczności internetowej i świecie artystów ze względu na niezwykle piękne obrazy, które nie ustępują tym, które tworzą prawdziwi artyści.

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.

Kilka dni po ogłoszeniu przez Chiny wybuchu epidemii, mając dostęp do danych dotyczących globalnej sprzedaży biletów lotniczych, system sztucznej inteligencji BlueDot w dalszym ciągu dokładnie przewidywał rozprzestrzenianie się wirusa korona z Wuhan do Bangkoku, Seulu, Tajpej i Tokio.