Misschien heb je wel eens gehoord van FaceApp, een mobiele fotobewerkingsapplicatie die wereldwijd veel aandacht krijgt en de mogelijkheid heeft om kunstmatige intelligentie (AI) toe te passen om selfies met een extreem hoge mate van authenticiteit te bewerken. Of This Person Does Not Exist, een andere app voor fotobewerking die interessante portretten kan maken op basis van fictieve, door de computer gegenereerde grafische karakters. Dit zijn slechts twee van de vele geweldige toepassingen met de aanwezigheid van AI bij taken die verband houden met het bewerken en maken van foto's. Hoe zit het dan met videobewerking?
Onlangs heeft DeepMind, een dochteronderneming van Alphabet, die voornamelijk actief is op het gebied van de ontwikkeling van kunstmatige intelligentie, een geheel nieuwe uitvinding aangekondigd genaamd "Efficient Video Generation on Complex Datasets". gebied van videobewerking en postproductie in de toekomst. Dit is in feite een AI-algoritme dat kan leren hoe je eenvoudige clips kunt maken van de video's waaraan het tijdens het trainingsproces is blootgesteld.
DVD-GAN kan nu automatisch voorbeeldvideo's genereren met volledige objectlay-outs
Onderzoekers van DeepMind zeiden dat hun best presterende model tot nu toe - Dual Video Discriminator GAN (DVD-GAN) - in staat was video's te maken met een resolutie van 256 x 256 pixels, gecombineerd met een hoge resolutie. De betrouwbaarheid is lovenswaardig en de lengte is groter tot 48 kaders.
“Het maken van video's met een hoge mate van natuurlijkheid en realisme is de grootste uitdaging voor de huidige AI-modellen. De belangrijkste belemmerende factoren zijn niets anders dan de complexiteit van de gegevensverzameling en de berekeningsvereisten. Om deze reden draaiden veel banen die verband hielden met het maken van video's in het verleden vaak om relatief eenvoudige datasets, of taken waarbij realtime informatie beschikbaar was. Momenteel concentreren we ons op videosynthese en voorspellingstaken, en streven we ernaar de resultaten van de huidige toonaangevende AI-modellen voor beeldcreatie uit te breiden naar video - de complexe kant veel beter", aldus een vertegenwoordiger van het onderzoeksteam.
Het team bouwde hun systeem rond een geavanceerde AI-architectuur en introduceerde tegelijkertijd een aantal videospecifieke aanpassingen, waardoor het trainingsproces kon worden uitgevoerd op basis van Kinetic-600. De dataset bevat 'natuurlijke' video's, die veel groter zijn in schaal dan normaal. Concreet hebben onderzoekers geprofiteerd van generatieve vijandige netwerken (GAN's).
Een set synthetische videoclips van 4 seconden getraind op 12 frames van 128 x 128 van Kinetic-600.
Als je het niet weet: GAN is een AI-systeem dat uit twee afzonderlijke delen bestaat: het eerste is een generatief netwerk, dat helpt bij het maken van trainingsvoorbeelden (nepgegevens), met als doel hoe trainingsgegevens kunnen worden gemaakt. . En het tweede is het Discriminatieve netwerk: dat onderscheid probeert te maken tussen echte data en valse data. GAN-systemen zijn toegepast bij veel intensieve taken, zoals het omzetten van bijschriften in contextuele verhalen, en vooral bij het maken van kunstmatige foto's met een extreem hoog realisme.
DVD-GAN bevat dual-discriminerende netwerken: het discriminerende algoritme kan verschillen in de inhoud en structuur van een enkel frame onthullen door willekeurig frames met volledige resolutie te bemonsteren en deze vervolgens te verwerken. Door ze individueel en gedifferentieerd in de loop van de tijd te verwerken, worden leersignalen gegeven voor het genereren van beweging. Eén enkele module – genaamd Transformer – maakt de distributie van geleerde gegevens en informatie over het hele AI-model mogelijk.
Wat het Kinetic-600-trainingscorpus betreft, dit is in wezen een gigantische dataset, samengesteld uit meer dan 500.000 YouTube-clips met hoge resolutie met een duur van niet meer dan 10 seconden. Deze video's waren in eerste instantie samengesteld om menselijke handelingen te herkennen, waarbij onderzoekers dit corpus omschrijven als 'divers' en 'onbeperkt', factoren die bijzonder relevant zijn bij het trainen van open modellen vergelijkbaar met DeepMind's DVD-GAN. (Op het gebied van machinaal leren bestaat de term ‘overfitting’, die wordt gebruikt om te verwijzen naar modellen die te nauw aansluiten bij een bepaalde reeks gegevens en als gevolg daarvan de waarnemingen in de gegevens niet betrouwbaar kunnen voorspellen.) .
Volgens het rapport van het onderzoeksteam kan DVD-GAN, na gedurende een periode van 12 tot 96 uur continu getraind te zijn door Google's Tensor Processing Units-systeem van de derde generatie, nu zelf video's genereren. Het model beschikt over volledige objectlay-outs, bewegingen en zelfs complexe structuren zoals reflecties op rivieroppervlakken, ijsbanen... DVD-GAN heeft moeten "worstelen" om complexe objecten in dit gebied te creëren met een hogere resolutie, waar beweging een veel groter aantal pixels met zich meebrengt. De onderzoekers merkten echter op dat, na evaluatie op UCF-101 (een kleinere dataset van 13.320 video's van menselijke acties), de door DVD-GAN gegenereerde videofragmenten goed scoorden: de Inception Score is 32,97 - helemaal niet slecht.
Het videofragment dat DVD-GAN maakte, behaalde een Inception Score van 32,97
“In de toekomst willen we de voordelen van het trainen van generatieve modellen op grote en complexe videodatasets, zoals Kinetic-600, verder benadrukken. Hoewel er nog veel werk moet worden verzet voordat realistische video's op consistente wijze kunnen worden gegenereerd in een onbeperkt aantal instellingen, zijn wij van mening dat DVD-GAN de perfecte opstap is om deze droom waar te maken", aldus een vertegenwoordiger van de onderzoeks groep.
Wat vindt u van het DVD-GAN AI-model van DeepMind? Laat hieronder uw opmerkingen achter!