Het AI-model van DeepMind kan leren hoe je videos kunt maken door simpelweg naar YouTube-clips te kijken

Het AI-model van DeepMind kan leren hoe je videos kunt maken door simpelweg naar YouTube-clips te kijken

Misschien heb je wel eens gehoord van FaceApp, een mobiele fotobewerkingsapplicatie die wereldwijd veel aandacht krijgt en de mogelijkheid heeft om kunstmatige intelligentie (AI) toe te passen om selfies met een extreem hoge mate van authenticiteit te bewerken. Of This Person Does Not Exist, een andere app voor fotobewerking die interessante portretten kan maken op basis van fictieve, door de computer gegenereerde grafische karakters. Dit zijn slechts twee van de vele geweldige toepassingen met de aanwezigheid van AI bij taken die verband houden met het bewerken en maken van foto's. Hoe zit het dan met videobewerking?

Onlangs heeft DeepMind, een dochteronderneming van Alphabet, die voornamelijk actief is op het gebied van de ontwikkeling van kunstmatige intelligentie, een geheel nieuwe uitvinding aangekondigd genaamd "Efficient Video Generation on Complex Datasets". gebied van videobewerking en postproductie in de toekomst. Dit is in feite een AI-algoritme dat kan leren hoe je eenvoudige clips kunt maken van de video's waaraan het tijdens het trainingsproces is blootgesteld.

Het AI-model van DeepMind kan leren hoe je video's kunt maken door simpelweg naar YouTube-clips te kijkenDVD-GAN kan nu automatisch voorbeeldvideo's genereren met volledige objectlay-outs

Onderzoekers van DeepMind zeiden dat hun best presterende model tot nu toe - Dual Video Discriminator GAN (DVD-GAN) - in staat was video's te maken met een resolutie van 256 x 256 pixels, gecombineerd met een hoge resolutie. De betrouwbaarheid is lovenswaardig en de lengte is groter tot 48 kaders.

“Het maken van video's met een hoge mate van natuurlijkheid en realisme is de grootste uitdaging voor de huidige AI-modellen. De belangrijkste belemmerende factoren zijn niets anders dan de complexiteit van de gegevensverzameling en de berekeningsvereisten. Om deze reden draaiden veel banen die verband hielden met het maken van video's in het verleden vaak om relatief eenvoudige datasets, of taken waarbij realtime informatie beschikbaar was. Momenteel concentreren we ons op videosynthese en voorspellingstaken, en streven we ernaar de resultaten van de huidige toonaangevende AI-modellen voor beeldcreatie uit te breiden naar video - de complexe kant veel beter", aldus een vertegenwoordiger van het onderzoeksteam.

Het team bouwde hun systeem rond een geavanceerde AI-architectuur en introduceerde tegelijkertijd een aantal videospecifieke aanpassingen, waardoor het trainingsproces kon worden uitgevoerd op basis van Kinetic-600. De dataset bevat 'natuurlijke' video's, die veel groter zijn in schaal dan normaal. Concreet hebben onderzoekers geprofiteerd van generatieve vijandige netwerken (GAN's).

Het AI-model van DeepMind kan leren hoe je video's kunt maken door simpelweg naar YouTube-clips te kijkenEen set synthetische videoclips van 4 seconden getraind op 12 frames van 128 x 128 van Kinetic-600.

Als je het niet weet: GAN is een AI-systeem dat uit twee afzonderlijke delen bestaat: het eerste is een generatief netwerk, dat helpt bij het maken van trainingsvoorbeelden (nepgegevens), met als doel hoe trainingsgegevens kunnen worden gemaakt. . En het tweede is het Discriminatieve netwerk: dat onderscheid probeert te maken tussen echte data en valse data. GAN-systemen zijn toegepast bij veel intensieve taken, zoals het omzetten van bijschriften in contextuele verhalen, en vooral bij het maken van kunstmatige foto's met een extreem hoog realisme.

DVD-GAN bevat dual-discriminerende netwerken: het discriminerende algoritme kan verschillen in de inhoud en structuur van een enkel frame onthullen door willekeurig frames met volledige resolutie te bemonsteren en deze vervolgens te verwerken. Door ze individueel en gedifferentieerd in de loop van de tijd te verwerken, worden leersignalen gegeven voor het genereren van beweging. Eén enkele module – genaamd Transformer – maakt de distributie van geleerde gegevens en informatie over het hele AI-model mogelijk.

Wat het Kinetic-600-trainingscorpus betreft, dit is in wezen een gigantische dataset, samengesteld uit meer dan 500.000 YouTube-clips met hoge resolutie met een duur van niet meer dan 10 seconden. Deze video's waren in eerste instantie samengesteld om menselijke handelingen te herkennen, waarbij onderzoekers dit corpus omschrijven als 'divers' en 'onbeperkt', factoren die bijzonder relevant zijn bij het trainen van open modellen vergelijkbaar met DeepMind's DVD-GAN. (Op het gebied van machinaal leren bestaat de term ‘overfitting’, die wordt gebruikt om te verwijzen naar modellen die te nauw aansluiten bij een bepaalde reeks gegevens en als gevolg daarvan de waarnemingen in de gegevens niet betrouwbaar kunnen voorspellen.) .

Volgens het rapport van het onderzoeksteam kan DVD-GAN, na gedurende een periode van 12 tot 96 uur continu getraind te zijn door Google's Tensor Processing Units-systeem van de derde generatie, nu zelf video's genereren. Het model beschikt over volledige objectlay-outs, bewegingen en zelfs complexe structuren zoals reflecties op rivieroppervlakken, ijsbanen... DVD-GAN heeft moeten "worstelen" om complexe objecten in dit gebied te creëren met een hogere resolutie, waar beweging een veel groter aantal pixels met zich meebrengt. De onderzoekers merkten echter op dat, na evaluatie op UCF-101 (een kleinere dataset van 13.320 video's van menselijke acties), de door DVD-GAN gegenereerde videofragmenten goed scoorden: de Inception Score is 32,97 - helemaal niet slecht.

Het AI-model van DeepMind kan leren hoe je video's kunt maken door simpelweg naar YouTube-clips te kijkenHet videofragment dat DVD-GAN maakte, behaalde een Inception Score van 32,97

“In de toekomst willen we de voordelen van het trainen van generatieve modellen op grote en complexe videodatasets, zoals Kinetic-600, verder benadrukken. Hoewel er nog veel werk moet worden verzet voordat realistische video's op consistente wijze kunnen worden gegenereerd in een onbeperkt aantal instellingen, zijn wij van mening dat DVD-GAN de perfecte opstap is om deze droom waar te maken", aldus een vertegenwoordiger van de onderzoeks groep.

Wat vindt u van het DVD-GAN AI-model van DeepMind? Laat hieronder uw opmerkingen achter!


De ChatGPT-taskforce zal door Europa worden opgericht

De ChatGPT-taskforce zal door Europa worden opgericht

Het orgaan dat de nationale privacywaakhonden van Europa verenigt, zei donderdag dat het een taskforce heeft opgericht die zich specifiek bezighoudt met ChatGPT

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

Deense en Amerikaanse wetenschappers hebben samengewerkt om een ​​AI-systeem te ontwikkelen genaamd life2vec, dat in staat is om het tijdstip van menselijke dood met hoge nauwkeurigheid te voorspellen.

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

Een AI-algoritme genaamd Audioflow kan naar het geluid van het plassen luisteren om abnormale stromingen en bijbehorende gezondheidsproblemen van de patiënt effectief en met succes te identificeren.

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Door de vergrijzing en de afnemende bevolking van Japan heeft het land een aanzienlijk aantal jonge werknemers nodig, vooral in de dienstensector.

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Een Reddit-gebruiker genaamd u/LegalBeagle1966 is een van de vele gebruikers die verliefd zijn op Claudia, een filmsterachtig meisje dat vaak verleidelijke selfies deelt, zelfs naakte, op dit platform.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Microsoft heeft zojuist aangekondigd dat nog twaalf technologiebedrijven zullen deelnemen aan zijn AI for Good-programma.

AI herschept Dragon Ball-personages in vlees en bloed

AI herschept Dragon Ball-personages in vlees en bloed

Gebruiker @mortecouille92 heeft de kracht van de grafische ontwerptool Midjourney aan het werk gezet en uniek realistische versies gemaakt van beroemde Dragon Ball-personages zoals Goku, Vegeta, Bulma en oudere Kame.

7 technieken om ChatGPT-reacties te verbeteren

7 technieken om ChatGPT-reacties te verbeteren

Door enkele voorwaarden toe te voegen of enkele scenario's in te stellen, kan ChatGPT relevantere antwoorden op uw vragen geven. Laten we eens kijken naar enkele manieren waarop u de kwaliteit van uw ChatGPT-reacties kunt verbeteren.

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Midjourney is een kunstmatig intelligentiesysteem dat de laatste tijd voor ‘koorts’ zorgt in de online community en de kunstenaarswereld vanwege zijn buitengewoon mooie schilderijen die niet onderdoen voor die van echte kunstenaars.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dagen nadat China de uitbraak had aangekondigd, bleef het AI-systeem van BlueDot, met toegang tot wereldwijde gegevens over de verkoop van vliegtickets, nauwkeurig de verspreiding van het Wuhan Corona-virus naar Bangkok, Seoul, Taipei en Tokio voorspellen.