Google-Forscher lassen KI Spiele spielen, um das verstärkte Lernen zu verbessern

Reinforcement Learning – ein Teilgebiet des maschinellen Lernens – umfasst KI-Trainingstechniken, die „Belohnungen“ nutzen, um Softwarerichtlinien gezielt auf gezielte Ziele auszurichten. Mit anderen Worten ist dies der Prozess, bei dem die KI verschiedene Aktionen ausprobiert, aus jeder Reaktion lernt, ob diese Aktion bessere Ergebnisse bringt oder nicht, und dann die Aktionen verstärkt, die funktioniert haben, d. h. ihre Algorithmen automatisch über mehrere Iterationen hinweg überarbeitet und modifiziert liefert die besten Ergebnisse. In jüngster Zeit wird verstärktes Lernen genutzt, um die Auswirkungen sozialer Regeln zu modellieren, um KI-Modelle mit extrem guten Spielfähigkeiten oder programmierbare Roboter zu erstellen, die sich selbst heilen können. Wiederherstellung nach lästigen Softwareproblemen.

Winnow nutzt Computer Vision, um Abfall bei der Lebensmittelverarbeitung zu reduzieren

Obwohl sie über eine hohe Flexibilität verfügt und in vielen verschiedenen Modellen und Zwecken eingesetzt werden kann, weist die Technik des verstärkenden Lernens einen bedauerlichen Mangel auf: Sie ist ineffektiv. Um ein KI-Modell mithilfe von Techniken des verstärkenden Lernens zu trainieren, sind viele verschiedene Interaktionen in einer simulierten oder realen Umgebung erforderlich, was viel mehr ist, als wenn ein Mensch eine bestimmte Aufgabe lernen muss. Um dieses Problem, insbesondere im Bereich der Videospiele, teilweise zu lösen, schlugen Forscher für künstliche Intelligenz bei Google kürzlich die Verwendung eines neuen Algorithmus namens Simulated Policy Learning (abgekürzt als SimPLe) vor, der einfache Videospielmodelle verwendet, um Qualitätsrichtlinien bei der Aktionsauswahl zu erlernen und zu verbessern von verstärkenden Lerntechniken.

Die Forscher beschrieben den Algorithmus in einem neu veröffentlichten Artikel mit dem Titel „Model-Based Reinforcement Learning for Atari“ und auch in einem Dokument, das dem Open-Source-Code beiliegt.

„Auf einer hohen Ebene bestand die Idee der Forscher bei der Entwicklung des SimPLe-Algorithmus darin, zwischen der Erstellung eines Modells der Spieleigenschaften und der Verwendung dieses Modells zur Optimierung einer Richtlinie (mit modellfreien Verstärkungslerntechniken) in einer Spielsimulationsumgebung zu wechseln. Die Grundprinzipien dieses Algorithmus sind gut etabliert und werden in vielen neueren modellbasierten Methoden des verstärkenden Lernens verwendet“, erklärten die Wissenschaftler des Google AI-Teams, Łukasz Kaiser und Dumitru Erhan.

Bewundern Sie Nvidias neue KI-Anwendung: Verwandeln Sie Kritzeleien im MS Paint-Stil in künstlerische „Meisterwerke“

Wie die beiden Forscher erklärten, erfordert das Trainieren eines KI-Systems zum Spielen eines Spiels die Vorhersage der nächsten Frame-Texturen des Zielspiels, die durch eine Folge von Frames und Befehlen gegeben sind. Kombination (z. B. „links“, „innen“, „rechts“, „ vorwärts“, „rückwärts“). Darüber hinaus zeigten die Forscher auch, dass ein erfolgreiches Modell „Trajektorien“ erzeugen kann, die zum Trainieren von Spielagentenprogrammrichtlinien verwendet werden können, wodurch die Notwendigkeit verringert wird, sich im Spiel auf komplexe Rechensequenzen zu verlassen.

Google-Forscher lassen KI Spiele spielen, um das verstärkte Lernen zu verbessern

Der SimPLe-Algorithmus macht genau das. Es benötigt 4 Frames als Eingabe, um den nächsten Frame mit einer Belohnung vorherzusagen, und sobald der Algorithmus vollständig trainiert ist, generiert er „Rollouts“ – Beispielsequenzen von Aktionssequenzen, Beobachtungen und Ergebnissen – die zur Verbesserung der Richtlinie verwendet werden (Kaiser und Erhan weisen darauf hin, dass der SimPLe-Algorithmus verwendet nur Rollouts mit durchschnittlicher Länge, um Vorhersagefehler zu minimieren.

In Tests, die einer Spieldauer von 2 Stunden (100.000 Interaktionen) entsprachen, erzielten Agenten mit den angepassten Richtlinien von SimPLe in zwei Testspielen (Pong und Freeway) maximale Punktzahlen und generierten gleichzeitig nahezu perfekte Vorhersagen bis zu 50 Schritte in die Zukunft.

Google-Forscher lassen KI Spiele spielen, um das verstärkte Lernen zu verbessern

91 % der Technologiemanager glauben, dass KI das Herzstück der nächsten Technologierevolution sein wird

Manchmal versuchten die beiden Forscher auch, kleine, aber hochrelevante Details in den Spielen zu sammeln, was scheiterte. Kaiser und Erhan geben zu, dass dieser Algorithmus immer noch nicht wirklich mit der Leistung standardmäßiger Methoden des verstärkenden Lernens mithalten kann. Allerdings kann SimPLe hinsichtlich des Trainings mehr als doppelt so effektiv sein, und das Team hofft, dass zukünftige Studien dazu beitragen werden, die Leistung des Algorithmus deutlich zu verbessern.

„Das Hauptziel modellbasierter Reinforcement-Learning-Methoden liegt in Umgebungen, in denen sich Interaktionen als komplex oder langsam erweisen oder eine menschliche Kennzeichnung erfordern, wie beispielsweise bei vielen Roboteraufgaben.“ In einer solchen Umgebung würde uns ein Simulator ermöglichen, die Umgebung von Agentenprogrammen besser zu verstehen, und könnte im Gegenzug zu neuen, besseren und schnelleren Vorgehensweisen führen. Multitasking-verstärkendes Lernen.“

Einen Kommentar hinterlassen

Die ChatGPT-Task Force wird von Europa eingerichtet

Das Gremium, das die nationalen Datenschutzbeauftragten Europas vereint, gab am Donnerstag bekannt, dass es eine Task Force für ChatGPT eingerichtet habe

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

Dänische und amerikanische Wissenschaftler haben gemeinsam ein KI-System namens life2vec entwickelt, das den Zeitpunkt des menschlichen Todes mit hoher Genauigkeit vorhersagen kann.

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

Ein KI-Algorithmus namens Audioflow kann auf das Geräusch des Urinierens hören, um abnormale Urinflüsse und entsprechende Gesundheitsprobleme des Patienten effektiv und erfolgreich zu identifizieren.

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Japans alternde und schrumpfende Bevölkerung hat dazu geführt, dass dem Land eine erhebliche Zahl junger Arbeitskräfte fehlt, insbesondere im Dienstleistungssektor.

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Ein Reddit-Benutzer namens u/LegalBeagle1966 ist einer von vielen Benutzern, die in Claudia verliebt sind, ein Mädchen wie ein Filmstar, das auf dieser Plattform oft verführerische Selfies, sogar nackte, teilt.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

Microsoft hat gerade angekündigt, dass zwölf weitere Technologieunternehmen an seinem AI for Good-Programm teilnehmen werden.

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Benutzer @mortecouille92 hat die Leistungsfähigkeit des Grafikdesign-Tools Midjourney genutzt und einzigartig realistische Versionen berühmter Dragon Ball-Charaktere wie Goku, Vegeta, Bulma und Elder Kame erstellt. .

7 Techniken zur Verbesserung von ChatGPT-Antworten

Durch einfaches Hinzufügen einiger Bedingungen oder Einrichten einiger Szenarien kann ChatGPT relevantere Antworten auf Ihre Fragen geben. Schauen wir uns einige Möglichkeiten an, wie Sie die Qualität Ihrer ChatGPT-Antworten verbessern können.

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Midjourney ist ein künstliches Intelligenzsystem, das aufgrund seiner äußerst schönen Gemälde, die denen echter Künstler in nichts nachstehen, in letzter Zeit in der Online-Community und der Künstlerwelt für „Fieber“ gesorgt hat.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Tage nachdem China den Ausbruch bekannt gegeben hatte, konnte das KI-System von BlueDot mit Zugriff auf weltweite Flugscheinverkaufsdaten die Ausbreitung des Wuhan-Corona-Virus nach Bangkok, Seoul, Taipeh und Tokio weiterhin genau vorhersagen.