Die KI von Microsoft erstellt realistische Stimmen mit nur 200 Trainingsbeispielen

Die KI von Microsoft erstellt realistische Stimmen mit nur 200 Trainingsbeispielen

Moderne Text-to-Speech-Algorithmen verfügen über erstaunliche Fähigkeiten. Der klarste Beweis sind zwei Open-Source-Tools namens SpecAugment und Translatotron, die kürzlich von Google veröffentlicht wurden. Insbesondere kann Translatotron die Rede einer Person vollständig direkt in eine andere Sprache übersetzen und dabei den Ton und die Intonation des Satzes beibehalten. Allerdings sind der Kreativität in der Technik keine Grenzen gesetzt und es gibt immer Raum für Außergewöhnlicheres.

Die KI von Microsoft erstellt realistische Stimmen mit nur 200 Trainingsbeispielen

Forscher für künstliche Intelligenz bei Microsoft haben kürzlich einen Artikel mit dem Titel „Almost Unsupervised Text to Speech and Automatic Speech Recognition“ vorgestellt, in dem ein KI-System beschrieben wird, das unüberwachtes Lernen nutzt. Unüberwachtes Lernen – ein Zweig der maschinellen Lerntechnologie – hilft der KI, Wissen zu erlernen aus unbeschrifteten, klassifizierten und unformatierten Testdaten. Dieses KI-System von Microsoft sorgte für großes Aufsehen, als es eine Genauigkeit von bis zu 99,84 % beim Leseverständnis und bei der Textverarbeitung erreichte und gleichzeitig die Fähigkeit zur automatischen Sprachsimulation auf 11,7 % verbessert wurde. Noch beeindruckender ist, dass dieses fortschrittliche Modell für maschinelles Lernen nur 200 Audioclips und entsprechende Transkriptionen als Eingabetrainingsdaten verwenden muss.

Der Schlüssel zur Entwicklung dieses KI-Modells sind Transformers, eine Art neuronale Architektur, die von einem Team von Wissenschaftlern bei Google Brain, dem KI-Forschungszweig von Google, entwickelt und 2017 in einem ausführlichen Technologieartikel vorgestellt wurde. Wie alle tiefen neuronalen Netze sind Transformers enthalten Neuronen (mathematische Funktionen, die „lose“ durch biologische Neuronen modelliert werden) und sind in miteinander verbundenen Schichten angeordnet, um „Signale“ aus Eingabedaten zu übertragen und die synaptische Stärke – Gewichtung – jeder Verbindung schrittweise anzupassen (auf diese Weise extrahieren die Modelle Merkmale und lernen dies). Voraussagen machen). Allerdings verfügen Transformer auch über ein einzigartiges Merkmal: Jedes Ausgangselement wird mit allen Eingangselementen verbunden und die Gewichte zwischen ihnen werden äußerst flexibel berechnet.

Die KI von Microsoft erstellt realistische Stimmen mit nur 200 Trainingsbeispielen

Ausgehend von dieser Realität haben Microsoft-Forscher eine Transformer-Komponente in ihr KI-Systemdesign integriert, die es ermöglicht, Sprache oder Text als Eingabe- oder Ausgabedaten zu empfangen. Und die Forscher beschlossen, die öffentlich verfügbare LJSpeech-Datenquelle – die 13.100 englische Audioauszüge und entsprechende Transkripte (Transkripte) enthält – als Trainingsdaten für das KI-System zu verwenden. Als nächstes wählte das Forschungsteam zufällig 200 der oben genannten 13.100 Audioauszüge aus, um einen Trainingsdatensatz zu erstellen, und nutzte außerdem eine automatische Rauschunterdrückungs-Kodierungskomponente, um die Daten zu rekonstruieren. Sprach- und Textstrukturen werden aufgebrochen.

Die Ergebnisse sind überhaupt nicht schlecht. Bei der Betrachtung jedes kleinen Ausschnitts stellten die Forscher fest, dass er bessere Ergebnisse lieferte als die in den Tests verwendeten Basisalgorithmen. Und einige der resultierenden Samples klingen ziemlich so, als wären sie von Menschen geschaffen worden.

Beispielsweise würde der Satz: „Die Formen gedruckter Buchstaben sollten schön sein und ihre Anordnung auf der Seite sollte angemessen sein und zur Formgebung der Buchstaben selbst beitragen“ würde wie folgt lauten:

Oder der Satz: „Zumal es keinen Zeit- und Kostenaufwand mehr gibt, schöne Buchstaben zu gießen oder zu drucken“:

Das zukünftige Ziel der Forscher ist es, die Grenzen der unbeaufsichtigten Lerntechnologie zu erweitern, indem ungepaarte Text- und Sprachdaten mithilfe fortschrittlicher Methoden vollständig genutzt werden. Es stehen Predigging-Methoden zur Verfügung. „Für diese Aufgabe haben wir einen nahezu unbeaufsichtigten Ansatz für Text-to-Speech und automatische Spracherkennung vorgeschlagen, der nur wenige verkettete Text- und Sprachdaten sowie eine kleine Menge zusätzlicher, nicht verketteter Daten verwendet. Wie in den Experimenten gezeigt, werden unsere Designkomponenten von entscheidender Bedeutung sein, um die Fähigkeit zu entwickeln, Sprache und Text mit einigen verketteten Daten umzuwandeln. wissen.

Einzelheiten zu diesem Projekt wird Microsoft auf der International Conference on Machine Learning vorstellen, die vom 10. bis 15. Juni in Long Beach, Kalifornien, stattfindet, und das Forschungsteam plant in den kommenden Wochen auch die Veröffentlichung als Open-Source-Projekt.


Die ChatGPT-Task Force wird von Europa eingerichtet

Die ChatGPT-Task Force wird von Europa eingerichtet

Das Gremium, das die nationalen Datenschutzbeauftragten Europas vereint, gab am Donnerstag bekannt, dass es eine Task Force für ChatGPT eingerichtet habe

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

Dänische und amerikanische Wissenschaftler haben gemeinsam ein KI-System namens life2vec entwickelt, das den Zeitpunkt des menschlichen Todes mit hoher Genauigkeit vorhersagen kann.

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

Ein KI-Algorithmus namens Audioflow kann auf das Geräusch des Urinierens hören, um abnormale Urinflüsse und entsprechende Gesundheitsprobleme des Patienten effektiv und erfolgreich zu identifizieren.

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Japans alternde und schrumpfende Bevölkerung hat dazu geführt, dass dem Land eine erhebliche Zahl junger Arbeitskräfte fehlt, insbesondere im Dienstleistungssektor.

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Ein Reddit-Benutzer namens u/LegalBeagle1966 ist einer von vielen Benutzern, die in Claudia verliebt sind, ein Mädchen wie ein Filmstar, das auf dieser Plattform oft verführerische Selfies, sogar nackte, teilt.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

Microsoft hat gerade angekündigt, dass zwölf weitere Technologieunternehmen an seinem AI for Good-Programm teilnehmen werden.

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Benutzer @mortecouille92 hat die Leistungsfähigkeit des Grafikdesign-Tools Midjourney genutzt und einzigartig realistische Versionen berühmter Dragon Ball-Charaktere wie Goku, Vegeta, Bulma und Elder Kame erstellt. .

7 Techniken zur Verbesserung von ChatGPT-Antworten

7 Techniken zur Verbesserung von ChatGPT-Antworten

Durch einfaches Hinzufügen einiger Bedingungen oder Einrichten einiger Szenarien kann ChatGPT relevantere Antworten auf Ihre Fragen geben. Schauen wir uns einige Möglichkeiten an, wie Sie die Qualität Ihrer ChatGPT-Antworten verbessern können.

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Midjourney ist ein künstliches Intelligenzsystem, das aufgrund seiner äußerst schönen Gemälde, die denen echter Künstler in nichts nachstehen, in letzter Zeit in der Online-Community und der Künstlerwelt für „Fieber“ gesorgt hat.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Tage nachdem China den Ausbruch bekannt gegeben hatte, konnte das KI-System von BlueDot mit Zugriff auf weltweite Flugscheinverkaufsdaten die Ausbreitung des Wuhan-Corona-Virus nach Bangkok, Seoul, Taipeh und Tokio weiterhin genau vorhersagen.