Meta stellt Voicebox vor, ein KI-Modell, das die Audioverarbeitung für Ersteller unterstützt

Meta stellt Voicebox vor, ein KI-Modell, das die Audioverarbeitung für Ersteller unterstützt

Nach unzähligen Gerüchten hat Meta endlich sein KI-Modell der neuesten Generation namens Voicebox offiziell angekündigt. Dieses Modell soll Content-Erstellern dabei helfen, Aufgaben im Zusammenhang mit der Sprachgenerierung wie Audiobearbeitung, Sampling und Stilisierung effizient zu bewältigen, auch ohne spezielle Schulung. Möglich durch Daten im Kontext.

Meta ist zuversichtlich, dass dieses neue KI-Modell „vielen Menschen auf der ganzen Welt zugute kommen wird“, nicht nur im Bereich der Inhaltserstellung. Beispielsweise kann man blinden Menschen helfen, Textnachrichten mit ihrer Stimme zu hören, und es Menschen ermöglichen, Fremdsprachen mit ihrer eigenen Stimme zu sprechen.

Voicebox selbst wird damit beworben, dass es sowohl hochwertige Audioclips erstellen als auch vorab aufgezeichnete Audioclips bearbeiten kann, um unerwünschte Unterbrechungen wie Autohupen zu entfernen und gleichzeitig den gleichen mehrsprachigen Inhalt und Stil beizubehalten (Sprachausgabe in sechs verschiedenen Sprachen). Zu den geplanten zukünftigen Entwicklungen von Meta für das Modell gehört die Bereitstellung natürlicher Stimmen für visuelle Assistenten oder Charaktere in Spielen im Metaversum.

Meta verglich Voicebox auch mit anderen KI-Modellen mit Audioverarbeitung, die derzeit auf dem Markt sind, insbesondere mit wichtigen Wettbewerbern wie Vall-E und YourTTS. Insgesamt ist Metas Modell fortschrittlich und übertrifft die Konkurrenz beim Vergleich der Word-Fehlerrate und der Stilähnlichkeit.

Meta stellt Voicebox vor, ein KI-Modell, das die Audioverarbeitung für Ersteller unterstützt

Meta stellt Voicebox vor, ein KI-Modell, das die Audioverarbeitung für Ersteller unterstützt

Voicebox basiert auf Flow Matching. Dies ist das neueste nicht-autoregressive generative Modell von Meta, das eine stark nicht-deterministische Zuordnung zwischen Text und Sprache bewältigen kann. Dadurch kann Voicebox aus vielen verschiedenen Arten von Sprachdaten lernen, ohne diese sorgfältig kennzeichnen zu müssen, und hat so die Möglichkeit, auf vielfältigere und umfangreichere Trainingsdaten zuzugreifen. Bisher wurde Voicebox mit mehr als 50.000 Stunden Sprachaufzeichnungen und Hörbuchtranskriptionen in Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch geschult.

Während diese Technologie eine neue Ära der KI in der Audioverarbeitung einläuten könnte, räumt Meta ein, dass sie das Potenzial für Missbrauch und unbeabsichtigten Schaden mit sich bringen könnte. Das Forschungspapier, das Meta über Voicebox geteilt hat, enthält Details darüber, wie das Unternehmen einen hochwirksamen Klassifikator entwickelt hat, der zwischen authentischen Stimmen und von Voicebox generierten Stimmen unterscheiden kann.

Meta wird das AI-Voicebox-Programm zumindest vorerst nicht zur öffentlichen Nutzung zur Verfügung stellen und auch den Quellcode nicht veröffentlichen.


Die ChatGPT-Task Force wird von Europa eingerichtet

Die ChatGPT-Task Force wird von Europa eingerichtet

Das Gremium, das die nationalen Datenschutzbeauftragten Europas vereint, gab am Donnerstag bekannt, dass es eine Task Force für ChatGPT eingerichtet habe

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

Dänische und amerikanische Wissenschaftler haben gemeinsam ein KI-System namens life2vec entwickelt, das den Zeitpunkt des menschlichen Todes mit hoher Genauigkeit vorhersagen kann.

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

Ein KI-Algorithmus namens Audioflow kann auf das Geräusch des Urinierens hören, um abnormale Urinflüsse und entsprechende Gesundheitsprobleme des Patienten effektiv und erfolgreich zu identifizieren.

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Japans alternde und schrumpfende Bevölkerung hat dazu geführt, dass dem Land eine erhebliche Zahl junger Arbeitskräfte fehlt, insbesondere im Dienstleistungssektor.

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Ein Reddit-Benutzer namens u/LegalBeagle1966 ist einer von vielen Benutzern, die in Claudia verliebt sind, ein Mädchen wie ein Filmstar, das auf dieser Plattform oft verführerische Selfies, sogar nackte, teilt.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

Microsoft hat gerade angekündigt, dass zwölf weitere Technologieunternehmen an seinem AI for Good-Programm teilnehmen werden.

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Benutzer @mortecouille92 hat die Leistungsfähigkeit des Grafikdesign-Tools Midjourney genutzt und einzigartig realistische Versionen berühmter Dragon Ball-Charaktere wie Goku, Vegeta, Bulma und Elder Kame erstellt. .

7 Techniken zur Verbesserung von ChatGPT-Antworten

7 Techniken zur Verbesserung von ChatGPT-Antworten

Durch einfaches Hinzufügen einiger Bedingungen oder Einrichten einiger Szenarien kann ChatGPT relevantere Antworten auf Ihre Fragen geben. Schauen wir uns einige Möglichkeiten an, wie Sie die Qualität Ihrer ChatGPT-Antworten verbessern können.

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Midjourney ist ein künstliches Intelligenzsystem, das aufgrund seiner äußerst schönen Gemälde, die denen echter Künstler in nichts nachstehen, in letzter Zeit in der Online-Community und der Künstlerwelt für „Fieber“ gesorgt hat.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Tage nachdem China den Ausbruch bekannt gegeben hatte, konnte das KI-System von BlueDot mit Zugriff auf weltweite Flugscheinverkaufsdaten die Ausbreitung des Wuhan-Corona-Virus nach Bangkok, Seoul, Taipeh und Tokio weiterhin genau vorhersagen.