Meta wprowadza Voicebox, model AI obsługujący przetwarzanie dźwięku dla twórców

Po niezliczonych plotkach Meta w końcu oficjalnie ogłosiła swój model AI najnowszej generacji o nazwie Voicebox. Model ten został zaprojektowany, aby pomóc twórcom treści efektywnie wykonywać zadania związane z generowaniem głosu, takie jak edycja dźwięku, próbkowanie i stylizacja, nawet bez specjalnego szkolenia. Jest to możliwe dzięki danym w kontekście.

Meta z przekonaniem potwierdza, że ten nowy model sztucznej inteligencji „przyniesie korzyści wielu ludziom na całym świecie”, nie tylko w dziedzinie tworzenia treści. Na przykład pomoc osobom niewidomym w słyszeniu wiadomości tekstowych za pomocą ich głosu, a także umożliwienie ludziom mówienia w językach obcych własnym głosem.

Sam Voicebox jest reklamowany jako umożliwiający zarówno tworzenie wysokiej jakości klipów audio, jak i edytowanie nagranych wcześniej klipów audio w celu usunięcia niepożądanych zakłóceń, takich jak klaksony samochodowe, przy jednoczesnym zachowaniu tej samej wielojęzycznej zawartości i stylu (tworzenie mowy w sześciu różnych językach). Planowane przyszłe udoskonalenia modelu Meta obejmują zapewnienie naturalnych głosów asystentom wizualnym lub postaciom w grach w Metaverse.

Meta porównała także Voicebox z innymi dostępnymi obecnie na rynku modelami AI wyposażonymi w przetwarzanie dźwięku, w szczególności z kluczowymi konkurentami, takimi jak Vall-E i YourTTS. Ogólnie rzecz biorąc, model Meta jest zaawansowany i przewyższa konkurencję, porównując współczynnik błędów programu Word i podobieństwo stylów.

Meta wprowadza Voicebox, model AI obsługujący przetwarzanie dźwięku dla twórców

Voicebox opiera się na Flow Matching. Jest to najnowszy nieautoregresywny model generatywny Meta, który radzi sobie z wysoce niedeterministycznym mapowaniem tekstu i mowy. Dzięki temu Voicebox może uczyć się na podstawie wielu różnych typów danych mowy bez konieczności ich dokładnego etykietowania, co daje mu możliwość dostępu do bardziej zróżnicowanych danych szkoleniowych na dużą skalę. Do tej pory Voicebox został przeszkolony na podstawie ponad 50 000 godzin nagrań mowy i transkrypcji audiobooków w języku angielskim, francuskim, hiszpańskim, niemieckim, polskim i portugalskim.

Choć technologia ta może zapoczątkować nową erę sztucznej inteligencji w przetwarzaniu dźwięku, Meta przyznaje, że może spowodować potencjalne nadużycia i niezamierzone szkody. Artykuł badawczy, który Meta udostępniła na temat Voicebox, zawiera szczegółowe informacje na temat tego, jak firma zbudowała wysoce skuteczny klasyfikator, który potrafi odróżnić głosy autentyczne od głosów generowanych przez Voicebox.

Meta nie udostępni programu AI Voicebox do użytku publicznego, ani nie udostępni kodu źródłowego, przynajmniej na razie.

Zostaw komentarz

Europa utworzy grupę zadaniową ChatGPT

Organ zrzeszający krajowe organy nadzorujące prywatność w Europie poinformował w czwartek, że powołał grupę zadaniową zajmującą się ChatGPT

AI przewiduje czas śmierci człowieka z 78% dokładnością

Duńscy i amerykańscy naukowcy współpracowali nad opracowaniem systemu sztucznej inteligencji o nazwie life2vec, zdolnego do przewidywania czasu śmierci człowieka z dużą dokładnością.

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Algorytm sztucznej inteligencji o nazwie Audioflow może nasłuchiwać dźwięku oddawania moczu, aby skutecznie i skutecznie identyfikować nieprawidłowe wypływy moczu i powiązane z nimi problemy zdrowotne pacjenta.

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Starzenie się i spadek liczby ludności Japonii spowodował, że w kraju brakuje znacznej liczby młodych pracowników, szczególnie w sektorze usług.

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

Użytkownik Reddita o imieniu u/LegalBeagle1966 jest jednym z wielu użytkowników zakochanych w Claudii, dziewczynie przypominającej gwiazdę filmową, która często udostępnia na tej platformie uwodzicielskie selfie, nawet nagie.

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

Microsoft właśnie ogłosił, że w jego programie AI for Good weźmie udział 12 kolejnych firm technologicznych.

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

Użytkownik @mortecouille92 wykorzystał moc narzędzia do projektowania graficznego Midjourney i stworzył wyjątkowo realistyczne wersje słynnych postaci Dragon Ball, takich jak Goku, Vegeta, Bulma i starszy Kame. .

7 technik poprawy odpowiedzi ChatGPT

Po prostu dodając pewne warunki lub konfigurując pewne scenariusze, ChatGPT może udzielić bardziej trafnych odpowiedzi na Twoje zapytania. Przyjrzyjmy się sposobom poprawy jakości odpowiedzi ChatGPT.

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Midjourney to system sztucznej inteligencji, który wywołał ostatnio „gorączkę” w społeczności internetowej i świecie artystów ze względu na niezwykle piękne obrazy, które nie ustępują tym, które tworzą prawdziwi artyści.

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.

Kilka dni po ogłoszeniu przez Chiny wybuchu epidemii, mając dostęp do danych dotyczących globalnej sprzedaży biletów lotniczych, system sztucznej inteligencji BlueDot w dalszym ciągu dokładnie przewidywał rozprzestrzenianie się wirusa korona z Wuhan do Bangkoku, Seulu, Tajpej i Tokio.