Sztuczna inteligencja Microsoftu tworzy realistyczne głosy na podstawie zaledwie 200 próbek szkoleniowych

Nowoczesne algorytmy zamiany tekstu na mowę mają niesamowite możliwości. Najbardziej wyraźnym dowodem są dwa narzędzia open source o nazwie SpecAugment i Translatotron, niedawno udostępnione przez Google. W szczególności Translatotron może całkowicie przetłumaczyć mowę danej osoby bezpośrednio na inny język, zachowując jednocześnie ton i intonację zdania. Jednak kreatywność w technologii jest nieograniczona i zawsze jest miejsce na rzeczy bardziej niezwykłe.

System sztucznej inteligencji Amazona pomaga zmniejszyć błędy rozpoznawania głosu w Alexie o 15%.

Badacze zajmujący się sztuczną inteligencją w firmie Microsoft przedstawili niedawno artykuł zatytułowany „Prawie bez nadzoru tekstu na mowę i automatyczne rozpoznawanie mowy”, w którym szczegółowo opisano system sztucznej inteligencji wykorzystujący uczenie się bez nadzoru. Uczenie się bez nadzoru — gałąź technologii uczenia maszynowego, pomaga sztucznej inteligencji w zdobywaniu wiedzy z nieoznaczonych, sklasyfikowanych i niesformatowanych danych testowych. Ten system AI firmy Microsoft zrobił furorę, gdy osiągnął dokładność w czytaniu ze zrozumieniem i przetwarzaniu tekstu do 99,84%, a jednocześnie poprawiono także zdolność automatycznej symulacji mowy do 11,7%. Co bardziej imponujące, ten zaawansowany model uczenia maszynowego wykorzystuje jedynie 200 klipów audio i odpowiednich transkrypcji jako wejściowe dane szkoleniowe.

Kluczem do opracowania tego modelu sztucznej inteligencji jest Transformers – rodzaj architektury neuronowej zbudowanej przez zespół naukowców z Google Brain, oddziału Google zajmującego się badaniami nad sztuczną inteligencją, i który został przedstawiony w szczegółowym artykule technologicznym z 2017 r. Podobnie jak wszystkie głębokie sieci neuronowe, Transformers zawierają neurony (funkcje matematyczne, które są „luźno” modelowane przez neurony biologiczne) są ułożone w wzajemnie połączone warstwy w celu przesyłania „sygnałów” z danych wejściowych i stopniowego dostosowywania siły synaptycznej – wagi – każdego połączenia (w ten sposób modele wydobywają cechy i uczą się prognozować). Jednakże transformatory posiadają również unikalną cechę: każdy element wyjściowy zostanie podłączony do wszystkich elementów wejściowych, a wagi pomiędzy nimi są obliczane niezwykle elastycznie.

Sztuczna inteligencja Microsoftu tworzy realistyczne głosy na podstawie zaledwie 200 próbek szkoleniowych

MIT stara się opracować model sztucznej inteligencji, który może prowadzić prawie jak człowiek

Mając to na uwadze, badacze firmy Microsoft przystąpili do włączenia komponentu Transformer do projektu swojego systemu sztucznej inteligencji, umożliwiając odbieranie mowy lub tekstu jako danych wejściowych lub wyjściowych. Naukowcy postanowili wykorzystać publicznie dostępne źródło danych LJSpeech – które zawiera 13 100 fragmentów audio w języku angielskim i odpowiadające im transkrypcje (transkrypcje) – jako dane szkoleniowe dla systemu AI. Następnie zespół badawczy losowo wybrał 200 z 13 100 fragmentów audio wspomnianych powyżej, aby utworzyć zestaw danych szkoleniowych, a do rekonstrukcji danych wykorzystał także komponent automatycznego kodowania odszumiającego.Struktury mowy i tekstu są uszkodzone.

Wyniki wcale nie są złe. Analizując każdy mały fragment, badacze stwierdzili, że dawał on lepsze wyniki niż podstawowe algorytmy stosowane w testach. A kilka powstałych próbek brzmi prawie tak, jakby zostały stworzone przez ludzi.

Przykładowo zdanie: „Formy drukowanych liter powinny być piękne, a ich rozmieszczenie na kartce powinno być rozsądne i sprzyjać kształtowaniu samych liter” brzmiałoby następująco:

Lub zdanie: „zwłaszcza, że nie trzeba już tracić czasu ani kosztów na oprawę odlewniczą lub drukowanie pięknych liter”:

Japońska sztuczna inteligencja stworzyła superrealistyczne wirtualne modelki

W przyszłości celem badaczy jest przesuwanie granic technologii uczenia się bez nadzoru poprzez pełne wykorzystanie niesparowanych danych tekstowych i mowy za pomocą zaawansowanych metod. Dostępne są metody wstępnego kopania. „W tym zadaniu zaproponowaliśmy niemal nienadzorowane podejście do zamiany tekstu na mowę i automatycznego rozpoznawania mowy, które wykorzystuje tylko kilka połączonych tekstów i danych mowy oraz niewielką ilość dodatkowych niepołączonych danych. Jak wykazały eksperymenty, nasze komponenty projektowe będą niezbędne do opracowania możliwości konwersji mowy i tekstu za pomocą połączonych danych.

Google udostępnia ogromną hurtownię danych szkoleniowych AI zawierającą ponad 5 milionów zdjęć 200 000 punktów orientacyjnych na całym świecie

Szczegóły tego projektu zostaną zaprezentowane przez firmę Microsoft na Międzynarodowej konferencji na temat uczenia maszynowego, która odbędzie się w Long Beach w Kalifornii w dniach 10–15 czerwca, a zespół badawczy planuje także udostępnienie oprogramowania typu open source w nadchodzących tygodniach.

Zostaw komentarz

Europa utworzy grupę zadaniową ChatGPT

Organ zrzeszający krajowe organy nadzorujące prywatność w Europie poinformował w czwartek, że powołał grupę zadaniową zajmującą się ChatGPT

AI przewiduje czas śmierci człowieka z 78% dokładnością

Duńscy i amerykańscy naukowcy współpracowali nad opracowaniem systemu sztucznej inteligencji o nazwie life2vec, zdolnego do przewidywania czasu śmierci człowieka z dużą dokładnością.

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Algorytm sztucznej inteligencji o nazwie Audioflow może nasłuchiwać dźwięku oddawania moczu, aby skutecznie i skutecznie identyfikować nieprawidłowe wypływy moczu i powiązane z nimi problemy zdrowotne pacjenta.

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Starzenie się i spadek liczby ludności Japonii spowodował, że w kraju brakuje znacznej liczby młodych pracowników, szczególnie w sektorze usług.

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

Użytkownik Reddita o imieniu u/LegalBeagle1966 jest jednym z wielu użytkowników zakochanych w Claudii, dziewczynie przypominającej gwiazdę filmową, która często udostępnia na tej platformie uwodzicielskie selfie, nawet nagie.

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

Microsoft właśnie ogłosił, że w jego programie AI for Good weźmie udział 12 kolejnych firm technologicznych.

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

Użytkownik @mortecouille92 wykorzystał moc narzędzia do projektowania graficznego Midjourney i stworzył wyjątkowo realistyczne wersje słynnych postaci Dragon Ball, takich jak Goku, Vegeta, Bulma i starszy Kame. .

7 technik poprawy odpowiedzi ChatGPT

Po prostu dodając pewne warunki lub konfigurując pewne scenariusze, ChatGPT może udzielić bardziej trafnych odpowiedzi na Twoje zapytania. Przyjrzyjmy się sposobom poprawy jakości odpowiedzi ChatGPT.

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Midjourney to system sztucznej inteligencji, który wywołał ostatnio „gorączkę” w społeczności internetowej i świecie artystów ze względu na niezwykle piękne obrazy, które nie ustępują tym, które tworzą prawdziwi artyści.

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.

Kilka dni po ogłoszeniu przez Chiny wybuchu epidemii, mając dostęp do danych dotyczących globalnej sprzedaży biletów lotniczych, system sztucznej inteligencji BlueDot w dalszym ciągu dokładnie przewidywał rozprzestrzenianie się wirusa korona z Wuhan do Bangkoku, Seulu, Tajpej i Tokio.