AI Microsoft creează voci realiste cu doar 200 de mostre de antrenament

AI Microsoft creează voci realiste cu doar 200 de mostre de antrenament

Algoritmii moderni de transformare a textului în vorbire posedă capacități uimitoare. Cea mai clară dovadă sunt două instrumente open source numite SpecAugment și Translatotron, lansate recent de Google. În special, Translatotron poate traduce complet discursul unei persoane direct într-o altă limbă, păstrând totuși tonul și intonația propoziției. Cu toate acestea, creativitatea în tehnologie este nelimitată și întotdeauna este loc pentru lucruri mai extraordinare.

AI Microsoft creează voci realiste cu doar 200 de mostre de antrenament

Cercetătorii de inteligență artificială de la Microsoft au prezentat recent o lucrare intitulată „Almost Unsupervised Text to Speech and Automatic Speech Recognition”, care detaliază un sistem AI care valorifică învățarea nesupervizată. din date de testare neetichetate, clasificate și neformatate. Acest sistem AI de la Microsoft a făcut o mare explozie când a atins o acuratețe în înțelegerea lecturii și procesarea cuvintelor de până la 99,84% și, în același timp, capacitatea de simulare automată a vorbirii a fost, de asemenea, îmbunătățită la 11,7%. Mai impresionant, acest model avansat de învățare automată trebuie să utilizeze doar 200 de clipuri audio și transcripțiile corespunzătoare ca date de antrenament de intrare.

Cheia dezvoltării acestui model AI este Transformers, un tip de arhitectură neuronală construită de o echipă de oameni de știință de la Google Brain, brațul de cercetare AI al Google, și a fost introdus într-un articol aprofundat despre tehnologie în 2017. Ca toate rețelele neuronale profunde, Transformers conțin neuroni (funcții matematice care sunt „vag” modelate de neuronii biologici) sunt aranjate în straturi interconectate pentru a transmite „semnale” din datele de intrare și pentru a ajusta treptat puterea sinaptică - greutatea - a fiecărei conexiuni (care este modul în care modelele extrag caracteristicile și învață să a face predictii). Cu toate acestea, transformatoarele posedă și o caracteristică unică: fiecare element de ieșire va fi conectat la toate elementele de intrare, iar greutățile dintre ele sunt calculate extrem de flexibil.

AI Microsoft creează voci realiste cu doar 200 de mostre de antrenament

Din această realitate, cercetătorii Microsoft au continuat să încorporeze o componentă Transformer în designul sistemului lor AI, făcând posibilă primirea vorbirii sau textului ca date de intrare sau de ieșire. Iar cercetătorii au decis să ia sursa de date LJSpeech disponibilă public - care conține 13.100 de extrase audio în limba engleză și transcrierile corespunzătoare (transcrieri) - ca date de antrenament pentru sistemul AI. Apoi, echipa de cercetare a selectat aleatoriu 200 din cele 13.100 de fragmente audio menționate mai sus pentru a crea un set de date de antrenament și a profitat, de asemenea, de o componentă de codificare automată de dezgomot pentru a reconstrui datele. Structurile de vorbire și text sunt rupte.

Rezultatele nu sunt deloc rele. Privind fiecare fragment mic, cercetătorii au descoperit că a dat rezultate mai bune decât algoritmii de bază utilizați în teste. Și câteva dintre mostrele rezultate sună aproape ca și cum ar fi fost create de oameni.

De exemplu, propoziția: „formele literelor tipărite ar trebui să fie frumoase și aranjarea lor pe pagină să fie rezonabilă și să ajute la forma literelor în sine” ar fi citită după cum urmează:

Sau propoziția: „mai ales că nu mai este ocupat timp sau costuri suportate pentru turnarea sau tipărirea literelor frumoase”:

În continuare, obiectivul cercetătorilor este să depășească limitele tehnologiei de învățare nesupravegheată, valorificând pe deplin datele de text și vorbire neîmperecheate, cu ajutorul metodelor avansate. Sunt disponibile metode de pre-sapă. „Pentru această sarcină, am propus o abordare aproape nesupravegheată pentru text-to-speech și recunoașterea automată a vorbirii, care utilizează doar câteva date concatenate de text și vorbire concatenate și o cantitate mică de date suplimentare neconcatenate. După cum sa demonstrat în experimente, componentele noastre de proiectare vor fi esențiale pentru a dezvolta capacitatea de a converti vorbirea și textul cu unele date concatenate.

Detaliile acestui proiect vor fi prezentate de Microsoft la Conferința internațională privind învățarea automată care va avea loc în Long Beach, California, în perioada 10-15 iunie, iar echipa de cercetare intenționează, de asemenea, să lanseze open source în săptămânile următoare.


Grupul de lucru ChatGPT va fi înființat de Europa

Grupul de lucru ChatGPT va fi înființat de Europa

Organismul care reunește organele naționale de supraveghere a vieții private din Europa a declarat joi că a înființat un grup operativ dedicat ChatGPT

AI prezice ora morții umane cu o precizie de 78%.

AI prezice ora morții umane cu o precizie de 78%.

Oamenii de știință danezi și americani au colaborat pentru a dezvolta un sistem AI numit life2vec, capabil să prezică ora morții umane cu mare precizie.

AI prezice bolile urinare doar prin sunetul urinei

AI prezice bolile urinare doar prin sunetul urinei

Un algoritm AI numit Audioflow poate asculta sunetul urinării pentru a identifica eficient și cu succes fluxurile anormale și problemele de sănătate corespunzătoare ale pacientului.

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Îmbătrânirea și scăderea populației din Japonia a lăsat țara lipsită de un număr semnificativ de tineri lucrători, în special în sectorul serviciilor.

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Un utilizator Reddit numit u/LegalBeagle1966 este unul dintre mulți utilizatori îndrăgostiți de Claudia, o fată asemănătoare vedetei de cinema care deseori împărtășește selfie-uri seducătoare, chiar și nud, pe această platformă.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Microsoft tocmai a anunțat că alte 12 companii de tehnologie vor participa la programul său AI for Good.

AI recreează personajele Dragon Ball în carne și oase

AI recreează personajele Dragon Ball în carne și oase

Utilizatorul @mortecouille92 a pus în funcțiune puterea instrumentului de design grafic Midjourney și a creat versiuni realiste unice ale personajelor celebre Dragon Ball precum Goku, Vegeta, Bulma și bătrânul Kame. .

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

Doar prin adăugarea unor condiții sau configurarea unor scenarii, ChatGPT poate oferi răspunsuri mai relevante la întrebările dvs. Să vedem câteva modalități prin care puteți îmbunătăți calitatea răspunsurilor dvs. ChatGPT.

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Midjourney este un sistem de inteligență artificială care a provocat recent o „febră” în comunitatea online și în lumea artiștilor din cauza picturilor sale extrem de frumoase, care nu sunt inferioare celor ale artiștilor adevărați.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

La câteva zile după ce China a anunțat focarul, având acces la datele globale despre vânzările de bilete de avion, sistemul AI al BlueDot a continuat să prezică cu exactitate răspândirea virusului Wuhan Corona la Bangkok, Seul, Taipei și Tokyo.