Lintelligenza artificiale di Microsoft crea voci realistiche con soli 200 campioni di addestramento

Lintelligenza artificiale di Microsoft crea voci realistiche con soli 200 campioni di addestramento

I moderni algoritmi di sintesi vocale possiedono capacità sorprendenti. La prova più evidente sono due strumenti open source chiamati SpecAugment e Translatotron, recentemente rilasciati da Google. In particolare, Translatotron può tradurre completamente il discorso di una persona direttamente in un'altra lingua preservando comunque il tono e l'intonazione della frase. Tuttavia, la creatività nella tecnologia non ha limiti e c’è sempre spazio per cose più straordinarie.

L'intelligenza artificiale di Microsoft crea voci realistiche con soli 200 campioni di addestramento

I ricercatori di intelligenza artificiale di Microsoft hanno recentemente presentato un documento intitolato "Almost Unsupervised Text to Speech and Automatic Speech Recognition", che descrive in dettaglio un sistema di intelligenza artificiale che sfrutta l'apprendimento non supervisionato. L'apprendimento non supervisionato, un ramo della tecnologia di apprendimento automatico, aiuta l'intelligenza artificiale ad avere la capacità di apprendere la conoscenza. da dati di test senza etichetta, classificati e non formattati. Questo sistema di intelligenza artificiale di Microsoft ha avuto un grande successo quando ha raggiunto una precisione nella comprensione della lettura e nell'elaborazione di testi fino al 99,84%, e allo stesso tempo anche la capacità di simulazione automatica del parlato è stata migliorata all'11,7%. Ancora più impressionante è il fatto che questo modello avanzato di machine learning necessita solo di utilizzare 200 clip audio e le trascrizioni corrispondenti come dati di input per l’addestramento.

La chiave per sviluppare questo modello di intelligenza artificiale è Transformers, un tipo di architettura neurale costruita da un team di scienziati di Google Brain, il braccio di ricerca sull'intelligenza artificiale di Google, ed è stata introdotta in un articolo tecnologico approfondito nel 2017. Come tutte le reti neurali profonde, Transformers contengono neuroni (funzioni matematiche che sono modellate “vagamente” dai neuroni biologici) sono disposti in strati interconnessi per trasmettere “segnali” dai dati di input e regolare gradualmente la forza sinaptica – il peso – di ciascuna connessione (che è il modo in cui i modelli estraggono caratteristiche e imparano a fare previsioni). Tuttavia, i Transformer possiedono anche una caratteristica unica: ogni elemento di output sarà collegato a tutti gli elementi di input e i pesi tra loro verranno calcolati in modo estremamente flessibile.

L'intelligenza artificiale di Microsoft crea voci realistiche con soli 200 campioni di addestramento

Partendo da questa realtà, i ricercatori Microsoft hanno proceduto a incorporare un componente Transformer nella progettazione del loro sistema di intelligenza artificiale, rendendo possibile ricevere parlato o testo come dati di input o output. E i ricercatori hanno deciso di utilizzare la fonte dati LJSpeech disponibile al pubblico - che contiene 13.100 estratti audio in inglese e le corrispondenti trascrizioni (trascrizioni) - come dati di addestramento per il sistema AI. Successivamente, il gruppo di ricerca ha selezionato casualmente 200 dei 13.100 estratti audio sopra menzionati per creare un set di dati di addestramento e ha anche sfruttato un componente di codifica di denoising automatico per ricostruire i dati. Le strutture del parlato e del testo sono rotte.

I risultati non sono affatto male. Osservando ogni piccolo frammento, i ricercatori hanno scoperto che forniva risultati migliori rispetto agli algoritmi di base utilizzati nei test. E alcuni dei campioni risultanti suonano più o meno come se fossero stati creati dagli esseri umani.

Ad esempio, la frase: "le forme delle lettere stampate dovrebbero essere belle e la loro disposizione sulla pagina dovrebbe essere ragionevole e un aiuto alla forma delle lettere stesse" si leggerebbe come segue:

Oppure la frase: "soprattutto perché non occorre più tempo né costi per la fusione o la stampa di belle lettere":

Guardando al futuro, l'obiettivo dei ricercatori è quello di spingere i limiti della tecnologia di apprendimento non supervisionato sfruttando appieno i dati di testo e parlato non accoppiati, con l'aiuto di metodi avanzati. Sono disponibili metodi di pre-scavo. “Per questo compito, abbiamo proposto un approccio quasi non supervisionato per la sintesi vocale e il riconoscimento vocale automatico, che utilizza solo pochi dati di testo e parlato concatenati e una piccola quantità di dati aggiuntivi non concatenati. Come dimostrato negli esperimenti, i nostri componenti di progettazione saranno essenziali per sviluppare la capacità di convertire parlato e testo con alcuni dati concatenati.

I dettagli di questo progetto saranno presentati da Microsoft alla Conferenza internazionale sull'apprendimento automatico che si terrà a Long Beach, in California, dal 10 al 15 giugno, e il gruppo di ricerca prevede anche il rilascio Open source nelle prossime settimane.


La task force ChatGPT sarà istituita dall’Europa

La task force ChatGPT sarà istituita dall’Europa

L'organismo che unisce i supervisori nazionali della privacy europei ha dichiarato giovedì di aver istituito una task force dedicata a ChatGPT

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

Scienziati danesi e americani hanno collaborato per sviluppare un sistema di intelligenza artificiale chiamato life2vec, in grado di prevedere l’ora della morte umana con elevata precisione.

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

Un algoritmo AI chiamato Audioflow può ascoltare il suono della minzione per identificare in modo efficace e con successo flussi anomali e corrispondenti problemi di salute del paziente.

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

L'invecchiamento e il calo della popolazione giapponese hanno lasciato il paese privo di un numero significativo di giovani lavoratori, soprattutto nel settore dei servizi.

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Un utente Reddit di nome u/LegalBeagle1966 è uno dei tanti utenti innamorati di Claudia, una ragazza simile a una star del cinema che spesso condivide selfie seducenti, anche nudi, su questa piattaforma.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Microsoft ha appena annunciato che altre 12 aziende tecnologiche parteciperanno al suo programma AI for Good.

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

L'utente @mortecouille92 ha messo a frutto la potenza dello strumento di progettazione grafica Midjourney e ha creato versioni realistiche uniche di famosi personaggi di Dragon Ball come Goku, Vegeta, Bulma e l'anziano Kame. .

7 tecniche per migliorare le risposte ChatGPT

7 tecniche per migliorare le risposte ChatGPT

Semplicemente aggiungendo alcune condizioni o impostando alcuni scenari, ChatGPT può fornire risposte più pertinenti alle tue domande. Diamo un'occhiata ad alcuni modi in cui puoi migliorare la qualità delle tue risposte ChatGPT.

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Midjourney è un sistema di intelligenza artificiale che recentemente ha causato "febbre" nella comunità online e nel mondo degli artisti a causa dei suoi dipinti estremamente belli che non sono inferiori a quelli dei veri artisti.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Alcuni giorni dopo l’annuncio dell’epidemia da parte della Cina, con l’accesso ai dati globali sulle vendite di biglietti aerei, il sistema di intelligenza artificiale di BlueDot ha continuato a prevedere con precisione la diffusione del virus Corona di Wuhan a Bangkok, Seul, Taipei e Tokyo.