AI Microsoft mencipta suara yang realistik dengan hanya 200 sampel latihan

AI Microsoft mencipta suara yang realistik dengan hanya 200 sampel latihan

Algoritma teks-ke-ucapan moden mempunyai keupayaan yang menakjubkan. Bukti paling jelas ialah dua alat sumber terbuka yang dipanggil SpecAugment dan Translatotron, baru-baru ini dikeluarkan oleh Google. Khususnya, Translatotron boleh menterjemah sepenuhnya pertuturan seseorang terus ke bahasa lain sambil mengekalkan nada dan intonasi ayat tersebut. Walau bagaimanapun, kreativiti dalam teknologi tidak terhad dan sentiasa ada ruang untuk perkara yang lebih luar biasa.

AI Microsoft mencipta suara yang realistik dengan hanya 200 sampel latihan

Penyelidik kecerdasan buatan di Microsoft baru-baru ini membentangkan kertas kerja bertajuk "Almost Unsupervised Text to Speech and Automatic Speech Recognition," yang memperincikan sistem AI yang memanfaatkan pembelajaran tanpa pengawasan. Pembelajaran tanpa pengawasan - cabang teknologi pembelajaran mesin, membantu AI mempunyai keupayaan untuk mempelajari pengetahuan daripada data ujian tidak berlabel, terperingkat dan tidak berformat. Sistem AI daripada Microsoft ini membuat percikan besar apabila ia mencapai ketepatan dalam pemahaman bacaan dan pemprosesan perkataan sehingga 99.84%, dan pada masa yang sama, keupayaan simulasi pertuturan automatik juga dipertingkatkan kepada 11.7%. . Lebih mengagumkan, model pembelajaran mesin lanjutan ini hanya perlu menggunakan 200 klip audio dan transkripsi yang sepadan sebagai data latihan input.

Kunci untuk membangunkan model AI ini ialah Transformers, sejenis seni bina saraf yang dibina oleh pasukan saintis di Google Brain, cabang penyelidikan AI Google dan telah diperkenalkan dalam artikel teknologi yang mendalam pada 2017. Seperti semua rangkaian saraf dalam, Transformers mengandungi neuron (fungsi matematik yang "longgar" dimodelkan oleh neuron biologi) disusun dalam lapisan yang saling berkaitan untuk menghantar "isyarat" daripada data input dan secara beransur-ansur melaraskan kekuatan sinaptik - berat - setiap sambungan (iaitu bagaimana model mengekstrak ciri dan belajar untuk membuat ramalan). Walau bagaimanapun, Transformers juga mempunyai ciri unik: setiap elemen output akan disambungkan kepada semua elemen input dan pemberat di antara mereka dikira dengan sangat fleksibel.

AI Microsoft mencipta suara yang realistik dengan hanya 200 sampel latihan

Daripada realiti ini, penyelidik Microsoft meneruskan untuk memasukkan komponen Transformer ke dalam reka bentuk sistem AI mereka, membolehkan untuk menerima ucapan atau teks sebagai data input atau output. Dan para penyelidik memutuskan untuk mengambil sumber data LJSpeech yang tersedia secara terbuka - yang mengandungi 13,100 petikan audio Inggeris dan transkrip (transkrip) yang sepadan - sebagai data latihan untuk sistem AI. Seterusnya, pasukan penyelidik secara rawak memilih 200 daripada 13,100 petikan audio yang dinyatakan di atas untuk mencipta set data latihan, dan mereka juga mengambil kesempatan daripada komponen pengekodan penyahnodahan automatik untuk membina semula data. Struktur pertuturan dan teks rosak.

Hasilnya tidak buruk sama sekali. Melihat setiap coretan kecil, para penyelidik mendapati bahawa ia memberikan hasil yang lebih baik daripada algoritma asas yang digunakan dalam ujian. Dan beberapa sampel yang terhasil bunyi hampir sama seperti ia dicipta oleh manusia.

Sebagai contoh, ayat: "bentuk huruf bercetak hendaklah cantik dan susunannya pada halaman hendaklah munasabah dan membantu kepada bentuk huruf itu sendiri" akan dibaca seperti berikut:

Atau ayat: "terutamanya kerana tiada lagi masa yang diduduki atau kos yang ditanggung dalam penetapan pemutus atau mencetak huruf yang indah":

Melangkah ke hadapan, matlamat penyelidik adalah untuk menolak had teknologi pembelajaran tanpa pengawasan dengan memanfaatkan sepenuhnya data teks dan pertuturan yang tidak berpasangan, dengan bantuan kaedah lanjutan. Kaedah pra-penggalian tersedia. “Untuk tugasan ini, kami mencadangkan pendekatan yang hampir tidak diselia untuk pengecaman teks-ke-pertuturan dan pertuturan automatik, yang menggunakan hanya beberapa teks bercantum dan data pertuturan yang digabungkan dan sejumlah kecil data tambahan yang tidak digabungkan. Seperti yang ditunjukkan dalam eksperimen, komponen reka bentuk kami adalah penting untuk membangunkan keupayaan untuk menukar pertuturan dan teks dengan beberapa data yang digabungkan.

Butiran projek ini akan dibentangkan oleh Microsoft pada Persidangan Antarabangsa mengenai Pembelajaran Mesin yang berlangsung di Long Beach, California dari 10 hingga 15 Jun, dan pasukan penyelidik juga merancang untuk mengeluarkan sumber terbuka dalam beberapa minggu akan datang.


Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Badan yang menyatukan pemerhati privasi negara Eropah berkata pada hari Khamis ia telah menubuhkan pasukan petugas khusus untuk ChatGPT

AI meramalkan masa kematian manusia dengan ketepatan 78%.

AI meramalkan masa kematian manusia dengan ketepatan 78%.

Para saintis Denmark dan Amerika telah bekerjasama untuk membangunkan sistem AI yang dipanggil life2vec, yang mampu meramalkan masa kematian manusia dengan ketepatan yang tinggi.

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

Algoritma AI yang dipanggil Audioflow boleh mendengar bunyi kencing untuk mengenal pasti aliran tidak normal dan masalah kesihatan pesakit yang sepadan dengan berkesan dan berjaya.

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Penduduk Jepun yang semakin tua dan semakin berkurangan menyebabkan negara itu kekurangan sejumlah besar pekerja muda, terutamanya dalam sektor perkhidmatan.

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Pengguna Reddit bernama u/LegalBeagle1966 ialah salah satu daripada ramai pengguna yang terpikat dengan Claudia, seorang gadis seperti bintang filem yang sering berkongsi swafoto yang menggoda, malah bogel. di platform ini.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

Microsoft baru sahaja mengumumkan bahawa 12 lagi syarikat teknologi akan mengambil bahagian dalam program AI for Goodnya.

AI mencipta semula watak Dragon Ball dalam daging dan darah

AI mencipta semula watak Dragon Ball dalam daging dan darah

Pengguna @mortecouille92 telah meletakkan kuasa alat reka bentuk grafik Midjourney untuk berfungsi dan mencipta versi unik realistik watak Dragon Ball yang terkenal seperti Goku, Vegeta, Bulma dan Kame yang lebih tua. .

7 teknik untuk meningkatkan respons ChatGPT

7 teknik untuk meningkatkan respons ChatGPT

Hanya dengan menambah beberapa syarat atau menyediakan beberapa senario, ChatGPT boleh memberikan jawapan yang lebih berkaitan kepada pertanyaan anda. Mari lihat beberapa cara anda boleh meningkatkan kualiti respons ChatGPT anda.

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Midjourney ialah sistem kecerdasan buatan yang baru-baru ini menyebabkan "demam" dalam komuniti dalam talian dan dunia artis kerana lukisannya yang sangat cantik yang tidak kalah dengan lukisan artis sebenar.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Beberapa hari selepas China mengumumkan wabak itu, dengan akses kepada data jualan tiket penerbangan global, sistem AI BlueDot terus meramalkan dengan tepat penyebaran virus Wuhan Corona ke Bangkok, Seoul, Taipei dan Tokyo.