微軟的 AI 只需 200 個訓練樣本即可創建逼真的聲音

微軟的 AI 只需 200 個訓練樣本即可創建逼真的聲音

現代文字轉語音演算法擁有驚人的功能。最明顯的證據是谷歌最近發布的兩個開源工具SpecAugment和Translatotron。特別是,Translatotron 可以將一個人的語音直接完全翻譯成另一種語言,同時仍保留句子的語氣和語調。然而,科技的創造力是無限的,總有空間創造更多非凡的事物。

微軟的 AI 只需 200 個訓練樣本即可創建逼真的聲音

微軟的人工智慧研究人員最近發表了一篇題為「幾乎無監督的文本到語音和自動語音識別」的論文,詳細介紹了利用無監督學習的人工智慧系統。無監督學習是機器學習技術的一個分支,幫助人工智慧擁有學習知識的能力來自未標記、分類和未格式化的測試資料。微軟的這套AI系統引起了轟動,閱讀理解和文字處理的準確率達到了99.84%,同時自動語音模擬能力也提高到了11.7%。更令人印象深刻的是,這種先進的機器學習模型只需要使用 200 個音訊片段和相應的轉錄作為輸入訓練資料。

開發這種AI 模型的關鍵是Transformers,這是由Google AI 研究部門Google Brain 的科學家團隊構建的神經架構,並在2017 年的一篇深度技術文章中進行了介紹。與所有深度神經網路一樣,Transformers包含神經元(由生物神經元“鬆散”建模的數學函數)排列在互連的層中,以傳輸來自輸入數據的“信號”,並逐漸調整每個連接的突觸強度- 權重(這就是模型提取特徵並學習的方式)作出預測)。然而,Transformers 還具有一個獨特的功能:每個輸出元素都將連接到所有輸入元素,並且它們之間的權重計算得非常靈活。

微軟的 AI 只需 200 個訓練樣本即可創建逼真的聲音

基於這個現實,微軟研究人員開始將 Transformer 元件納入他們的 AI 系統設計中,從而可以接收語音或文字作為輸入或輸出資料。研究人員決定採用公開的 LJSpeech 資料來源——其中包含 13,100 條英語音訊摘錄和相應的文字記錄(transcripts)——作為 AI 系統的訓練資料。接下來,研究團隊從上述 13,100 個音訊摘錄中隨機選擇了 200 個來創建訓練資料集,並且他們還利用自動去噪編碼組件來重建數據,語音和文字結構被破壞。

結果還不錯。研究人員查看每個小片段,發現它比測試中使用的基本演算法給出了更好的結果。一些由此產生的樣本聽起來很像是人類創造的。

例如,這句話:「印刷字母的形式應該美觀,它們在頁面上的排列應該合理,有助於字母本身的形狀」可以讀作如下:

或者這句話:「特別是不再需要花費更多的時間或成本來鑄造設定或印刷漂亮的字母」:

展望未來,研究人員的目標是透過先進方法的幫助,充分利用不成對的文字和語音數據,突破無監督學習技術的極限,其中預挖掘方法是可行的。「對於這項任務,我們提出了一種幾乎無監督的文本轉語音和自動語音識別方法,該方法僅使用少量串聯的文本和語音數據以及少量額外的未串聯數據。正如實驗所證明的,我們的設計組件對於開發使用一些串聯數據轉換語音和文字的能力至關重要。知道。

微軟將於 6 月 10 日至 15 日在加州長灘舉行的國際機器學習會議上介紹該專案的詳細信息,研究團隊還計劃在未來幾週內開源。


歐洲將成立ChatGPT工作小組

歐洲將成立ChatGPT工作小組

聯合歐洲國家隱私監管機構的機構週四表示,已成立一個專門負責 ChatGPT 的工作小組

AI預測人類死亡時間,準確率達78%

AI預測人類死亡時間,準確率達78%

丹麥和美國科學家合作開發了一種名為 life2vec 的人工智慧系統,能夠高精度預測人類死亡時間。

AI僅透過尿液聲音預測泌尿系統疾病

AI僅透過尿液聲音預測泌尿系統疾病

一種名為 Audioflow 的人工智慧演算法可以聆聽排尿的聲音,從而有效、成功地識別患者的異常尿流和相應的健康問題。

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

日本的老化和人口減少導致該國缺乏大量年輕工人,特別是在服務業。

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

名為 u/LegalBeagle1966 的 Reddit 用戶是眾多迷戀 Claudia 的用戶之一,Claudia 是一個電影明星般的女孩,經常在這個平台上分享誘人的自拍照,甚至是裸體的。

又有12家潛力公司加入微軟「AI聯盟」。

又有12家潛力公司加入微軟「AI聯盟」。

微軟剛剛宣布,又有 12 家科技公司將參與其 AI for Good 計畫。

AI有血有肉再現七龍珠角色

AI有血有肉再現七龍珠角色

使用者@mortecouille92利用圖形設計工具Midjourney的力量,創建了著名龍珠角色的獨特逼真版本,如悟空、貝吉塔、布瑪和老龜。

改善 ChatGPT 反應的 7 種技巧

改善 ChatGPT 反應的 7 種技巧

只需添加一些條件或設定一些場景,ChatGPT 就可以為您的查詢提供更相關的答案。讓我們看看可以提高 ChatGPT 響應品質的一些方法。

驚嘆人工智慧繪製的精美畫作

驚嘆人工智慧繪製的精美畫作

Midjourney是一個人工智慧系統,最近在網路社群和藝術家界引起了“熱潮”,因為它的畫作極其精美,不遜色於真正的藝術家。

這個人工智慧模型是最早發現武漢肺炎疫情消息的「專家」之一。

這個人工智慧模型是最早發現武漢肺炎疫情消息的「專家」之一。

在中國宣布疫情爆發幾天后,透過獲取全球機票銷售數據,BlueDot 的人工智慧系統繼續準確預測武漢冠狀病毒向曼谷、首爾、台北和東京的傳播。