微軟的 AI 只需 200 個訓練樣本即可創建逼真的聲音

現代文字轉語音演算法擁有驚人的功能。最明顯的證據是谷歌最近發布的兩個開源工具SpecAugment和Translatotron。特別是，Translatotron 可以將一個人的語音直接完全翻譯成另一種語言，同時仍保留句子的語氣和語調。然而，科技的創造力是無限的，總有空間創造更多非凡的事物。

亞馬遜的人工智慧系統有助於將 Alexa 的語音辨識錯誤減少 15%。

微軟的人工智慧研究人員最近發表了一篇題為「幾乎無監督的文本到語音和自動語音識別」的論文，詳細介紹了利用無監督學習的人工智慧系統。無監督學習是機器學習技術的一個分支，幫助人工智慧擁有學習知識的能力來自未標記、分類和未格式化的測試資料。微軟的這套AI系統引起了轟動，閱讀理解和文字處理的準確率達到了99.84%，同時自動語音模擬能力也提高到了11.7%。更令人印象深刻的是，這種先進的機器學習模型只需要使用 200 個音訊片段和相應的轉錄作為輸入訓練資料。

開發這種AI 模型的關鍵是Transformers，這是由Google AI 研究部門Google Brain 的科學家團隊構建的神經架構，並在2017 年的一篇深度技術文章中進行了介紹。與所有深度神經網路一樣，Transformers包含神經元（由生物神經元“鬆散”建模的數學函數）排列在互連的層中，以傳輸來自輸入數據的“信號”，並逐漸調整每個連接的突觸強度- 權重（這就是模型提取特徵並學習的方式）作出預測）。然而，Transformers 還具有一個獨特的功能：每個輸出元素都將連接到所有輸入元素，並且它們之間的權重計算得非常靈活。

微軟的 AI 只需 200 個訓練樣本即可創建逼真的聲音

麻省理工學院致力於開發一種幾乎可以像人類一樣駕駛的人工智慧模型

基於這個現實，微軟研究人員開始將 Transformer 元件納入他們的 AI 系統設計中，從而可以接收語音或文字作為輸入或輸出資料。研究人員決定採用公開的 LJSpeech 資料來源——其中包含 13,100 條英語音訊摘錄和相應的文字記錄（transcripts）——作為 AI 系統的訓練資料。接下來，研究團隊從上述 13,100 個音訊摘錄中隨機選擇了 200 個來創建訓練資料集，並且他們還利用自動去噪編碼組件來重建數據，語音和文字結構被破壞。

結果還不錯。研究人員查看每個小片段，發現它比測試中使用的基本演算法給出了更好的結果。一些由此產生的樣本聽起來很像是人類創造的。

例如，這句話：「印刷字母的形式應該美觀，它們在頁面上的排列應該合理，有助於字母本身的形狀」可以讀作如下：

或者這句話：「特別是不再需要花費更多的時間或成本來鑄造設定或印刷漂亮的字母」：

日本人工智慧打造超逼真虛擬時裝模特

展望未來，研究人員的目標是透過先進方法的幫助，充分利用不成對的文字和語音數據，突破無監督學習技術的極限，其中預挖掘方法是可行的。「對於這項任務，我們提出了一種幾乎無監督的文本轉語音和自動語音識別方法，該方法僅使用少量串聯的文本和語音數據以及少量額外的未串聯數據。正如實驗所證明的，我們的設計組件對於開發使用一些串聯數據轉換語音和文字的能力至關重要。知道。