Meta 推出 Voicebox，這是一個支援創作者音訊處理的 AI 模型

經過無數傳聞，Meta 終於正式發表了最新一代 AI 模型 Voicebox。該模型旨在幫助內容創作者有效地處理與語音生成相關的任務，例如音訊編輯、取樣和風格化，即使沒有特定的培訓也可以透過上下文中的資料實現。

Meta自信地肯定，這種新的人工智慧模式將“使世界各地的許多人受益”，而不僅僅是在內容創作領域。例如，幫助盲人用自己的聲音聽到短信，以及讓人們用自己的聲音說外語。

Voicebox 本身被宣傳為既能夠創建高品質的音訊剪輯，又能夠編輯預先錄製的音訊剪輯，以消除不必要的干擾，例如汽車喇叭，同時保留相同的多語言內容和風格（以六種不同語言生成語音）。Meta 計劃未來對該模型的開發包括為虛擬宇宙中的視覺助理或遊戲角色提供自然的聲音。

Meta 也將 Voicebox 與目前市場上其他支援音訊處理的 AI 模型進行了比較，特別是 Vall-E 和 YourTTS 等主要競爭對手。總體而言，Meta 的模型是先進的，在比較單字錯誤率和風格相似度時優於競爭對手。

Meta 推出 Voicebox，這是一個支援創作者音訊處理的 AI 模型

Voicebox 是建立在 Flow Matching 之上的。這是Meta最新的非自回歸生成模型，可以處理文字和語音之間高度不確定的映射。這使得 Voicebox 能夠從許多不同類型的語音資料中學習，而無需仔細標記它，從而使其有機會存取更多樣化和大規模的訓練資料。迄今為止，Voicebox 已接受了超過 50,000 小時的英語、法語、西班牙語、德語、波蘭語和葡萄牙語語音錄音和有聲讀物轉錄的訓練。

雖然這項技術可能會開創音頻處理人工智慧的新時代，但 Meta 承認它可能會帶來濫用和意外傷害的可能性。Meta 分享的有關 Voicebox 的研究論文詳細介紹了該公司如何建立一個高效的分類器，可以區分真實的聲音和由 Voicebox 產生的聲音。

Meta不會將AI Voicebox程式提供給公眾使用，也不會發布原始程式碼，至少目前是這樣。