Meta AI最近發(fā)布了一款名為Voicebox的通用語音生成AI模型,該模型具有突出的性能,并且可以合成六種語言的語音,支持多種語音功能。本文將介紹Voicebox的特點(diǎn)和應(yīng)用領(lǐng)域,并探討了語音生成技術(shù)的潛在濫用風(fēng)險。
一、Meta 發(fā)布語音生成 AI 模型 Voicebox
最近,Meta AI在生成式AI語音模型領(lǐng)域取得了重大突破,發(fā)布了一款名為Voicebox的通用語音生成AI模型。這個模型具有突出的性能,并且無需專門訓(xùn)練即可適應(yīng)多種語音生成任務(wù)。Meta AI的研究人員分享了多個音頻樣本和一篇詳細(xì)介紹他們方法和成果的研究論文。
Voicebox類似于圖像和文本生成系統(tǒng),可以創(chuàng)建多種樣式的輸出。不同之處在于,Voicebox不是生成圖片或文本,而是直接生成高質(zhì)量的音頻片段。該模型可以合成六種語言的語音,包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語,并且可以執(zhí)行噪聲去除、內(nèi)容編輯、風(fēng)格轉(zhuǎn)換和多樣化樣本生成等任務(wù)。
在Voicebox發(fā)布之前,生成式AI語音模型需要經(jīng)過精心準(zhǔn)備的訓(xùn)練數(shù)據(jù),并接受特定任務(wù)的訓(xùn)練。Voicebox采用了一種新方法,可以直接從原始音頻和隨附的轉(zhuǎn)錄結(jié)果中進(jìn)行學(xué)習(xí)。與只能根據(jù)給定音頻片段續(xù)寫結(jié)尾的自回歸模型不同,Voicebox可以修改給定樣本中的任意部分。
Voicebox具有出色的性能,可以執(zhí)行各種任務(wù),包括以下幾個方面:
1.結(jié)合上下文的文本到語音合成:
通過使用僅兩秒長的輸入音頻樣本,Voicebox可以匹配樣本的音頻風(fēng)格,并根據(jù)此生成文本到語音的輸出。這個功能將有望為無法說話的人提供語音支持,或者幫助游戲中的NPC和虛擬助手快速生成對話語音。
2.跨語言風(fēng)格轉(zhuǎn)換:
給定一段語音樣本和英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox可以生成對應(yīng)語言的朗讀音頻。這種能力令人興奮,未來可以幫助母語不同的人們以自然真實的方式進(jìn)行交流。
3.語音降噪與編輯:
Voicebox通過上下文學(xué)習(xí)具備強(qiáng)大的語音生成能力,可以無縫編輯音頻中的片段。它可以重新合成被噪聲干擾的語音部分,或者替換錯誤的詞,而無需重新錄制整段語音。用戶可以找到語音中被噪聲(如狗叫聲)干擾的原始片段,剪切出來,并指示模型重新生成。將來,這種能力還可以用于音頻的清洗和編輯,使用起來與目前流行的圖像編輯工具一樣簡單便捷。
4.多樣化語音采樣:
通過使用多樣化的真實數(shù)據(jù)進(jìn)行訓(xùn)練,Voicebox可以生成與真實對話高度吻合的六種語言對話音頻。這個功能將來可以用于生成合成數(shù)據(jù),以提高語音助手模型的訓(xùn)練效果。研究結(jié)果顯示,基于Voicebox生成的合成語音訓(xùn)練的語音識別模型在性能上幾乎與使用真實語音的模型相當(dāng),錯誤率降低了1%。與以往的文本到語音模型相比,使用合成語音數(shù)據(jù)進(jìn)行訓(xùn)練的錯誤率降低了45%至70%。
Voicebox的發(fā)布標(biāo)志著生成式AI研究在音頻領(lǐng)域邁出了重要的一步。具備任務(wù)泛化能力的可擴(kuò)展生成式AI模型已經(jīng)在文本、圖像和視頻生成等方面引起了人們對跨任務(wù)應(yīng)用潛力的濃厚興趣。Meta AI希望在音頻領(lǐng)域也能掀起同樣的潮流,并繼續(xù)深入挖掘和探索,關(guān)注其他研究人員如何在Voicebox的基礎(chǔ)上尋求新的突破。
Voicebox的問世將為語音生成領(lǐng)域帶來更多可能性,為語音技術(shù)的發(fā)展和應(yīng)用創(chuàng)造新的機(jī)會。隨著AI技術(shù)的不斷進(jìn)步,我們有理由期待語音生成能力的進(jìn)一步突破和創(chuàng)新,為人們的日常生活和工作帶來更多便利和可能性。
二、Flow Matching 技術(shù)背后的 Voicebox
目前,現(xiàn)有的語音合成工具存在一個主要限制,就是只能通過專門任務(wù)配備的數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)往往單調(diào)而干凈,數(shù)量也相對有限且難以獲取,因此導(dǎo)致輸出結(jié)果也變得單調(diào)。
為了克服這個問題,Meta AI 的研究人員開發(fā)了一項名為 Voicebox 的技術(shù),它基于 Flow Matching 技術(shù),是 Meta 在非自回歸生成模型領(lǐng)域的最新突破。Voicebox 能夠準(zhǔn)確地捕捉到文本到語音之間高度不確定的映射關(guān)系。非確定性映射是非常關(guān)鍵的,因為它使得 Voicebox 能夠從各種語音數(shù)據(jù)中學(xué)習(xí),而無需對各種變化要素進(jìn)行詳細(xì)標(biāo)注。換句話說,Voicebox 能夠在更加多樣化和規(guī)模更大的數(shù)據(jù)上進(jìn)行訓(xùn)練。
與目前最先進(jìn)的英語模型 VALL-E 相比,Voicebox 在可懂度(即單詞錯誤率)和音頻相似度方面表現(xiàn)更強(qiáng)。在單詞錯誤率方面,VALL-E 的錯誤率為 5.9%,而 Voicebox 僅為 1.9%。在音頻相似度方面,VALL-E 的得分為 0.580,而 Voicebox 達(dá)到了 0.681。此外,Voicebox 的速度還比 VALL-E 快了 20 倍。在跨語言風(fēng)格遷移方面,Voicebox 也優(yōu)于領(lǐng)先的模型 YourTTS。Voicebox 能夠?qū)⑵骄鶈卧~錯誤率從 10.9% 降低至 5.2%,并將音頻相似度從 0.335 提高至 0.481。
為了訓(xùn)練 Voicebox,研究人員使用了超過 5 萬小時的語音錄音數(shù)據(jù),以及來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公共有聲讀物轉(zhuǎn)錄。經(jīng)過訓(xùn)練,Voicebox 可以根據(jù)給定的前后語音和片段轉(zhuǎn)錄數(shù)據(jù)來預(yù)測語音片段。它還可以根據(jù)上下文自動補(bǔ)全語音,這使得它可以應(yīng)用于其他語音生成任務(wù),包括在無需重新生成整個輸入的情況下生成音頻的中間部分。
三、關(guān)注語音生成的濫用風(fēng)險
盡管Voicebox擁有許多令人興奮的用例,但Meta AI公司也意識到其存在潛在的濫用風(fēng)險,因此他們決定暫不公開Voicebox模型或代碼。Meta AI在社交平臺上公開表示:“與其他強(qiáng)大的人工智能創(chuàng)新技術(shù)一樣,我們認(rèn)為這項技術(shù)也可能會被濫用,造成意外傷害!
作為首個能夠成功執(zhí)行任務(wù)的多功能、高效泛化模型,Meta AI堅信Voicebox將開創(chuàng)生成式AI語音模型的新時代。然而,與其他強(qiáng)大的AI創(chuàng)新成果一樣,這項技術(shù)同樣可能因誤用而引發(fā)意外危害。為了應(yīng)對語音生成帶來的濫用風(fēng)險,Meta AI也正在構(gòu)建一款高效分類器,用于區(qū)分由Voicebox生成的音頻和真實語音,以緩解未來可能出現(xiàn)的各種風(fēng)險。這一舉措顯示了Meta AI對濫用風(fēng)險的關(guān)注和對技術(shù)發(fā)展的責(zé)任心。
四、總結(jié)
隨著Meta AI發(fā)布Voicebox模型,語音生成領(lǐng)域迎來了新的可能性。Voicebox的出現(xiàn)標(biāo)志著生成式AI研究在音頻領(lǐng)域的重要進(jìn)展,為語音技術(shù)的發(fā)展和應(yīng)用創(chuàng)造了新的機(jī)會。然而,我們也要意識到語音生成技術(shù)的濫用風(fēng)險,Meta AI對此表示關(guān)注,并采取了相應(yīng)的措施來應(yīng)對。隨著AI技術(shù)的不斷進(jìn)步,我們期待語音生成能力的進(jìn)一步突破和創(chuàng)新,為人們的生活和工作帶來更多便利和可能性,同時也需要明智地使用和監(jiān)管這項技術(shù),確保其正面效果的同時減少潛在風(fēng)險的出現(xiàn)。