阿里開源語音模型CosyVoice整合包0721更新版

  • A+
所屬分類:軟件下載

CosyVoice是通義實驗室依托大規(guī)模預(yù)訓(xùn)練語言模型,深度融合文本理解和語音生成的新一代生成式語音合成大模型,支持文本至語音的實時流式合成。可以應(yīng)用于:智能設(shè)備/機器人播報的語音內(nèi)容,如智能客服機器人、智能音箱、數(shù)字人、語音助手等。

音視頻創(chuàng)作中需要將文字轉(zhuǎn)為語音播報的場景,如小說閱讀、新聞播報、影視解說、劇本配音等。

CosyVoice則專注自然語音生成,支持多語言、音色和情感控制,支持中英日粵韓5種語言的生成,效果顯著優(yōu)于傳統(tǒng)語音生成模型。

僅需要3~10s的原始音頻,CosyVoice即可生成模擬音色,甚至包括韻律、情感等細節(jié),包括跨語種語音生成。而且CosyVoice支持以富文本或自然語言的形式,對生成語音的情感、韻律進行細粒度的控制,生音頻在情感表現(xiàn)力上得到明顯提升。

CosyVoice是一款基于語音量化編碼的語音生成大模型。它對語音進行離散化編碼,并依托大模型技術(shù),實現(xiàn)自然流暢的語音生成體驗。與傳統(tǒng)語音生成技術(shù)相比,

CosyVoice具有韻律自然、音色逼真等特點。CosyVoice支持多達5種語言,同時還支持以自然語言或富文本形式對生成語音進行情感等維度的細粒度控制。研究團隊提供了基模型CosyVoice-300M、經(jīng)過SFT微調(diào)后的模型CosyVoice-300M-SFT、以及支持細粒度控制的模型CosyVoice-300M-Instruct,可滿足不同場景下的使用需求。

通過與原始音頻以及最近大火的ChatTTS對比,可以發(fā)現(xiàn)CosyVoice的合成音頻在內(nèi)容一致性上更高,并且沒有很少存在幻覺額外多字的現(xiàn)象。CosyVoice很好地建模了合成文本中的語義信息,達到了與人類發(fā)音人相當(dāng)?shù)乃健4送猓ㄟ^對合成音頻進行重打分,能夠進一步降低識別的錯誤率,甚至在內(nèi)容一致性和說話人相似度上超越人類。

(文件包有預(yù)合成演示音頻,可自行聽取)

CosyVoice-300M本身具備一定從文本內(nèi)容中推斷情感的能力,經(jīng)過細粒度控制訓(xùn)練的模型,CosyVoice-300M-Instruct在情感分類中的得分更高,具備更強的情感控制能力。

資源下載此資源僅限注冊用戶下載,請先
版權(quán)信息:本資源僅供參考與學(xué)習(xí),版權(quán)歸原作者所有,嚴禁商用! 資源將使用多個網(wǎng)盤保證下載有效,點擊多個網(wǎng)盤地址不會重復(fù)扣金幣。 全部網(wǎng)盤失效請 聯(lián)系客服。虛擬商品,暫不支持退款!

歷史上的今天:

推薦應(yīng)用

發(fā)表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: