6款文字語(yǔ)音生成驅(qū)動(dòng)虛擬數(shù)字人說話的開源項(xiàng)目
發(fā)布日期:2025/4/16 23:34:16 瀏覽量:
一、FACEGOOD的Audio2Face
github地址:github.com/FACEGOOD/FA…
FACEGOOD 對(duì)輸入和輸出數(shù)據(jù)做了相應(yīng)的調(diào)整,聲音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽不再是模型動(dòng)畫的點(diǎn)云數(shù)據(jù)而是模型動(dòng)畫的 blendshape 權(quán)重。
FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必馳智能機(jī)器人完成。如果你想用自己的聲音,或第三方的,ASR、TTS 可以自行進(jìn)行替換。當(dāng)然,F(xiàn)ACEGOOD Audio2face 部分也可根據(jù)自己的喜好進(jìn)行重新訓(xùn)練,比如你想用自己的聲音或其它類型的聲音,或者不同于 FACEGOOD 使用的模型綁定作為驅(qū)動(dòng)數(shù)據(jù),都可以根據(jù)下面提到的流程完成自己專屬的動(dòng)畫驅(qū)動(dòng)算法模型訓(xùn)練。那么 Audio2Face 這一步的框架是什么樣呢?又如何制作自己的訓(xùn)練數(shù)據(jù)呢?
常規(guī)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練大致可以分為三個(gè)階段:數(shù)據(jù)采集制作、數(shù)據(jù)預(yù)處理和數(shù)據(jù)模型訓(xùn)練。第一階段,數(shù)據(jù)采集制作。這里主要包含兩種數(shù)據(jù),分別是聲音數(shù)據(jù)和聲音對(duì)應(yīng)的動(dòng)畫數(shù)據(jù)。聲音數(shù)據(jù)主要是錄制中文字母表的發(fā)音,以及一些特殊的爆破音,包含盡可能多中發(fā)音的文本。而動(dòng)畫數(shù)據(jù)就是,在 maya 中導(dǎo)入錄制的聲音數(shù)據(jù)后,根據(jù)自己的綁定做出符合模型面部特征的對(duì)應(yīng)發(fā)音的動(dòng)畫;第二階段,主要是通過 LPC 對(duì)聲音數(shù)據(jù)做處理,將聲音數(shù)據(jù)分割成與動(dòng)畫對(duì)應(yīng)的幀數(shù)據(jù),及 maya 動(dòng)畫幀數(shù)據(jù)的導(dǎo)出。第三階段就是將處理之后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入,然后進(jìn)行訓(xùn)練直到 loss 函數(shù)收斂即可。
二、Write-a-Speaker
github地址:github.com/FuxiVirtual…
Write-a-Speaker綜合了高保真的面部表情和頭部運(yùn)動(dòng),并與文本情感、語(yǔ)音節(jié)奏和停頓相一致。具體來說,我們的框架包括一個(gè)獨(dú)立于說話人的階段和一個(gè)特定于說話人的階段。在與說話人無關(guān)的階段,我們?cè)O(shè)計(jì)了三個(gè)并行網(wǎng)絡(luò),分別從文本中生成嘴巴、上臉和頭部的動(dòng)畫參數(shù)。在特定說話人階段,我們提出了一個(gè)3D人臉模型引導(dǎo)的注意網(wǎng)絡(luò)來合成針對(duì)不同個(gè)體的視頻。它將動(dòng)畫參數(shù)作為輸入,并利用注意遮罩操縱輸入個(gè)體的面部表情變化。此外,為了更好地在視覺運(yùn)動(dòng)(即面部表情變化和頭部移動(dòng))和音頻之間建立真實(shí)的對(duì)應(yīng)關(guān)系,我們利用高精度的運(yùn)動(dòng)帽數(shù)據(jù)集,而不是依賴特定個(gè)體的長(zhǎng)視頻。在獲得視覺和音頻通信后,我們可以以端到端的方式有效地訓(xùn)練我們的網(wǎng)絡(luò)。對(duì)定性和定量結(jié)果的大量實(shí)驗(yàn)表明,我們的算法實(shí)現(xiàn)了高質(zhì)量的照片真實(shí)感對(duì)話頭部視頻,包括根據(jù)語(yǔ)音節(jié)奏進(jìn)行的各種面部表情和頭部運(yùn)動(dòng),并超過了最先進(jìn)的水平。
三、AI-generated-characters
github地址:github.com/mitmedialab…
麻省理工學(xué)院媒體實(shí)驗(yàn)室(MIT Media Lab)的研究人員開源了一個(gè)虛擬角色生成工具。該工具結(jié)合了面部、手勢(shì)、語(yǔ)音和動(dòng)作領(lǐng)域的人工智能模型,可用于創(chuàng)建各種音頻和視頻輸出,一舉登上《Nature Machine Intelligence》。該項(xiàng)目主要用于音頻或視頻驅(qū)動(dòng)視頻,暫不支持文本驅(qū)動(dòng)視頻。主要用于醫(yī)療視頻或其他視頻通話時(shí)保護(hù)個(gè)人隱私視頻驅(qū)動(dòng)視頻,使著名的歷史或現(xiàn)代人栩栩如生。
四、Audio2Head
github地址:github.com/wangsuzhen/…
Audio2Head是基于一張參考照片,和說話音頻,生成口播視頻 one-shot talking head
兼顧生成的韻律和外表的相似,除了面部,考慮到了頭部的動(dòng)作,慮了背景區(qū)域的artifact
五、Omniverse Audio2Face
Omniverse Audio2Face可以借助 NVIDIA 深度學(xué)習(xí) AI 技術(shù),僅需一個(gè)音頻來源即可快速輕松生成表情豐富的面部動(dòng)畫。
六、LiveSpeechPortraits
github: github.com/YuanxunLu/L…
video: yuanxunlu.github.io/projects/Li…
LiveSpeechPortraits僅由超過 30 fps 的音頻信號(hào)驅(qū)動(dòng),生成個(gè)性化的逼真語(yǔ)音頭動(dòng)畫。我們的系統(tǒng)包含三個(gè)階段。第一階段是深度神經(jīng)網(wǎng)絡(luò),它提取深度音頻特征以及流形投影,以將這些特征投影到目標(biāo)人的語(yǔ)音空間。在第二階段,我們從投影的音頻特征中學(xué)習(xí)面部動(dòng)態(tài)和動(dòng)作。預(yù)測(cè)的運(yùn)動(dòng)包括頭部姿勢(shì)和上半身運(yùn)動(dòng),其中前者由自回歸概率模型生成,該模型模擬目標(biāo)人的頭部姿勢(shì)分布。上半身運(yùn)動(dòng)是從頭部姿勢(shì)推斷出來的。在最后階段,我們從先前的預(yù)測(cè)中生成條件特征圖,并將其與候選圖像一起發(fā)送到圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò),以合成逼真的渲染。我們的方法可以很好地推廣到野生音頻,并成功合成高保真?zhèn)€性化的面部細(xì)節(jié),例如皺紋、牙齒。我們的方法還允許顯式控制頭部姿勢(shì)。廣泛的定性和定量評(píng)估以及用戶研究證明了我們的方法優(yōu)于最先進(jìn)的技術(shù)。
轉(zhuǎn)載:blog.bfw.wiki/user12305/1…
一個(gè)開源項(xiàng)目:gitee.com/guiji-ai/du…
百度開源:cloud.baidu.com/product/bai…
百度AR-SDK:github.com/baidu/ar-sd…
通過飛漿開源本地:github.com/JiehangXie/…
一個(gè)在線demo:demo.deepscience.cn/chatGPT/#/
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生