2019年国产精品看视频,亚洲国产美女久久久久,少妇无码专区视频网站

6款文字語(yǔ)音生成驅(qū)動(dòng)虛擬數(shù)字人說話的開源項(xiàng)目

發(fā)布日期：2025/4/16 23:34:16 瀏覽量：

一、FACEGOOD的Audio2Face

FACEGOOD 對(duì)輸入和輸出數(shù)據(jù)做了相應(yīng)的調(diào)整，聲音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽不再是模型動(dòng)畫的點(diǎn)云數(shù)據(jù)而是模型動(dòng)畫的 blendshape 權(quán)重。

FACEGOOD 主要完成 Audio2Face 部分，ASR、TTS 由思必馳智能機(jī)器人完成。如果你想用自己的聲音，或第三方的，ASR、TTS 可以自行進(jìn)行替換。當(dāng)然，F(xiàn)ACEGOOD Audio2face 部分也可根據(jù)自己的喜好進(jìn)行重新訓(xùn)練，比如你想用自己的聲音或其它類型的聲音，或者不同于 FACEGOOD 使用的模型綁定作為驅(qū)動(dòng)數(shù)據(jù)，都可以根據(jù)下面提到的流程完成自己專屬的動(dòng)畫驅(qū)動(dòng)算法模型訓(xùn)練。那么 Audio2Face 這一步的框架是什么樣呢？又如何制作自己的訓(xùn)練數(shù)據(jù)呢？

常規(guī)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練大致可以分為三個(gè)階段：數(shù)據(jù)采集制作、數(shù)據(jù)預(yù)處理和數(shù)據(jù)模型訓(xùn)練。第一階段，數(shù)據(jù)采集制作。這里主要包含兩種數(shù)據(jù)，分別是聲音數(shù)據(jù)和聲音對(duì)應(yīng)的動(dòng)畫數(shù)據(jù)。聲音數(shù)據(jù)主要是錄制中文字母表的發(fā)音，以及一些特殊的爆破音，包含盡可能多中發(fā)音的文本。而動(dòng)畫數(shù)據(jù)就是，在 maya 中導(dǎo)入錄制的聲音數(shù)據(jù)后，根據(jù)自己的綁定做出符合模型面部特征的對(duì)應(yīng)發(fā)音的動(dòng)畫；第二階段，主要是通過 LPC 對(duì)聲音數(shù)據(jù)做處理，將聲音數(shù)據(jù)分割成與動(dòng)畫對(duì)應(yīng)的幀數(shù)據(jù)，及 maya 動(dòng)畫幀數(shù)據(jù)的導(dǎo)出。第三階段就是將處理之后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入，然后進(jìn)行訓(xùn)練直到 loss 函數(shù)收斂即可。

二、Write-a-Speaker

github地址：github.com/FuxiVirtual…

Write-a-Speaker綜合了高保真的面部表情和頭部運(yùn)動(dòng)，并與文本情感、語(yǔ)音節(jié)奏和停頓相一致。具體來說，我們的框架包括一個(gè)獨(dú)立于說話人的階段和一個(gè)特定于說話人的階段。在與說話人無關(guān)的階段，我們?cè)O(shè)計(jì)了三個(gè)并行網(wǎng)絡(luò)，分別從文本中生成嘴巴、上臉和頭部的動(dòng)畫參數(shù)。在特定說話人階段，我們提出了一個(gè)3D人臉模型引導(dǎo)的注意網(wǎng)絡(luò)來合成針對(duì)不同個(gè)體的視頻。它將動(dòng)畫參數(shù)作為輸入，并利用注意遮罩操縱輸入個(gè)體的面部表情變化。此外，為了更好地在視覺運(yùn)動(dòng)（即面部表情變化和頭部移動(dòng)）和音頻之間建立真實(shí)的對(duì)應(yīng)關(guān)系，我們利用高精度的運(yùn)動(dòng)帽數(shù)據(jù)集，而不是依賴特定個(gè)體的長(zhǎng)視頻。在獲得視覺和音頻通信后，我們可以以端到端的方式有效地訓(xùn)練我們的網(wǎng)絡(luò)。對(duì)定性和定量結(jié)果的大量實(shí)驗(yàn)表明，我們的算法實(shí)現(xiàn)了高質(zhì)量的照片真實(shí)感對(duì)話頭部視頻，包括根據(jù)語(yǔ)音節(jié)奏進(jìn)行的各種面部表情和頭部運(yùn)動(dòng)，并超過了最先進(jìn)的水平。

三、AI-generated-characters

github地址：github.com/mitmedialab…

麻省理工學(xué)院媒體實(shí)驗(yàn)室（MIT Media Lab）的研究人員開源了一個(gè)虛擬角色生成工具。該工具結(jié)合了面部、手勢(shì)、語(yǔ)音和動(dòng)作領(lǐng)域的人工智能模型，可用于創(chuàng)建各種音頻和視頻輸出，一舉登上《Nature Machine Intelligence》。該項(xiàng)目主要用于音頻或視頻驅(qū)動(dòng)視頻，暫不支持文本驅(qū)動(dòng)視頻。主要用于醫(yī)療視頻或其他視頻通話時(shí)保護(hù)個(gè)人隱私視頻驅(qū)動(dòng)視頻，使著名的歷史或現(xiàn)代人栩栩如生。

四、Audio2Head

github地址：github.com/wangsuzhen/…

Audio2Head是基于一張參考照片，和說話音頻，生成口播視頻 one-shot talking head

兼顧生成的韻律和外表的相似，除了面部，考慮到了頭部的動(dòng)作，慮了背景區(qū)域的artifact

五、Omniverse Audio2Face

地址：www.nvidia.cn/omniverse/a…

Omniverse Audio2Face可以借助 NVIDIA 深度學(xué)習(xí) AI 技術(shù)，僅需一個(gè)音頻來源即可快速輕松生成表情豐富的面部動(dòng)畫。

六、LiveSpeechPortraits

github: github.com/YuanxunLu/L…

video: yuanxunlu.github.io/projects/Li…

LiveSpeechPortraits僅由超過 30 fps 的音頻信號(hào)驅(qū)動(dòng)，生成個(gè)性化的逼真語(yǔ)音頭動(dòng)畫。我們的系統(tǒng)包含三個(gè)階段。第一階段是深度神經(jīng)網(wǎng)絡(luò)，它提取深度音頻特征以及流形投影，以將這些特征投影到目標(biāo)人的語(yǔ)音空間。在第二階段，我們從投影的音頻特征中學(xué)習(xí)面部動(dòng)態(tài)和動(dòng)作。預(yù)測(cè)的運(yùn)動(dòng)包括頭部姿勢(shì)和上半身運(yùn)動(dòng)，其中前者由自回歸概率模型生成，該模型模擬目標(biāo)人的頭部姿勢(shì)分布。上半身運(yùn)動(dòng)是從頭部姿勢(shì)推斷出來的。在最后階段，我們從先前的預(yù)測(cè)中生成條件特征圖，并將其與候選圖像一起發(fā)送到圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)，以合成逼真的渲染。我們的方法可以很好地推廣到野生音頻，并成功合成高保真?zhèn)€性化的面部細(xì)節(jié)，例如皺紋、牙齒。我們的方法還允許顯式控制頭部姿勢(shì)。廣泛的定性和定量評(píng)估以及用戶研究證明了我們的方法優(yōu)于最先進(jìn)的技術(shù)。

轉(zhuǎn)載：blog.bfw.wiki/user12305/1…

一個(gè)開源項(xiàng)目：gitee.com/guiji-ai/du…

百度開源：cloud.baidu.com/product/bai…

百度AR：ar.baidu.com/#/ability

百度AR-SDK：github.com/baidu/ar-sd…

通過飛漿開源本地：github.com/JiehangXie/…

一個(gè)在線demo：demo.deepscience.cn/chatGPT/#/

業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

6款文字語(yǔ)音生成驅(qū)動(dòng)虛擬數(shù)字人說話的開源項(xiàng)目

一、FACEGOOD的Audio2Face

二、Write-a-Speaker

三、AI-generated-characters

四、Audio2Head

五、Omniverse Audio2Face

六、LiveSpeechPortraits

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新

一、FACEGOOD的Audio2Face

三、AI-generated-characters

五、Omniverse Audio2Face

六、LiveSpeechPortraits