騰訊開源數(shù)字人模型DICE- TALK,可以控制數(shù)字人的情緒了
發(fā)布日期:2025/5/25 18:56:44 瀏覽量:
DICE-Talk 的全稱是“Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation”,其核心目標是解決當前情感化說話頭像生成(Emotional Talking Head Generation, ETHG)領(lǐng)域的三大挑戰(zhàn):
- ? 音頻情感線索的利用不足:現(xiàn)有方法未能充分利用音頻中固有的情感信息,導(dǎo)致生成的頭像情感表達不夠豐富。
- ? 情感表示中的身份泄露:情感表示通常與說話者的身份耦合,這會導(dǎo)致生成的頭像在身份一致性上出現(xiàn)問題。
- ? 情感相關(guān)性學習的孤立性:現(xiàn)有方法未能有效捕捉不同情感之間的關(guān)系,生成的頭像情感表達可能顯得不自然。
為了應(yīng)對這些挑戰(zhàn),DICE-Talk 提出一個新穎的框架,遵循“解耦身份,協(xié)作情感”的理念。具體而言:
- ? 該項目通過聯(lián)合建模音頻和視覺情感線索,確保情感表達獨立于身份。
- ? 它引入了可學習的情感庫(Emotion Banks),顯式捕捉不同情感之間的相關(guān)性。
- ? 通過潛在空間分類,確保擴散過程中的情感一致性。

項目在 MEAD 和 HDTF 數(shù)據(jù)集上的實驗結(jié)果表明,DICE-Talk 在情感準確性上超過了現(xiàn)有最先進的方法,同時保持了競爭性的唇同步性能。定性結(jié)果和用戶研究進一步證實,該方法能夠生成身份保持一致且情感豐富、相關(guān)性的頭像,能夠自然適應(yīng)未見過的身份。
模型結(jié)構(gòu)

DICE-Talk 的模型結(jié)構(gòu)設(shè)計精巧,旨在實現(xiàn)身份與情感的解耦以及情感之間的協(xié)作。以下是其主要組件的詳細描述:
身份解耦的情感嵌入器(Disentangled Emotion Embedder)
? 功能:聯(lián)合建模音頻和視覺情感線索。
? 方法:使用跨模態(tài)注意力機制,將音頻(例如語音信號)和視覺輸入(例如面部圖像)整合成情感表示。
? 特點:情感表示為與身份無關(guān)的高斯分布,確保生成的頭像情感不受說話者身份的影響。
? 作用:通過解耦身份和情感,防止身份信息泄露到情感表示中,從而提高生成頭像的通用性。
相關(guān)性增強的情感條件模塊(Correlation-Enhanced Emotion Conditioning Module)
情感歧視目標(Emotion Discrimination Objective)
? 功能:確保擴散過程中的情感一致性。
? 方法:通過潛在空間分類,強制生成的頭像在情感上與輸入一致。這意味著在生成過程中,模型會持續(xù)檢查生成的頭像是否符合預(yù)期的情感表達。
? 特點:通過潛在空間分類,增強了生成頭像的情感準確性,可能作為訓練過程中的損失函數(shù)的一部分。
? 作用:提高生成結(jié)果的情感可信度,確保最終頭像的情感表達與輸入音頻和視覺信息一致。
github地址:https://github.com/toto222/DICE-Talk
官方地址:https://toto222.github.io/DICE-Talk/
技術(shù)報告:https://arxiv.org/abs/2504.18087
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生