一区二区视频日韩免费,人人妻久久人人澡人人爽人人精品,伊人精品无码一区二区三区电影

騰訊開源數(shù)字人模型DICE- TALK，可以控制數(shù)字人的情緒了

發(fā)布日期：2025/5/25 18:56:44 瀏覽量：

DICE-Talk 的全稱是“Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation”，其核心目標是解決當(dāng)前情感化說話頭像生成（Emotional Talking Head Generation, ETHG）領(lǐng)域的三大挑戰(zhàn)：

? 音頻情感線索的利用不足：現(xiàn)有方法未能充分利用音頻中固有的情感信息，導(dǎo)致生成的頭像情感表達不夠豐富。
? 情感表示中的身份泄露：情感表示通常與說話者的身份耦合，這會導(dǎo)致生成的頭像在身份一致性上出現(xiàn)問題。
? 情感相關(guān)性學(xué)習(xí)的孤立性：現(xiàn)有方法未能有效捕捉不同情感之間的關(guān)系，生成的頭像情感表達可能顯得不自然。

為了應(yīng)對這些挑戰(zhàn)，DICE-Talk 提出一個新穎的框架，遵循“解耦身份，協(xié)作情感”的理念。具體而言：

? 該項目通過聯(lián)合建模音頻和視覺情感線索，確保情感表達獨立于身份。
? 它引入了可學(xué)習(xí)的情感庫（Emotion Banks），顯式捕捉不同情感之間的相關(guān)性。
? 通過潛在空間分類，確保擴散過程中的情感一致性。

項目在 MEAD 和 HDTF 數(shù)據(jù)集上的實驗結(jié)果表明，DICE-Talk 在情感準確性上超過了現(xiàn)有最先進的方法，同時保持了競爭性的唇同步性能。定性結(jié)果和用戶研究進一步證實，該方法能夠生成身份保持一致且情感豐富、相關(guān)性的頭像，能夠自然適應(yīng)未見過的身份。

模型結(jié)構(gòu)

DICE-Talk 的模型結(jié)構(gòu)設(shè)計精巧，旨在實現(xiàn)身份與情感的解耦以及情感之間的協(xié)作。以下是其主要組件的詳細描述：

身份解耦的情感嵌入器（Disentangled Emotion Embedder）

? 功能：聯(lián)合建模音頻和視覺情感線索。

? 方法：使用跨模態(tài)注意力機制，將音頻（例如語音信號）和視覺輸入（例如面部圖像）整合成情感表示。

? 特點：情感表示為與身份無關(guān)的高斯分布，確保生成的頭像情感不受說話者身份的影響。

? 作用：通過解耦身份和情感，防止身份信息泄露到情感表示中，從而提高生成頭像的通用性。

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新

騰訊開源數(shù)字人模型DICE- TALK，可以控制數(shù)字人的情緒了

相關(guān)性增強的情感條件模塊（Correlation-Enhanced Emotion Conditioning Module）

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

騰訊開源數(shù)字人模型DICE- TALK，可以控制數(shù)字人的情緒了

相關(guān)性增強的情感條件模塊（Correlation-Enhanced Emotion Conditioning Module）

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新

騰訊開源數(shù)字人模型DICE- TALK，可以控制數(shù)字人的情緒了