Heygen的開源平替:TANGO
發(fā)布日期:2024/10/24 9:28:59 瀏覽量:
Heygen的開源平替:TANGO
TANGO作為一個由學(xué)術(shù)界和工業(yè)界合作開發(fā)的開源項目,在技術(shù)創(chuàng)新和應(yīng)用靈活性上展現(xiàn)出了獨特的優(yōu)勢。與Heygen主要專注于面部表情和上半身動作不同,TANGO野心勃勃地瞄準(zhǔn)了全身動作生成這一更具挑戰(zhàn)性的目標(biāo)。想象一下,只需提供幾十秒的樣本視頻,TANGO就能生成無限量的、與音頻完美同步的全身動作視頻,這無疑為內(nèi)容創(chuàng)作者打開了一扇充滿可能性的大門。
TANGO最大的優(yōu)勢可能在于其開源性質(zhì)。這意味著開發(fā)者可以深入了解TANGO的工作原理,根據(jù)特定需求進(jìn)行調(diào)整,甚至將其與其他開源項目(如快手的LivePortrait)結(jié)合,創(chuàng)造出更加強大和多樣化的應(yīng)用。


TANGO的核心技術(shù)
TANGO的技術(shù)優(yōu)勢主要體現(xiàn)在以下幾個方面:
1、分層音頻運動嵌入(AuMoCLIP)
AuMoCLIP是TANGO的核心技術(shù)之一,它通過對比學(xué)習(xí)方法創(chuàng)建了一個隱式的層次化音頻-動作聯(lián)合嵌入空間。這種方法的優(yōu)勢在于:
-
精確映射: 將語音音頻和動作數(shù)據(jù)映射到一個共同的潛在空間。
-
距離關(guān)系: 確保匹配的音頻和動作在空間中的距離更近。
-
高效檢索: 實現(xiàn)快速、精準(zhǔn)的動作檢索。
與傳統(tǒng)的基于規(guī)則的方法相比,AuMoCLIP能夠捕捉更細(xì)微的音頻-動作關(guān)系,從而生成更自然、更流暢的動作序列。
2、擴散插值網(wǎng)絡(luò)(ACInterp)
ACInterp是TANGO用于生成高質(zhì)量過渡幀的關(guān)鍵技術(shù):
-
基礎(chǔ)模型: 建立在現(xiàn)有的視頻生成擴散模型之上。
-
參考運動模塊: 確保生成的動作與參考視頻保持一致。
-
單應(yīng)背景流: 保持背景的連貫性,避免常見的視覺偽影。
ACInterp的優(yōu)勢在于它能有效消除傳統(tǒng)基于光流的插值方法中常見的模糊和重影問題,生成更加真實、流暢的過渡動作。
3、動作圖檢索方法
TANGO采用了基于學(xué)習(xí)的動作圖檢索方法,這比簡單的音頻起始特征和關(guān)鍵詞匹配更加先進(jìn):
-
靈活性: 能更好地處理不同說話者的動作與音頻起始不同步的情況。
-
魯棒性: 有效解決參考視頻中缺少特定關(guān)鍵詞的問題。
-
上下文理解: 通過學(xué)習(xí)理解更長時間序列的上下文關(guān)系。
4、圖結(jié)構(gòu)表示
TANGO使用有向圖結(jié)構(gòu)來表示視頻內(nèi)容:
-
節(jié)點: 代表視頻幀。
-
邊: 表示幀之間有效的轉(zhuǎn)換。
-
子圖檢索: 根據(jù)目標(biāo)音頻提取時間特征,檢索最佳的視頻播放路徑子集。
-
動態(tài)生成: 當(dāng)原始參考視頻中不存在轉(zhuǎn)換邊時,使用ACInterp生成平滑的過渡幀。
項目地址:https://pantomatrix.github.io/TANGO/
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生