蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  Heygen的開源平替:TANGO

發(fā)布日期:2024/10/24 9:28:59      瀏覽量:

Heygen的開源平替:TANGO


TANGO作為一個由學(xué)術(shù)界和工業(yè)界合作開發(fā)的開源項目,在技術(shù)創(chuàng)新和應(yīng)用靈活性上展現(xiàn)出了獨特的優(yōu)勢。與Heygen主要專注于面部表情和上半身動作不同,TANGO野心勃勃地瞄準(zhǔn)了全身動作生成這一更具挑戰(zhàn)性的目標(biāo)。想象一下,只需提供幾十秒的樣本視頻,TANGO就能生成無限量的、與音頻完美同步的全身動作視頻,這無疑為內(nèi)容創(chuàng)作者打開了一扇充滿可能性的大門。

TANGO最大的優(yōu)勢可能在于其開源性質(zhì)。這意味著開發(fā)者可以深入了解TANGO的工作原理,根據(jù)特定需求進(jìn)行調(diào)整,甚至將其與其他開源項目(如快手的LivePortrait)結(jié)合,創(chuàng)造出更加強大和多樣化的應(yīng)用。




TANGO的核心技術(shù)

TANGO的技術(shù)優(yōu)勢主要體現(xiàn)在以下幾個方面:

1、分層音頻運動嵌入(AuMoCLIP)

AuMoCLIP是TANGO的核心技術(shù)之一,它通過對比學(xué)習(xí)方法創(chuàng)建了一個隱式的層次化音頻-動作聯(lián)合嵌入空間。這種方法的優(yōu)勢在于:

  • 精確映射: 將語音音頻和動作數(shù)據(jù)映射到一個共同的潛在空間。

  • 距離關(guān)系: 確保匹配的音頻和動作在空間中的距離更近。

  • 高效檢索: 實現(xiàn)快速、精準(zhǔn)的動作檢索。

與傳統(tǒng)的基于規(guī)則的方法相比,AuMoCLIP能夠捕捉更細(xì)微的音頻-動作關(guān)系,從而生成更自然、更流暢的動作序列。

2、擴散插值網(wǎng)絡(luò)(ACInterp)

ACInterp是TANGO用于生成高質(zhì)量過渡幀的關(guān)鍵技術(shù):

  • 基礎(chǔ)模型: 建立在現(xiàn)有的視頻生成擴散模型之上。

  • 參考運動模塊: 確保生成的動作與參考視頻保持一致。

  • 單應(yīng)背景流: 保持背景的連貫性,避免常見的視覺偽影。

ACInterp的優(yōu)勢在于它能有效消除傳統(tǒng)基于光流的插值方法中常見的模糊和重影問題,生成更加真實、流暢的過渡動作。

3、動作圖檢索方法

TANGO采用了基于學(xué)習(xí)的動作圖檢索方法,這比簡單的音頻起始特征和關(guān)鍵詞匹配更加先進(jìn):

  • 靈活性: 能更好地處理不同說話者的動作與音頻起始不同步的情況。

  • 魯棒性: 有效解決參考視頻中缺少特定關(guān)鍵詞的問題。

  • 上下文理解: 通過學(xué)習(xí)理解更長時間序列的上下文關(guān)系。

4、圖結(jié)構(gòu)表示

TANGO使用有向圖結(jié)構(gòu)來表示視頻內(nèi)容:

  • 節(jié)點: 代表視頻幀。

  • 邊: 表示幀之間有效的轉(zhuǎn)換。

  • 子圖檢索: 根據(jù)目標(biāo)音頻提取時間特征,檢索最佳的視頻播放路徑子集。

  • 動態(tài)生成: 當(dāng)原始參考視頻中不存在轉(zhuǎn)換邊時,使用ACInterp生成平滑的過渡幀。

項目地址:https://pantomatrix.github.io/TANGO/



  業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生