騰訊開源超大混元視頻生成模型
發(fā)布日期:2024/12/3 17:59:31 瀏覽量:
前段時間騰訊開源了應(yīng)該是當(dāng)前最大的 MoE LLM 和強大的 3D 生成模型,本來以為已經(jīng)夠強了,沒想到全線開花,今天又會發(fā)布了混元視頻生成相關(guān)模型?!?
測試了一段時間混元視頻生成模型整體效果非常厲害,在美學(xué)表現(xiàn)、穩(wěn)定性、運動幅度的品質(zhì)上都是一流的,重要的是這個級別的模型還是開源的,直接把一堆二線模型殺穿了,非常期待更多的社區(qū)玩法和內(nèi)容?!?
今天的主要發(fā)布內(nèi)容有:
-
13B 的開源混元視頻生成模型(網(wǎng)頁端和 APP)
-
基于說話音頻生成對應(yīng)的人物說話視頻項目(待上線)
-
端到端的視頻自動配音模型(待上線)
-
面部表情遷移模型(待上線)
模型技術(shù)介紹
HunyuanVideo 應(yīng)該是目前開源模型中參數(shù)最多、性能最強的文生視頻大模型。它包含130億參數(shù)?!?
混元視頻模型采用了時空壓縮的潛在空間設(shè)計,通過因果3D變分自編碼器進(jìn)行壓縮。模型使用大語言模型編碼文本提示作為條件,并結(jié)合高斯噪聲作為輸入來生成潛在表示,最后通過3D變分自編碼器解碼器生成圖像或視頻?!?
在架構(gòu)上,混元視頻模型采用了雙流到單流的混合設(shè)計。在雙流階段,視頻和文本標(biāo)記分別通過多個Transformer模塊獨立處理;在單流階段,將視頻和文本標(biāo)記連接起來進(jìn)行多模態(tài)信息融合?!?
模型創(chuàng)新地使用了多模態(tài)大語言模型作為文本編碼器,這種方式相比傳統(tǒng)的CLIP和T5-XXL具有更好的圖文對齊效果和復(fù)雜推理能力。為了增強文本特征,模型還引入了雙向token優(yōu)化器?!?
在實現(xiàn)細(xì)節(jié)上,模型使用了3D變分自編碼器來壓縮視頻空間,并提供了兩種提示詞重寫模式:普通模式側(cè)重準(zhǔn)確理解用戶意圖,大師模式則著重提升視覺質(zhì)量的描述?!?
如何使用
你現(xiàn)在可以在網(wǎng)頁端和元寶 APP 的 AI 應(yīng)用-AI 視頻位置在線使用混元視頻生成模型,目前只支持文生視頻、一個月左右會支持圖生視頻,而且還是免費的。
官網(wǎng):https://aivideo.hunyuan.tencent.com
代碼:https://github.com/Tencent/HunyuanVideo
模型:https://huggingface.co/tencent/HunyuanVideo
技術(shù)報告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

來個大佬的測試數(shù)據(jù),5秒視頻,顯存消耗和需要的時間
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生