蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  騰訊開源超大混元視頻生成模型

發(fā)布日期:2024/12/3 17:59:31      瀏覽量:

        前段時間騰訊開源了應(yīng)該是當(dāng)前最大的 MoE LLM 和強大的 3D 生成模型,本來以為已經(jīng)夠強了,沒想到全線開花,今天又會發(fā)布了混元視頻生成相關(guān)模型?!?

        測試了一段時間混元視頻生成模型整體效果非常厲害,在美學(xué)表現(xiàn)、穩(wěn)定性、運動幅度的品質(zhì)上都是一流的,重要的是這個級別的模型還是開源的,直接把一堆二線模型殺穿了,非常期待更多的社區(qū)玩法和內(nèi)容?!?


今天的主要發(fā)布內(nèi)容有: 

  • 13B 的開源混元視頻生成模型(網(wǎng)頁端和 APP)

  • 基于說話音頻生成對應(yīng)的人物說話視頻項目(待上線)

  • 端到端的視頻自動配音模型(待上線)

  • 面部表情遷移模型(待上線)


模型技術(shù)介紹

HunyuanVideo 應(yīng)該是目前開源模型中參數(shù)最多、性能最強的文生視頻大模型。它包含130億參數(shù)?!?

混元視頻模型采用了時空壓縮的潛在空間設(shè)計,通過因果3D變分自編碼器進(jìn)行壓縮。模型使用大語言模型編碼文本提示作為條件,并結(jié)合高斯噪聲作為輸入來生成潛在表示,最后通過3D變分自編碼器解碼器生成圖像或視頻?!?

在架構(gòu)上,混元視頻模型采用了雙流到單流的混合設(shè)計。在雙流階段,視頻和文本標(biāo)記分別通過多個Transformer模塊獨立處理;在單流階段,將視頻和文本標(biāo)記連接起來進(jìn)行多模態(tài)信息融合?!?

模型創(chuàng)新地使用了多模態(tài)大語言模型作為文本編碼器,這種方式相比傳統(tǒng)的CLIP和T5-XXL具有更好的圖文對齊效果和復(fù)雜推理能力。為了增強文本特征,模型還引入了雙向token優(yōu)化器?!?

在實現(xiàn)細(xì)節(jié)上,模型使用了3D變分自編碼器來壓縮視頻空間,并提供了兩種提示詞重寫模式:普通模式側(cè)重準(zhǔn)確理解用戶意圖,大師模式則著重提升視覺質(zhì)量的描述?!?


如何使用

你現(xiàn)在可以在網(wǎng)頁端和元寶 APP 的 AI 應(yīng)用-AI 視頻位置在線使用混元視頻生成模型,目前只支持文生視頻、一個月左右會支持圖生視頻,而且還是免費的。 

官網(wǎng):https://aivideo.hunyuan.tencent.com 

代碼:https://github.com/Tencent/HunyuanVideo 

模型:https://huggingface.co/tencent/HunyuanVideo 

技術(shù)報告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf 




來個大佬的測試數(shù)據(jù),5秒視頻,顯存消耗和需要的時間



  業(yè)務(wù)實施流程

需求調(diào)研 →

團(tuán)隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生