中國首個 Sora 級模型 Vidu 發(fā)布:可生成最長 16 秒、最高 1080P 視頻
發(fā)布日期:2024/4/27 23:55:59 瀏覽量:
中國首個 Sora 級模型 Vidu 發(fā)布:可生成最長 16 秒、最高 1080P 視頻
北京生數科技今天出席中關村論壇未來人工智能先鋒論壇,攜手清華大學正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型 ——Vidu,被媒體和業(yè)內人士認為是國內首個 Sora 級別的視頻大模型。根據官方描述,Vidu 模型融合 Diffusion 與 Transformer,開創(chuàng)性創(chuàng)建了 U-ViT,支持一鍵生成長達 16 秒、分辨率高達 1080P 的高清視頻內容。
官方宣傳資料中演示了“畫室中的一艘船駛向鏡頭”、其海浪、船的效果非常逼真。
官方表示 Vidu 不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。
Vidu 是自 Sora 發(fā)布之后,全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并在加速迭代提升中。
Vidu 的快速突破源自于團隊在貝葉斯機器學習和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。
其核心技術 U-ViT 架構由團隊于 2022 年 9 月提出,早于 Sora 采用的 DiT 架構,是全球首個 Diffusion 與 Transformer 融合的架構。
2023 年 3 月,團隊開源了全球首個基于 U-ViT 融合架構的多模態(tài)擴散模型 UniDiffuser,率先完成了 U-ViT 架構的大規(guī)??蓴U展性驗證。
北京生數科技有限公司(簡稱“生數科技”)成立于2023年3月,核心團隊成員來自清華大學人工智能研究院,此外匯集了來自阿里、騰訊、字節(jié)等知名科技公司的頂尖人才,是全球范圍內領先的深度生成式算法研究團隊,擁有擴散概率模型底層創(chuàng)新研發(fā)能力。公司致力打造世界領先的多模態(tài)大模型,融合文本、圖像、視頻、3D等多模態(tài)信息,探索生成式AI在藝術設計、游戲制作、影視后期、內容社交等場景的商業(yè)賦能,通過AI提升人類的創(chuàng)造力和生產力。
官網:https://www.shengshu-ai.com/
視頻生成功能體驗報名表:https://shengshu.feishu.cn/share/base/form/shrcnWhu2dSaGw4ZYYd7nNGzTZd
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯系人:石先生/雷先生