Sora專家會議:模型技術(shù)、算力、應(yīng)用分析(真假自辯)
發(fā)布日期:2024/2/20 12:26:55 瀏覽量:
Sora專家會議:模型技術(shù)、算力、應(yīng)用分析(真假自辯)
1.技術(shù)原理與Sora模型影響深度剖析
-技術(shù)核心:OpenAl新近發(fā)布的"Sora"模型沿用了Diffusion與Transformer架構(gòu),結(jié)構(gòu)上并無顯著變化。
其創(chuàng)新點在于整合實時事件模擬和對初始文本的深層次運用,從而具備模擬現(xiàn)實世界事件的能力。然
而,關(guān)于該模型的實際表現(xiàn),當前尚缺乏充足的證據(jù)支持,需待大規(guī)模公開測試后才能做出確切評
估。
-運行機制概述Sora首先將視頻內(nèi)容轉(zhuǎn)化為基本視覺元素(patches),進而運用自身強大的語言模型能力
進行sequence-to-sequence處理。在此過程中,包括了視頻數(shù)據(jù)降維、隨機噪聲注入等步驟,最終生
成高質(zhì)量視頻。值得注意的是,該模型訓(xùn)練輸入不受特定格式限制,能吸收各類視頻數(shù)據(jù)以學(xué)習(xí)連續(xù)
性,并通過將視覺信息轉(zhuǎn)化為序列數(shù)據(jù),有效應(yīng)用seq2seq模型。
-成效關(guān)鍵因素:Sora模型可能得益于OpenAl提供的高質(zhì)量訓(xùn)練數(shù)據(jù)、獨特的模型架構(gòu)設(shè)計以及大量的
計算資源投入,這些可能是其表現(xiàn)出色的核心驅(qū)動力。盡管如此,要判斷Sora是否真正理解和掌握了
視頻中物理世界的內(nèi)在規(guī)律,還需進一步觀察和驗證,畢竟相較于真正的世界模擬器,目前所展現(xiàn)的
僅是表層效果。
2.訓(xùn)練素材與算力需求解析
-訓(xùn)練數(shù)據(jù)來源:據(jù)推測,在投資者會議上提及的Sora模型可能使用了大量高質(zhì)量虛擬數(shù)據(jù)作為訓(xùn)練素
材,旨在讓模型在真實視頻與虛擬引擎合成數(shù)據(jù)之間進行差異學(xué)習(xí),以實現(xiàn)更逼真的視頻生成效果。
-為算力及參數(shù)量考量:雖然具體信息有限,但根據(jù)內(nèi)部人士透露的數(shù)據(jù)初步估算,Sora模型可能需要
上千至數(shù)萬個GPU卡級別的算力資源,并歷經(jīng)約兩個月左右的訓(xùn)練周期。不過,這一估計較為粗略,
實際需求會受到多種因素(如輸入信息復(fù)雜度、處理器優(yōu)化程度等)的影響。
-市場對比分析:參會者普遍認為市場上的現(xiàn)有產(chǎn)品在視頻生成方面與Sora存在明顯的層級差距,這不
僅體現(xiàn)在視頻長度,更在于視頻質(zhì)量、內(nèi)容豐富度、逼真度及連貫性等多個維度。
3.Al創(chuàng)新帶來的挑戰(zhàn)與機遇
-OpenAl在多模態(tài)視頻領(lǐng)域迅速推出Sora模型,此舉緊跟在Google新產(chǎn)品發(fā)布之后,凸顯出OpenAl意
圖快速超越競爭對手的戰(zhàn)略布局,給市場帶來意外的速度沖擊,并提升了自身的不可預(yù)測性和競爭優(yōu)
勢。
-Al創(chuàng)業(yè)公司如Runway和Picasso要在視頻生成領(lǐng)域提出比肩或超越OpenAl的產(chǎn)品,則面臨巨大挑戰(zhàn)。
為應(yīng)對挑戰(zhàn),他們可能會選擇聚焦細分市場,通過找準特定應(yīng)用場景并率先打造一兩款成功案例來占
據(jù)市場份額,再逐步擴大應(yīng)用范圍和市場份額。
-大型視頻社交平臺密切關(guān)注新的視頻生成技術(shù)進展,其中OpenAl的數(shù)據(jù)模型尤為引人關(guān)注。相比之
下,盡管谷歌的ChatGPT模型同樣具有創(chuàng)新性和良好的實測表現(xiàn),但在關(guān)注度上卻相對較低,這顯示
了OpenAl在Al數(shù)據(jù)模型領(lǐng)域的領(lǐng)先地位。
4.探討Al應(yīng)用落地面臨的挑戰(zhàn)與前景展望
-Al技術(shù)的落地應(yīng)用不僅受限于技術(shù)本身,還受到人類接受度、社會環(huán)境、政策法規(guī)等諸多外部因素的
影響。共識達成速度的快慢取決于各方對Al的理解和期望值的一致性;而即便技術(shù)更新?lián)Q代速度快,
也可能推動行業(yè)進步,比如現(xiàn)今的Al雖未全面落地,但已在全球范圍內(nèi)引發(fā)廣泛關(guān)注,且尚未達到令
投資者失去信心的地步。
-對于像ChatGPT和視頻生成模型這樣的Al產(chǎn)品,商業(yè)化落地的過程中要考慮企業(yè)是否有尚未公布的強
大模型儲備,否則必須縮小與領(lǐng)先者的性能差距以實現(xiàn)真正意義上的商業(yè)化。軟件應(yīng)用場景廣泛,涉
及電商、娛樂、游戲開發(fā)、影視制作等領(lǐng)域,盡管已有應(yīng)用端倪初現(xiàn),但整體而言仍處于早期階段。
-在討論過擬合和數(shù)據(jù)質(zhì)量問題時,即使擁有海量數(shù)據(jù),Al模型依然存在無法準確捕捉實物運動等現(xiàn)
象,主要問題指向模型能力局限而非過擬合。
5.借助Sora模型探究Al的記憶與魯棒性
-改進策略:針對Sora模型在物理場景處理中的不足,首要解決措施是對包含墜落、碰撞等物理事件的
訓(xùn)練數(shù)據(jù)進行加權(quán)優(yōu)化,強化模型對此類場景的學(xué)習(xí)。其次,可通過調(diào)整模型結(jié)構(gòu),研發(fā)針對特定任
務(wù)的子模型或?qū)<揖W(wǎng)絡(luò),以增強模型在這類問題上的處理效能。
-長視頻生成與記憶魯棒性:提升模型生成長時間不露破綻的視頻能力,實質(zhì)上要求模型具備更強的上
下文記憶功能。這意味著需要進行高效的長序列建模,增強對序列長度的記憶保持能力,確保模型能
夠記住更多細節(jié)并維持長時間內(nèi)的視覺一致性,這依賴于模型卓越的推理能力和計算強度。-Sora與
GPT-5的關(guān)系探討:Sora模型底層架構(gòu)被認為與GPT系列緊密相關(guān),具備極強的文本理解能力,但由
于相關(guān)信息不明,無法確定其與GPT-5的具體關(guān)系版本。
Q&A
Q:有推測或者業(yè)界猜測Sora的訓(xùn)練語料和別人最大的不同是什么?是不是他的視頻數(shù)據(jù)比較多,或者存
在一些其它的缺陷?
A:Sora的模型如果真的如此先進,他們的訓(xùn)練語料一定有特別之處。大家有猜測,比如說使用虛幻引
擎的虛擬數(shù)據(jù)去生成,是非常有可能的,或者說大概率是有可能的。如果僅用的是真實的視頻,他可
能只學(xué)到真實的數(shù)據(jù)規(guī)律,沒有學(xué)到真實數(shù)據(jù)和合成數(shù)據(jù)之間的差別。為了改善這種情況,他應(yīng)該用
生成的數(shù)據(jù)和實際的數(shù)據(jù)進行對比和對抗學(xué)習(xí),這樣可以避免以往虛幻引擎生成的數(shù)據(jù)的錯誤。第
二,數(shù)據(jù)量僅是一方面,數(shù)據(jù)質(zhì)量也非常重要。這包括視頻的內(nèi)容及其配套的文字描述,肯定是非常
準確、精確,且能被模型或計算機理解的語言。
Q:有關(guān)于Sora的模型算力的測算嗎?他的算力的訓(xùn)練和推理要比過去提升到什么樣的程度?
A:很難進行精準的測算,因為這取決于很多工程細節(jié)。在極粗糙的估算中,如果是基于像素和幀數(shù)的
數(shù)據(jù)輸入,以及模型的參數(shù),我認為可能需要千卡到萬卡級別的訓(xùn)練,持續(xù)兩個月左右。但這個數(shù)字
可能和實際需求有很大的差距,我們現(xiàn)在得到的信息太有限了。
Q:OpenAl的Sora模型和其它競爭者(比如皮卡)之間有多大的差距?這個差距主要表現(xiàn)在什么地方?
A:顯然,從目前看,OpenAl的Sora和其它的模型之間是存在明顯的斷層式差距的。不僅僅體現(xiàn)在視頻
的長度(3秒或60秒),更主要的是在視頻的質(zhì)量、一致性、逼真度、還原程度以及視覺效果等各個方面。
所以,我們認為,這個差距遠大于視頻長度的差距。這就意味著,別的模型想要達到Sora的效果,不
僅僅是生成更長的視頻,更需要在內(nèi)容和質(zhì)量上做出重大的提升和改進。
Q:您之前對OpenAl的布局和發(fā)布有所疑惑,能具體解釋一下嗎?
A:我之前對OpenAl的布局和相關(guān)產(chǎn)品發(fā)布的速度感到十分驚訝。我早前預(yù)測OpenAl可能會在今年下半
年或年底提出一些重要產(chǎn)品,然而他們發(fā)布Sora的速度完全出乎我的意料。現(xiàn)在我無法判斷OpenAl接
下來的計劃及他們會提出怎么樣的新物品。它在等待更好的時機去釋放更重大的新聞。
Q:您如何看待Runway和PiCa等Al創(chuàng)新公司在視頻生成基礎(chǔ)賽道與OpenAl的競爭?
A:如果這些創(chuàng)業(yè)公司還想在Al視頻生成的基礎(chǔ)賽道上,去提出比OpenAl更好的模型,他們面臨的挑戰(zhàn)
是極大的。我覺得他們可能要找準一些具體的應(yīng)用場景,做好一兩個落地的產(chǎn)品,深入了解客戶需
求,占據(jù)一部分市場份額,然后利用他們在這一塊的優(yōu)勢拓展其他領(lǐng)域。并非一味地追求基礎(chǔ)模型的
通用能力。
Q:關(guān)于短視頻公司如何看待Al在視頻生成應(yīng)用中的使用,您有何看法?
A:從我了解的情況看,所有的短視頻公司,對于Al視頻生成都持非常謹慎的態(tài)度。一方面,Al視頻生成
的技術(shù)會降低內(nèi)容創(chuàng)作門檻,讓更多的人能夠生成符合網(wǎng)絡(luò)標準的視頻。但另一方面,如果大家都使
用Al生成逼真的視頻,對于短視頻的生態(tài),包括用戶經(jīng)驗可能會存在影響。一旦用戶分不清這個是真
人還是Al生成的,他們可能會感到被欺騙。而且,Al生成的視頻可能會帶來一些道德倫理方面的風(fēng)險。
因此,這些平臺一方面在布局自己的創(chuàng)作工具,另一方面會在Al生成視頻上面進行嚴格的監(jiān)管和控
制。
Q:那對于短視頻公司在大模型上的研發(fā)投入,他們有具體的產(chǎn)品雛形或計劃嗎?
A:他們現(xiàn)在主要的布局思路就是Alagent和Al創(chuàng)作工具。Alagent可以幫助用戶在其他人不在線時與Al
進行交流或分享事情。Al創(chuàng)作工具可以幫助用戶生成視頻、美化視頻、添加特效、背景或文案等。這
兩個方向也是蓋能最直接融入現(xiàn)有產(chǎn)品和業(yè)務(wù)的方向。
Q:有人評論說Google的Jimmee1.5表現(xiàn)有些夸大,您怎么看?
A:Jimmee1.5獨特的是它提供了長達1000K的上下文模型能力,對于處理超長上下文數(shù)據(jù)如幾千頁的技
術(shù)報告或幾萬行的代碼庫等扮演著關(guān)鍵角色。如果它的實際性能能夠達到宣稱的水平,那么它確實有
一定的實際工業(yè)應(yīng)用能力。盡管它和OpenAl的Sora并非直接競品,我認為它仍然值得我們高度關(guān)注。
Q:有沒有覺得SORA的發(fā)展可能帶來一些明顯的、更實際的業(yè)務(wù)應(yīng)用?
A:對SORA具體的應(yīng)用我并無法作出具體預(yù)測,因為Al和大模型技術(shù)的發(fā)展速度一直很快,我們期待它
的各種應(yīng)用,但實際落地的大型應(yīng)用并不多。雖然有一些小的玩具級應(yīng)用,但我們希望看到的大型、
廣泛使用的應(yīng)用還沒有出現(xiàn),這也需要一段時間才能看到成果。
Q:對于Sora模型技術(shù)的大規(guī)模落地,即使在技術(shù)力量支持下,卻仍然存在許多挑戰(zhàn)。請問這些挑戰(zhàn)具
體有哪些,以及您如何看待這種情況?
A:技術(shù)落地除了依賴于技術(shù)能力,還會受到許多技術(shù)以外的因素影響,如人類對Al的接受度和期望以及
社會認知等。許多人們對Al的迅猛發(fā)展持抗議態(tài)度,覺得Al有可能反噬人類。此外,政策制定者對Al的
態(tài)度若未在短時間內(nèi)形成統(tǒng)一,可能會導(dǎo)致技術(shù)發(fā)展方向未能達成共識。若技術(shù)迭代過快,可能會帶
來許多問題,如核武器一樣,這是一種極具破壞性的武器,其審批和應(yīng)用等監(jiān)管需要十分嚴格。因
此,我個人認為Al技術(shù)的未能快速落地并非全是壞事。事實上,盡管OpenAl或其他公司的Al技術(shù)未能
快速落地,投資資金仍旺盛且全世界對Al領(lǐng)域的關(guān)注度仍十分高。這表明,對于Al短期無法落地這個問
題,并不會對其未來的發(fā)展造成較大影響。
Q:關(guān)于Sora模型短期無法產(chǎn)生實質(zhì)性商業(yè)化落地的問題,您對此有何看法?
A:首先,對于新技術(shù)的商業(yè)化落地,一定會有期待其能帶來驚艷效果和快速打開市場的厚望。但現(xiàn)實
情況往往并非如此,Sora模型也不例外。除非OpenAl還有隱藏的、強大的模型沒有釋放,否則以現(xiàn)在
的模型性能,我估計在電商、可控生成、游戲制作、娛樂產(chǎn)業(yè)、室內(nèi)裝修等領(lǐng)域的落地還需要彌補一定
的差距。過早地投入這個領(lǐng)域,可能并不十分合理。然而,我也能透露,且前已經(jīng)有一些大公司正
在布局相關(guān)業(yè)務(wù),比如Amazon就正在進行Alagent的開發(fā),包括國內(nèi)也有電商公司在進行相關(guān)工作。
此外,也有創(chuàng)業(yè)公司正在利用小型模型生成室內(nèi)設(shè)計創(chuàng)意,解決人們的日常生活問題。盡管我們現(xiàn)在
并未看到令人非常興奮的應(yīng)用機會,但已經(jīng)有了這樣的端倪。因此,我認為,Al將應(yīng)用于實際生活的
時代并不會太遠。
Q:關(guān)鍵幀對于這個模型的重要性,可以具體解釋一下在視頻制作與渲染過程當中,關(guān)鍵幀的提取和其
所占比例嗎?
A:關(guān)鍵幀的提取并不是一個新技術(shù),以前就有成型技術(shù)用來提取關(guān)鍵幀。但是這只是從技術(shù)上說,確
定關(guān)鍵幀更多地依賴于關(guān)鍵幀本身包含的信息以及背后的物理知識。我們可以借助工具從全局和局部
的角度進行提取。比如通過視頻中的物體運行軌跡、內(nèi)容理解、顏色變化或者畫面邊界及物體位置等
方法。關(guān)鍵幀的提取并不那么容易以依賴于算法,一部分依賴于模型復(fù)雜度,一部分則依賴于大量的
數(shù)據(jù),有許多這樣的數(shù)據(jù)可以喂給模型,讓它理解哪些幀是關(guān)鍵幀。
Q:您對于這種情況,有關(guān)鍵幀提取是不是關(guān)鍵所產(chǎn)生的疑問,能具體描述一下嗎?
A:確實我現(xiàn)在的疑問主要是關(guān)于Sora是如何識別和生成關(guān)鍵幀的。我們看到視頻里的很多現(xiàn)象,事實
上已經(jīng)在訓(xùn)練數(shù)據(jù)里見過了,而且理應(yīng)能學(xué)習(xí)到一些物理學(xué)的規(guī)則。但在實際輸出時,像水流動或人
行走等規(guī)則卻未被學(xué)到,令我疑惑它的真正原因是什么。我認為,這主要是因為雖然模型已經(jīng)有了一
些弱視覺,但可能是在模型的部分通道中沒有被賦予足夠的權(quán)重,導(dǎo)致這些知識并沒能在最終輸出的
視頻中得以體現(xiàn)。所以我們需要深入了解這個模型的更多細節(jié)來解決這個問題。
Q:剛才您也提到數(shù)據(jù)質(zhì)量的問題,特別是關(guān)于過擬合問題,您能進一步闡述一下嗎?
A:過擬合是學(xué)習(xí)問題中的一個基礎(chǔ)問題,就是當模型過于復(fù)雜,又相對于訓(xùn)練數(shù)據(jù)過少時,可能就導(dǎo)
致模型過擬合。但從OpenAl的結(jié)果看來,并未看到明顯的過擬合痕跡,反倒是模型對某些應(yīng)當學(xué)到的
知識并未學(xué)到,這更像是模型表達能力的問題。我個人認為,雖然模型能力還有待提高,但是數(shù)據(jù)量
對于模型訓(xùn)練仍然是一個更重要的因素,而我并不認為OpenAl的訓(xùn)練數(shù)據(jù)中完全沒有這些基礎(chǔ)的物理
知識角色,所以我更認為這個是一個模型的問題,而不是數(shù)據(jù)的問題。以上就是整個問答的內(nèi)容,這
是基于投資者會議上講話者的講話進行的提煉和整理。
Q:您能分析一下,為什么 Sora的模型在處理一些特定問題上表現(xiàn)不佳,比如在處理碰撞、破裂、爆裂
類的任務(wù)中表現(xiàn)欠佳,是因為訓(xùn)練數(shù)據(jù)的問題,還是模型的問題?
A:我認為,對于Sora的模型存在的問題,可能主要有兩個來源。首先,訓(xùn)練數(shù)據(jù)可能不夠全面,如果
訓(xùn)練數(shù)據(jù)中沒有足夠的與碰撞、破裂、爆裂相關(guān)的數(shù)據(jù),模型的表現(xiàn)自然會受限。解決這個問題,一
種方法就是在訓(xùn)練數(shù)據(jù)中添加更多有這些過程的例子,并給這些例子增加權(quán)重,這樣模型在訓(xùn)練過程
中就會把這些情況學(xué)得更好。另外一個可能的問題是模型結(jié)構(gòu)本身,我們可能需要對模型的結(jié)構(gòu)進行
改進,比如引入專門處理物理效應(yīng)的子模型或者專家網(wǎng)絡(luò)。但這些分析都是基于模型現(xiàn)有的問題,并
沒有基于第一手的資料,所以只能作為一種大方向的討論。
Q:關(guān)于Sora模型的魯棒性,我看到它能生成長達一分鐘的視頻,這種長視頻的生成的能力是如何被建
立起來的?為什么他能生成這么長的視頻,還能保持一定的穩(wěn)定性?
A:生成長視頻需要更強的上下文記憶能力。如果你是生成一個一分鐘的視頻,在這個長序列中,模型
要記住更多具體的細節(jié),保持視覺的穩(wěn)定性,實際上就需要這個模型的推理能力和長期記憶能力更強。
這需要模型能在更長的時間窗口去做更多的attention,以及做長序列的建模。而長時間窗口保持視
覺穩(wěn)定所依賴的記憶能力,我認為應(yīng)該是模型迭代發(fā)展需要重點關(guān)注的方向。
Q:那么 Sora的這個模型是否跟GPT5有關(guān)聯(lián)?對于GPT5的能力和進展,你有何看法?
A:我確定Sora模型的基礎(chǔ)是GPT,因為GPT在文本理解能力方面非常強。無論是GPT的哪個版本,都提
供了強大的文本理解能力,這是Sora模型能實現(xiàn)其功能的關(guān)鍵。實際上,無論Sora的模型使用的是
GPT的哪一個版本,都是應(yīng)該基于其強大的文本理解能力。至于指向GPT5,我確信它在技術(shù)層面上已
經(jīng)準備就緒,但OpenAl可能在尋找合適的時機發(fā)布。
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生