蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  多模態(tài)AI發(fā)展趨勢分析

發(fā)布日期:2024/2/22 15:55:19      瀏覽量:

1. AI國內(nèi)外對比與Sara技術(shù)應(yīng)用探討
在全球AI技術(shù)的發(fā)展浪潮中,OpenAI、Google(現(xiàn)Alphabet)及其子公司Meta等國際領(lǐng)軍企業(yè)憑借頂
尖的技術(shù)創(chuàng)新能力走在前列。國內(nèi)雖有大型科技公司在AI技術(shù)研發(fā)上有所建樹,但在原創(chuàng)技術(shù)和整合
能力方面尚存差距,頭部效應(yīng)明顯,中小型企業(yè)往往面臨較大競爭壓力。
盡管如此,我國在AI基礎(chǔ)研究領(lǐng)域貢獻顯著,如浦江實驗室、清華大學和北京大學的研究實力雄厚,
但如何將研究成果有效工程化并轉(zhuǎn)化為商業(yè)價值仍是一個亟待提升的關(guān)鍵環(huán)節(jié)。Sora技術(shù)的推出有望
為國內(nèi)參與者創(chuàng)造機遇,在傳媒行業(yè)中利用這些先進技術(shù)解決邏輯性問題,特別是在內(nèi)容創(chuàng)作和視頻
制作領(lǐng)域開辟新的商業(yè)路徑。

2. 多模態(tài)AI挑戰(zhàn)與未來趨勢分析
當前,復(fù)雜的solo模型結(jié)構(gòu)融合了擴散與Transformer架構(gòu),這可能導(dǎo)致在處理較長視頻時出現(xiàn)的問題
加劇,短期內(nèi)若沿用現(xiàn)有模型結(jié)構(gòu),解決此類難題較為困難。盡管存在上述挑戰(zhàn),solo模型在視頻產(chǎn)業(yè)
中仍有廣泛應(yīng)用前景,尤其是對于視頻渲染業(yè)務(wù),它有可能顛覆傳統(tǒng)流程,直接以AI生成視頻替代傳
統(tǒng)的渲染手段,對整個視頻行業(yè)帶來深刻變革。
盡管目前公開信息有限,但業(yè)界推測solo模型因其整合了多種前沿技術(shù),可能在效果表現(xiàn)上超越單一產(chǎn)
品,同時考慮到OpenAI在GPT模型、計算能力和數(shù)據(jù)積累上的優(yōu)勢,solo或?qū)⒋呱龈鼮檎鸷车膽?yīng)用
成果。

3. 國內(nèi)多模態(tài)AI在視頻生成領(lǐng)域的實踐與挑戰(zhàn)
在國內(nèi),廠商已在多模態(tài)AI技術(shù)上取得一定進展,然而由于高成本和使用難度等因素,過去這類技術(shù)
難以實現(xiàn)商業(yè)化落地,一度被視為昂貴且不易操作的解決方案。隨著Sara技術(shù)框架的披露,預(yù)期眾多
國內(nèi)廠商,特別是主要企業(yè)將會加快相關(guān)研發(fā)步伐。
國內(nèi)企業(yè)在推進多模態(tài)AI應(yīng)用過程中,面臨的最大難題之一是如何有效管理和確保生成內(nèi)容的安全
性,這一需求進一步加速了行業(yè)集中度的提升,擁有本土化內(nèi)容安全規(guī)則理解和實施能力的企業(yè)更具
競爭優(yōu)勢。
多模態(tài)AI在諸如廣告創(chuàng)意、影視制作、游戲設(shè)計等領(lǐng)域有著廣闊的應(yīng)用前景,能大幅提高生產(chǎn)效率并
革新創(chuàng)造性內(nèi)容產(chǎn)出方式,尤其在短視頻廣告制作上,運用此類技術(shù)可快速生成高質(zhì)量內(nèi)容,從而產(chǎn)
生極高的商業(yè)價值?,F(xiàn)階段,即使是針對一分鐘以內(nèi)的多鏡頭短視頻創(chuàng)作,其實現(xiàn)效果已經(jīng)足以滿足
實際需求。

4. 商業(yè)化進程中的挑戰(zhàn)與潛在影響
盡管在中國地區(qū)實現(xiàn)多模態(tài)AI技術(shù)的商業(yè)化可能存在一定的困難,但在海外市場,一旦成熟應(yīng)用,預(yù)
計大量影視制作公司、動畫工作室以及短視頻創(chuàng)作者會迅速跟進采用此技術(shù)。

在行業(yè)結(jié)合方向上,Sora技術(shù)有望在模擬和渲染虛擬環(huán)境與動態(tài)場景方面發(fā)揮重要作用,與M2空間視
頻技術(shù)及各類3D資產(chǎn)相結(jié)合。例如,游戲開發(fā)者或工作室可能會利用Sora接口開發(fā)出交互式的生成式
多模態(tài)游戲作品。
競爭格局演變方面,根據(jù)Sora的相關(guān)論文,該技術(shù)不僅可以基于文本生成視頻,還能根據(jù)現(xiàn)有圖像或
視頻進行編輯提示,未來很可能以此為基礎(chǔ)開發(fā)新型編輯工具,重塑行業(yè)格局。

5. 多模態(tài)AI發(fā)展前景與趨勢預(yù)判
展望未來,AI技術(shù)將衍生出能夠連接視頻與視頻片段、圖像與圖像之間關(guān)系的新一代工具,形成全新
的生產(chǎn)場景,并配套創(chuàng)新的生產(chǎn)工具。
當下,OpenAI在保持技術(shù)前沿性和將尖端技術(shù)快速轉(zhuǎn)化為產(chǎn)品的能力上似乎略勝谷歌一籌,尤其是在
網(wǎng)絡(luò)應(yīng)用廣泛普及和展示強大競爭力方面。盡管谷歌可能在超長文本處理能力上不斷提升至千萬字級
別,但從商業(yè)角度看,這種能力對OpenAI等競爭對手而言并非必要條件。

Q&A

Q:請您分享下新圖比特近期在多模態(tài)AI領(lǐng)域的工作進展,特別是對于AI大模型上線備案的心路歷程?
A:新圖比特的主要聚焦點是智能數(shù)字內(nèi)容資產(chǎn)的生產(chǎn),我們在利用AI生成技術(shù),包括多模態(tài)的文本、
圖像、音視頻等領(lǐng)域都有一定的涉足。特別是最近,我們的一個大模型績點華章,已成功完成了網(wǎng)信
辦的生成式人工智能大語言模型的上線備案,這也因不少跨部門的認可。我們其實從去年的11月份就
開始備案的準備工作,包括提交材料,以及在模型的訓練和產(chǎn)品的功能上,做各種各樣的修改和迭
代,以滿足一些國內(nèi)的合規(guī)和生產(chǎn)需求。所以,這個過程更像是給公司的一個洗禮。
Q:您能具體介紹下新圖比特在AI大模型的應(yīng)用上有哪些獨特優(yōu)勢嗎?
A:我們的大模型績點華章,特別是在服務(wù)大傳媒行業(yè)的方面,具有很多優(yōu)勢。例如對于內(nèi)容安全的需
求,我們做了更加強有力的保障??凕c華章有一個很強的特點是它在長文字或者高密度內(nèi)容的反饋能
力上,以及效果和效率上,較其他的模型有明顯優(yōu)勢。舉例來說,假如在出版行業(yè),一篇文章可能需
要處理10萬個,甚至幾十萬個字,我們的反饋時間要比其他模型快很多,也能更好地支持更高密度的
內(nèi)容和單詞識別。
Q:未來,您將如何工作以保持新圖比特在AI大模型應(yīng)用中的領(lǐng)先地位?
A:我們看到,其實目前國內(nèi)應(yīng)用端有明確方向并應(yīng)用模型的公司并不多,所以很多大廠也都在找我
們,政府端也給了我們很多支持。所以像什么算力,包括一些其他資源對我們來說也相對比較富裕一
些。我們將在新的一年中,繼續(xù)以大傳媒行業(yè)為重心發(fā)力,和我們的股東以及合作伙伴一起,深耕大
傳媒行業(yè)的賽道。
Q:對于當下AI大模型領(lǐng)域,您怎么看待國內(nèi)外的競爭格局?
A:國內(nèi)外的競爭格局其實是指在大模型應(yīng)用或者是技術(shù)進展的差距吧。
Q:OpenAI和GoogleMeta在AI領(lǐng)域的實力如何?國內(nèi)AI產(chǎn)業(yè)又處于什么位置?
A:OpenAI和GoogleMeta在AI領(lǐng)域享有著顯著的優(yōu)勢,他們都具有很強的實力。而國內(nèi)的大廠,雖然
能力也很強,但是本質(zhì)上仍處在稍次于前兩者之后的位置。這主要是由于AI領(lǐng)域的頭部效應(yīng)顯著,這
使得相比于傳統(tǒng)互聯(lián)網(wǎng)其競爭格局表現(xiàn)出更強的優(yōu)勝劣汰特性。
Q:國內(nèi)AI企業(yè)的基礎(chǔ)與整合能力如何?

A:國內(nèi)從基礎(chǔ)科研角度來說,具有一定的能力,但在整個技術(shù)的整合能力上來說,前沿性則還是稍微
有所不足,尤其是在0到1的創(chuàng)新能力上。然而,對于從1擴展至100的能力,也就是優(yōu)化、精細化及規(guī)
?;瘧?yīng)用的能力,我認為并不差。但綜合來看,由于AI領(lǐng)域的頭部效應(yīng)過于強大,因此對于實力稍弱
的廠商來說,如果在低端業(yè)務(wù)上與頭部廠商進行直接競爭,風險較高。
Q:對于AI領(lǐng)域,國內(nèi)與國外的科研貢獻有何區(qū)別?
A:主要的論文和突破性研究大多來自國外,但中國也有優(yōu)秀的機構(gòu)和大學積極參與研究并取得貢獻,
如浦江實驗室、清華大學和北京大學等。值得注意的是,盡管國內(nèi)有強大的基礎(chǔ)研究能力,但在工程
化轉(zhuǎn)化的能力上,國內(nèi)企業(yè)或機構(gòu)相對較弱。
Q:Sora為國內(nèi)參與者帶來了哪些機會?
A:Sora為內(nèi)容創(chuàng)建者帶來了催化效應(yīng),將激發(fā)一些新的內(nèi)容創(chuàng)作衍生的可能。并且,從技術(shù)角度看,
Sora的運行并不需要特別強大的算力支撐,這使得更多人能夠參與進來。具體來說,產(chǎn)業(yè)上的表現(xiàn)可
能會鮮明地體現(xiàn)在視頻渲染與版權(quán)內(nèi)容創(chuàng)作等環(huán)節(jié)。
Q:Sora在哪些方面帶來了更多機會?你覺得哪些細分賽道與AI相關(guān)并且有更大的機會?
A:結(jié)合AI的發(fā)展,我認為整個大傳媒賽道應(yīng)該都具有很大機會。具體而言,例如一些視頻方面的模
型,其實對于AI來說最大的困難是邏輯性問題,例如視覺表現(xiàn)的邏輯性和調(diào)度。但是在單鏡頭下的連
續(xù)性,目前已經(jīng)可以做得相對來說還可以,比如Sora更是在這個方面做出了優(yōu)秀的效果。
Q:Sora模型相比以前的模型更復(fù)雜,請問這種復(fù)雜性帶來的問題在短期內(nèi)有可能解決嗎?
A:模型復(fù)雜性確實帶來一些問題。比如視頻時間越長,由于模型的復(fù)雜性,算法所帶來的錯誤可能被
放大,導(dǎo)致視覺上的問題變得更明顯。而這個問題我認為在短期內(nèi)難以解決,除非誕生新的模型結(jié)
構(gòu)。然而,一分鐘內(nèi)的視頻,算法帶來的視覺問題可能不會被人察覺,即使是長視頻,一分鐘時間的
分鏡頭已經(jīng)是足夠長的。因此,無論是廣告、電影還是動畫,視頻類應(yīng)用基本可以適用這個一分鐘的
限制。
Q:Sora模型復(fù)雜,長視頻可能存在問題,這在投資層面上會有什么影響?
A:在投資層面上,我認為涉及到視頻行業(yè)的大型傳媒可能會有機會。然而,我看到的威脅來自于未來
渲染公司的風險,因為他們可能會被這些有模型的公司所替代。換句話說,無需渲染就可以直接生成
視頻,未來可能就會是導(dǎo)演、編劇、腳本后,模型自動生成視頻。
Q:Sora不采用transformer加擴散模型,是否是造成視頻模型沒有出現(xiàn)爆炸性效果的底層原因?是否
有其他像數(shù)據(jù)等因素的影響?
A:對于爆炸性效果沒有出現(xiàn),可能因素很多。這次的模型結(jié)構(gòu)復(fù)雜化是一個關(guān)鍵因素,然后又將OBI
過去一些的產(chǎn)品和技術(shù)做了整合,形成了一個新產(chǎn)品,可能這使得它比其他的一些產(chǎn)品效果更爆炸。
數(shù)據(jù)影響也是可能的,例如他可能使用了一些游戲引擎數(shù)據(jù)等。具體的細節(jié)部分,目前公開的信息有
限,所以我們現(xiàn)在只能做出猜測。
Q:騷擾模型在生成3D或者多維數(shù)據(jù)方面,是否有利于他在數(shù)據(jù)收集方面具有特殊性?
A:從目前公布的信息來看,他確實會使用一些游戲引擎的數(shù)據(jù),游戲引擎生成的數(shù)據(jù),其實視覺效果
往往具有更大的沖擊力。但具體的細節(jié)部分仍未公開,我們只能推測他可能使用了一些合成數(shù)據(jù)。
Q:您對于國內(nèi)廠商在多模態(tài)AI視頻方面的進展有什么了解?

A:多模態(tài)AI視頻發(fā)展是個趨勢,許多大廠都在投入相關(guān)研發(fā),但過去商業(yè)化進程較緩慢,背后是因為
技術(shù)開發(fā)成本高且易用性較差。而我們最早曾投入過相似項目,例如"人工智能交響樂團"這個項目,但
并未形成明確的商業(yè)化路徑。我預(yù)期在Sora技術(shù)框架的推動下,國內(nèi)將會有大量廠商進行跟進。
Q:這種跟進過程中,國內(nèi)廠商可能面臨的技術(shù)難點和門檻是什么?
A:我認為該趨勢與GPT類模型的發(fā)展類似,首先會有大量廠商和研究機構(gòu)投入大模型的研究和開發(fā),
同時也會開始積累大量數(shù)據(jù),主要是視頻類的數(shù)據(jù)。從整個時間窗口上看,大概需要1到2個月或2到3
個月的時間進行訓練。不過,國內(nèi)的廠商需要注意的是,生成式模型都會受到一定的管控,對于C端產(chǎn)
品,需要考慮到內(nèi)容安全類的風險。因此,我預(yù)測這一波國內(nèi)的發(fā)展會更加"頭部化"。
Q:多模態(tài)AI的技術(shù)應(yīng)用場景有哪些?對如影視制作、游戲或者短視頻廣告等行業(yè)的影響程度有多大?
A:多模態(tài)AI可以高效地生成樣式類視頻,具有很高的生產(chǎn)效率,這將對廣告行業(yè)、動畫或影視制作行
業(yè)產(chǎn)生強烈沖擊。AI具有很強的創(chuàng)意性,能給出不受人類限制、具有新穎性的結(jié)果。我預(yù)測對于影視
制作、特效、廣告等創(chuàng)新要求高的領(lǐng)域,將產(chǎn)生巨大影響。因為AI技術(shù)能生產(chǎn)出一些像外太空、微觀
世界等的科幻主題的視頻,這對于吸引年輕人有著極大的優(yōu)勢。
Q:對短時間廣告,是否意味著它們可以被新的AI技術(shù)所替代?
A:對于一些短持續(xù)時間的廣告,AI的確能進行高效、高質(zhì)量的生成,即使現(xiàn)在的多模態(tài)視頻以一分鐘
為限制,因為大部分鏡頭的持續(xù)時間遠小于一分鐘。即使是一些只有幾秒鐘的短視頻,也能以高效的
方式生成。但是如果是鏡頭與鏡頭之間的銜接,主要取決于判斷和匹配能力,需要注意的是如果這個
能力不強,可能會導(dǎo)致銜接的效果不佳。
Q:Sora模型的商業(yè)化發(fā)展,產(chǎn)業(yè)內(nèi)后續(xù)有何看法?
A:商業(yè)化的情況相對復(fù)雜。對于中國區(qū)來說,由于外部政策影響,獲取測試賬號較為困難,申請流程
甚至可能比OpenAI初次推出GPT時更復(fù)雜。而對于海外市場,由于相對開放的政策環(huán)境,我預(yù)測很多
海外影視公司、動畫公司甚至短視頻網(wǎng)紅等可能會迅速跟進,開展Sora模型的應(yīng)用。
Q:Sora模型是否對模擬和渲染虛擬環(huán)境以及動態(tài)生成3D資產(chǎn)有幫助?是否與像蘋果的M2,空間視頻
以及一些3D資產(chǎn)有結(jié)合性?
A:Sora模型在MR領(lǐng)域的應(yīng)用確實有一定的潛力,其可以創(chuàng)建優(yōu)秀的虛擬環(huán)境并生成3D資產(chǎn)。具體到
與M2等交互類游戲的整合,我認為Sora模型可以服務(wù)于一些短鏡頭或短事件的體驗,比如可用于后端
服務(wù)端實現(xiàn)快速的實時渲染。此外,我預(yù)測未來可能有游戲開發(fā)者或工作室利用Sora模型接口開發(fā)生
成式多模態(tài)的游戲,應(yīng)用可能包括養(yǎng)成類游戲或者第一視覺FPS游戲等。
Q:對于Sora模型可能基于文本生成視頻,或者基于現(xiàn)有的圖像或視頻進行編輯,執(zhí)行廣泛的圖像和
視頻任務(wù),如會不會覆蓋原有的編輯工具,您有何看法?
A:Sora模型確實展示了在圖像和視頻編輯任務(wù)中很大的潛力,包括創(chuàng)建完美循環(huán)的視頻動畫、靜態(tài)圖
像等。其能夠基于文本生成視頻,也可以基于現(xiàn)有的圖像或者視頻進行編輯。未來可能會有基于sara
的新編輯工具出現(xiàn),對原有播主產(chǎn)生一定的顛覆性影響,這也是避免不了的發(fā)展趨勢。
Q:如何看待視頻和視頻之間的粘合以及未來可能出現(xiàn)的新輔助類工具?
A:這個確實是未來發(fā)展的重要方向,尤其是當我們處理視頻內(nèi)容、圖像或者網(wǎng)絡(luò)編輯等多模態(tài)的場景
時。這是一個新的生產(chǎn)場景,必然會帶來新的生產(chǎn)工具。雖然目前還沒有特定的工具進行實踐,但在

美國已經(jīng)有一些創(chuàng)業(yè)公司開始研究此類工具,這可以看作是工作流領(lǐng)域的一種迭代或創(chuàng)新。關(guān)于是否
有大型公司會投入這個領(lǐng)域的問題,我并不確定,但我相信大概率應(yīng)該會有創(chuàng)業(yè)公司自己去做。
Q:對比Google模型和OpenAI的大型模型,你認為有哪些差異?
A:目前看來,Google可能會更專注于研究領(lǐng)域,例如它們在處理超長文本領(lǐng)域的研究,雖然我們也
在該領(lǐng)域有所涉獵,但相較之下Google可能會走得更遠,將這個能力進一步提升。然而,盡管Google
在研發(fā)上有優(yōu)勢,但在將技術(shù)前沿性轉(zhuǎn)化為產(chǎn)品的能力上,OpenAI的表現(xiàn)會更加出色。這是因為公開
的科研成果對所有人開放,大家實際競爭的是將學術(shù)成果整合進產(chǎn)業(yè)的能力,而在這一點上,OpenAI
的預(yù)見性和先進性更強,它的綜合能力也更具競爭力。
Q:當前OpenAI的領(lǐng)先地位是如何得到的?
A:OpenAI的領(lǐng)先地位主要來自于它的大模型和硬件資源,這使得它在全球范圍內(nèi)都保持領(lǐng)先。而在
處理像視頻這樣的多模態(tài)問題方面,我們也取得了一些突破,比如通過AI技術(shù)產(chǎn)生長達60秒的視頻,
這在目前的市場對手中是領(lǐng)先的。
Q:有沒有對AI及多模態(tài)模型的未來發(fā)展的一些看法?
A:對,我認為多模態(tài)模型未來的發(fā)展?jié)摿薮?,無論是在處理視頻,圖像還是網(wǎng)頁編輯等方面,都將
有很大發(fā)展。尤其是中國的大型AI模型在全球的發(fā)展中,也在持續(xù)跟進并有機會追趕國際潮流。并
且,國內(nèi)的AI研發(fā)在很多垂直的細分領(lǐng)域也有所突破,展示出強大的發(fā)展?jié)摿Α?/span>




  業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生