覆蓋200+服務場景,阿里通義大模型系列打造國內首個AI統(tǒng)一底座
發(fā)布日期:2022/9/5 9:42:57 瀏覽量:
機器之心原創(chuàng)
作者:杜偉
在大模型領域,阿里持續(xù)發(fā)力,用技術和思路創(chuàng)新走出一條不一樣的路。
時至今日,大模型已經成為整個 AI 產學界追逐的技術「寵兒」,煉大模型如火如荼,各式各樣參數不一、任務導向不同的大模型層出不窮。大模型具備效果好、泛化能力強等特點,進一步增強了 AI 的通用性,成為 AI 技術和應用的新基座。
具體到 NLP、CV 領域,基于文本、圖像、語音和視頻等單一模態(tài)的大模型在各自下游任務上不斷取得 SOTA 結果,有時甚至超越人類表現(xiàn)。單模態(tài)單任務似乎走到了極致。同時現(xiàn)實世界中的這些模態(tài)并不總是獨立存在,更多地是以跨模態(tài)的形式出現(xiàn)。
基于這些,預訓練大模型逐漸朝著大一統(tǒng)方向發(fā)展,希望單個模型能夠同時處理文本、圖像、音頻、視頻等多模態(tài)任務,即使現(xiàn)有模型無法做到也要留出能力空間。
目前,業(yè)界已經出現(xiàn)一些能夠處理多模態(tài)任務的通用模型,比如 DeepMind 的通用圖文模型 Flamingo 和通才智能體 Gato,MSRA 的 BEiT-3 等。這些都展現(xiàn)出了大模型突破單一模態(tài)和單一任務的巨大潛力,但在實現(xiàn)全模態(tài)全任務的通用性上依然面臨技術難點。大模型的訓練與落地應用也受到算力限制。
在國內,阿里達摩院一直以來深耕多模態(tài)預訓練,并率先探索通用統(tǒng)一大模型。去年,阿里達摩院先后發(fā)布多個版本的多模態(tài)及語言大模型,在超大模型、低碳訓練技術、平臺化服務、落地應用等方面實現(xiàn)突破。其中使用 512 卡 V100 GPU 實現(xiàn)全球最大規(guī)模 10 萬億參數多模態(tài)大模型 M6,同等參數規(guī)模能耗僅為此前業(yè)界標桿的 1%,極大降低大模型訓練門檻。
阿里探索大模型通用性及易用性的努力并沒有止步于此。9 月 2 日,在阿里達摩院主辦的世界人工智能大會「大規(guī)模預訓練模型」主題論壇上,阿里巴巴資深副總裁、達摩院副院長周靖人發(fā)布阿里巴巴最新「通義」大模型系列,其打造了國內首個 AI 統(tǒng)一底座,并構建了通用與專業(yè)模型協(xié)同的層次化人工智能體系,將為 AI 從感知智能邁向知識驅動的認知智能提供先進基礎設施。
為了實現(xiàn)大模型的融會貫通,阿里達摩院在國內率先構建 AI 統(tǒng)一底座,在業(yè)界首次實現(xiàn)模態(tài)表示、任務表示、模型結構的統(tǒng)一。通過這種統(tǒng)一學習范式,通義統(tǒng)一底座中的單一 M6-OFA 模型,在不引入任何新增結構的情況下,可同時處理圖像描述、視覺定位、文生圖、視覺蘊含、文檔摘要等 10 余項單模態(tài)和跨模態(tài)任務,并達到國際領先水平。這一突破最大程度打通了 AI 的感官,受到學界和工業(yè)界廣泛關注。近期 M6-OFA 完成升級后可處理超過 30 種跨模態(tài)任務。
通義統(tǒng)一底座中的另一組成部分是模塊化設計,它借鑒了人腦模塊化設計,以場景為導向靈活拆拔功能模塊,實現(xiàn)高效率和高性能。
周靖人表示,「大模型模仿了人類構建認知的過程,通過融合 AI 在語言、語音、視覺等不同模態(tài)和領域的知識體系,我們期望多模態(tài)大模型能成為下一代人工智能算法的基石,讓 AI 從只能使用‘單一感官’到‘五官全開’,且能調用儲備豐富知識的大腦來理解世界和思考,最終實現(xiàn)接近人類水平的認知智能?!?
阿里達摩院構建 AI 統(tǒng)一底座
M6-OFA 模型實現(xiàn)架構、模態(tài)和任務統(tǒng)一
通義統(tǒng)一底座中統(tǒng)一學習范式的實現(xiàn)背后離不開阿里達摩院的多模態(tài)統(tǒng)一底座模型 M6-OFA,相關研究被 ICML 2022 接收,代碼、模型和交互式服務也已開源。
- 論文地址:https://arxiv.org/pdf/2202.03052.pdf
- 開源地址:https://github.com/OFA-Sys/OFA
- 交互式 Demo 地址:https://huggingface.co/OFA-Sys
先來看架構統(tǒng)一。M6-OFA 整體采用了經典的 Transformer Encoder-Decoder,外加一個 ResNet Blocks。通過這種架構完成所有任務,讓預訓練和微調采用相同的學習模式,無需增加任何任務特定的模型層。
如下圖所示,ResNet Blocks 用于提取圖像特征,Transformer Encoder 負責多模態(tài)特征的交互,Transformer Decoder 采用自回歸方式輸出結果。
對于模態(tài)統(tǒng)一,M6-OFA 構建了一個涵蓋不同模態(tài)的通用詞表,以便模型使用該詞表表示不同任務的輸出結果。其中 BPE 編碼的自然語言 token 用于表示文本類任務或圖文類任務的數據;圖片中連續(xù)的橫縱坐標編碼為離散化 token,用于表示視覺定位、物體檢測的數據;圖片中的像素點信息編碼為離散化 token,用于表示圖片生成、圖片補全等任務的數據。
最后是任務統(tǒng)一,通過設計不同的 instruction,M6-OFA 將涉及多模態(tài)和單模態(tài)(即 NLP 和 CV)的所有任務都統(tǒng)一建模成序列到序列(seq2seq)任務。M6-OFA 覆蓋了 5 項多模態(tài)任務,分別為視覺定位、定位字幕、圖文匹配、圖像字幕和視覺問答(VQA);2 項視覺任務,分別為檢測和圖像填補;1 項文本任務,即文本填補。
今年 2 月,M6-OFA 統(tǒng)一多模態(tài)模型在一系列視覺語言任務中實現(xiàn)了 SOTA 性能,在 Image Caption 任務取得最優(yōu)表現(xiàn),長期在 MSCOCO 榜單排名第一;在視覺定位任務中的 RefCOCO、RefCOCO + 和 RefCOCOg 三個數據集均取得最優(yōu)表現(xiàn),以及在視覺推理任務的數據集 SNLI-VE 上取得第一。OFA 的 VQA 分數達到 82.0,效果名列前茅。文本生成圖像(text2Image)在 COCO 數據集上超越了此前基線模型,當時的 Case 對比也優(yōu)于 GLIDE 和 CogView。并且,OFA 模型展現(xiàn)出一定的零樣本學習新任務的能力。
下圖展示了 M6-OFA 的 text2Image 和 VQA 任務的跨模態(tài)生成結果。
在更大規(guī)模的文生圖的數據進行微調后,模型也取得了通用領域文生圖任務的優(yōu)異表現(xiàn),尤其擅長藝術創(chuàng)作,如下圖所示:
借鑒人腦的模塊化設計
目前業(yè)界普遍認為,人腦本身由不同的模塊組成,大腦中擁有儲備各種知識和處理不同模態(tài)信息的能力模塊,人類思考時只調用與特定任務相關的模塊,正這種機制保證了人腦的高速運行。通義統(tǒng)一底座的另一組成部分「模塊化設計」正是借鑒了這種運行機制。
具體而言,模塊化大一統(tǒng)模型采用模塊化 Transformer Encoder-Decoder 結構來統(tǒng)一多模態(tài)的理解和生成,同時切分出不同的獨立模塊,包括基礎層、通用層(如不同模態(tài))、任務層到功能性模塊(如推理),每個模塊間相互解耦,各司其職。
達摩院團隊為何會探索這種模塊化設計思路呢?現(xiàn)在大規(guī)模預訓練的 Transformer-based 模型雖然能夠很好地解決感知智能相關任務,但缺乏精心設計的純 Transformer 模型基本無法完成對于實現(xiàn)認知智能的嘗試。借鑒人腦的模塊化設計成為一種可能通向成功的思路。
在單一 NLP 模塊中,最底層為數據表示層,中間層為 Transformer 基礎語義表示模塊,最上層則是對整個下游劃分為不同的任務模塊;而對于多模態(tài)的模塊化,其模態(tài)模塊涵蓋語言、視覺、音頻和視頻——底部輸入層接收各自模態(tài)信息,中間層通過跨模態(tài)信息融合學習統(tǒng)一語義表示,往上再劃分為針對不同模態(tài)的具體下游任務。
針對不同類型的下游任務,模塊化模型可靈活拆拔不同模塊進行微調或者進行繼續(xù)預訓練。通過這種方式,大模型能夠實現(xiàn)輕量化,并取得較好的微調效果,單模態(tài)、多模態(tài)任務水平均能得到提升。
基于統(tǒng)一底座打造層次化模型系列
大模型最終是要實現(xiàn)落地,滿足各行各業(yè)的應用需求。因此,阿里達摩院基于其 AI 統(tǒng)一底座構建了通用模型與專業(yè)模型協(xié)同的層次化人工智能體系。
下圖為通義大模型整體架構,最底層為統(tǒng)一模型底座,中間基于底座的通用模型層覆蓋了通義 - M6、通義 - AliceMind 和通義 - 視覺,專業(yè)模型層深入電商、醫(yī)療、娛樂、設計、金融等行業(yè)。
通義 - M6 已經從 2020 年 6 月的 3 億參數基礎模型發(fā)展到 2021 年 10 月的 10 萬億參數全球最大預訓練模型到 2022 年 1 月的業(yè)界首個通用統(tǒng)一大模型 M6-OFA。
近日,基于 AliceMind/StructBERT 模型結果在中文語言理解測評基礎 CLUE 上獲得了三榜第一,分別是分類榜單、機器閱讀理解榜單和總榜單。
通義 - 視覺大模型自下往上分為了底層統(tǒng)一算法架構、中層通用算法和上層產業(yè)應用。據了解,通用 - 視覺大模型可以在電商行業(yè)實現(xiàn)圖像搜索和萬物識別等場景應用,并在文生圖以及交通和自動駕駛領域發(fā)揮作用。
阿里始終秉持開源開放的理念。此次通義大模型系列中語言大模型 AliceMind-PLUG、多模態(tài)理解與生成統(tǒng)一模型 AliceMind-mPLUG、多模態(tài)統(tǒng)一底座模型 M6-OFA、超大模型落地關鍵技術 S4 框架等核心模型及能力已面向全球開發(fā)者開源,最新文生圖大模型近期將開放體驗。其中, 270 億參數版 AliceMind-PLUG 是目前規(guī)模最大的開源語言大模型。
開源鏈接:
- https://github.com/alibaba/AliceMind/
- https://github.com/OFA-Sys/OFA
協(xié)同并不容易做到
通過通用與專業(yè)領域大小模型的協(xié)同,阿里達摩院讓通義大模型系列兼顧了效果最優(yōu)化與低成本落地。然而實現(xiàn)這一切并不容易。
回到通義的設計思路,即通過一個統(tǒng)一的底座模型同時做單模態(tài)和跨模態(tài)任務,在多模態(tài)任務上取得 SOTA 效果的同時也能處理單模態(tài)任務。不過,既然希望模型更通用以覆蓋更多模態(tài)及下游任務,則需要高效地將統(tǒng)一底座下沉到具體場景中的專用模型。這正是模型底座、通用模型與下游專業(yè)模型協(xié)同的關鍵。
受算力資源限制,大模型行業(yè)落地不易。近一兩年,業(yè)界也提出了一些落地思路,即先打造一個基礎大模型,再繼續(xù)訓練得到領域模型,最后通過微調構建具體行業(yè)任務模型。通義也要走通這樣的路,不過希望通過新的大模型架構設計將這一過程做到更快和更高效。
可以這么說,無論是 seq2seq 統(tǒng)一學習范式還是模塊化設計思路,阿里達摩院都希望對整個模型架構和統(tǒng)一底座有更深的理解。尤其是模塊化思路,通過細分為很多個模塊并知道它們能做什么,則真正可以在下游得到很高效且通用性很好的行業(yè)應用小模型。
目前,通過部署超大模型的輕量化及專業(yè)模型版本,通義大模型已在超過 200 個場景中提供服務,實現(xiàn)了 2%~10% 的應用效果提升。
比如,通義大模型在淘寶服飾類搜索場景中實現(xiàn)了以文搜圖的跨模態(tài)搜索、在 AI 輔助審判中司法卷宗的事件抽取、文書分類等場景任務中實現(xiàn) 3~5% 的應用效果提升、在開放域人機對話領域通過建立初步具備「知識、情感以及個性、記憶」的中文開放域對話大模型實現(xiàn)了主動對話、廣泛話題、緊跟熱點等對話體驗。
此外,通義大模型在 AI 輔助設計、醫(yī)療文本理解等其他領域也有豐富的應用場景。我們來看一組通義大模型在文生圖領域的效果展示。比如文藝復興時期皇家花栗鼠肖像畫:
中國風 - 山中建筑:
以及中國風學習中的小貓:
周靖人表示,對達摩院來說一直以來重點都不是把模型的規(guī)模做大,而是通過一系列的前沿研究和實踐沉淀更通用更易用的大模型底層技術?,F(xiàn)階段,阿里達摩院希望將底座做得更實,將更多模態(tài)和任務考慮到統(tǒng)一模型范疇內,通過減少 AI 模型在實際場景落地中的定制化成本,真正體現(xiàn)出大模型的效果。
與此同時,在打造大模型統(tǒng)一底座的基礎上,阿里希望通過開源開放,與外界用戶和合作方自己共創(chuàng)下游應用。
參考鏈接:https://blog.csdn.net/AlibabaTech1024/article/details/125215198
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生