蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價(jià)值

  未經(jīng)證實(shí)的GPT-4技術(shù)細(xì)節(jié)

發(fā)布日期:2023/12/12 7:26:52      瀏覽量:

總結(jié)主要的關(guān)于GPT-4的信息(總結(jié)來(lái)自Yam Peleg的推文):

  • 參數(shù)數(shù)量:GPT-4比GPT-3大10倍,估計(jì)參數(shù)數(shù)量在120層、1.8萬(wàn)億左右。

  • MoE架構(gòu)即Mixture-of-Experts架構(gòu),這部分信息已經(jīng)確認(rèn),OpenAI通過(guò)利用MoE架構(gòu)保持一定的成本,包含16個(gè)Experts,每一個(gè)都是一個(gè)MLP.2,約1110億參數(shù),每個(gè)前向傳播都被路由到這些專(zhuān)家中

  • MoE路由:盡管公開(kāi)的技術(shù)文檔中說(shuō)了很多高級(jí)的路由功能,包括每個(gè)token如何選擇每個(gè)專(zhuān)家等。但是現(xiàn)有GPT-4其實(shí)非常簡(jiǎn)單,大約就是為每個(gè)attention共享550億參數(shù)的方式。

  • 推理:每一個(gè)前向傳播的推理(生成一個(gè)token)需要2800億參數(shù)以及560 TFLOPS,這與純dense模型每次正向傳遞所需的約1.8萬(wàn)億參數(shù)和3700 TFLOPS形成了鮮明對(duì)比。

  • 訓(xùn)練數(shù)據(jù)集:GPT-4在約13萬(wàn)億tokens上訓(xùn)練。這不是指不同的token數(shù)量,是根據(jù)epochs計(jì)算使用的token數(shù)量?;谖谋镜臄?shù)據(jù)集做了2次epoch訓(xùn)練,基于代碼的數(shù)據(jù)集做了4次epoch訓(xùn)練。

  • GPT-4 32K:每一個(gè)預(yù)訓(xùn)練階段都是8K的長(zhǎng)度。32K的版本是8K預(yù)訓(xùn)練模型之后微調(diào)得到的。

  • Batch Size:batch size是逐漸上升的,在集群中經(jīng)過(guò)幾天的時(shí)間達(dá)到一個(gè)數(shù)值。最終,OpenAI的Batch Size達(dá)到了6000萬(wàn)!也就是每個(gè)專(zhuān)家大約有750萬(wàn)的token數(shù)量,但是并不是每個(gè)專(zhuān)家都能看到所有的tokens。

  • 并行策略:由于NVLink的限制,OpenAI訓(xùn)練GPT-4做了8路tensor并行,15路的pipeline并行。

  • 訓(xùn)練成本:OpenAI訓(xùn)練GPT-4的FLOPS約2.15e25,在2.5萬(wàn)個(gè)A100上訓(xùn)練了90-100天左右時(shí)間(MFU約32%到36%),如果是一個(gè)A100約1美元,那么訓(xùn)練成本約6300萬(wàn)美元(如果現(xiàn)在使用H100可能只要2150萬(wàn)美元)。

  • MoE的取舍:使用MoE之后做了很多取舍,包括推理的處理困難,因?yàn)槊總€(gè)模型都用來(lái)生成文本。這意味著生成的時(shí)候有的可以使用,有的空閑,對(duì)使用率來(lái)說(shuō)非常浪費(fèi)。研究顯示64-128個(gè)專(zhuān)家的損失比16個(gè)專(zhuān)家更好。

  • GPT-4的推理成本:比1750億的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一點(diǎn)。估計(jì)約1k tokens要0.0049美元(128個(gè)A100)。

  • MOA:Multi Query Attention,和其他人一樣,都是正常使用MOA。因?yàn)橹恍枰?個(gè)head,顯存大大下降,但是32K依然無(wú)法在A100 40G運(yùn)行。

  • 持續(xù)batching:OpenAI使用可變的batch size和持續(xù)batching方法??梢云胶馔评沓杀竞屯评硭俣?。

  • Vision Multi-Modal:GPT-4的多模態(tài)部分是單獨(dú)一個(gè)visiion encoder,帶有cross attention。使得1.8萬(wàn)億的GPT-4的參數(shù)擴(kuò)展到2萬(wàn)億左右。VisionModel是從頭訓(xùn)練的,還不夠成熟。Vision部分的一個(gè)作用是讓代理可以月度網(wǎng)頁(yè),然后轉(zhuǎn)換成圖片和視頻。部分?jǐn)?shù)據(jù)是基于Latex與屏幕截屏訓(xùn)練的。還有YouTube視頻,包括使用whisper翻譯的腳本與抽幀結(jié)果。

  • 推理架構(gòu):推理是在128個(gè)GPU集群上運(yùn)行的,在不同的區(qū)域有不同的集群。每個(gè)節(jié)點(diǎn)有8個(gè)GPU,包含1300億參數(shù)的模型?;蛘哒f(shuō)每個(gè)GPU少于30GB的FP16、少于15GB的FP8/int8。



  業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線(xiàn) →

合作協(xié)議

系統(tǒng)開(kāi)發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢(xún): 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢(xún)!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生