无码中文字幕av免费放,国产亚洲精品视觉盛宴

未經(jīng)證實(shí)的GPT-4技術(shù)細(xì)節(jié)

發(fā)布日期：2023/12/12 7:26:52 瀏覽量：

總結(jié)主要的關(guān)于GPT-4的信息（總結(jié)來(lái)自Yam Peleg的推文）：

參數(shù)數(shù)量：GPT-4比GPT-3大10倍，估計(jì)參數(shù)數(shù)量在120層、1.8萬(wàn)億左右。
MoE架構(gòu)：即Mixture-of-Experts架構(gòu)，這部分信息已經(jīng)確認(rèn)，OpenAI通過(guò)利用MoE架構(gòu)保持一定的成本，包含16個(gè)Experts，每一個(gè)都是一個(gè)MLP.2，約1110億參數(shù)，每個(gè)前向傳播都被路由到這些專(zhuān)家中
MoE路由：盡管公開(kāi)的技術(shù)文檔中說(shuō)了很多高級(jí)的路由功能，包括每個(gè)token如何選擇每個(gè)專(zhuān)家等。但是現(xiàn)有GPT-4其實(shí)非常簡(jiǎn)單，大約就是為每個(gè)attention共享550億參數(shù)的方式。
推理：每一個(gè)前向傳播的推理（生成一個(gè)token）需要2800億參數(shù)以及560 TFLOPS，這與純dense模型每次正向傳遞所需的約1.8萬(wàn)億參數(shù)和3700 TFLOPS形成了鮮明對(duì)比。
訓(xùn)練數(shù)據(jù)集：GPT-4在約13萬(wàn)億tokens上訓(xùn)練。這不是指不同的token數(shù)量，是根據(jù)epochs計(jì)算使用的token數(shù)量?；谖谋镜臄?shù)據(jù)集做了2次epoch訓(xùn)練，基于代碼的數(shù)據(jù)集做了4次epoch訓(xùn)練。
GPT-4 32K：每一個(gè)預(yù)訓(xùn)練階段都是8K的長(zhǎng)度。32K的版本是8K預(yù)訓(xùn)練模型之后微調(diào)得到的。
Batch Size：batch size是逐漸上升的，在集群中經(jīng)過(guò)幾天的時(shí)間達(dá)到一個(gè)數(shù)值。最終，OpenAI的Batch Size達(dá)到了6000萬(wàn)！也就是每個(gè)專(zhuān)家大約有750萬(wàn)的token數(shù)量，但是并不是每個(gè)專(zhuān)家都能看到所有的tokens。
并行策略：由于NVLink的限制，OpenAI訓(xùn)練GPT-4做了8路tensor并行，15路的pipeline并行。
訓(xùn)練成本：OpenAI訓(xùn)練GPT-4的FLOPS約2.15e25，在2.5萬(wàn)個(gè)A100上訓(xùn)練了90-100天左右時(shí)間（MFU約32%到36%），如果是一個(gè)A100約1美元，那么訓(xùn)練成本約6300萬(wàn)美元（如果現(xiàn)在使用H100可能只要2150萬(wàn)美元）。
MoE的取舍：使用MoE之后做了很多取舍，包括推理的處理困難，因?yàn)槊總€(gè)模型都用來(lái)生成文本。這意味著生成的時(shí)候有的可以使用，有的空閑，對(duì)使用率來(lái)說(shuō)非常浪費(fèi)。研究顯示64-128個(gè)專(zhuān)家的損失比16個(gè)專(zhuān)家更好。
GPT-4的推理成本：比1750億的Davinchi（GPT-3/3.5系列）高3倍，主要是GPT-4的集群太大，利用率低一點(diǎn)。估計(jì)約1k tokens要0.0049美元（128個(gè)A100）。
MOA：Multi Query Attention，和其他人一樣，都是正常使用MOA。因?yàn)橹恍枰?個(gè)head，顯存大大下降，但是32K依然無(wú)法在A100 40G運(yùn)行。
持續(xù)batching：OpenAI使用可變的batch size和持續(xù)batching方法?？梢云胶馔评沓杀竞屯评硭俣?。
Vision Multi-Modal：GPT-4的多模態(tài)部分是單獨(dú)一個(gè)visiion encoder，帶有cross attention。使得1.8萬(wàn)億的GPT-4的參數(shù)擴(kuò)展到2萬(wàn)億左右。VisionModel是從頭訓(xùn)練的，還不夠成熟。Vision部分的一個(gè)作用是讓代理可以月度網(wǎng)頁(yè)，然后轉(zhuǎn)換成圖片和視頻。部分?jǐn)?shù)據(jù)是基于Latex與屏幕截屏訓(xùn)練的。還有YouTube視頻，包括使用whisper翻譯的腳本與抽幀結(jié)果。
推理架構(gòu)：推理是在128個(gè)GPU集群上運(yùn)行的，在不同的區(qū)域有不同的集群。每個(gè)節(jié)點(diǎn)有8個(gè)GPU，包含1300億參數(shù)的模型?；蛘哒f(shuō)每個(gè)GPU少于30GB的FP16、少于15GB的FP8/int8。

業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線(xiàn) →

合作協(xié)議

系統(tǒng)開(kāi)發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢(xún)： 如果您有業(yè)務(wù)方面的問(wèn)題或者需求，歡迎您咨詢(xún)！我們帶來(lái)的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

未經(jīng)證實(shí)的GPT-4技術(shù)細(xì)節(jié)

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新