蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價(jià)值

  openAI o1 技術(shù)點(diǎn)啟示

發(fā)布日期:2024/9/20 16:44:32      瀏覽量:

1、思維鏈

CoT(Chain of thought,思維鏈),是學(xué)者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術(shù),可以顯著提高其在推理等任務(wù)上的正確率。這個(gè)思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,NeurIPS2022》這篇文章提出,在問LLM問題前,手工在prompt里面加入一些包含思維過程(Chain of thought)的問答示例(Manual CoT),就可以讓LLM在推理任務(wù)上大幅提升。

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let’s think step by step.” 讓模型自己給出推理過程(Zero-shot CoT ),也衍生出諸如“一步一步慢慢來“這些著名的咒語。

《Automatic Chain of Thought Prompting in Large Language Models,ICLR2023》這篇文章可以理解為二者的結(jié)合,先用 “Let’s think step by step.” 咒語產(chǎn)生推理過程,再把這些過程加到prompt里面去引導(dǎo)大模型推理。這樣不需要自己寫,又能相對靠譜。

在這些之后,CoT還經(jīng)歷了千變?nèi)f化的演進(jìn),但大都還是通過prompt來誘導(dǎo)大模型分步思維,人們就在想,能不能讓大模型自己學(xué)會(huì)這種方法呢?

2、強(qiáng)化學(xué)習(xí)和自學(xué)推理

類似當(dāng)年的Alpha-Zero,強(qiáng)化學(xué)習(xí)是讓機(jī)器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機(jī)器學(xué)習(xí)方法,但之前很難用于語言模型。直到斯坦福大學(xué) 2022 年提出一種「自學(xué)推理」(Self-Taught Reasoner,STaR)方法:先給模型一些例題詳細(xì)解法,再讓模型學(xué)著去解更多的題,如果做對就把方法再補(bǔ)充到例題里,形成數(shù)據(jù)集,對原模型微調(diào),讓模型學(xué)會(huì)這些方法,這也是一種經(jīng)典的自動(dòng)生成數(shù)據(jù)的方法。

后來基于此又演進(jìn)出了名為"Quiet-STaR"的新技術(shù),也就是傳說中的Q*,翻譯過來大概為"安靜的自學(xué)推理"。核心為在每個(gè)輸入 token 之后插入一個(gè)"思考"步驟,讓大模型生成內(nèi)部推理。然后,系統(tǒng)會(huì)評估這些推理是否有助于預(yù)測后續(xù)文本,并相應(yīng)地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時(shí)都能進(jìn)行隱含的推理,而不僅僅是在回答問題時(shí)。

用人話說呢,加入強(qiáng)化學(xué)習(xí)就是在大模型訓(xùn)練時(shí)就教他一些套路(當(dāng)然應(yīng)該也是模型自己生成并優(yōu)選的),思考時(shí)直接就按題型選套路分解問題、按步驟執(zhí)行、反復(fù)審核,不行就換個(gè)套路,跟通常教小學(xué)生普奧的套路類似。但這種自學(xué)習(xí)機(jī)制,由于獎(jiǎng)勵(lì)模型的復(fù)雜,所以通常僅在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術(shù)手段結(jié)合的后果就是,預(yù)訓(xùn)練階段并沒有什么變化,但在推理階段的計(jì)算量大大增加,原來追求的快思考變成了故意放慢速度,以追求更加準(zhǔn)確的結(jié)果。

OpenAI 提及了自己訓(xùn)練中發(fā)現(xiàn)的一個(gè)現(xiàn)象:隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和更多的思考時(shí)間(推理時(shí)計(jì)算),o1 的性能能持續(xù)提高。

英偉達(dá)AI領(lǐng)導(dǎo)者 Jim Fan 在 X 上點(diǎn)評了這一事件的歷史意義——模型不僅僅擁有訓(xùn)練時(shí)的 scaling law,還擁有推理層面的 scaling law,雙曲線的共同增長,將突破之前大模型能力的提升瓶頸。“之前,沒人能將 AlphaGo 的成功復(fù)制到大模型上,使用更多的計(jì)算讓模型走向超人的能力。目前,我們已經(jīng)翻過這一頁了?!?/span>

可以預(yù)見,在預(yù)訓(xùn)練邊際成本遞減的背景下,基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)會(huì)越來越受到重視并發(fā)揮作用,也會(huì)有更多的算力被投入到推理階段,全球人工智能芯片和算力的需求也還會(huì)繼續(xù)增加。



  業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生