日本在线看片免费大黄,亚洲精品无码成人av电影网

openAI o1 技術(shù)點(diǎn)啟示

發(fā)布日期：2024/9/20 16:44:32 瀏覽量：

1、思維鏈

CoT（Chain of thought，思維鏈），是學(xué)者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術(shù)，可以顯著提高其在推理等任務(wù)上的正確率。這個(gè)思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，NeurIPS2022》這篇文章提出，在問LLM問題前，手工在prompt里面加入一些包含思維過程（Chain of thought）的問答示例（Manual CoT），就可以讓LLM在推理任務(wù)上大幅提升。

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let’s think step by step.” 讓模型自己給出推理過程（Zero-shot CoT ），也衍生出諸如“一步一步慢慢來“這些著名的咒語。

《Automatic Chain of Thought Prompting in Large Language Models，ICLR2023》這篇文章可以理解為二者的結(jié)合，先用 “Let’s think step by step.” 咒語產(chǎn)生推理過程，再把這些過程加到prompt里面去引導(dǎo)大模型推理。這樣不需要自己寫，又能相對靠譜。

在這些之后，CoT還經(jīng)歷了千變?nèi)f化的演進(jìn)，但大都還是通過prompt來誘導(dǎo)大模型分步思維，人們就在想，能不能讓大模型自己學(xué)會(huì)這種方法呢？

2、強(qiáng)化學(xué)習(xí)和自學(xué)推理

類似當(dāng)年的Alpha-Zero，強(qiáng)化學(xué)習(xí)是讓機(jī)器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機(jī)器學(xué)習(xí)方法，但之前很難用于語言模型。直到斯坦福大學(xué) 2022 年提出一種「自學(xué)推理」（Self-Taught Reasoner，STaR）方法：先給模型一些例題詳細(xì)解法，再讓模型學(xué)著去解更多的題，如果做對就把方法再補(bǔ)充到例題里，形成數(shù)據(jù)集，對原模型微調(diào)，讓模型學(xué)會(huì)這些方法，這也是一種經(jīng)典的自動(dòng)生成數(shù)據(jù)的方法。

后來基于此又演進(jìn)出了名為"Quiet-STaR"的新技術(shù)，也就是傳說中的Q*，翻譯過來大概為"安靜的自學(xué)推理"。核心為在每個(gè)輸入 token 之后插入一個(gè)"思考"步驟，讓大模型生成內(nèi)部推理。然后，系統(tǒng)會(huì)評估這些推理是否有助于預(yù)測后續(xù)文本，并相應(yīng)地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時(shí)都能進(jìn)行隱含的推理，而不僅僅是在回答問題時(shí)。

用人話說呢，加入強(qiáng)化學(xué)習(xí)就是在大模型訓(xùn)練時(shí)就教他一些套路（當(dāng)然應(yīng)該也是模型自己生成并優(yōu)選的），思考時(shí)直接就按題型選套路分解問題、按步驟執(zhí)行、反復(fù)審核，不行就換個(gè)套路，跟通常教小學(xué)生普奧的套路類似。但這種自學(xué)習(xí)機(jī)制，由于獎(jiǎng)勵(lì)模型的復(fù)雜，所以通常僅在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術(shù)手段結(jié)合的后果就是，預(yù)訓(xùn)練階段并沒有什么變化，但在推理階段的計(jì)算量大大增加，原來追求的快思考變成了故意放慢速度，以追求更加準(zhǔn)確的結(jié)果。

OpenAI 提及了自己訓(xùn)練中發(fā)現(xiàn)的一個(gè)現(xiàn)象：隨著更多的強(qiáng)化學(xué)習(xí)（訓(xùn)練時(shí)計(jì)算）和更多的思考時(shí)間（推理時(shí)計(jì)算），o1 的性能能持續(xù)提高。

英偉達(dá)AI領(lǐng)導(dǎo)者 Jim Fan 在 X 上點(diǎn)評了這一事件的歷史意義——模型不僅僅擁有訓(xùn)練時(shí)的 scaling law，還擁有推理層面的 scaling law，雙曲線的共同增長，將突破之前大模型能力的提升瓶頸。“之前，沒人能將 AlphaGo 的成功復(fù)制到大模型上，使用更多的計(jì)算讓模型走向超人的能力。目前，我們已經(jīng)翻過這一頁了?！?/span>

可以預(yù)見，在預(yù)訓(xùn)練邊際成本遞減的背景下，基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)會(huì)越來越受到重視并發(fā)揮作用，也會(huì)有更多的算力被投入到推理階段，全球人工智能芯片和算力的需求也還會(huì)繼續(xù)增加。

業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

openAI o1 技術(shù)點(diǎn)啟示

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新