人工智能學(xué)會(huì)數(shù)學(xué)推理了,考試成績(jī)比CS博士還高
發(fā)布日期:2022/7/4 14:10:48 瀏覽量:
機(jī)器之心報(bào)道
編輯:杜偉、陳萍
這是語(yǔ)言模型推理能力的一個(gè)重要里程碑。
AI 在數(shù)學(xué)方面也有超越人類的趨勢(shì)了?
昨天,谷歌提交的一篇論文引發(fā)了機(jī)器學(xué)習(xí)圈的關(guān)注,其提出的語(yǔ)言模型學(xué)會(huì)了人類做數(shù)學(xué)題時(shí)的方法「一步一步推理」。
在 MATH 數(shù)據(jù)集上,谷歌的新模型能實(shí)現(xiàn) 50% 的準(zhǔn)確率——此前對(duì)人類的評(píng)測(cè)結(jié)果是:「一個(gè)不特別喜歡數(shù)學(xué)的計(jì)算機(jī)科學(xué)博士生能答對(duì)大約 40%,而三屆國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)金牌得主能達(dá)到 90%。」
語(yǔ)言模型在各種 NLP 任務(wù)上都表現(xiàn)出了卓越的性能。事實(shí)上,在眾多研究中科研人員總結(jié)出一條經(jīng)驗(yàn),即以無(wú)監(jiān)督方式在大規(guī)模不同數(shù)據(jù)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),在不同任務(wù)上表現(xiàn)更好。這條經(jīng)驗(yàn)也適用于 BERT、GPT-3、Gopher 和 PaLM 在內(nèi)的模型。
和人類相比,在定量推理方面,語(yǔ)言模型的差距還很大。想讓語(yǔ)言模型能夠解決數(shù)學(xué)和科學(xué)類問(wèn)題,語(yǔ)言模型還需要掌握各種綜合技能,這些技能包括模型能夠利用自然語(yǔ)言和數(shù)學(xué)符號(hào)正確解析問(wèn)題、可以準(zhǔn)確利用相關(guān)公式和常數(shù)、以及生成涉及數(shù)值計(jì)算和符號(hào)操作的解決方案。
但這些都面臨著挑戰(zhàn),人們通常認(rèn)為,使用機(jī)器學(xué)習(xí)來(lái)解決定量推理問(wèn)題,需要在模型架構(gòu)和訓(xùn)練技術(shù)方面取得顯著進(jìn)步,這樣一來(lái)允許模型訪問(wèn)外部工具,如 Python 解釋器。
在 Google Research 提交的這篇論文中,他們推出了語(yǔ)言模型 Minerva,該模型能夠解決數(shù)學(xué)和科學(xué)問(wèn)題,讓模型一步一步來(lái)。通過(guò)收集與定量推理問(wèn)題相關(guān)的訓(xùn)練數(shù)據(jù)、大規(guī)模訓(xùn)練模型,以及使用先進(jìn)的推理技術(shù),該研究在各種較難的定量推理任務(wù)上取得了顯著的性能提升。
論文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Minerva:不僅會(huì)數(shù)學(xué),物理、化學(xué)也難不倒
Minerva 通過(guò)生成解決方案來(lái)解決問(wèn)題,解決方案包括數(shù)值計(jì)算、符號(hào)操作,而不需要依賴計(jì)算器等外部工具。Minerva 將自然語(yǔ)言和數(shù)學(xué)符號(hào)進(jìn)行結(jié)合來(lái)解析和回答數(shù)學(xué)問(wèn)題。此外,Minerva 還結(jié)合了多種技術(shù),包括小樣本提示、思維鏈、暫存器提示以及多數(shù)投票原則,從而在 STEM 推理任務(wù)上實(shí)現(xiàn) SOTA 性能。
此次,谷歌還提供了交互式示例瀏覽器來(lái)探索 Minerva 的輸出!從 Minerva 瀏覽器界面可以看出,Minerva 不僅可以解決代數(shù)問(wèn)題,還能解決物理、數(shù)論、幾何、生物、化學(xué)、天文學(xué)等眾多問(wèn)題。
試用地址:https://minerva-demo.github.io/#category=Algebra&index=1
下面是 Minerva 解決幾何問(wèn)題,立方體的每個(gè)邊都是 3 英寸長(zhǎng),求立方體的總表面積是多少平方英寸?模型回答:由于立方體有 6 個(gè)面,每個(gè)面是一個(gè)邊長(zhǎng)為 3 英寸的正方形,總表面積為 (6)(3)^2=54。
Minerva 解決數(shù)學(xué)問(wèn)題:平行于 y=4x+6 的線,且穿過(guò) (5,10)。問(wèn)這條線與 y 軸相交的點(diǎn)的 y 坐標(biāo)是多少?下面是 Minerva 解答過(guò)程:
定量推理,讓模型一步一步來(lái)
Minerva 建立在 PaLM(Pathways Language Model ) 的基礎(chǔ)上,在 118GB 數(shù)據(jù)集上進(jìn)一步訓(xùn)練完成,數(shù)據(jù)集來(lái)自 arXiv 上關(guān)于科技方面的論文以及包含使用 LaTeX、MathJax 或其他數(shù)學(xué)表達(dá)式的網(wǎng)頁(yè)的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練。訓(xùn)練之后模型學(xué)會(huì)使用標(biāo)準(zhǔn)數(shù)學(xué)符號(hào)進(jìn)行對(duì)話。
下表 2 包含了 Minerva 主要的模型和訓(xùn)練超參數(shù),最大的模型具有 540B 參數(shù),在 26B token 上進(jìn)行了微調(diào)。
Minerva 語(yǔ)言模型的不同變體,包括 8B,62B 和 540B。
下圖為印度高中學(xué)生參加的 2020 年聯(lián)合入學(xué)數(shù)學(xué)考試(左),這個(gè)考試每年有近 200 萬(wàn)參加;波蘭國(guó)家數(shù)學(xué)考試(2022 年 5 月)(右),每年約有 27 萬(wàn)高中生參加。以下是 Minerva 答題過(guò)程,就像考生一樣,分步計(jì)算答案:
下圖為用于定量推理的數(shù)據(jù)集:研究者在數(shù)據(jù)處理過(guò)程中保留了數(shù)學(xué)信息,使模型能夠在更高的水平上學(xué)習(xí)數(shù)學(xué)。
Minerva 還結(jié)合了最新的提示和評(píng)估技術(shù),以更好地解決數(shù)學(xué)問(wèn)題,包括思維鏈或 scratchpad 提示。
在回答新問(wèn)題之前,Minerva 會(huì)將解決方案進(jìn)行分解,進(jìn)行多數(shù)投票。像大多數(shù)語(yǔ)言模型一樣,Minerva 將可能輸出分配不同的概率。在回答問(wèn)題時(shí),Minerva 不是將單個(gè)解決方案得分視為最有可能,而是通過(guò)從所有可能的輸出中隨機(jī)抽樣來(lái)生成多個(gè)解決方案。這些解決方案是不同的(例如,步驟不相同),但通常會(huì)得出相同的最終答案。Minerva 對(duì)這些解決方案使用多數(shù)投票,將最常見(jiàn)的結(jié)果作為最終答案。
多數(shù)投票 Minerva 為每個(gè)問(wèn)題生成多個(gè)解決方案,并選擇最常見(jiàn)的答案作為解決方案,顯著提高性能。
STEM 基準(zhǔn)評(píng)估結(jié)果
為了測(cè)試 Minerva 的定量推理能力,谷歌在不同的 STEM 基準(zhǔn)上進(jìn)行了評(píng)估,覆蓋從小學(xué)水平的問(wèn)題到研究生水平的課程。使用的基準(zhǔn)數(shù)據(jù)集包括如下:
- MATH:高中數(shù)學(xué)競(jìng)賽水平的問(wèn)題;
- MMLU-STEM:大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)基準(zhǔn)中專注于 STEM 的子集,涵蓋了高中和大學(xué)級(jí)別的工程、化學(xué)、數(shù)學(xué)和物理等;
- GSM8k:小學(xué)水平的數(shù)學(xué)題,包括基礎(chǔ)算數(shù)運(yùn)算等。
此外,谷歌還在 OCWCourses 上評(píng)估了 Minerva,這是一個(gè)大學(xué)和研究生水平的問(wèn)題集合,涵蓋了從 MIT OpenCourseWare 中收集的固態(tài)化學(xué)、天文學(xué)、微分方程和狹義相對(duì)論等各種 STEM 主題。
結(jié)果表明,在所有數(shù)據(jù)集的評(píng)估中,Minerva 都實(shí)現(xiàn)了 SOTA 結(jié)果,有時(shí)甚至是大幅提升。
下圖為 MATH 和 MMLU-STEM 上的評(píng)估結(jié)果,其中高中和大學(xué)級(jí)別的問(wèn)題涵蓋了一系列 STEM 主題??梢钥吹?,Minerva 62B 和 Minerva 540B 在 MATH 上的準(zhǔn)確率均高于已有 SOTA,Minerva 540B 在 MMLU-STEM 上均高于已有 SOTA。
總體來(lái)看,Minerva 540B 在小學(xué)、高中和大學(xué)級(jí)別的 STEM 評(píng)估數(shù)據(jù)集上,均取得了顯著優(yōu)于已有 SOTA 的結(jié)果。
與 PaLM 8B、62B 和 540B 的更詳細(xì)比較結(jié)果如下表所示。
谷歌研究科學(xué)家、論文作者之一 Aitor Lewkowycz 給出了更具體的評(píng)估示例。他們?cè)?2022 年波蘭國(guó)家數(shù)學(xué)考試中對(duì) Minerva 進(jìn)行了評(píng)估,它解決了 80% 以上的 GCSE 高等數(shù)學(xué)問(wèn)題,評(píng)估了 MIT 的各種本科級(jí)別的 STEM 問(wèn)題并解決了其中的近三分之一。
Minerva 也會(huì)出錯(cuò)
不過(guò),Minerva 仍然犯了很多錯(cuò)誤。為了更好地確認(rèn)模型可以改進(jìn)的領(lǐng)域,谷歌分析了模型出錯(cuò)的問(wèn)題樣本,發(fā)現(xiàn)大多數(shù)錯(cuò)誤很容易解釋。結(jié)果表明,大約一半是計(jì)算錯(cuò)誤,另一半是推理誤差,原因是解決步驟沒(méi)有遵循邏輯思考鏈。
錯(cuò)誤類型。
同時(shí),Minerva 也有可能得出正確的最終答案,但推理依然錯(cuò)誤。谷歌將這種情況稱為「誤報(bào)」,因?yàn)樗鼈儽诲e(cuò)誤地計(jì)入到了模型的整體性能得分。分析結(jié)果顯示,誤報(bào)率相對(duì)較低,Minerva 62B 在 MATH 數(shù)據(jù)集上的平均誤報(bào)率低于 8%。
谷歌提供了 Minerva 出錯(cuò)的一些樣本示例。比如下圖中的計(jì)算錯(cuò)誤,模型錯(cuò)誤地消去了方程兩邊的平方根。
下圖為推理錯(cuò)誤,模型在第四次練習(xí)中計(jì)算了罰球次數(shù),但之后卻將這一數(shù)字作為第一次練習(xí)的最終答案。
局限性及未來(lái)改進(jìn)方向
谷歌的定量推理方法并不是以形式數(shù)學(xué)為基礎(chǔ)。Minerva 使用自然語(yǔ)言和 LaTeX 數(shù)學(xué)表達(dá)式的組合來(lái)解析問(wèn)題并生成答案,沒(méi)有明確的底層數(shù)學(xué)結(jié)構(gòu)。
因此,這種方法存在一個(gè)重要局限,模型的答案無(wú)法獲得自動(dòng)驗(yàn)證。即使最終答案已知并且可以驗(yàn)證,模型也可以使用錯(cuò)誤的推理步驟得出正確的最終答案,而這無(wú)法自動(dòng)檢測(cè)到。這種局限在 Coq、Isabelle、HOL、Lean、Metamath 和 Mizar 等形式化定理證明方法中不存在。
另一方面,非形式方法的一個(gè)優(yōu)勢(shì)是它可以應(yīng)用在高度多樣化的問(wèn)題中。
未來(lái),谷歌希望能夠解決定量推理問(wèn)題的通用模型推動(dòng)科學(xué)和教育的前沿發(fā)展。定量推理模型具有很多潛在的應(yīng)用,包括為研究人員提供有用的幫助,為學(xué)生提供新的學(xué)習(xí)機(jī)會(huì)。Minerva 模型朝著這些目標(biāo)邁出了一小步。
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生