量子位智庫(kù),量子位 | 公眾號(hào) QbitAI
2023年,業(yè)界還在卷Scaling Law,不斷突破參數(shù)規(guī)模和數(shù)據(jù)規(guī)模時(shí),微軟亞洲研究院張麗團(tuán)隊(duì)就選擇了另一條路徑。
早在OpenAI o1發(fā)布前,張麗團(tuán)隊(duì)就開始探索大模型深度推理能力。
System2這個(gè)原屬認(rèn)知科學(xué)的詞匯最早由她及團(tuán)隊(duì)引入大模型領(lǐng)域。
最近,她們通過蒙特卡洛搜索算法讓7B模型實(shí)現(xiàn)了o1級(jí)別的數(shù)學(xué)推理能力。
rStar—Math的發(fā)布引發(fā)學(xué)術(shù)圈內(nèi)外的廣泛討論。
在當(dāng)前基于PPO/GRPO強(qiáng)化學(xué)習(xí)路線主導(dǎo)的當(dāng)下,她們的工作又將帶來哪些新的可能性?
本期「大模型創(chuàng)新架構(gòu)」主題訪談,量子位邀請(qǐng)到rStar-Math作者微軟亞洲研究院首席研究員張麗,聊聊突破大模型智商上限、獎(jiǎng)勵(lì)模型以及System2背后的故事。
張麗,MSRA系統(tǒng)研究組首席研究員,微軟LongRoPE及rStar系列工作項(xiàng)目leader。
以下為量子位與rStar-Math作者微軟亞洲研究院首席研究員張麗的對(duì)話實(shí)錄整理:
智商突圍
量子位:能簡(jiǎn)單介紹下rStar-Math的核心工作嗎?當(dāng)初為什么選擇這個(gè)研究方向?
MSRA張麗:一直以來我們主要沿著如何提升大語(yǔ)言模型的智商這個(gè)大方向在持續(xù)做研究,具體分兩個(gè)方向:
一個(gè)是讓模型具備無限且持久的記憶能力,另一個(gè)是提升模型的深度推理邏輯思考能力。
我們2025年1月發(fā)布的rStar-Math工作,簡(jiǎn)單說是第一個(gè)公開通過蒙特卡洛搜索算法,讓7B模型實(shí)現(xiàn)了接近OpenAI o1級(jí)別的數(shù)學(xué)推理能力的工作。
我們當(dāng)時(shí)做這個(gè)工作的時(shí)候,整個(gè)行業(yè)趨勢(shì)還是在卷scaling law,認(rèn)為模型size越大,數(shù)據(jù)量越多,效果越好。
但我們發(fā)現(xiàn),盡管隔一段時(shí)間就有新體量的模型推出,但實(shí)際上模型的數(shù)學(xué)深度推理能力一直沒有顯著提升。
量子位:在2024年o1還沒發(fā)布時(shí)你們就開始做System2了嗎?
MSRA張麗:對(duì),應(yīng)該是2023年5月份左右。
2022年11月ChatGPT出來時(shí),大家都被震驚了,但是我們發(fā)現(xiàn)它仍然在有些方面做得不夠好。
作為研究員,我們比較注重邏輯推理思考能力,所以很自然會(huì)希望大語(yǔ)言模型能像我們一樣具備很強(qiáng)的推理能力。
我們最初的思路是兩點(diǎn):
一是希望模型在解題時(shí)能夠利用很長(zhǎng)的“草稿紙”,所以我們做了LongRoPE,拓展大模型長(zhǎng)文本的推理窗口。
二是要有效利用這個(gè)草稿紙,這就需要像人一樣的深度推理思考方式,這就有了rStar系列工作。
量子位:最早將System2這個(gè)人腦認(rèn)知科學(xué)詞匯引入大模型領(lǐng)域的是誰(shuí)?
MSRA張麗:可能是我們吧。更準(zhǔn)確地說,當(dāng)我們想定義這種能力時(shí),從人腦認(rèn)知科學(xué)中找到了這個(gè)可以類比的詞。
量子位:當(dāng)時(shí)為什么認(rèn)為System2會(huì)是未來非常重要的研究方向?
MSRA張麗:我們覺得,大語(yǔ)言模型真正要落地應(yīng)用,或者實(shí)現(xiàn)通用,其他能力可能都好說,智商或推理能力才是最關(guān)鍵因素。
看各行各業(yè)的頂尖人才,他們的專業(yè)領(lǐng)域不同,有人擅長(zhǎng)解數(shù)學(xué)題,有人擅長(zhǎng)寫代碼,有人寫作或口才好,但本質(zhì)上他們都有很強(qiáng)的推理能力,這就是智商。
大模型有了這個(gè)基礎(chǔ),再去做其他應(yīng)用,讓大模型落地或提高社會(huì)生產(chǎn)力,都會(huì)變得簡(jiǎn)單得多。
量子位:rStar-Math在研究過程中模型自己涌現(xiàn)出了self-reflection能力,這意味著什么?
MSRA張麗:這其實(shí)并不是有意為之,是意外收獲。后來想想,可能間接驗(yàn)證了self-reflection是提升大模型智商的關(guān)鍵能力這一點(diǎn)。
這種自我修正或自我反思是人類做很多事情都會(huì)使用的思維方式,可以說是一種必備能力。
我們確實(shí)沒有刻意追求復(fù)現(xiàn)“aha moment”,但這在當(dāng)時(shí)確實(shí)是個(gè)機(jī)會(huì),很多團(tuán)隊(duì)都想復(fù)現(xiàn),最后發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)可以激發(fā)出這種能力。
量子位:激發(fā)大模型self-reflection能力的關(guān)鍵是什么?
MSRA張麗:我個(gè)人認(rèn)為,大模型預(yù)訓(xùn)練數(shù)據(jù)中本來就包含人類自我反思過程的信息。
互聯(lián)網(wǎng)上的大量數(shù)據(jù)中會(huì)自然混入一些這樣的內(nèi)容,因?yàn)檫@是人類基本的高級(jí)思考模式。
大模型經(jīng)過預(yù)訓(xùn)練記住這些模式后,強(qiáng)化學(xué)習(xí)或蒙特卡洛搜索算法會(huì)將這種能力激發(fā)出來。
在解決復(fù)雜問題過程中,模型發(fā)現(xiàn)用了self-reflection后效果更好,蒙特卡洛算法就會(huì)把這些標(biāo)記為高質(zhì)量數(shù)據(jù);
如果是強(qiáng)化學(xué)習(xí),模型發(fā)現(xiàn)用了self-reflection后能答對(duì),就會(huì)給這個(gè)策略更高分?jǐn)?shù)。最終結(jié)果都是讓模型涌現(xiàn)出這種能力。
蒙特卡洛突破
量子位:rStar-Math發(fā)布后反響很大,有什么印象深刻的反饋嗎?
MSRA張麗:確實(shí)rStar-Math比我們之前的工作受到了更多關(guān)注,完全超出了我的預(yù)期。
我想可能是因?yàn)楫?dāng)時(shí)o1已經(jīng)出來好幾個(gè)月,但還沒有哪份公開的報(bào)告能說清楚它是怎么做到的。
我知道有很多人也在用類似的蒙特卡洛搜索算法,但沒有達(dá)到o1水平的效果。
而我們恰好做到了,而且方法上有一些創(chuàng)新,可能是這個(gè)原因會(huì)突然受到關(guān)注。
感覺有點(diǎn)“破圈”效應(yīng)。學(xué)術(shù)圈通常只有做同方向的人才會(huì)關(guān)注你的工作,但那時(shí)很多不做這個(gè)方向的同事朋友都發(fā)微信說某某看了我們工作想認(rèn)識(shí)一下,這種情況很少見。
還有很多媒體,國(guó)內(nèi)外的,都要采訪我們。在X上也有大量討論,一些人給了很高評(píng)價(jià),認(rèn)為用7B模型就能達(dá)到OpenAI o1級(jí)別表現(xiàn)非常不可思議。
也有人討論2025年會(huì)不會(huì)是小模型的時(shí)代,還引發(fā)了關(guān)于scaling law與其他路線的新一輪辯論。
量子位:有沒有遇到質(zhì)疑的聲音?
MSRA張麗:當(dāng)然有,大概分兩個(gè)階段。
一開始在DeepSeek R1和Kimi 1.5出來之前,主要質(zhì)疑是“小模型能力怎么會(huì)這么強(qiáng)”以及“這個(gè)方法能否泛化到其他任務(wù)”,所以后來我們開源了代碼和數(shù)據(jù)。
后來,DeepSeek R1和Kimi 1.5出來了,有人開始討論復(fù)現(xiàn)OpenAI o1效果到底是否真的需要蒙特卡洛搜索。這些質(zhì)疑都很合理,因?yàn)槊總€(gè)人觀點(diǎn)不同。
量子位:蒙特卡洛搜索算法的獎(jiǎng)勵(lì)模型和傳統(tǒng)Best of N獎(jiǎng)勵(lì)模型的根本區(qū)別是什么?
MSRA張麗:根本區(qū)別是蒙特卡洛搜索算法的獎(jiǎng)勵(lì)模型是步驟級(jí)別的,是過程獎(jiǎng)勵(lì)模型。
Best of N是結(jié)果獎(jiǎng)勵(lì)模型,不關(guān)注過程,所以蒙特卡洛搜索算法效果更好。
量子位:為什么蒙特卡洛搜索算法在小模型上表現(xiàn)這么好?效果會(huì)不會(huì)僅限于小模型?
MSRA張麗:它在小模型上表現(xiàn)優(yōu)異,反而說明了它有很大潛力。
我們2024年8月發(fā)布初版rStar時(shí)就發(fā)現(xiàn)了蒙特卡洛算法潛力巨大。
當(dāng)時(shí)我們沒有進(jìn)行任何訓(xùn)練,甚至沒有訓(xùn)練獎(jiǎng)勵(lì)模型,只是在小模型上應(yīng)用蒙特卡洛搜索算法,發(fā)現(xiàn)效果非常好,甚至能與做了特殊微調(diào)后的模型效果相當(dāng)。
因?yàn)镾ystem2是更高級(jí)的思維模式,有一定門檻,策略模型不能太差,而小模型作為策略模型本身就較弱。
所以為了解決小模型效果不理想的問題,如幻覺等,我們唯一做的就是加了code-augmented CoT,盡量讓蒙特卡洛搜索算法效果發(fā)揮到極致。
量子位:在你們的工作發(fā)布前,蒙特卡洛搜索算法是主流方案嗎?
MSRA張麗:之前它不是很主流,但學(xué)術(shù)界確實(shí)有一些工作開始關(guān)注這個(gè)方向。
量子位:o1及你們的工作發(fā)布后,這種方法變得更主流了嗎?
MSRA張麗:目前還沒看到這種趨勢(shì),大多數(shù)人還是在做強(qiáng)化學(xué)習(xí)。不過我知道一些其他領(lǐng)域的人也在嘗試蒙特卡洛搜索算法。
由于我們的工作受到關(guān)注,有人聯(lián)系我們,希望將這種方法應(yīng)用到金融或醫(yī)療領(lǐng)域。一些實(shí)際場(chǎng)景需要較小的模型,他們可能會(huì)考慮我們的方法。
量子位:你們做了scaling law實(shí)驗(yàn)嗎?有看到你們的工作隨著參數(shù)量增加效果的變化趨勢(shì)嗎?
MSRA張麗:目前我們最大只做到7B,然后向下做了scaling down,嘗試了3.8B和1.5B。
總體觀察到的趨勢(shì)是參數(shù)規(guī)模越大,效果越好。
如果模型size固定,我相信蒙特卡洛搜索算法比當(dāng)前基于強(qiáng)化學(xué)習(xí)或蒸餾的方法潛力更高。
量子位:rStar-Math在合成數(shù)據(jù)方面效果這么好,背后原因是什么?
MSRA張麗:主要有兩點(diǎn)。第一是code-augmented CoT,雖然最初是為小模型設(shè)計(jì)的,但對(duì)更大模型也有用。
當(dāng)然這種方法以前就有,叫Tool-Integrity Reasoning (TIR)。
第二是我們用了過程獎(jiǎng)勵(lì)模型配合蒙特卡洛搜索算法,會(huì)做很多rollout,給不同步驟和每個(gè)trace打分。
即使是正確的trace中,我們也會(huì)挑選出更優(yōu)的步驟,這相當(dāng)于做了很好的數(shù)據(jù)篩選。
量子位:您認(rèn)為獎(jiǎng)勵(lì)模型的重要性未來會(huì)成為共識(shí)嗎?對(duì)獎(jiǎng)勵(lì)模型的研究會(huì)增多嗎?
MSRA張麗:我覺得會(huì)?,F(xiàn)實(shí)中有很多任務(wù)沒有明確標(biāo)準(zhǔn)答案,很難用簡(jiǎn)單規(guī)則評(píng)價(jià)。
比如寫作,你幾乎無法用幾條規(guī)則判斷好壞,肯定需要一個(gè)更強(qiáng)的獎(jiǎng)勵(lì)模型來打分。
對(duì)于復(fù)雜邏輯推理問題,比如數(shù)學(xué)證明也很難做好的獎(jiǎng)勵(lì)模型,因?yàn)樗?strong>不只是結(jié)果對(duì)就行,必須每一步證明都正確,需要一個(gè)非常嚴(yán)格的過程獎(jiǎng)勵(lì)。
如果只用基于結(jié)果的強(qiáng)化學(xué)習(xí),很可能出現(xiàn)證明結(jié)果正確但過程錯(cuò)誤的情況。
要在提升大模型智商這個(gè)方向繼續(xù)前進(jìn),一個(gè)優(yōu)秀的過程獎(jiǎng)勵(lì)模型是必不可少的。
量子位:為什么優(yōu)化策略模型比優(yōu)化獎(jiǎng)勵(lì)模型更快?
MSRA張麗:首先,獎(jiǎng)勵(lì)模型比策略模型更難做。獎(jiǎng)勵(lì)模型是強(qiáng)化學(xué)習(xí)多年來始終未完全解決的問題。
很難找到一個(gè)好的獎(jiǎng)勵(lì)模型或獎(jiǎng)勵(lì)函數(shù)去給動(dòng)作或策略打分。
其次,獎(jiǎng)勵(lì)模型在強(qiáng)化學(xué)習(xí)中容易出現(xiàn)reward hacking問題。策略模型可能會(huì)用各種方法騙過獎(jiǎng)勵(lì)模型,實(shí)際上輸出的答案并不好。
這導(dǎo)致強(qiáng)化學(xué)習(xí)無法持續(xù)進(jìn)行,所以很多做強(qiáng)化學(xué)習(xí)的研究者會(huì)拿掉獎(jiǎng)勵(lì)模型,但本質(zhì)上還是因?yàn)楠?jiǎng)勵(lì)模型目前沒有很好的解決方案。
對(duì)于數(shù)學(xué)這樣的高難度問題,獎(jiǎng)勵(lì)模型更難構(gòu)建。
在一般問題中,獎(jiǎng)勵(lì)模型不那么準(zhǔn)確可能還能接受,但在數(shù)學(xué)問題中,一步錯(cuò)誤就會(huì)導(dǎo)致最終答案完全錯(cuò)誤。
量子位:rStar-Math對(duì)數(shù)學(xué)推理之外的其他任務(wù)有泛化性嗎?
MSRA張麗:我認(rèn)為它有很強(qiáng)的泛化潛力。
rStar-Math本質(zhì)上是一種思路,我只需要知道每次rollout的結(jié)果是對(duì)還是錯(cuò)就可以應(yīng)用。
當(dāng)最終結(jié)果正確時(shí),我就認(rèn)為這次rollout中的每個(gè)步驟都有貢獻(xiàn),就會(huì)返回給它們打分,然后進(jìn)行更多rollout。
如果中間某個(gè)節(jié)點(diǎn)每次都能導(dǎo)向正確答案,那可能是個(gè)正確步驟;如果經(jīng)常導(dǎo)向錯(cuò)誤答案,可能就是錯(cuò)誤步驟。
打完分后,我就能收集數(shù)據(jù)構(gòu)造過程獎(jiǎng)勵(lì)模型,這就是rStar-Math的核心思想。
它唯一的門檻是在rollout到根節(jié)點(diǎn)時(shí)需要判斷這次outcome是否正確,這個(gè)門檻并不高,所以應(yīng)用場(chǎng)景其實(shí)很廣,泛化性沒有問題。
破局與遠(yuǎn)見
量子位:rStar-Math開源后,行業(yè)有什么反響?
MSRA張麗:我們當(dāng)然希望它能有更廣泛的應(yīng)用,或者有人基于我們的代碼在更大模型上嘗試。
目前有一些第三方聯(lián)系我們,比如有家公司想用這個(gè)模型做數(shù)學(xué)AI教育,還有國(guó)外一些知名實(shí)驗(yàn)室希望在代碼類和數(shù)學(xué)證明方面合作。
有趣的是,還有一家智能車廠商聯(lián)系我們,希望用我們的算法在他們的模型上復(fù)現(xiàn),讓我們幫助解答一些問題。
量子位:您看好rStar-Math在工業(yè)級(jí)模型上落地嗎?在通用場(chǎng)景中,蒙特卡洛搜索算法的搜索空間會(huì)不會(huì)太大?
MSRA張麗:對(duì)于很簡(jiǎn)單的問題,確實(shí)沒必要用這么復(fù)雜的方法。
蒙特卡洛搜索算法最初因AlphaGo而火,它可能天然更適合復(fù)雜任務(wù)。
對(duì)通用任務(wù),它可以用但不一定是必要的。普通大模型一次回答可能就足夠接受,不需要再用System2去多次搜索。
多搜索幾次可能找到比一次回答更好的答案,但兩者差距可能不大,從性價(jià)比上考慮可能必要性不會(huì)特別高。
量子位:下一步的研究會(huì)更關(guān)注長(zhǎng)文本還是深推理?
MSRA張麗:關(guān)于長(zhǎng)文本,我們之前做LongRoPE時(shí)從算法層面提供了讓預(yù)訓(xùn)練模型文本窗口可以拓展到無限的方案。
也在微軟的phi系列模型上得到了驗(yàn)證。
但要真正擴(kuò)展到那么長(zhǎng)的長(zhǎng)度,還需要解決效率問題以及長(zhǎng)文本數(shù)據(jù)和算力問題,這些不是我當(dāng)前階段關(guān)注的重點(diǎn)。
我們目前更關(guān)注推理能力的提升,也就是深推理這方面。
量子位:會(huì)繼續(xù)研究獎(jiǎng)勵(lì)模型嗎?
MSRA張麗:下一步我們可能會(huì)做三件事。
第一是繼續(xù)優(yōu)化獎(jiǎng)勵(lì)模型。
第二是進(jìn)一步提升策略模型能力,希望它能學(xué)會(huì)更像人類的高級(jí)推理方式,比如主動(dòng)提問或self-reflection之外的其他推理方式。
第三是擴(kuò)展任務(wù)領(lǐng)域,除了數(shù)學(xué)外,我們還想擴(kuò)展到高難度的代碼推理任務(wù),最終實(shí)現(xiàn)通用的深度推理能力。
量子位:解數(shù)學(xué)題一定是智商要求最高的任務(wù)嗎?
MSRA張麗:我認(rèn)為是的。數(shù)學(xué)推理基本上是大語(yǔ)言模型中最要求程序執(zhí)行能力和邏輯嚴(yán)謹(jǐn)性的任務(wù)類型。
有些證明題數(shù)學(xué)家需要花幾百年才能證明出來,我個(gè)人認(rèn)為它應(yīng)該是智能天花板的一種表現(xiàn)。
量子位:有種說法認(rèn)為大家對(duì)提升數(shù)學(xué)能力的研究更多是因?yàn)樗Y(jié)果唯一、數(shù)據(jù)全且易驗(yàn)證,數(shù)學(xué)能力一定代表智商天花板嗎?
MSRA張麗:數(shù)學(xué)任務(wù)確實(shí)更容易著手研究,效果更容易驗(yàn)證,但要真正提升數(shù)學(xué)推理能力并不容易。
比如FrontierMath這個(gè)高難度數(shù)學(xué)基準(zhǔn)測(cè)試,由多名數(shù)學(xué)家出題,目前最強(qiáng)的模型在上面的準(zhǔn)確率也只有2%左右。
當(dāng)前數(shù)學(xué)研究更多是因?yàn)?strong>數(shù)據(jù)相對(duì)豐富,條件比較成熟,判定好壞更明確。
有些非證明題甚至不需要看步驟,看答案對(duì)不對(duì)就可以了,所以可能給人感覺大模型數(shù)學(xué)能力好做。
人類的其他復(fù)雜任務(wù)可能現(xiàn)在各方面研究條件還不夠成熟,所以感覺大家都在做數(shù)學(xué)能力。
但真正讓大模型成為數(shù)學(xué)家可信賴的助手,這條路還很長(zhǎng)。
論文:https://arxiv.org/abs/2501.04519