OpenAI推出前沿科學(xué)基準(zhǔn):AI雖獲奧賽金牌,距頂尖科學(xué)家仍有差距
OpenAI最新發(fā)布的FrontierScience基準(zhǔn),旨在通過真實(shí)的博士級難題,從物理、化學(xué)、生物三個維度檢驗(yàn)AI。殘酷的現(xiàn)實(shí)是:在沒有唯一標(biāo)準(zhǔn)答案的科研實(shí)戰(zhàn)中,作為「頂級做題家」的AI,與真正的科學(xué)家相比,還有很大差距。
2025年12月16日,OpenAI發(fā)布了一套新基準(zhǔn)FrontierScience,用于衡量AI在物理、化學(xué)、生物三門學(xué)科中能否實(shí)現(xiàn)接近專家水平的科學(xué)推理,而非僅僅是背誦知識點(diǎn)。


OpenAI在文中將科學(xué)工作描述為一套更接近「持續(xù)試錯」的流程。
提出假設(shè),設(shè)計驗(yàn)證,推翻后重新開始,還要將不同領(lǐng)域的線索整合到一起。
模型越強(qiáng)大,問題就越尖銳:AI能否將這種深度推理應(yīng)用到真正的科研推進(jìn)中。
OpenAI提到,過去一年,他們的系統(tǒng)在國際數(shù)學(xué)奧林匹克和國際信息學(xué)奧林匹克中取得了金牌級表現(xiàn),同時更重要的變化發(fā)生在實(shí)驗(yàn)室和辦公室里。
研究者開始利用這些模型進(jìn)行跨學(xué)科文獻(xiàn)檢索、跨語言閱讀論文,也用它們推導(dǎo)復(fù)雜證明。
有些原本需要幾天甚至幾周的工作,現(xiàn)在幾小時就能完成一輪。
為何需要FrontierScience?OpenAI給出了一組對比數(shù)據(jù)。
2023年11月,由博士專家撰寫、強(qiáng)調(diào)「谷歌搜不到」的科學(xué)題庫GPQA發(fā)布時,GPT-4僅獲得39%的分?jǐn)?shù),低于專家基線的74%。
兩年后,GPT-5.2在同一基準(zhǔn)上拿到了92%的分?jǐn)?shù)。
當(dāng)舊題庫逐漸被模型「刷穿」,就必須有更長的「尺子」,否則無法看出模型的發(fā)展空間。
FrontierScience的設(shè)計更像是給模型設(shè)置了兩種不同的「科學(xué)難關(guān)」。
一類偏向競賽風(fēng)格,考查在約束條件下能否清晰利落完成推理。

物理競賽題示例
另一類更貼近研究現(xiàn)場,要求在開放問題中梳理清晰思路,即便沒有標(biāo)準(zhǔn)答案那般工整。

物理科研問題示例
這套評測共有超過700道文本型題目,其中160道屬于「黃金組」(Gold Set)題目。
競賽賽道包含100道題,強(qiáng)調(diào)短答案形式,便于核驗(yàn)對錯。
研究賽道有60個原創(chuàng)研究子任務(wù),由博士階段或更資深的研究者設(shè)計,采用10分制評分,至少拿到7分才算通過。

題目質(zhì)量有充分保障:
競賽賽道與42位前國際獎牌得主或國家隊教練合作,這些合作者總計獲得109枚奧賽獎牌;
研究賽道由45位合格科學(xué)家與領(lǐng)域?qū)<覅⑴c,覆蓋從量子電動力學(xué)到合成有機(jī)化學(xué),再到進(jìn)化生物學(xué)等細(xì)分方向。
OpenAI還承認(rèn)了一個并非完全「中立」的細(xì)節(jié)。
兩套題在制作過程中會刻意剔除OpenAI自家內(nèi)部模型已能答對的題目,因此這套評測對OpenAI自家模型可能更為苛刻。
同時,他們開源了兩套賽道的「黃金組」題目,其余題目則保留,用于追蹤數(shù)據(jù)污染情況。
OpenAI表示,短答案適合機(jī)器判定,但研究型任務(wù)需要更細(xì)致的評分標(biāo)準(zhǔn),于是他們讓GPT-5充當(dāng)模型判卷員,對照短答案逐項(xiàng)打分。
理想狀態(tài)是請專家逐題批改,但現(xiàn)實(shí)中規(guī)模不允許,因此規(guī)則被設(shè)計得盡量客觀且可被模型檢查,并配備了驗(yàn)證流程來校準(zhǔn)難度與正確性。
在成績單上,OpenAI給出了一輪初步測試的對比結(jié)果。
他們評測了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI稱,GPT-5.2在競賽題上得分77%,在研究題上得分25%,目前處于領(lǐng)先;Gemini 3 Pro在競賽題上拿到76%,緊隨其后。

更值得關(guān)注的是失敗原因。
OpenAI從答題記錄中總結(jié)發(fā)現(xiàn),前沿模型仍會出現(xiàn)推理、邏輯和計算錯誤,會在冷門概念上卡殼,也會存在事實(shí)性偏差。
另一個簡單的觀察結(jié)果也被寫入正文:模型思考時間越長,準(zhǔn)確率通常越高。

OpenAI也直言不諱地指出了FrontierScience的局限性。
它將科研拆解為可控的題目,這讓評測更標(biāo)準(zhǔn)化,但也意味著它更像一張高清截圖,而非科研的全景紀(jì)錄片。
尤其是它不評估模型能否提出真正新穎的假設(shè),也不涵蓋模型與多模態(tài)數(shù)據(jù)及現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)交互的能力。
接下來,OpenAI計劃迭代題庫、擴(kuò)展領(lǐng)域,并配套更多真實(shí)世界評估,以觀察這些系統(tǒng)究竟能幫助科學(xué)家完成多少工作。
奧賽金牌不等于一流科學(xué)家,AI要成為真正能獨(dú)當(dāng)一面的一流科學(xué)家,還有很長的路要走。
參考資料:
https://openai.com/index/frontierscience/
本文來自微信公眾號“新智元”,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





