91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

無需訓練微調(diào),輔助系統(tǒng)助力GPT-5.2準確率創(chuàng)75%紀錄

2025-12-26
不直接依賴模型底層調(diào)優(yōu),而是通過優(yōu)化推理過程進一步提升模型性能。

什么?決定AI上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。


在LLM完全不變的前提下,僅靠一套Agentic System,就能讓AI的智力表現(xiàn)原地提升一截。


看了「AI推理和自我改進系統(tǒng)」初創(chuàng)公司Poetiq的最新評測后,有人得出了這樣的結(jié)論。



部分截圖


近日,Poetiq表示其使用ARC-AGI-2測試集,在自家系統(tǒng)(名為meta-system)上運行了GPT-5.2 X-High。該測試集常被用于衡量當前頂尖模型在復雜抽象推理任務上的表現(xiàn)。


結(jié)果顯示,在相同的Poetiq測試平臺上,GPT?5.2 X?High在完整的PUBLIC-EVAL數(shù)據(jù)集上的成績達到75%,這比此前的最佳水平高出約15%,同時每個問題的成本低于8美元。


這里的PUBLIC-EVAL是ARC測試的一部分,前者包含基礎(chǔ)推理任務和標準的NLP、數(shù)學推理測試,適合廣泛的模型評測,數(shù)據(jù)集更公開、標準;后者則有更多復雜且具挑戰(zhàn)性的推理問題,考察模型的抽象推理、常識推理、創(chuàng)新能力等,是針對高水平模型的推理極限測試。



下圖展示了各個頂尖模型在PUBLIC-EVAL數(shù)據(jù)集上的成績分布:



Poetiq特別強調(diào),其未對GPT-5.2進行任何再訓練或模型特定優(yōu)化。


在短時間內(nèi),相較于Poetiq之前在PUBLIC-EVAL數(shù)據(jù)集上測試的其他模型,GPT-5.2在準確率和價格方面實現(xiàn)了顯著改進。


Poetiq進一步設(shè)想:如果在PUBLIC-EVAL測試中表現(xiàn)良好的規(guī)律能延續(xù)到ARC Prize官方的SEMI-PRIVATE測試中,那么「GPT-5.2 X-High + Poetiq」會比以往任何系統(tǒng)配置都更強、更好。


ARC Prize總裁Greg Kamradt表示:「很高興看到Poetiq發(fā)布GPT-5.2 X-High的結(jié)果。如果這個成績能保持,他們的系統(tǒng)看起來能很好地處理模型交換。不過,在OpenAI API的基礎(chǔ)設(shè)施問題解決前,結(jié)果還未完全驗證?!?/p>


這里的模型交換指的是:系統(tǒng)通過切換不同模型應對不同任務需求,而無需對系統(tǒng)或模型進行大規(guī)模調(diào)整或重新訓練。



OpenAI總裁Greg Brockman也轉(zhuǎn)推稱:GPT-5.2在ARC-AGI-2上超越人類基準成績。



針對全新測試結(jié)果,評論區(qū)提出了更多問題,比如「每個任務平均需要多長時間」。


Poetiq回復:「我們目前沒有專門收集這些統(tǒng)計數(shù)據(jù),最簡單的問題大概8到10分鐘后就能完成,最難的問題必須在12小時前終止,以符合時間限制。所以,未來肯定還有改進空間?!?/p>



還有人指出:「大部分改進似乎來自測試框架和協(xié)調(diào)機制,而非任何模型特定調(diào)優(yōu)。在無訓練變更的情況下,ARC-AGI-2上提高約15%,這表明僅在搜索、路由和終止邏輯方面就還有很大提升空間。」


但問題是:為何在這個設(shè)置中,X-High每個任務的成本比High還要低?是因為它更早找到正確解決方案從而更快收斂,還是測試框架更積極地修剪了無效推理過程?


對于這個問題,Poetiq肯定了「X-High只是比High更快收斂到正確答案」這一觀點。



6人團隊打造Meta-system系統(tǒng)


Poetiq是一支由6位研究員和工程師組成的團隊,多位核心成員來自Google DeepMind。


Ian Fischer(聯(lián)合創(chuàng)始人&聯(lián)席CEO):曾是Google DeepMind的資深研究員;


Shumeet Baluja(聯(lián)合創(chuàng)始人&聯(lián)席CEO):同樣出身于Google/DeepMind的資深專家。



Poetiq能取得上述成績,關(guān)鍵在于其構(gòu)建的meta-system(元系統(tǒng))。


Meta-system不依賴特定大模型,可與任何前沿模型配合使用(如Gemini 3、GPT-5.1、Grok等),而非訓練或微調(diào)模型本身,這意味著它能隨新模型發(fā)布快速適配并提升性能。


Poetiq meta-system構(gòu)建了一種迭代式推理過程,與傳統(tǒng)一次性生成答案的方法不同,它有兩個主要機制:


迭代式問題求解循環(huán):系統(tǒng)并非只向模型提出一次問題,而是利用大語言模型(LLM)生成一個潛在解決方案,隨后接收反饋、分析反饋,并再次調(diào)用LLM對方案進行改進。這種多步驟、自我改進的過程,讓系統(tǒng)能逐步構(gòu)建并不斷完善最終答案。


自我審計(Self-Auditing):系統(tǒng)能自主審計自身運行進度,自行判斷何時已獲得足夠信息、當前解決方案是否令人滿意,從而決定終止整個過程。這種自我監(jiān)控機制對避免不必要的計算浪費、有效降低整體成本至關(guān)重要。


Poetiq還特別強調(diào),他們所有meta-system的適配工作在新模型發(fā)布前就已完成,且系統(tǒng)從未直接接觸過ARC-AGI任務集,但依然在多個不同模型上取得跨版本、跨模型族的性能提升,說明meta-system對推理策略具有良好的泛化能力。


正是這種靈活、強大且具備遞歸能力的架構(gòu),讓Poetiq這樣的小規(guī)模團隊能在極短時間內(nèi)取得一系列頂尖成果。


對于這個meta-system,有人認為:「太棒了。在模型之上構(gòu)建智能,而非在模型內(nèi)部構(gòu)建,意味著能在幾小時內(nèi)適配新模型,非常高明。適配開源模型且成功遷移到新的封閉模型,這表明捕捉到的是推理過程本身的基本規(guī)律,而非模型特定的特性?!?/p>



參考鏈接:https://poetiq.ai/posts/arcagi_verified/


本文來自微信公眾號“機器之心”,編輯:杜偉、陳陳,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com