91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<nav id="ccky0"><pre id="ccky0"></pre></nav>

無需訓練微調(diào)，輔助系統(tǒng)助力GPT-5.2準確率創(chuàng)75%紀錄

2025-12-26

不直接依賴模型底層調(diào)優(yōu)，而是通過優(yōu)化推理過程進一步提升模型性能。

什么？決定AI上限的已不再是底座模型，而是外圍的「推理編排」（Orchestration）。

在LLM完全不變的前提下，僅靠一套Agentic System，就能讓AI的智力表現(xiàn)原地提升一截。

看了「AI推理和自我改進系統(tǒng)」初創(chuàng)公司Poetiq的最新評測后，有人得出了這樣的結(jié)論。

部分截圖

近日，Poetiq表示其使用ARC-AGI-2測試集，在自家系統(tǒng)（名為meta-system）上運行了GPT-5.2 X-High。該測試集常被用于衡量當前頂尖模型在復雜抽象推理任務上的表現(xiàn)。

結(jié)果顯示，在相同的Poetiq測試平臺上，GPT?5.2 X?High在完整的PUBLIC-EVAL數(shù)據(jù)集上的成績達到75%，這比此前的最佳水平高出約15%，同時每個問題的成本低于8美元。

這里的PUBLIC-EVAL是ARC測試的一部分，前者包含基礎(chǔ)推理任務和標準的NLP、數(shù)學推理測試，適合廣泛的模型評測，數(shù)據(jù)集更公開、標準；后者則有更多復雜且具挑戰(zhàn)性的推理問題，考察模型的抽象推理、常識推理、創(chuàng)新能力等，是針對高水平模型的推理極限測試。

下圖展示了各個頂尖模型在PUBLIC-EVAL數(shù)據(jù)集上的成績分布：

Poetiq特別強調(diào)，其未對GPT-5.2進行任何再訓練或模型特定優(yōu)化。

在短時間內(nèi)，相較于Poetiq之前在PUBLIC-EVAL數(shù)據(jù)集上測試的其他模型，GPT-5.2在準確率和價格方面實現(xiàn)了顯著改進。

Poetiq進一步設(shè)想：如果在PUBLIC-EVAL測試中表現(xiàn)良好的規(guī)律能延續(xù)到ARC Prize官方的SEMI-PRIVATE測試中，那么「GPT-5.2 X-High + Poetiq」會比以往任何系統(tǒng)配置都更強、更好。

ARC Prize總裁Greg Kamradt表示：「很高興看到Poetiq發(fā)布GPT-5.2 X-High的結(jié)果。如果這個成績能保持，他們的系統(tǒng)看起來能很好地處理模型交換。不過，在OpenAI API的基礎(chǔ)設(shè)施問題解決前，結(jié)果還未完全驗證?！?/p>

這里的模型交換指的是：系統(tǒng)通過切換不同模型應對不同任務需求，而無需對系統(tǒng)或模型進行大規(guī)模調(diào)整或重新訓練。

OpenAI總裁Greg Brockman也轉(zhuǎn)推稱：GPT-5.2在ARC-AGI-2上超越人類基準成績。

針對全新測試結(jié)果，評論區(qū)提出了更多問題，比如「每個任務平均需要多長時間」。

Poetiq回復：「我們目前沒有專門收集這些統(tǒng)計數(shù)據(jù)，最簡單的問題大概8到10分鐘后就能完成，最難的問題必須在12小時前終止，以符合時間限制。所以，未來肯定還有改進空間?！?/p>

還有人指出：「大部分改進似乎來自測試框架和協(xié)調(diào)機制，而非任何模型特定調(diào)優(yōu)。在無訓練變更的情況下，ARC-AGI-2上提高約15%，這表明僅在搜索、路由和終止邏輯方面就還有很大提升空間。」

但問題是：為何在這個設(shè)置中，X-High每個任務的成本比High還要低？是因為它更早找到正確解決方案從而更快收斂，還是測試框架更積極地修剪了無效推理過程？

對于這個問題，Poetiq肯定了「X-High只是比High更快收斂到正確答案」這一觀點。

6人團隊打造Meta-system系統(tǒng)

Poetiq是一支由6位研究員和工程師組成的團隊，多位核心成員來自Google DeepMind。

Ian Fischer（聯(lián)合創(chuàng)始人&聯(lián)席CEO）：曾是Google DeepMind的資深研究員；

Shumeet Baluja（聯(lián)合創(chuàng)始人&聯(lián)席CEO）：同樣出身于Google/DeepMind的資深專家。

Poetiq能取得上述成績，關(guān)鍵在于其構(gòu)建的meta-system（元系統(tǒng)）。

Meta-system不依賴特定大模型，可與任何前沿模型配合使用（如Gemini 3、GPT-5.1、Grok等），而非訓練或微調(diào)模型本身，這意味著它能隨新模型發(fā)布快速適配并提升性能。

Poetiq meta-system構(gòu)建了一種迭代式推理過程，與傳統(tǒng)一次性生成答案的方法不同，它有兩個主要機制：

迭代式問題求解循環(huán)：系統(tǒng)并非只向模型提出一次問題，而是利用大語言模型（LLM）生成一個潛在解決方案，隨后接收反饋、分析反饋，并再次調(diào)用LLM對方案進行改進。這種多步驟、自我改進的過程，讓系統(tǒng)能逐步構(gòu)建并不斷完善最終答案。

自我審計（Self-Auditing）：系統(tǒng)能自主審計自身運行進度，自行判斷何時已獲得足夠信息、當前解決方案是否令人滿意，從而決定終止整個過程。這種自我監(jiān)控機制對避免不必要的計算浪費、有效降低整體成本至關(guān)重要。

Poetiq還特別強調(diào)，他們所有meta-system的適配工作在新模型發(fā)布前就已完成，且系統(tǒng)從未直接接觸過ARC-AGI任務集，但依然在多個不同模型上取得跨版本、跨模型族的性能提升，說明meta-system對推理策略具有良好的泛化能力。

正是這種靈活、強大且具備遞歸能力的架構(gòu)，讓Poetiq這樣的小規(guī)模團隊能在極短時間內(nèi)取得一系列頂尖成果。

對于這個meta-system，有人認為：「太棒了。在模型之上構(gòu)建智能，而非在模型內(nèi)部構(gòu)建，意味著能在幾小時內(nèi)適配新模型，非常高明。適配開源模型且成功遷移到新的封閉模型，這表明捕捉到的是推理過程本身的基本規(guī)律，而非模型特定的特性?！?/p>

參考鏈接：https://poetiq.ai/posts/arcagi_verified/

本文來自微信公眾號“機器之心”，編輯：杜偉、陳陳，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

云南文旅喊話小紅書引爭議：輿論為何不站商家？消費者的擔憂你懂嗎

盒馬最大水產(chǎn)活鮮暫養(yǎng)倉投產(chǎn) 自研系統(tǒng)保障多品類鮮活供應

金華之心銀泰百貨大型寵物主題跨年活動即將啟幕

敢與李想當面爭執(zhí)的王牌產(chǎn)品負責人離職，他是理想爆款車型背后的關(guān)鍵推手

2025中國科技產(chǎn)業(yè)十大里程碑事件回顧

項目推薦

愛親母嬰連鎖品牌

<button id="uy8mw"></button>

<nav id="uy8mw"></nav>