OpenAI推出超強(qiáng)編程模型:性能超越谷歌,助力編程新突破
IT之家11月20日消息,OpenAI于昨日(11月19日)發(fā)布博文,宣布推出GPT - 5.1 - Codex - Max智能體編程模型。該模型顯著提升了長遠(yuǎn)推理能力、效率和實(shí)時(shí)交互能力,并且將取代GPT - 5.1 - Codex,成為Codex集成界面上的默認(rèn)模型。

據(jù)IT之家援引博文介紹,此次發(fā)布緊跟谷歌Gemini 3 Pro之后。不過,在多個(gè)關(guān)鍵編程基準(zhǔn)測(cè)試中,Codex - Max展現(xiàn)出更強(qiáng)的實(shí)力。例如,在衡量解決實(shí)際軟件問題的SWE - Bench Verified測(cè)試中,Codex - Max以77.9%的準(zhǔn)確率小幅領(lǐng)先于Gemini 3 Pro的76.2%。


Codex - Max在Terminal - Bench 2.0測(cè)試中也處于領(lǐng)先地位,準(zhǔn)確率達(dá)到58.1%,而Gemini的準(zhǔn)確率為54.2%;在LiveCodeBench Pro(一項(xiàng)競(jìng)爭(zhēng)激烈的編碼Elo基準(zhǔn)測(cè)試)測(cè)試中,它的得分與Gemini的2439分持平。

GPT - 5.1 - Codex - Max的一項(xiàng)重大架構(gòu)升級(jí)是引入了名為“壓縮”(Compaction)的機(jī)制。該機(jī)制能讓模型在接近其上下文窗口限制時(shí),智能地保留關(guān)鍵上下文信息并丟棄無關(guān)細(xì)節(jié),從而實(shí)現(xiàn)跨越數(shù)百萬token的連續(xù)工作,且不會(huì)出現(xiàn)性能下降。

得益于這一機(jī)制,該模型在內(nèi)部測(cè)試中已成功完成持續(xù)超過24小時(shí)的復(fù)雜任務(wù),如多步驟代碼重構(gòu)和自主調(diào)試。同時(shí),這項(xiàng)技術(shù)還提升了約30%的token效率,有效降低了成本與延遲。
新模型目前已集成到OpenAI自家的多個(gè)Codex開發(fā)環(huán)境中,包括其官方命令行工具(Codex CLI)、內(nèi)部代碼審查工具以及各類交互式編程環(huán)境。
開發(fā)者可以通過這些工具體驗(yàn)到模型強(qiáng)大的實(shí)時(shí)交互能力,例如在可視化界面中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練或模擬光學(xué)定律。不過,GPT - 5.1 - Codex - Max尚未通過公共API提供,但官方表示即將開放。普通用戶則需要訂閱ChatGPT Plus、Pro或企業(yè)版等付費(fèi)計(jì)劃才能使用。
OpenAI透露,其內(nèi)部95%的工程師每周都會(huì)使用Codex。自采用以來,這些工程師平均多提交了約70%的拉取請(qǐng)求(Pull Requests),顯著提升了內(nèi)部開發(fā)速度。
盡管Codex - Max具備高度的自主性,OpenAI仍強(qiáng)調(diào)它應(yīng)作為編碼“助手”而非人類的替代品。為保證透明度,模型會(huì)生成詳細(xì)的終端日志和測(cè)試引用,以便開發(fā)者審查和驗(yàn)證其生成的所有代碼。此外,模型在默認(rèn)情況下運(yùn)行于嚴(yán)格的沙盒環(huán)境中,并禁用了網(wǎng)絡(luò)訪問,以確保安全性。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

