GPT-5.2定價超DeepSeek 400倍引爭議,它真的配得上高價嗎?
GPT-5.2的定價達到DeepSeek的400倍,比谷歌Gemini 3 Pro也高出近10倍。
OpenAI新發(fā)布的GPT-5.2,究竟實力如何?

或許可以說,它是最貼合打工人需求的AI之一,因為它可能推動AI從基礎助手向?qū)I(yè)級工具轉(zhuǎn)變。
首先在專業(yè)能力上,GPT-5.2有七成概率能勝過屏幕前刷視頻的行業(yè)專家。
單看跑分,GPT-5.2在各維度都比Gemini 3 Pro略高一點。
不過優(yōu)勢僅在毫厘之間,不排除OpenAI針對Gemini優(yōu)化測試成績的可能。

但OpenAI此次最看重的是GDPval測試結(jié)果。
這是今年925期間推出的全新測試方法,用于評估AI能否真正協(xié)助打工人完成工作。

他們邀請了九個領域、四十四類行業(yè)的專家,結(jié)合實際工作場景出題。
以此檢驗AI能否勝任專家的工作任務。

結(jié)果顯示,GPT-5.2在七成工作任務中能與人類持平甚至表現(xiàn)更優(yōu)。
我們也對新模型做了簡單測試:讓GPT-5.2統(tǒng)計互聯(lián)網(wǎng)上AI公司發(fā)布的所有模型。

接著統(tǒng)計這些模型在各排行榜的分數(shù),最后按月份整理成表格。
經(jīng)過14分鐘的處理,GPT-5.2成功完成了數(shù)據(jù)收集、結(jié)果統(tǒng)計和表格繪制的全流程任務。

這樣的完成度確實值得肯定。

此外,GPT-5.2還能完成復雜表格工作,制作的表格比舊版本更美觀。

各項任務測試指標也提升了約9%。
代碼編寫能力方面,GPT-5.2也有不少進步。

生成錯誤內(nèi)容的概率比之前降低了38%。
這讓用戶使用起來更安心。
我們也做了簡單測試,但或許是Gemini珠玉在前,GPT-5.2給人的感覺略顯平淡。
讓它編寫Aimlab(一款瞄準練習小游戲)。
它確實能完成,寫出的程序不僅可運行,還能調(diào)整靶子大小、游戲時長等基礎參數(shù)。

這些功能都沒問題,但整體過于中規(guī)中矩。
在界面設計上,上個月發(fā)布的Gemini 3明顯更勝一籌。

同樣的需求下,Gemini已經(jīng)開始運用潮流配色,而GPT還停留在基礎界面設計階段。
當然,這也可能是因為沒有明確要求GPT優(yōu)化界面的緣故。
除了工作能力提升,GPT-5.2還有一個有趣的變化。
它更能理解人類指令了。
測試發(fā)現(xiàn),讓GPT寫50個創(chuàng)意,它會認真完成50個,不像舊模型寫10個就敷衍了事。

此外,上下文處理能力也得到加強,插針實驗顯示,即使文本長度達256K,識別準確率仍接近100%。

這相當于在幾十萬字的名著中偷偷加入幾句批評內(nèi)容,它都能精準找出。
這對寫代碼、做學術(shù)、整理文書的打工人和科研人員來說,是一大助力。
雖然紙面實力強勁,但GPT-5.2也有短板。
比如官方展示的圖像識別案例中,Gemini 3 Pro的識別精度遠超GPT-5.2。

也有人吐槽,新模型發(fā)布后,舊版本可能會“降智”。
這已是常見現(xiàn)象。
最后,GPT-5.2的發(fā)布讓我們看到一個趨勢。
未來頂級AI模型的差異化會更明顯,各有側(cè)重。
比如Gemini可能在全模態(tài)領域領先;GPT在邏輯推理和生產(chǎn)力方面保持優(yōu)勢;Claude在代碼和寫作能力上繼續(xù)領跑。
因為在實現(xiàn)AGI(通用人工智能)的路徑上,大廠們的思路已出現(xiàn)分歧:谷歌認為多模態(tài)感知是未來;OpenAI堅信邏輯推理和生產(chǎn)力提升是關鍵;Anthropic則看重高維度語義理解與對齊。
AI領域的競爭仍在持續(xù),下一個發(fā)布新模型的應該是Anthropic。

對了,最后想問:奧特曼承諾的成人模式,何時上線?
撰文:江江 & 早起
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:OpenAI 官網(wǎng)



本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



