GPT-5.1更新,效果不太妙
被吐槽許久沒人味的GPT-5終于迎來進化。13日凌晨三點,奧特曼又開始為自家產(chǎn)品宣傳,這次不談競技場跑分,而是聚焦短板,主打傾聽群眾心聲、優(yōu)化產(chǎn)品。

看得出,OpenAI有些著急了。GPT-5上線后,本應退役的4o因太受歡迎,被強行留下。新產(chǎn)品口碑不如舊產(chǎn)品,換誰都想證明自己。那么,被當作替身培養(yǎng)的5.1,能取代大家心中的賽博白月光嗎?看完官網(wǎng)案例后,我立刻進行了測試。
結(jié)果只能用三個字形容:不太妙。

事先說明,所有測試都在臨時聊天環(huán)境進行,沒有AI受到記憶干擾。
我先測試了奧特曼“尤其喜歡”的指令遵循能力,第一個問題就把它難住了。

要求回答六個字,它只憋出了五個。而這個六字游戲還是官方測試案例。我開始懷疑是不是沒使用英文,結(jié)果用官方一樣的英語提示詞,5.1還是答錯了。

我又換了個問題,讓它寫一段200字的薯條頌,全文不能出現(xiàn)“的”字。答案乍看符合要求,但字變成了繁體。試了五遍都是如此,去掉后半段強制性指令,回答又正常了。再看Gemini 2.5 pro,輕松給出正確答案,毫無差錯。

說實話,測到這里,我已經(jīng)產(chǎn)生懷疑了。雖是小更新,但三分之一的賣點都不太靈,有點說不過去。
大家吐槽最多的是GPT-5沒有感情。官方稱,5.1在5的基礎上變得“更溫暖、更有對話性”,能有意思又保持回答清晰有用。但從官網(wǎng)案例看,效果一般。4o本來就有的能力,被5弄沒了,現(xiàn)在靠5.1回到起跑線,實在難以夸贊。

我問了一個經(jīng)典失戀問題,結(jié)果5.1和5都遠不如4o。

上GPT-5.1,中GPT-5,下GPT-4o
5和5.1像是在描述對人類情感的刻板印象,作為旁觀者分析“失戀”是怎么回事。而4o的回答更像是帶入了失戀角色,感同身受,先共情再鼓勵,不愧是夢中情AI。我換了個問題再問,新版回答還不如老版,連基本的感情牌都不打了。

上5,下5.1
再看官網(wǎng)更新公告,除了情感語氣對比,還有一張自適應耗時對比圖。自適應是5.1更新最大的亮點,畢竟前兩個都不盡人意。

簡單來說,以前的AI在不同難度題目上不會分配思考時長,問杭州美食和宇宙大爆炸花的力氣可能一樣。我測試后發(fā)現(xiàn),效果明顯。在簡單邏輯問題上,5.1的思考速度比5快很多。而在復雜編程難題上,5雖更快給出錯誤結(jié)果,但5.1思考更長時間后給出了正確答案。

對普通用戶來說,這個優(yōu)化感覺不明顯。但對于調(diào)用API的用戶是好事,能在簡單問題上省錢,難題上少花冤枉錢。
除了5.1的版本變動,ChatGPT還有個整體大更新——在個性化里可設置GPT的回答風格,除默認外有七種人設可選。

這個功能很有意思,同一個問題,不同人設回答不同,風格差異大。比如,吐槽達人說話沖且直接,技術(shù)宅有探知欲,天馬行空喜歡藝術(shù)化表達,專業(yè)可靠像純工具人等。
上吐槽達人,中技術(shù)宅,下默認模式

比起默認模式,這些人設回答很尬。但神奇的是,套上人設后,GPT的討好感消失了。尤其是吐槽達人,愛與人抬杠,有了大部分AI沒有的思辨能力,面對PUA話術(shù)毫不領情。要是說話方式不那么尬,這模式潛力比默認模式大得多。

總體而言,這次更新雖有亮點,但OpenAI帶來的驚喜越來越少。比起最初的驚艷和爆火的4o生圖,GPT-5表現(xiàn)欠佳。根據(jù)10月報告,GPT在2025年市場份額持續(xù)萎縮。盡管搶占先機保住龍頭地位,但AI界競爭依舊殘酷。

Similarweb 10月的統(tǒng)計數(shù)據(jù)
我以前常用GPT,現(xiàn)在也開始頻繁使用其他家產(chǎn)品,競品市占率增長比想象中快且順利。一邊是奧特曼到處拉投資,一邊是產(chǎn)品核心質(zhì)量泯然眾人。OpenAI,趕緊拿出好產(chǎn)品吧。
本文來自微信公眾號“差評X.PIN”,作者:莫莫莫甜甜,編輯:江江 & 面線,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

