GPT-5.1更新,效果卻不盡人意
一直被吐槽沒人情味的GPT-5,終于迎來了進化。

今天凌晨三點,奧特曼再次為自家產(chǎn)品宣傳。這次他不談競技場跑分,而是聚焦產(chǎn)品短板,旨在傾聽用戶心聲,進行產(chǎn)品優(yōu)化。

看得出,OpenAI有些著急了。GPT-5上線后,本應退役的4o因備受歡迎,被強行留下。新產(chǎn)品口碑不如舊產(chǎn)品,換誰都想證明自己。
那么,被當作替身培養(yǎng)的GPT-5.1,能否取代大家心中的賽博白月光呢?看完官網(wǎng)案例后,世超立即進行了測試。
結(jié)果不太妙。

事先說明,所有測試都在臨時聊天環(huán)境進行,避免AI受記憶干擾。
首先測試奧特曼“尤其喜歡”的指令遵循能力,第一個問題就難住了它。

要求回答六個字,它只給出了五個。而這個六字游戲還是官方測試案例。
世超懷疑是語言問題,改用官方英文提示詞,5.1依然答錯。

世超又換了個問題,讓它寫一段200字的薯條頌,且全文不能出現(xiàn)“的”字。答案看似符合要求,可字卻變成了繁體。

多次嘗試都是繁體,去掉后半段強制性指令,回答才恢復正常。再看Gemini 2.5 pro,輕松給出正確答案。

說實話,此時世超已產(chǎn)生懷疑。雖然只是小更新,但三分之一的賣點都不太靠譜。
接下來看看大家吐槽最多的,GPT-5缺乏情感。官方稱,5.1在5的基礎(chǔ)上變得“更溫暖、更有對話性”。
從官網(wǎng)案例來看,效果一般。4o原本就有的能力,被5弄丟,現(xiàn)在5.1才勉強回到起跑線。

世超問了一個經(jīng)典失戀問題,對比之下,5.1和5都遠不如4o。
上GPT-5.1,中GPT-5,下GPT-4o

5和5.1像是在描述對人類情感的刻板印象,而4o則能感同身受。換個問題測試,新版回答還不如老版。
上5,下5.1

官網(wǎng)更新公告中,自適應耗時對比圖是5.1更新的最大亮點。

以前的AI在不同難度題目上不會合理分配思考時長,而5.1在這方面有明顯優(yōu)化。簡單邏輯問題上,5.1思考速度更快;復雜編程難題,5.1雖思考時間長,但能給出正確答案。


對于普通用戶,這種優(yōu)化感受不明顯,但對于調(diào)用API的用戶是好事,能節(jié)省成本。
除了5.1的版本變動,ChatGPT還有整體大更新——在個性化里可設(shè)置GPT的回答風格,除默認外有七種人設(shè)可選。

這個功能很有意思,不同人設(shè)對同一問題的回答風格差異大。比如吐槽達人說話直接,技術(shù)宅有探知欲等。
上吐槽達人,中技術(shù)宅,下默認模式

這些人設(shè)回答很尬,但套上人設(shè)后,GPT的討好感消失。尤其是吐槽達人,有了思辨能力,不接受PUA話術(shù)。
如果說話方式不那么尬,這些模式潛力很大。

總體而言,這次更新雖有亮點,但OpenAI帶來的驚喜越來越少。GPT-5的表現(xiàn)不如預期。
根據(jù)報告,GPT在2025年市場份額持續(xù)萎縮。AI界競爭殘酷,競品市占率增長迅速。
Similarweb 10月的統(tǒng)計數(shù)據(jù)

世超以前常用GPT,現(xiàn)在也開始使用其他產(chǎn)品。一邊是奧特曼四處拉投資,一邊是產(chǎn)品核心質(zhì)量平平。
OpenAI,該拿出點好東西了。
撰文:莫莫莫甜甜



本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

