91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<li id="am9vt"><dl id="am9vt"></dl></li>

<label id="am9vt"></label><center id="am9vt"></center>

馬斯克AI新王牌：Grok 4.1登頂LMArena排行榜

2025-11-19

IT之家11月18日消息，埃隆?馬斯克（Elon Musk）旗下人工智能公司xAI于昨日（11月17日）發(fā)布公告，宣布推出最新大語言模型Grok 4.1，并已面向grok.com、X平臺及移動應用（iOS和安卓）的所有用戶全面推送。

此次更新旨在全面提升Grok在真實世界場景下的可用性。官方表示，Grok 4.1不僅繼承了前代模型的敏銳智能與高可靠性，還在創(chuàng)造性、情感理解和協(xié)作互動方面有重大改進，能更精準感知用戶細微意圖，提供更具吸引力和人格連貫性的對話體驗。

Grok 4.1的性能達到業(yè)界頂尖水平。在大型語言模型競技場（LMArena）的文本能力排行榜上，其具備深度思考能力的版本（代號：quasarflux）以1483的Elo分數(shù)位居榜首，領先第二名31分。IT之家附上相關截圖如下：

更值得關注的是，其無需深度思考的“即時響應”版本以1465的Elo分數(shù)位列第二，性能超越其他所有模型的“全推理”模式。這一成績相比前代Grok 4（排名第33位）有巨大飛躍，證明了其在底層能力上的絕對優(yōu)勢。

除在通用能力基準測試中表現(xiàn)出色外，Grok 4.1在“軟實力”方面也有顯著進步。在衡量模型情商的EQ - Bench3基準測試和評估創(chuàng)意能力的Creative Writing v3測試中，新模型表現(xiàn)優(yōu)異。

在評估情感理解、洞察力和人際交往能力的EQ - Bench3基準測試中，Grok 4.1的推理與非推理模式包攬榜單前兩名。

在創(chuàng)意寫作領域，根據(jù)Creative Writing v3基準測試結果，Grok 4.1的兩種模式分別位列第二和第三，僅次于早期的GPT - 5.1模型。

這表明Grok 4.1不僅能處理復雜邏輯推理，還能更好理解并回應帶人類情感的提示，進行富有想象力的內容創(chuàng)作，在人機交互中更具“人情味”。

另一關鍵改進是大幅降低了模型的“幻覺”率。對于配備搜索工具的快速響應模型，因推理深度和工具調用預算有限，易出現(xiàn)事實性錯誤。

x.ai在Grok 4.1的訓練后期，針對優(yōu)化信息查詢類提示，著重減少事實性幻覺。根據(jù)對真實世界查詢樣本的評估，新模型的幻覺率顯著降低，能為用戶提供更可靠、準確的信息。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

北京年末土拍設新關卡，市場走向待察

本周末，相約荷塘高村非遺美食嘉年華！最全攻略來襲

讀博發(fā)現(xiàn)摘諾獎，他堅信宇宙不止人類生命

日本政治言論給日本汽車再添危機

上汽奧迪E5 Sportback將推出鄭欽文特別版車型

項目推薦

愛親母嬰連鎖品牌

<span id="y0eyi"></span>