91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

馬斯克AI新王牌:Grok 4.1登頂LMArena排行榜

2025-11-19

IT之家11月18日消息,埃隆?馬斯克(Elon Musk)旗下人工智能公司xAI于昨日(11月17日)發(fā)布公告,宣布推出最新大語言模型Grok 4.1,并已面向grok.com、X平臺及移動應用(iOS和安卓)的所有用戶全面推送。


此次更新旨在全面提升Grok在真實世界場景下的可用性。官方表示,Grok 4.1不僅繼承了前代模型的敏銳智能與高可靠性,還在創(chuàng)造性、情感理解和協(xié)作互動方面有重大改進,能更精準感知用戶細微意圖,提供更具吸引力和人格連貫性的對話體驗。


Grok 4.1的性能達到業(yè)界頂尖水平。在大型語言模型競技場(LMArena)的文本能力排行榜上,其具備深度思考能力的版本(代號:quasarflux)以1483的Elo分數(shù)位居榜首,領先第二名31分。IT之家附上相關截圖如下:


更值得關注的是,其無需深度思考的“即時響應”版本以1465的Elo分數(shù)位列第二,性能超越其他所有模型的“全推理”模式。這一成績相比前代Grok 4(排名第33位)有巨大飛躍,證明了其在底層能力上的絕對優(yōu)勢。


除在通用能力基準測試中表現(xiàn)出色外,Grok 4.1在“軟實力”方面也有顯著進步。在衡量模型情商的EQ - Bench3基準測試和評估創(chuàng)意能力的Creative Writing v3測試中,新模型表現(xiàn)優(yōu)異。


在評估情感理解、洞察力和人際交往能力的EQ - Bench3基準測試中,Grok 4.1的推理與非推理模式包攬榜單前兩名。


在創(chuàng)意寫作領域,根據(jù)Creative Writing v3基準測試結果,Grok 4.1的兩種模式分別位列第二和第三,僅次于早期的GPT - 5.1模型。


這表明Grok 4.1不僅能處理復雜邏輯推理,還能更好理解并回應帶人類情感的提示,進行富有想象力的內容創(chuàng)作,在人機交互中更具“人情味”。


另一關鍵改進是大幅降低了模型的“幻覺”率。對于配備搜索工具的快速響應模型,因推理深度和工具調用預算有限,易出現(xiàn)事實性錯誤。


x.ai在Grok 4.1的訓練后期,針對優(yōu)化信息查詢類提示,著重減少事實性幻覺。根據(jù)對真實世界查詢樣本的評估,新模型的幻覺率顯著降低,能為用戶提供更可靠、準確的信息。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com