91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

對話“通宵答疑”的楊植麟:揭秘460萬美金與Kimi純文本路線背后的故事

2025-11-17

最近的AI圈,能讓東西方開發(fā)者社區(qū)同時(shí)“上頭”的,當(dāng)屬月之暗面和它的Kimi K2 Thinking模型。K2 Thinking在推理和編碼能力上超越眾多前沿模型,被開發(fā)者譽(yù)為新SOTA,發(fā)布后迅速在海內(nèi)外技術(shù)社區(qū)引發(fā)熱議。

在這波熱度中,Kimi團(tuán)隊(duì)在Reddit舉辦了一場AMA(Ask Me Anything問我任何事)活動。據(jù)了解,通宵答疑的是月之暗面的三位聯(lián)合創(chuàng)始人楊植麟、周昕宇和吳育昕,這也是三位聯(lián)創(chuàng)難得的對外“集體亮相”。楊植麟用“ComfortableAsk4494”賬號在線答疑。我們向其詢問了兩個(gè)外界關(guān)注的問題。

460萬成本是真的嗎?

為何堅(jiān)持純文本路線

我們關(guān)注的問題一是K2 Thinking傳出的極低訓(xùn)練成本,二是Kimi至今堅(jiān)持的純文本和Agent路線的原因。以下是回答。

Q:K2思維模型460萬美元的訓(xùn)練成本是真的嗎?

A:這不是官方數(shù)據(jù)。訓(xùn)練成本中研究和實(shí)驗(yàn)占比大,難以量化具體數(shù)字。

Q:純文本Agent專注策略是為短期達(dá)SOTA,還是長期看好的方向?

A:訓(xùn)練視覺語言模型需時(shí)間獲取數(shù)據(jù)和調(diào)整訓(xùn)練,所以先發(fā)布文本模型。

AMA是Reddit傳統(tǒng),許多政商科技與娛樂圈知名人物都曾借此與社區(qū)交流。Kimi選擇r/LocalLLaMA分區(qū),這是開源模型、模型本地化部署分區(qū),聚集眾多硬核開發(fā)者,或許是中國AI公司首次以這種形式在海外技術(shù)社區(qū)開誠布公。以下是更多AMA內(nèi)容:

AMA實(shí)錄

除我們的問題,Kimi核心團(tuán)隊(duì)還回答了全球開發(fā)者的更多問題,涉及Kimi模型及行業(yè)看法。

以下是AMA省流版和實(shí)錄:

訓(xùn)練成本:460萬美元訓(xùn)練成本非官方數(shù)字。

用什么訓(xùn)練的:配備InfiniBand的H800 GPU。

K3新架構(gòu):將采用混合架構(gòu)。

K2為何采用INT4:為更好兼容非Blackwell架構(gòu)的GPU。

多模態(tài):“我們正在做。”

Muon優(yōu)化器:可良好擴(kuò)展至1萬億參數(shù)

K3什么時(shí)候來:“Sam的萬億級數(shù)據(jù)中心建成之前”。

Q:訓(xùn)練硬件配置如何?架構(gòu)與美國巨頭系統(tǒng)相比怎樣?

A:使用配備Infiniband的H800 GPU;雖比不上美國高端GPU且數(shù)量少,但充分榨取每張顯卡性能

Q:感謝為開源社區(qū)帶來先進(jìn)模型!Kimi下一代旗艦?zāi)P蜁肒DA技術(shù)嗎?有何優(yōu)勢?

A:在預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)比較中,采用NoPE MLA的KDA混合模型表現(xiàn)優(yōu),分?jǐn)?shù)高、速度快、更經(jīng)濟(jì),能加速預(yù)訓(xùn)練、更快部署并服務(wù)更多用戶。還有更多改進(jìn)在研發(fā),準(zhǔn)備好會分享。

A:KDA是最新實(shí)驗(yàn)性架構(gòu),相關(guān)理念可能用于K3架構(gòu)。

Q:K3什么時(shí)候出?

A:在Sam的萬億級數(shù)據(jù)中心建成之前

Q:為何用相對未經(jīng)充分測試的優(yōu)化器訓(xùn)練大模型?

A:Muon雖未經(jīng)他人測試,但已通過所有擴(kuò)展階梯驗(yàn)證有效性。對自身研究體系有信心,已有數(shù)十種優(yōu)化器和架構(gòu)被淘汰。

Q:fp4與int4相比有顯著提升嗎?int4完成編碼任務(wù)足夠好嗎?

A:選擇int4是為兼容非Blackwell架構(gòu)的GPU,利用現(xiàn)有int4推理Marlin內(nèi)核(https://github.com/IST-DASLab/marlin)。工程師對此有詳細(xì)中文解讀:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960

除分享技術(shù)亮點(diǎn),Kimi團(tuán)隊(duì)回應(yīng)了模型槽點(diǎn)質(zhì)疑,給出未來規(guī)劃和行業(yè)看法。

Q:關(guān)于token效率問題,kimi k2 thinking似乎用了過多token。計(jì)劃在下一版本修復(fù)嗎?

A:當(dāng)前版本更看重絕對性能,后續(xù)會將效率納入獎(jiǎng)勵(lì)機(jī)制,讓模型學(xué)會壓縮思考過程。

Q:你好Moonshot團(tuán)隊(duì)!感謝為閉源模型提供競爭。開發(fā)k2思維模型遇到的最大挑戰(zhàn)是什么?

A:挑戰(zhàn)是支持“思考 - 工具 - 思考 - 工具”交替模式,這是LLMs較新行為,實(shí)現(xiàn)需大量工作。

Q:你認(rèn)為LLM架構(gòu)下一個(gè)重大突破是什么?

A:測試了Kimi Linear模型,效果有潛力,還可與稀疏性技術(shù)結(jié)合。

Q:為什么OpenAI燒錢多?是商業(yè)規(guī)則還是其他原因?

A:不知道。只有Sam清楚。我們有自己的方法和節(jié)奏

Q:有計(jì)劃發(fā)布更重量級閉源模型嗎?

A:if it gets too dangerous : )

除Kimi相關(guān)話題,Kimi聯(lián)創(chuàng)團(tuán)隊(duì)還回答了一些“隔空對話”火藥味的問題。被問是否像OpenAI搞套殼瀏覽器時(shí),回答是No。周昕宇在被問到DeepSeek的OCR模型時(shí),他表示個(gè)人認(rèn)為這種做法太刻意,寧愿留在特征空間,找更通用和模式無關(guān)的方法讓模型更有效率。

AMA形式的最大特點(diǎn)是和開發(fā)者當(dāng)面交流的親歷感。Kimi團(tuán)隊(duì)由聯(lián)合創(chuàng)始人級核心技術(shù)成員與開發(fā)者交流技術(shù)細(xì)節(jié),足見重視。這種交流能讓不同看法浮出水面,讓外界了解技術(shù)團(tuán)隊(duì)的思考方式。這或許是更多AI研究團(tuán)隊(duì)可考慮的方式,讓交流更有人情味。

- End -

更多文章

微信又調(diào)整推送規(guī)則啦~若沒給我們標(biāo)星,新鮮內(nèi)容易被信息流“埋”掉!

趕緊點(diǎn)擊右上角「?」標(biāo)星,每篇推文都會優(yōu)先出現(xiàn),新內(nèi)容一更新就能第一時(shí)間找到,咱們再也不缺席~

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com