91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

對話“通宵答疑”的楊植麟：揭秘460萬美金與Kimi純文本路線背后的故事

2025-11-17

最近的AI圈，能讓東西方開發(fā)者社區(qū)同時(shí)“上頭”的，當(dāng)屬月之暗面和它的Kimi K2 Thinking模型。K2 Thinking在推理和編碼能力上超越眾多前沿模型，被開發(fā)者譽(yù)為新SOTA，發(fā)布后迅速在海內(nèi)外技術(shù)社區(qū)引發(fā)熱議。

在這波熱度中，Kimi團(tuán)隊(duì)在Reddit舉辦了一場AMA（Ask Me Anything問我任何事）活動。據(jù)了解，通宵答疑的是月之暗面的三位聯(lián)合創(chuàng)始人楊植麟、周昕宇和吳育昕，這也是三位聯(lián)創(chuàng)難得的對外“集體亮相”。楊植麟用“ComfortableAsk4494”賬號在線答疑。我們向其詢問了兩個(gè)外界關(guān)注的問題。

460萬成本是真的嗎？

為何堅(jiān)持純文本路線

我們關(guān)注的問題一是K2 Thinking傳出的極低訓(xùn)練成本，二是Kimi至今堅(jiān)持的純文本和Agent路線的原因。以下是回答。

Q：K2思維模型460萬美元的訓(xùn)練成本是真的嗎？

A：這不是官方數(shù)據(jù)。訓(xùn)練成本中研究和實(shí)驗(yàn)占比大，難以量化具體數(shù)字。

Q：純文本Agent專注策略是為短期達(dá)SOTA，還是長期看好的方向？

A：訓(xùn)練視覺語言模型需時(shí)間獲取數(shù)據(jù)和調(diào)整訓(xùn)練，所以先發(fā)布文本模型。

AMA是Reddit傳統(tǒng)，許多政商科技與娛樂圈知名人物都曾借此與社區(qū)交流。Kimi選擇r/LocalLLaMA分區(qū)，這是開源模型、模型本地化部署分區(qū)，聚集眾多硬核開發(fā)者，或許是中國AI公司首次以這種形式在海外技術(shù)社區(qū)開誠布公。以下是更多AMA內(nèi)容：

AMA實(shí)錄

除我們的問題，Kimi核心團(tuán)隊(duì)還回答了全球開發(fā)者的更多問題，涉及Kimi模型及行業(yè)看法。

以下是AMA省流版和實(shí)錄：

訓(xùn)練成本：460萬美元訓(xùn)練成本非官方數(shù)字。

用什么訓(xùn)練的：配備InfiniBand的H800 GPU。

K3新架構(gòu)：將采用混合架構(gòu)。

K2為何采用INT4：為更好兼容非Blackwell架構(gòu)的GPU。

多模態(tài)：“我們正在做。”

Muon優(yōu)化器：可良好擴(kuò)展至1萬億參數(shù)

K3什么時(shí)候來：“Sam的萬億級數(shù)據(jù)中心建成之前”。

Q：訓(xùn)練硬件配置如何？架構(gòu)與美國巨頭系統(tǒng)相比怎樣？

A：使用配備Infiniband的H800 GPU；雖比不上美國高端GPU且數(shù)量少，但充分榨取每張顯卡性能

Q：感謝為開源社區(qū)帶來先進(jìn)模型！Kimi下一代旗艦?zāi)Ｐ蜁肒DA技術(shù)嗎？有何優(yōu)勢？

A：在預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)比較中，采用NoPE MLA的KDA混合模型表現(xiàn)優(yōu)，分?jǐn)?shù)高、速度快、更經(jīng)濟(jì)，能加速預(yù)訓(xùn)練、更快部署并服務(wù)更多用戶。還有更多改進(jìn)在研發(fā)，準(zhǔn)備好會分享。

A：KDA是最新實(shí)驗(yàn)性架構(gòu)，相關(guān)理念可能用于K3架構(gòu)。

Q：K3什么時(shí)候出？

A：在Sam的萬億級數(shù)據(jù)中心建成之前

Q：為何用相對未經(jīng)充分測試的優(yōu)化器訓(xùn)練大模型？

A：Muon雖未經(jīng)他人測試，但已通過所有擴(kuò)展階梯驗(yàn)證有效性。對自身研究體系有信心，已有數(shù)十種優(yōu)化器和架構(gòu)被淘汰。

Q：fp4與int4相比有顯著提升嗎？int4完成編碼任務(wù)足夠好嗎？

A：選擇int4是為兼容非Blackwell架構(gòu)的GPU，利用現(xiàn)有int4推理Marlin內(nèi)核（https://github.com/IST-DASLab/marlin）。工程師對此有詳細(xì)中文解讀：https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960

除分享技術(shù)亮點(diǎn)，Kimi團(tuán)隊(duì)回應(yīng)了模型槽點(diǎn)質(zhì)疑，給出未來規(guī)劃和行業(yè)看法。

Q：關(guān)于token效率問題，kimi k2 thinking似乎用了過多token。計(jì)劃在下一版本修復(fù)嗎？

A：當(dāng)前版本更看重絕對性能，后續(xù)會將效率納入獎(jiǎng)勵(lì)機(jī)制，讓模型學(xué)會壓縮思考過程。

Q：你好Moonshot團(tuán)隊(duì)！感謝為閉源模型提供競爭。開發(fā)k2思維模型遇到的最大挑戰(zhàn)是什么？

A：挑戰(zhàn)是支持“思考 - 工具 - 思考 - 工具”交替模式，這是LLMs較新行為，實(shí)現(xiàn)需大量工作。

Q：你認(rèn)為LLM架構(gòu)下一個(gè)重大突破是什么？

A：測試了Kimi Linear模型，效果有潛力，還可與稀疏性技術(shù)結(jié)合。

Q：為什么OpenAI燒錢多？是商業(yè)規(guī)則還是其他原因？

A：不知道。只有Sam清楚。我們有自己的方法和節(jié)奏

Q：有計(jì)劃發(fā)布更重量級閉源模型嗎？

A：if it gets too dangerous : )

除Kimi相關(guān)話題，Kimi聯(lián)創(chuàng)團(tuán)隊(duì)還回答了一些“隔空對話”火藥味的問題。被問是否像OpenAI搞套殼瀏覽器時(shí)，回答是No。周昕宇在被問到DeepSeek的OCR模型時(shí)，他表示個(gè)人認(rèn)為這種做法太刻意，寧愿留在特征空間，找更通用和模式無關(guān)的方法讓模型更有效率。

AMA形式的最大特點(diǎn)是和開發(fā)者當(dāng)面交流的親歷感。Kimi團(tuán)隊(duì)由聯(lián)合創(chuàng)始人級核心技術(shù)成員與開發(fā)者交流技術(shù)細(xì)節(jié)，足見重視。這種交流能讓不同看法浮出水面，讓外界了解技術(shù)團(tuán)隊(duì)的思考方式。這或許是更多AI研究團(tuán)隊(duì)可考慮的方式，讓交流更有人情味。

- End -

更多文章

微信又調(diào)整推送規(guī)則啦～若沒給我們標(biāo)星，新鮮內(nèi)容易被信息流“埋”掉！

趕緊點(diǎn)擊右上角「?」標(biāo)星，每篇推文都會優(yōu)先出現(xiàn)，新內(nèi)容一更新就能第一時(shí)間找到，咱們再也不缺席～

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

陳都靈抹胸前開口子的原因探秘

212越野車2025廣州車展陣容預(yù)告：T01軟頂版、皮卡版或亮相

谷歌AI古籍破譯新突破：錯(cuò)誤率低至0.56%，媲美人類專家

央美女高材生丁苗控訴趙鴻剛：弄虛作假牟利，與其劃清界限

三明市委、市政府發(fā)賀電，祝賀清流籍運(yùn)動員葛曼棋全運(yùn)會奪冠

<label id="83aco"></label>

<li id="83aco"></li>