91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<rt id="4oavv"></rt>

<rt id="4oavv"></rt>

<span id="4oavv"></span><li id="4oavv"></li>

清華團(tuán)隊(duì)“密度法則”登Nature子刊，大模型每百天性能翻倍

2025-11-21

2020年以來(lái)，OpenAI提出的Scaling Law推動(dòng)著大模型快速發(fā)展，其理念是模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模越大，智能能力越強(qiáng)。但到了2025年，這種不斷擴(kuò)增訓(xùn)練開銷的發(fā)展路徑面臨可持續(xù)發(fā)展難題。OpenAI前首席科學(xué)家Ilya Sutskever指出，隨著互聯(lián)網(wǎng)公開語(yǔ)料接近枯竭，大模型預(yù)訓(xùn)練將難以為繼。于是，眾多研究者開始探尋大模型新的發(fā)展方向。

清華大學(xué)研究成果大模型“密度法則”（Densing Law）帶來(lái)了新視角。近日，該成果發(fā)表于Nature子刊《自然·機(jī)器智能》（Nature Machine Intelligence），為理解大模型發(fā)展規(guī)律提供了新維度。密度法則顯示，大語(yǔ)言模型的最大能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng)，在2023年2月至2025年4月期間，約每3.5個(gè)月翻一倍，這意味著每隔3.5個(gè)月，就能用參數(shù)量減半的模型實(shí)現(xiàn)當(dāng)前最優(yōu)性能。

論文鏈接：https://www.nature.com/articles/s42256-025-01137-0

受“摩爾定律”啟發(fā)的“密度法則”

回顧計(jì)算機(jī)發(fā)展歷程，在摩爾定律的指引下，半導(dǎo)體行業(yè)不斷改進(jìn)制造工藝、提高芯片電路密度，使計(jì)算設(shè)備從重達(dá)27噸的ENIAC發(fā)展到僅數(shù)百克的智能手機(jī)，實(shí)現(xiàn)了算力普惠和信息革命。如今，全球有13億臺(tái)個(gè)人電腦、70億部智能手機(jī)、180億臺(tái)IoT設(shè)備和2000億顆運(yùn)行中的CPU。摩爾定律的關(guān)鍵不是增大芯片尺寸，而是提升電路密度，即單位面積容納更多計(jì)算單元。

受此啟發(fā)，研究團(tuán)隊(duì)提出：可以從“能力密度”角度觀察和理解大模型發(fā)展。如同芯片行業(yè)通過(guò)提升電路密度實(shí)現(xiàn)計(jì)算設(shè)備小型化和普惠化，大模型也能通過(guò)提升能力密度實(shí)現(xiàn)高效發(fā)展。

大模型密度法則：大模型能力密度隨時(shí)間呈指數(shù)上升趨勢(shì)

研究團(tuán)隊(duì)基于一個(gè)核心假設(shè)：采用相同制造工藝、充分訓(xùn)練的不同尺寸模型，其能力密度相同。在此基礎(chǔ)上，選取基準(zhǔn)模型并設(shè)定其密度為1，作為衡量其他模型能力密度的基線。目標(biāo)模型的能力密度定義為：同能力的基準(zhǔn)模型參數(shù)量與目標(biāo)模型參數(shù)量的比值。

通過(guò)對(duì)51個(gè)近年來(lái)發(fā)布的開源大模型系統(tǒng)分析，研究團(tuán)隊(duì)發(fā)現(xiàn)大模型的最大能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng)，2023年以來(lái)平均每3.5個(gè)月翻一倍。這表明，隨著「數(shù)據(jù) - 算力 - 算法」協(xié)同發(fā)展，能用更少參數(shù)實(shí)現(xiàn)相同智能水平。

根據(jù)密度定律，研究團(tuán)隊(duì)得出了幾個(gè)重要推論。

推論1：同能力模型的推理開銷隨時(shí)間指數(shù)級(jí)下降

一方面，密度法則表明同能力的大模型參數(shù)每3.5個(gè)月減半。同時(shí)，在推理系統(tǒng)優(yōu)化方面，摩爾定律推動(dòng)芯片算力不斷增強(qiáng)，模型量化、投機(jī)采樣、顯存優(yōu)化等算法技術(shù)也不斷突破，相同推理成本下能運(yùn)行的模型大小持續(xù)提升。實(shí)證數(shù)據(jù)顯示，GPT - 3.5級(jí)模型API價(jià)格在20個(gè)月內(nèi)下降266.7倍，約每2.5個(gè)月下降一倍。

推論2：大模型能力密度正在加速增強(qiáng)

以MMLU為評(píng)測(cè)基準(zhǔn)統(tǒng)計(jì)顯示，ChatGPT發(fā)布前能力密度每4.8個(gè)月翻倍，發(fā)布后每3.2個(gè)月翻倍，密度增強(qiáng)速度提升50%。這說(shuō)明，隨著大模型技術(shù)成熟和開源生態(tài)繁榮，能力密度提升在加速。

推論3：模型壓縮算法并不總能增強(qiáng)模型能力密度

研究團(tuán)隊(duì)對(duì)比多個(gè)模型與其壓縮版本的能力密度，發(fā)現(xiàn)除Gemma - 2 - 9B外，如Llama - 3.2 - 3B/1B、Llama - 3.1 - minitron - 4B等壓縮模型密度都低于原始模型。量化技術(shù)也會(huì)降低模型性能和能力密度。這揭示了當(dāng)前模型壓縮技術(shù)的局限：壓縮過(guò)程中較小模型訓(xùn)練往往不充分，無(wú)法達(dá)到最優(yōu)密度。

推論4：模型小型化揭示端側(cè)智能巨大潛力

芯片電路密度（摩爾定律）和模型能力密度（密度法則）兩條曲線交匯，意味著端側(cè)設(shè)備能運(yùn)行更高性能大模型，邊緣計(jì)算和終端智能將迎來(lái)爆發(fā)式增長(zhǎng)，算力普惠將從云端走向終端。

基于密度法則理論指導(dǎo)，清華大學(xué)、面壁智能團(tuán)隊(duì)持續(xù)推進(jìn)高密度模型研發(fā)，發(fā)布了面壁小鋼炮MiniCPM、MiniCPM - V/o、VoxCPM等一系列端側(cè)高密度模型，憑借高效低成本特性享譽(yù)全球，被評(píng)為2024年Hugging Face最多下載、最受歡迎的中國(guó)大模型。截至2025年10月，模型下載量接近1500萬(wàn)次，GitHub星標(biāo)接近3萬(wàn)次。

本文來(lái)自微信公眾號(hào)“AI前線”，作者：清華TsinghuaNLP團(tuán)隊(duì)，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

“七連板”熱門股，演繹“天地天”行情

利好之下，今日僅該板塊未“高開低走”

A股尾盤多股巨震，“天地板”“天地天板”上演

流感疫苗價(jià)格暴跌：一針5.5元，不如一杯蜜雪冰城

174億！黃仁勛又助力一家AI獨(dú)角獸崛起，AI音樂生成門檻再降低

<center id="aq4dq"><tr id="aq4dq"></tr></center>

<center id="aq4dq"></center>

<span id="aq4dq"></span>

<center id="aq4dq"></center><rt id="aq4dq"></rt>