91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

清華團(tuán)隊(duì)“密度法則”登Nature子刊,大模型每百天性能翻倍

2025-11-21
2020年以來(lái),OpenAI提出的Scaling Law推動(dòng)著大模型快速發(fā)展,其理念是模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模越大,智能能力越強(qiáng)。但到了2025年,這種不斷擴(kuò)增訓(xùn)練開銷的發(fā)展路徑面臨可持續(xù)發(fā)展難題。OpenAI前首席科學(xué)家Ilya Sutskever指出,隨著互聯(lián)網(wǎng)公開語(yǔ)料接近枯竭,大模型預(yù)訓(xùn)練將難以為繼。于是,眾多研究者開始探尋大模型新的發(fā)展方向。

清華大學(xué)研究成果大模型“密度法則”(Densing Law)帶來(lái)了新視角。近日,該成果發(fā)表于Nature子刊《自然·機(jī)器智能》(Nature Machine Intelligence),為理解大模型發(fā)展規(guī)律提供了新維度。密度法則顯示,大語(yǔ)言模型的最大能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng),在2023年2月至2025年4月期間,約每3.5個(gè)月翻一倍,這意味著每隔3.5個(gè)月,就能用參數(shù)量減半的模型實(shí)現(xiàn)當(dāng)前最優(yōu)性能。



論文鏈接:https://www.nature.com/articles/s42256-025-01137-0

受“摩爾定律”啟發(fā)的“密度法則”


回顧計(jì)算機(jī)發(fā)展歷程,在摩爾定律的指引下,半導(dǎo)體行業(yè)不斷改進(jìn)制造工藝、提高芯片電路密度,使計(jì)算設(shè)備從重達(dá)27噸的ENIAC發(fā)展到僅數(shù)百克的智能手機(jī),實(shí)現(xiàn)了算力普惠和信息革命。如今,全球有13億臺(tái)個(gè)人電腦、70億部智能手機(jī)、180億臺(tái)IoT設(shè)備和2000億顆運(yùn)行中的CPU。摩爾定律的關(guān)鍵不是增大芯片尺寸,而是提升電路密度,即單位面積容納更多計(jì)算單元。

受此啟發(fā),研究團(tuán)隊(duì)提出:可以從“能力密度”角度觀察和理解大模型發(fā)展。如同芯片行業(yè)通過(guò)提升電路密度實(shí)現(xiàn)計(jì)算設(shè)備小型化和普惠化,大模型也能通過(guò)提升能力密度實(shí)現(xiàn)高效發(fā)展。

大模型密度法則:大模型能力密度隨時(shí)間呈指數(shù)上升趨勢(shì)


研究團(tuán)隊(duì)基于一個(gè)核心假設(shè):采用相同制造工藝、充分訓(xùn)練的不同尺寸模型,其能力密度相同。在此基礎(chǔ)上,選取基準(zhǔn)模型并設(shè)定其密度為1,作為衡量其他模型能力密度的基線。目標(biāo)模型的能力密度定義為:同能力的基準(zhǔn)模型參數(shù)量與目標(biāo)模型參數(shù)量的比值。



通過(guò)對(duì)51個(gè)近年來(lái)發(fā)布的開源大模型系統(tǒng)分析,研究團(tuán)隊(duì)發(fā)現(xiàn)大模型的最大能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng),2023年以來(lái)平均每3.5個(gè)月翻一倍。這表明,隨著「數(shù)據(jù) - 算力 - 算法」協(xié)同發(fā)展,能用更少參數(shù)實(shí)現(xiàn)相同智能水平。



根據(jù)密度定律,研究團(tuán)隊(duì)得出了幾個(gè)重要推論。

推論1:同能力模型的推理開銷隨時(shí)間指數(shù)級(jí)下降

一方面,密度法則表明同能力的大模型參數(shù)每3.5個(gè)月減半。同時(shí),在推理系統(tǒng)優(yōu)化方面,摩爾定律推動(dòng)芯片算力不斷增強(qiáng),模型量化、投機(jī)采樣、顯存優(yōu)化等算法技術(shù)也不斷突破,相同推理成本下能運(yùn)行的模型大小持續(xù)提升。實(shí)證數(shù)據(jù)顯示,GPT - 3.5級(jí)模型API價(jià)格在20個(gè)月內(nèi)下降266.7倍,約每2.5個(gè)月下降一倍。



推論2:大模型能力密度正在加速增強(qiáng)

以MMLU為評(píng)測(cè)基準(zhǔn)統(tǒng)計(jì)顯示,ChatGPT發(fā)布前能力密度每4.8個(gè)月翻倍,發(fā)布后每3.2個(gè)月翻倍,密度增強(qiáng)速度提升50%。這說(shuō)明,隨著大模型技術(shù)成熟和開源生態(tài)繁榮,能力密度提升在加速。



推論3:模型壓縮算法并不總能增強(qiáng)模型能力密度

研究團(tuán)隊(duì)對(duì)比多個(gè)模型與其壓縮版本的能力密度,發(fā)現(xiàn)除Gemma - 2 - 9B外,如Llama - 3.2 - 3B/1B、Llama - 3.1 - minitron - 4B等壓縮模型密度都低于原始模型。量化技術(shù)也會(huì)降低模型性能和能力密度。這揭示了當(dāng)前模型壓縮技術(shù)的局限:壓縮過(guò)程中較小模型訓(xùn)練往往不充分,無(wú)法達(dá)到最優(yōu)密度。



推論4:模型小型化揭示端側(cè)智能巨大潛力

芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線交匯,意味著端側(cè)設(shè)備能運(yùn)行更高性能大模型,邊緣計(jì)算和終端智能將迎來(lái)爆發(fā)式增長(zhǎng),算力普惠將從云端走向終端。



基于密度法則理論指導(dǎo),清華大學(xué)、面壁智能團(tuán)隊(duì)持續(xù)推進(jìn)高密度模型研發(fā),發(fā)布了面壁小鋼炮MiniCPM、MiniCPM - V/o、VoxCPM等一系列端側(cè)高密度模型,憑借高效低成本特性享譽(yù)全球,被評(píng)為2024年Hugging Face最多下載、最受歡迎的中國(guó)大模型。截至2025年10月,模型下載量接近1500萬(wàn)次,GitHub星標(biāo)接近3萬(wàn)次。

本文來(lái)自微信公眾號(hào)“AI前線”,作者:清華TsinghuaNLP團(tuán)隊(duì),36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com