91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

世界模型概念膨脹:AGI路上的百家爭鳴與泡沫

2025-12-05
世界模型為何如此紛繁復(fù)雜?

世界模型,已如現(xiàn)實世界般紛亂。


OpenAI稱Sora生成的視頻是“世界模擬器”;楊立昆(Yann LeCun)則認(rèn)為Sora是像素幻覺,真正的世界模型應(yīng)是“預(yù)測未來的抽象大腦”;谷歌DeepMind表示Genie3是“可交互的通用世界模型”;李飛飛提出“空間智能”才是正確方向。


現(xiàn)實世界唯一且客觀,但AI領(lǐng)域中,似乎人人都在打造自己的“世界模型”。


盡管定義差異巨大,這些爭論不休的大佬們在一個基本判斷上達成共識:大語言模型終將遇到瓶頸,世界模型是通往AGI的必經(jīng)之路。


大語言模型在GPT-3.5后經(jīng)歷了參數(shù)膨脹,而世界模型在技術(shù)路線收斂前,先出現(xiàn)了概念膨脹。


世界模型成筐,萬物皆可裝入


“世界模型”的混亂,根源在于它是一種目標(biāo)——讓AI具備理解外部世界規(guī)律、預(yù)測世界變化的能力,而非具體技術(shù)路徑。


最先混亂的是概念。


世界模型的思想最早可追溯至1943年認(rèn)知科學(xué)家Kenneth Craik提出的“心智模型(Mental Model)”,即大腦通過構(gòu)建外部世界的微縮模型進行預(yù)測,能處理當(dāng)前信息并預(yù)測“若這樣做,世界會怎樣”。


該理論雖在20世紀(jì)90年代被引入強化學(xué)習(xí),但真正讓它在現(xiàn)代AI領(lǐng)域立足的是Jürgen Schmidhuber等人2018年發(fā)表的論文《Recurrent World Models Facilitate Policy Evolution》。這篇論文首次系統(tǒng)定義了神經(jīng)網(wǎng)絡(luò)世界模型框架,當(dāng)時它由視覺組件(VAE)、記憶組件(RNN)和控制器構(gòu)成,在簡單賽車游戲和二維類射擊游戲中訓(xùn)練。


七年過去,隨著大語言模型爆發(fā),對通用人工智能的渴望讓這一概念在近兩年快速繁衍。


Yann LeCun在2022年提出以世界模型為核心的“自主智能”,強調(diào)通過模塊化設(shè)計和自監(jiān)督學(xué)習(xí)獲取抽象表征,并在2023年、2024年先后推出I-JEPA、V-JEPA預(yù)測模型。


李飛飛在2024年提出“空間智能”理念,創(chuàng)辦World Labs,發(fā)布Marble,主張世界模型必須具備生成可交互3D環(huán)境的物理一致性能力,“對我而言,空間智能是創(chuàng)造、推理、互動、理解深刻空間世界的能力,無論是二維、三維還是四維,包括動態(tài)等所有方面?!?/p>


甚至OpenAI前首席科學(xué)家Ilya Sutskever提到的“壓縮即智能”,本質(zhì)上也認(rèn)為只要能無損壓縮預(yù)測下一個token(無論是文本還是像素),模型內(nèi)部就構(gòu)建了世界映射。


一個抽象概念,衍生出更多抽象概念。


若拋開定義爭論,從技術(shù)方向看,當(dāng)前世界模型主要分為兩大流派,對應(yīng)兩種不同世界觀:表征派(Representation)與生成派(Generation)。


Yann LeCun是“表征派”,這是一條不產(chǎn)生畫面的極簡路線。


類比人腦中的心智模型,我們對世界的預(yù)測和行動往往是直覺,而非物理公式或具體畫面?;诖?,LeCun的世界模型是深藏在系統(tǒng)后端的“大腦”,僅在表征處理后的潛在空間運作,預(yù)測“抽象狀態(tài)”。



在這條推文中,LeCun明確定義世界模型需同時輸入四個變量:對先前世界狀態(tài)的預(yù)估s(t)、當(dāng)前觀察x(t)、當(dāng)前動作a(t)、潛在變量z(t),結(jié)合這四個變量預(yù)測下一時刻世界狀態(tài)s(t+1)。


這個定義有兩個關(guān)鍵點:一是世界模型預(yù)測下一刻的“狀態(tài)”而非畫面;二是能針對連續(xù)動作交互進行因果推斷。


比如一輛車開過來,它不會在腦海里畫出車牌號和反光,只會計算出“障礙物靠近”這一狀態(tài)。這種模型不為給人看,只為給機器做決策,追求邏輯上的因果推演,而非視覺逼真。LeCun提出的I-JEPA和V-JEPA,都摒棄了生成式AI“預(yù)測每一個像素”的做法,畢竟現(xiàn)實世界充滿不可預(yù)測的噪音(如樹葉紋理),AI不應(yīng)浪費算力生成這些細(xì)節(jié)。


第二大流派是目前聲量最大的“生成派”,與Yann LeCun最核心的區(qū)別在于,他們要重建、模擬視覺世界。


這一派常引用物理學(xué)家Richard Feynman的名言:“我若無法創(chuàng)造,便不能理解?!奔粗灰P湍苌烧_世界,就證明它懂了世界物理規(guī)律。


2024年初,OpenAI介紹Sora時提到它是世界模擬器。OpenAI認(rèn)為,只要數(shù)據(jù)量足夠大,模型就能通過預(yù)測下一幀像素,涌現(xiàn)出對物理規(guī)律的理解。通過學(xué)習(xí)數(shù)十億視頻片段,它記住了“人走路時腿會交替”“玻璃杯掉落會破碎”的概率分布。


Sora作為世界模型爭議很大,最直接的一點是它無法回應(yīng)LeCun關(guān)于動作與世界狀態(tài)的因果律——如果模型只能像放電影一樣生成視頻,而不能回答“如果我踢了這個球,它會怎么飛”這樣的動作交互問題,那它可能只是記住了“球飛行的軌跡概率”,而非理解了“力學(xué)定律”。


那么,如果視頻生成能根據(jù)用戶動作輸入實時預(yù)測下一幀呢?


于是,生成派衍生出更進階的形態(tài):互動式生成視頻(Interactive Generative Video),例如Genie3。


和Sora不同,IGV的區(qū)別在于實時性、可交互性,即有了動作(Action)。谷歌DeepMind發(fā)布的Genie 3,明確定位為「通用目的世界模型」。它允許用戶進入場景并互動,支持生成720p分辨率、24fps幀率的實時畫面。用戶可自由導(dǎo)航,比如以第一人稱視角駕駛或探索復(fù)雜地形。這意味著模型不僅理解畫面,還理解了動作與環(huán)境變化的因果關(guān)系,盡管目前動作僅限于方向按鍵的上下左右。



最后是李飛飛主張的“3D空間智能(Spatial Intelligence)”,以World Labs發(fā)布的Marble為最新代表。


如果說前兩者是處理視頻流,那么Marble則試圖從底層構(gòu)建一個持久、可下載的3D環(huán)境。


這條路線的技術(shù)底座更接近“3D高斯?jié)姙R(3D Gaussian Splatting)”。它不依賴傳統(tǒng)網(wǎng)格建模,而是將世界表征為成千上萬個漂浮在空間中的彩色模糊小斑點(高斯體)。通過這些微粒聚合,模型能渲染出精美的三維畫面,允許用戶通過提示詞生成、利用內(nèi)置編輯器自由改造,支持一鍵導(dǎo)出到Unity等引擎中。


盡管Marble現(xiàn)在離李飛飛提到的空間智能還很遠(yuǎn),但能看出她認(rèn)為達到空間智能的第一步,是先建立一個高精度、物理準(zhǔn)確的3D空間??梢钥偨Y(jié):區(qū)別于Sora,Marble生成的是符合物理規(guī)律的3D世界;區(qū)別于Genie3,Marble不是實時生成的世界,但精度和還原度更高。



但這些路線的成果,都未達到各自期待的世界模型模樣,甚至彼此吵得不可開交,也都有一批擁護者,這導(dǎo)致“世界模型”的概念外延被無限擴大。


如今,凡是涉及環(huán)境理解與模擬的上下游工程,不管是具身智能、自動駕駛、游戲視頻等結(jié)構(gòu)化垂直領(lǐng)域,還是生成式視頻、多模態(tài)模型、視頻理解、3D模型等技術(shù),甚至做視覺信息壓縮的DeepSeek OCR,全都主動或被動地和世界模型掛上了鉤。


世界模型越來越像一個筐,啥都能往里裝了。


有泡沫也有野心,世界模型是“反LLM中心”敘事


如果僅是技術(shù)路線不同,不足以解釋為何“世界模型”會在今年井噴。熱潮背后,交織著資本焦慮、技術(shù)瓶頸以及對AGI的渴望。


我們必須先承認(rèn),這里面有巨大泡沫成分。


在創(chuàng)投圈,敘事往往比代碼更值錢。當(dāng)“大語言模型”競爭格局已定,OpenAI、Google等瓜分基礎(chǔ)模型天下,后來者和垂直應(yīng)用開發(fā)者急需新故事打動投資人。


“視頻生成模型”聽起來就是工具軟件,天花板有限;但一旦改名叫“世界模型”,瞬間就上升到AGI高度。


這也是當(dāng)下AI時代一個有趣現(xiàn)象:科研人員大規(guī)模下場創(chuàng)辦公司,學(xué)術(shù)與商業(yè)發(fā)生重疊。


在純粹科研世界里,所有創(chuàng)新都必須建立在嚴(yán)謹(jǐn)公理之上。若要解決一個問題(如實現(xiàn)AGI),首先必須精準(zhǔn)定義這個問題。然而,當(dāng)Lab變成Company,學(xué)術(shù)大佬變成CEO,這種原本局限在期刊里的“定義之爭”,就被拋到了商業(yè)世界。


在科研中,不同路線可以共存;但在創(chuàng)業(yè)公司中,資源有限,如果A定義是對的,B公司的幾十億投入可能就打了水漂,一個定義的差異,對應(yīng)的卻是數(shù)以億計的算力投入方向、上下游產(chǎn)業(yè)鏈備貨、投資人價值重構(gòu)。


而當(dāng)我們拋開定義爭奪和炒作,世界模型的興起,也像是一場“反LLM中心主義”運動。


整個AI行業(yè)對大語言模型(LLM)產(chǎn)生了集體性技術(shù)焦慮。這種焦慮源于LLM的先天缺陷:它是“離身”(Disembodied)的。LLM在純文本符號系統(tǒng)中訓(xùn)練,知道“蘋果”這個詞和“紅色”“甜”經(jīng)常一起出現(xiàn),但從未真正“看見”過蘋果,也無法理解蘋果掉在地上的重力加速度,更別提隨著數(shù)據(jù)規(guī)模擴大,AI提升的邊際效益正在遞減。


無論是Ilya Sutskever離職OpenAI后強調(diào)的“超越大模型”,還是李飛飛提出的“空間智能”,核心都在于一點:AI需要從學(xué)習(xí)“人類說的話”,轉(zhuǎn)向?qū)W習(xí)“世界發(fā)生的事”。行業(yè)正在從單純文本處理,轉(zhuǎn)向?qū)ξ锢憩F(xiàn)實的模擬與交互,因為大家都意識到,通往AGI的最后一塊拼圖,不在互聯(lián)網(wǎng)文本數(shù)據(jù)里,而在真實物理世界中。


只是希望在世界模型真正出現(xiàn)之前,這個詞不要先被玩壞了。


本文來自微信公眾號“硅星GenAI”,作者:黃小藝,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com