李飛飛預(yù)言AI下一個10年屬于空間智能,她的洞察從何而來?
當(dāng)很多人還專注于大模型優(yōu)化時,美國斯坦福大學(xué)教授、人工智能(AI)領(lǐng)軍人物李飛飛已經(jīng)著眼于未來10年。
近日,李飛飛領(lǐng)導(dǎo)的World Labs(世界實驗室)宣布3D世界生成模型Marble向全體用戶開放,它僅用一張圖片就能創(chuàng)造出一個持久存在的三維虛擬世界。同時,她發(fā)表長篇博客稱:“AI的下一個10年,屬于空間智能?!边@不僅是技術(shù)產(chǎn)品的發(fā)布,更是對AI未來發(fā)展方向的判斷,李飛飛看到了什么呢?
三維生成:驚艷與不足同在
Marble官宣開放后,眾多開發(fā)者和愛好者紛紛進(jìn)行測試,結(jié)果有喜有憂。
美國得克薩斯大學(xué)達(dá)拉斯分校的一位助理教授上傳了一張實驗室照片,Marble就為他生成了一個可“步入”的完整虛擬實驗室,逼真程度令人贊嘆。一位建筑設(shè)計師上傳自己設(shè)計的深圳清華大學(xué)研究院新大樓圖片,模型直接生成了一個可供穿梭探索的虛擬建筑,該設(shè)計師激動地表示:“歡迎AI終于來到我的世界——那個屬于空間的世界。”
這些成功案例顯示出Marble在內(nèi)容理解、智能修補和光影還原方面能力強大,為未來社交、娛樂和工作方式帶來了豐富想象空間。但在細(xì)節(jié)上,它還不夠“真實”。
上海溫哥華電影學(xué)院三維動畫與視覺特效專業(yè)系主任徐一然試用后表示,整體還行,但存在不少不合理之處,還不能直接使用。另一位測試者直言畫面較模糊,尤其是面對依賴想象力的概念圖或空間分布復(fù)雜的室外場景時,效果未達(dá)預(yù)期。

徐一然試用Marble模型畫面
上海人工智能研究院首席數(shù)字官、技術(shù)與創(chuàng)新中心主任林圓圓認(rèn)為,盡管Marble目前呈現(xiàn)的內(nèi)容與實際應(yīng)用還有較大差距,但它具有劃時代意義,標(biāo)志著AI創(chuàng)新范式正從“語言理解”向“物理交互”轉(zhuǎn)變。
空間智能:AI走進(jìn)物理世界的“新基石”
李飛飛明確指出,空間智能不是多模態(tài)的一個分支,而是下一代AI的技術(shù)基礎(chǔ),這將徹底改變大模型與世界交互的邏輯。
要理解這種范式轉(zhuǎn)變,需了解李飛飛對智能的劃分。她將智能分為“說話的智能”和“做事的智能”。當(dāng)下熱門的大語言模型屬于前者,基本單位是詞匯;而空間智能屬于后者,基本單位是像素和體素。李飛飛表示:“語言是人類的語言,而3D是自然的語言。”
明白了這一點,就能理解Marble與眾多三維多模態(tài)大模型的本質(zhì)區(qū)別。林圓圓解釋,所有模型都需要數(shù)據(jù)支持,三維多模態(tài)大模型的數(shù)據(jù)基礎(chǔ)是文本和圖片,能讓生成內(nèi)容“看起來像三維的”。而空間智能的最終目標(biāo)是讓AI在三維世界中“有效行動”,所以它需要三維數(shù)據(jù),即標(biāo)注了重量、硬度、運動、受力情況等物理語義的數(shù)據(jù)。

空間智能離不開3D數(shù)據(jù)標(biāo)注。 模速空間供圖
林圓圓說:“目前,打造三維數(shù)據(jù)還處于早期階段,不僅數(shù)據(jù)匱乏,連標(biāo)準(zhǔn)和采集設(shè)備都不完善,但這也是一個巨大的機遇。”比如構(gòu)建“工業(yè)零件三維語義數(shù)據(jù)集”,需要標(biāo)注螺栓的擰緊力矩、零件的耐高溫閾值等。這要求空間智能領(lǐng)域融合計算機視覺、物理學(xué)、機器人學(xué)等多學(xué)科知識,這也是未來具身智能和機器人行業(yè)的核心競爭力。
數(shù)據(jù)標(biāo)注:發(fā)展空間智能的“捷徑”
李飛飛投身空間智能,與她20年前的選擇一脈相承,都源于對“數(shù)據(jù)”的深刻認(rèn)識。
2009年,她創(chuàng)建的ImageNet數(shù)據(jù)集,通過為海量圖像打標(biāo)簽并與卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合,引發(fā)了深度學(xué)習(xí)革命。如今,她押注空間智能并選擇三維數(shù)據(jù)標(biāo)注,是同一邏輯的延續(xù)和升級。因為大模型的發(fā)展證明,高質(zhì)量數(shù)據(jù)是關(guān)鍵,大模型出現(xiàn)“幻覺”可能是數(shù)據(jù)數(shù)量和復(fù)雜度不足。

AI制圖。
復(fù)旦大學(xué)教授、元宇宙與虛實交互聯(lián)合研究院院長趙星認(rèn)可這一方向,他認(rèn)為理解和智能生成完整三維世界對機器人、元宇宙等場景和產(chǎn)業(yè)有重要價值。元宇宙的三大核心——數(shù)字世界構(gòu)建、交互硬件研發(fā)和數(shù)字資產(chǎn)創(chuàng)新,都需要人工智能生成內(nèi)容的支持,“世界模型”是很好的方向之一。在有高效率、低成本生成三維數(shù)字內(nèi)容的工具前,元宇宙部分方向難以落地。
在上海,諸多通往元宇宙的探索同步進(jìn)行。上海人工智能實驗室開發(fā)的Aether4D世界重建模型在具身導(dǎo)航領(lǐng)域探索應(yīng)用;華為、騰訊、中國移動等企業(yè)在數(shù)字人化身領(lǐng)域持續(xù)投入;上影集團用3DGS技術(shù)生成數(shù)字資產(chǎn)。這些布局都指向虛擬與現(xiàn)實的深度融合。
AI正在學(xué)習(xí)“觸摸”三維世界的每一處,為具身智能、機器人、元宇宙等需要與真實環(huán)境互動的應(yīng)用提供核心動力。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

