李飛飛給AGI發(fā)展“降溫”,強(qiáng)調(diào)AI需根本性創(chuàng)新
智東西11月17日消息,昨日,斯坦福大學(xué)教授、World Labs聯(lián)合創(chuàng)始人兼CEO李飛飛在海外科技播客Lenny's Podcast上,分享了她對(duì)AI未來(lái)的獨(dú)到見(jiàn)解。她認(rèn)為,AI的發(fā)展不能永遠(yuǎn)依賴Scaling Law,更需要根本性的技術(shù)創(chuàng)新;而“通用人工智能”(AGI)更像是一句營(yíng)銷(xiāo)話術(shù),而非嚴(yán)謹(jǐn)?shù)目茖W(xué)術(shù)語(yǔ)。
李飛飛回顧20多年科研與創(chuàng)業(yè)經(jīng)歷,總結(jié)出現(xiàn)代AI的黃金配方是神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)與GPU的結(jié)合。即便如今ChatGPT取得成功,用的仍是相同配方。
然而,她警告稱,單靠擴(kuò)大數(shù)據(jù)規(guī)模和算力的“堆砌”,不足以實(shí)現(xiàn)智能的突破。當(dāng)前的AI仍難以完成許多對(duì)人類(lèi)來(lái)說(shuō)輕而易舉的任務(wù),比如從視頻中精確數(shù)清物體數(shù)量,或是像牛頓那樣從觀測(cè)數(shù)據(jù)中推導(dǎo)物理定律。李飛飛認(rèn)為,我們距離真正具備創(chuàng)造力、抽象能力和情感智能的AI系統(tǒng)還有很長(zhǎng)的路要走,“如今還有太多AI做不到的事情”。
對(duì)于業(yè)界熱議的AGI概念,李飛飛持保留態(tài)度。她覺(jué)得AGI定義模糊,作為科學(xué)家,她更關(guān)注如何解決AI面臨的根本性技術(shù)挑戰(zhàn),而非陷入概念爭(zhēng)論。

作為創(chuàng)業(yè)者,李飛飛坦言AI領(lǐng)域競(jìng)爭(zhēng)空前激烈。過(guò)去“簡(jiǎn)單模型+海量數(shù)據(jù)”的成功經(jīng)驗(yàn),即所謂的“苦澀的教訓(xùn)”,在機(jī)器人等涉及物理世界的應(yīng)用中并不完全適用。自動(dòng)駕駛發(fā)展近二十年仍未完全成熟就是典型例子。而且數(shù)據(jù)獲取難、硬件受限,使得在三維空間中操控物體的機(jī)器人技術(shù)面臨比自動(dòng)駕駛技術(shù)更大的挑戰(zhàn)。
盡管道路漫長(zhǎng),李飛飛始終堅(jiān)信,AI的進(jìn)步是幾代人積累的成果,光靠當(dāng)前的“語(yǔ)言智能”是不夠的。人類(lèi)在許多關(guān)鍵場(chǎng)景中依賴的是空間智能,研究空間智能,不僅對(duì)機(jī)器人、具身智能的發(fā)展有極大作用,還能在具身層面增強(qiáng)人類(lèi),使我們?cè)诳臻g理解、物體操作和現(xiàn)實(shí)世界任務(wù)中獲得新的力量。
以下是對(duì)李飛飛本場(chǎng)訪談的精華整理,完整內(nèi)容可參考文末鏈接:
01. 從寒冬走出后,現(xiàn)代AI迎來(lái)黃金配方
在訪談中,李飛飛回憶起剛涉足AI領(lǐng)域的經(jīng)歷。2000年,她開(kāi)始在加州理工大學(xué)攻讀博士學(xué)位,作為第一代機(jī)器學(xué)習(xí)研究員,研究重點(diǎn)之一是神經(jīng)網(wǎng)絡(luò)。當(dāng)時(shí),AI處于少有人問(wèn)津的“寒冬”,公眾不關(guān)注,資金也少。
李飛飛的學(xué)術(shù)興趣聚焦在視覺(jué)智能上。她認(rèn)為,如果人類(lèi)的智能極度依賴視覺(jué),那么機(jī)器的智能也必須從“看懂世界”開(kāi)始。于是,她在博士階段和教學(xué)生涯早期,選擇了物體識(shí)別這一基礎(chǔ)又艱難的方向。
當(dāng)時(shí),數(shù)據(jù)對(duì)AI的重要價(jià)值尚未得到廣泛認(rèn)可。隨著研究深入,李飛飛和她的學(xué)生逐漸意識(shí)到:大數(shù)據(jù),是讓AI活起來(lái)的關(guān)鍵要素。
于是,她決定收集互聯(lián)網(wǎng)中所有關(guān)于物體的圖像數(shù)據(jù)。2006年左右,ImageNet項(xiàng)目啟動(dòng)。最終,該項(xiàng)目收集了1500萬(wàn)張圖片、2.2萬(wàn)個(gè)物體類(lèi)別,并擁有每年舉辦的挑戰(zhàn)賽。
這個(gè)看似瘋狂的項(xiàng)目成了現(xiàn)代AI的火種。2012年,辛頓團(tuán)隊(duì)使用ImageNet數(shù)據(jù)與兩塊普通游戲GPU,訓(xùn)練出了突破性的神經(jīng)網(wǎng)絡(luò)模型。大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和GPU這三者的結(jié)合,被李飛飛稱為“現(xiàn)代AI的黃金配方”。
十年后,ChatGPT橫空出世,讓全世界真正意識(shí)到AI的力量,其背后的三大要素仍是神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)、GPU。李飛飛認(rèn)為,兩者區(qū)別僅在于規(guī)模。
雖然常有人稱她為“AI教母”,但李飛飛更強(qiáng)調(diào):AI的進(jìn)步是幾代研究者共同積累的結(jié)果。
02. 我不知道AI和AGI有什么區(qū)別,圖靈或許也不知道
AGI還有多遠(yuǎn),這是AI學(xué)者、大牛和企業(yè)高管訪談必答題。在李飛飛看來(lái),AGI概念耐人尋味,很少有人能清晰定義。
李飛飛直言:“我進(jìn)入AI領(lǐng)域是受‘機(jī)器能否像人一樣思考和行動(dòng)’這一問(wèn)題啟發(fā)。從這個(gè)角度看,我不知道AI和AGI有什么區(qū)別。”她還設(shè)想,如果艾倫·圖靈還健在,被問(wèn)及AI與AGI的區(qū)別時(shí),可能也只會(huì)聳聳肩說(shuō):“我在上世紀(jì)40年代問(wèn)的是同樣的問(wèn)題?!?/p>
AI是引領(lǐng)李飛飛前進(jìn)的“北極星”,她不想陷入定義AI與AGI的爭(zhēng)論,認(rèn)為AGI更像營(yíng)銷(xiāo)話術(shù),而非科學(xué)術(shù)語(yǔ)。作為科學(xué)家和技術(shù)專家,她不在意他人如何稱呼這項(xiàng)技術(shù)。
李飛飛強(qiáng)調(diào),盡管更大的數(shù)據(jù)集、更多的GPU和擴(kuò)展現(xiàn)有模型架構(gòu)仍能帶來(lái)性能提升,但AI的發(fā)展不能只依賴Scaling Law。
當(dāng)前的AI依然無(wú)法完成許多兒童都能輕松做到的任務(wù),比如在視頻中準(zhǔn)確數(shù)清椅子數(shù)量;更無(wú)法像牛頓或愛(ài)因斯坦那樣,從觀測(cè)中推導(dǎo)出新的自然規(guī)律。即便給AI提供現(xiàn)代儀器收集的全部數(shù)據(jù),它仍無(wú)法重建17世紀(jì)的運(yùn)動(dòng)定律。
這些例子表明,我們距離真正具備創(chuàng)造力、抽象能力和情感智能的AI還有很長(zhǎng)的路,未來(lái)需要根本性的技術(shù)創(chuàng)新,而非簡(jiǎn)單堆疊算力。
近日,李飛飛發(fā)布萬(wàn)字長(zhǎng)文,詳解空間智能概念,并提出AI的下一個(gè)前沿是空間智能。在昨日訪談中,她也表達(dá)了類(lèi)似觀點(diǎn)。她認(rèn)為,僅靠語(yǔ)言智能是不夠的,人類(lèi)在許多關(guān)鍵場(chǎng)景中依賴的是空間智能,如火災(zāi)、交通事故或自然災(zāi)害現(xiàn)場(chǎng)的應(yīng)急決策。
這些活動(dòng)需要對(duì)物體、動(dòng)作、空間關(guān)系和情境的即時(shí)理解,并非單靠語(yǔ)言就能完成。她在機(jī)器人研究中逐漸意識(shí)到,具身智能的關(guān)鍵在于理解三維世界。
在這樣的背景下,“世界模型”成為推動(dòng)下一階段AI發(fā)展的關(guān)鍵方向。與傳統(tǒng)語(yǔ)言模型不同,世界模型不僅能根據(jù)文字或圖像生成完整的虛擬世界,還能讓智能體在其中進(jìn)行互動(dòng)、推理。若用于機(jī)器人,世界模型將成為其規(guī)劃路徑、理解場(chǎng)景、執(zhí)行操作的基礎(chǔ)。
李飛飛強(qiáng)調(diào),世界模型與空間智能不僅是機(jī)器人發(fā)展的關(guān)鍵缺失環(huán)節(jié),也與人類(lèi)自身息息相關(guān)。人類(lèi)本身就是具身智能體,AI已在語(yǔ)言層面增強(qiáng)了我們的能力,未來(lái),世界模型同樣能夠在具身層面增強(qiáng)人類(lèi),使我們?cè)诳臻g理解、物體操作和現(xiàn)實(shí)世界任務(wù)中獲得新的力量。
世界模型與空間智能還將深刻影響設(shè)計(jì)、工程和科學(xué)發(fā)現(xiàn)。例如,DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)依賴于人類(lèi)從一張扁平的2D X射線衍射圖像中進(jìn)行3D空間推理,而這類(lèi)跨維度的空間抽象正是當(dāng)前AI難以達(dá)到的。世界模型若能突破,將使AI具備這種更深層次的空間推理能力。
03. Marble不是視頻生成模型,AI創(chuàng)業(yè)競(jìng)爭(zhēng)激烈程度很“震撼”
李飛飛談到了World Labs最近發(fā)布的產(chǎn)品Marble,這是一個(gè)基于前沿世界模型的應(yīng)用程序,能僅通過(guò)一句話或一張圖像生成可探索的三維世界。用戶可在虛擬環(huán)境中自由行走、互動(dòng)和導(dǎo)航,實(shí)現(xiàn)創(chuàng)意、設(shè)計(jì)、虛擬制作和機(jī)器人模擬等多種應(yīng)用。
她強(qiáng)調(diào),Marble不僅僅是生成二維視頻,而是提供具有真實(shí)空間結(jié)構(gòu)的世界,方便創(chuàng)作者、游戲開(kāi)發(fā)者、設(shè)計(jì)師和研究者快速生成沉浸式場(chǎng)景,實(shí)際案例包括電影虛擬制作、心理學(xué)實(shí)驗(yàn)和機(jī)器人訓(xùn)練環(huán)境合成等。
Marble與視頻生成模型有本質(zhì)區(qū)別。李飛飛稱,Marble核心關(guān)注空間智能,強(qiáng)調(diào)對(duì)三維和四維世界的理解、互動(dòng)和推理。同時(shí),平臺(tái)支持將場(chǎng)景導(dǎo)出為視頻或網(wǎng)格數(shù)據(jù),用于創(chuàng)作或模擬。
李飛飛透露,成立18個(gè)月的World Labs如今擁有約30人的團(tuán)隊(duì),主要由研究人員和工程師組成,也有設(shè)計(jì)師和產(chǎn)品人員。
李飛飛此前有過(guò)不少創(chuàng)業(yè)經(jīng)歷,從19歲開(kāi)干洗店,到領(lǐng)導(dǎo)谷歌云相關(guān)研究,再到斯坦福以人為本AI研究所,她對(duì)創(chuàng)業(yè)的挑戰(zhàn)性已有一定心理準(zhǔn)備。
然而,投身AI創(chuàng)業(yè)后,她仍被AI領(lǐng)域的激烈競(jìng)爭(zhēng)所“震撼”,從模型和技術(shù)之爭(zhēng)到頂尖人才的爭(zhēng)奪,她意識(shí)到必須時(shí)刻保持警惕。
04. 造機(jī)器人比造自動(dòng)駕駛汽車(chē)還難,“苦澀的教訓(xùn)”并不適用
李飛飛在訪談中提到強(qiáng)化學(xué)習(xí)先驅(qū)Richard Sutton提出的“苦澀的教訓(xùn)”:簡(jiǎn)單模型配合海量數(shù)據(jù)往往比復(fù)雜模型加少量數(shù)據(jù)更有效。對(duì)她而言,這是“甜蜜”的教訓(xùn),也是她建設(shè)ImageNet的核心信念。不過(guò),她強(qiáng)調(diào),這一教訓(xùn)無(wú)法簡(jiǎn)單套用于機(jī)器人領(lǐng)域。
原因一是機(jī)器人數(shù)據(jù)極難獲取。與語(yǔ)言模型不同,語(yǔ)言訓(xùn)練數(shù)據(jù)是天然結(jié)構(gòu)化的詞與token,輸入與輸出形式高度一致,而機(jī)器人真正需要的是三維世界中的動(dòng)作數(shù)據(jù)。
網(wǎng)絡(luò)視頻雖豐富,但缺乏可直接用于訓(xùn)練行動(dòng)策略的動(dòng)作標(biāo)注。因此,機(jī)器人訓(xùn)練不得不依靠遙操作數(shù)據(jù)或合成數(shù)據(jù)來(lái)補(bǔ)齊。換言之,機(jī)器人數(shù)據(jù)不像語(yǔ)言一樣自然“對(duì)齊”,使得“苦澀的教訓(xùn)”中的“大數(shù)據(jù)”假設(shè)難以完全成立。
二是機(jī)器人是物理系統(tǒng),而非純軟件模型。與語(yǔ)言模型或視覺(jué)模型不同,機(jī)器人更像自動(dòng)駕駛汽車(chē),必須在現(xiàn)實(shí)世界中運(yùn)行,涉及硬件、供應(yīng)鏈、應(yīng)用場(chǎng)景等多種復(fù)雜因素。
李飛飛回顧自動(dòng)駕駛的發(fā)展:從2005年斯坦福贏得DARPA挑戰(zhàn)賽至今近20年,深度學(xué)習(xí)雖加速了算法進(jìn)步,但自動(dòng)駕駛?cè)晕赐耆鉀Q。而自動(dòng)駕駛只是簡(jiǎn)單的機(jī)器人,僅需在二維平面上避免碰撞,相比之下,機(jī)器人要在三維空間中操控物體,難度更高。
盡管如此,她認(rèn)為大數(shù)據(jù)、世界模型和空間智能將是機(jī)器人突破的關(guān)鍵,只是目前仍處于早期探索階段。
05. 結(jié)語(yǔ):AI時(shí)代里,每個(gè)人都有屬于自己的一席之地
訪談尾聲,李飛飛談到全球?qū)I是否會(huì)取代人類(lèi)的普遍焦慮。她認(rèn)為,任何技術(shù)的發(fā)展都不應(yīng)以犧牲人的尊嚴(yán)與能動(dòng)性為代價(jià),這應(yīng)成為技術(shù)開(kāi)發(fā)、部署與治理的核心準(zhǔn)則。
無(wú)論是年輕藝術(shù)家利用AI創(chuàng)作,還是臨近退休的農(nóng)民參與AI監(jiān)管決策,或是護(hù)士在AI輔助下減輕工作負(fù)擔(dān),AI的真正價(jià)值在于增強(qiáng)人類(lèi)能力、服務(wù)人類(lèi)需求。
對(duì)于AI取代人類(lèi)的問(wèn)題,李飛飛明確表示:在AI時(shí)代里,每個(gè)人都有屬于自己的一席之地。
來(lái)源:
https://www.youtube.com/watch?v=Ctjiatnd6Xk
本文來(lái)自微信公眾號(hào)“智東西”(ID:zhidxcom),作者:陳駿達(dá),編輯:Panken,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

