具身智能的無共識:技術(shù)早期的生命力與未來趨勢
在技術(shù)發(fā)展的初期,總有一些人急于尋找唯一正確的路徑,期望通過一次押注就能撥開迷霧。然而,具身智能的復(fù)雜性正不斷向行業(yè)發(fā)出警示:具身智能并非從單一途徑發(fā)展而來,而是在無數(shù)次試錯、沖突與調(diào)和的過程中被“雕琢”而成。模型不夠完善、數(shù)據(jù)存在缺失、架構(gòu)尚未統(tǒng)一,這些看似是缺陷的方面,卻恰恰是具身智能最真實的生命力所在。
在技術(shù)早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè),具身智能不是從一條路徑長出來,而是從無數(shù)次試錯、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實的生命力所在。
不出所料,到了2025年末,具身智能依舊保持著高昂的姿態(tài)向前發(fā)展。
更在預(yù)料之中的是,具身智能領(lǐng)域仍然沒有形成共識。
在2025智源具身OpenDay圓桌論壇上,國內(nèi)頂尖的具身智能從業(yè)者們展開了一場“各抒己見的真心話”交流。無論是模型架構(gòu)的選擇,還是數(shù)據(jù)的運用,在這場圓桌對話中都未能達成統(tǒng)一的發(fā)展方向。一時間,不少人對具身智能領(lǐng)域仍無共識這件事感到遺憾。
但具身研習(xí)社認為,“無共識”的另一層含義是具身智能依然值得期待,技術(shù)還會在不經(jīng)意間帶來驚喜。畢竟,當(dāng)發(fā)展方向有了明確的風(fēng)向,反而會顯得有些無趣。當(dāng)我們不再追求“確定性”時,其實能夠發(fā)現(xiàn)一些趨勢?;蛟S“無共識”本身就是一種共識。

從產(chǎn)業(yè)的角度來看,共識的缺失具有三重積極意義:
其一,無共識本質(zhì)上打破了單一技術(shù)路線的壟斷話語權(quán),避免行業(yè)陷入“路徑依賴”的創(chuàng)新陷阱。在具身智能領(lǐng)域,從“分層架構(gòu)與端到端”的技術(shù)路線分歧,到“通用人形機器人與場景化具身智能”的落地選擇,無共識的狀態(tài)讓不同技術(shù)理念、不同學(xué)科背景的團隊獲得了平等試錯的空間;
其二,成熟行業(yè)的共識往往伴隨著較高的準(zhǔn)入壁壘,而具身智能的“無共識”狀態(tài),為中小企業(yè)、初創(chuàng)團隊乃至跨界參與者提供了彎道超車的機會。新入局者無需遵循已有的技術(shù)標(biāo)準(zhǔn)或商業(yè)規(guī)則,可憑借差異化優(yōu)勢進入賽道。
其三,具身智能作為交叉學(xué)科領(lǐng)域,其技術(shù)基礎(chǔ)仍在快速迭代,過早形成共識反而可能固化技術(shù)路徑,限制行業(yè)向更高維度突破。無共識狀態(tài)的核心價值,在于為技術(shù)迭代預(yù)留了“彈性空間”。
在智源具身OpenDay圓桌論壇上,關(guān)于“無共識”的討論眾多,也折射出了更多的可能性。具身研習(xí)社基于在場嘉賓的回答,洞察出具身智能的五大信號,未來的發(fā)展方向或許就隱藏在這些信號之中。
模型有待完善,部分從業(yè)者尋求新方向
信號1:世界模型暫時難以擔(dān)當(dāng)重任
在具身智能的模型討論中,“熱門”的世界模型是一個繞不開的話題。
它的核心價值在于“預(yù)測”。讓機器人像人類一樣,根據(jù)當(dāng)前的時空狀態(tài)預(yù)判下一步的變化,進而規(guī)劃動作,這一點得到了圓桌嘉賓的普遍認可。北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴以機器人運控為例,指出無論是人形機器人的足式行走、跳舞,還是靈巧手的精細操作,其底層控制邏輯都需要對物理交互的預(yù)測能力,而世界模型恰好能提供這種支撐,但要讓世界模型真正服務(wù)于機器人,其訓(xùn)練數(shù)據(jù)中必須包含更多機器人本身的數(shù)據(jù)。
但世界模型的短板同樣明顯,難以單獨成為具身智能的“萬能方案”。王鶴強調(diào),當(dāng)前很多世界模型依賴人類行為視頻訓(xùn)練,可機器人的身體結(jié)構(gòu)(如輪式底盤、多自由度機械臂)與人類差異巨大,這些數(shù)據(jù)對機器人實際操作的幫助有限。加速進化創(chuàng)始人兼CEO程昊也提到,在做飯、復(fù)雜裝配等真實場景中,世界模型的預(yù)測精度仍不足,只能先通過分層模型解決簡單任務(wù),再逐步迭代升級。
信號2:模型需“另辟蹊徑”
既然現(xiàn)有模型難以滿足需求,“打造具身專屬模型”成為不少企業(yè)的共識。
清華大學(xué)交叉信息學(xué)院助理教授、星海圖CTO趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動作”為核心,而非語言。他解釋道,人類智能的進化是“先有動作、再有視覺、最后有語言”,機器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯——比如開車時,人類靠視覺觀察路況、靠動作操控方向盤,語言并未參與核心操作,具身模型也應(yīng)優(yōu)先打通“視覺 - 動作”的閉環(huán)。
自變量創(chuàng)始人兼CEO王潛的觀點更為具體,他認為具身智能需要一套“物理世界基礎(chǔ)模型”,既能控制機器人動作,又能作為世界模型預(yù)測物理規(guī)律。虛擬世界的多模態(tài)模型靠文字、圖片訓(xùn)練,但物理世界的摩擦、碰撞、力反饋等精細過程,卻是無法用語言準(zhǔn)確描述的。當(dāng)一個機器人抓取雞蛋時,它需要感知蛋殼的脆弱度、調(diào)整握力,這種對物理屬性的理解,必須依賴專門針對物理世界訓(xùn)練的模型。
信號3:從底層架構(gòu)開始革新
過去幾年,Transformer架構(gòu)憑借跨模態(tài)處理能力,支撐了ChatGPT等大語言模型的爆發(fā),但在具身智能領(lǐng)域,它的適用性正受到質(zhì)疑。招商局集團AI首席科學(xué)家張家興是這一觀點的代表,他直言“具身智能不能走LLM到VLM的老路”。
在他看來,Transformer架構(gòu)是以語言為核心,將視覺、動作等模態(tài)向語言映射,這與物理世界的操作邏輯相?!祟愖鰟幼鲿r,視覺感知直接指導(dǎo)肌肉運動,無需經(jīng)過語言“翻譯”。他透露,硅谷頭部團隊已在探索“Vision First”或“Vision Action First”的新架構(gòu),讓視覺和動作直接交互,減少語言中介的損耗。
王鶴也補充道,Transformer作為一個跨模態(tài)的Attention機制,是很通用的。比如你會發(fā)現(xiàn)它可以處理文本模態(tài)、視頻模態(tài)、聲音模態(tài)等。但“如今具身智能的問題在于,人類有眼、耳、口、鼻、舌等多種感知器官,雖然從Attention的角度,把這些感知器官Token化以后都能放到Transformer里,但是它在輸出上似乎不是那么理想,根本挑戰(zhàn)是數(shù)據(jù)問題以及與之對應(yīng)的學(xué)習(xí)范式”。
王鶴提出,短期來看,仿真模擬與合成數(shù)據(jù)是突破探索速度的核心手段;長期來看,現(xiàn)實世界中人形機器人的規(guī)模必須持續(xù)快速擴張,只有足夠大的“機器人人口”與能力提升相互推動,才能催生真正強大的具身大模型。
這種底層架構(gòu)的不匹配,讓行業(yè)意識到:要實現(xiàn)具身智能的突破,或許需要從架構(gòu)根源上進行革新,而非在現(xiàn)有框架內(nèi)進行修補。
數(shù)據(jù)仍是關(guān)鍵問題,且需求持續(xù)增長
信號4:沒有完美數(shù)據(jù),只有適配選擇
“數(shù)據(jù)是具身智能的燃料”,這是圓桌論壇的共識,但“用什么數(shù)據(jù)”卻沒有統(tǒng)一答案。由于不同數(shù)據(jù)類型各有優(yōu)劣,企業(yè)普遍采取“多源融合、按需選擇”的策略,根據(jù)任務(wù)場景匹配最合適的數(shù)據(jù)來源。真機數(shù)據(jù)是最“保真”的選擇,能直接反映真實物理世界的交互規(guī)律,因此成為精細操作場景的首選。趙行所在的星海圖團隊,就堅持深入真實場景采集數(shù)據(jù),他們把真實性、質(zhì)量看作真實機器人數(shù)據(jù)采集的起點。智元機器人合伙人、首席科學(xué)家羅劍嵐也強調(diào),智元機器人也堅持真實數(shù)據(jù),并且在數(shù)據(jù)采集中堅持真實場景而非單靠數(shù)據(jù)采集工廠,摸索一條通過機器人自主產(chǎn)生數(shù)據(jù),構(gòu)建起數(shù)據(jù)飛輪的道路。而仿真數(shù)據(jù)則憑借“低成本、可規(guī)?;钡膬?yōu)勢,成為底層控制訓(xùn)練的主力。王鶴認為,在強化學(xué)習(xí)中,很多極端場景(如機器人摔倒、機械臂過載)難以在真機上反復(fù)測試,而仿真器可以快速生成大量類似數(shù)據(jù),幫助模型學(xué)習(xí)應(yīng)對策略。在他看來,模擬器并不是對真實世界的否定,而是以模擬器為起點,它能夠給具身企業(yè)一個很好的Base Controller,讓我們能在真實世界里把數(shù)據(jù)飛輪轉(zhuǎn)起來。
程昊的加速進化團隊也采取類似策略,先用仿真數(shù)據(jù)讓機器人掌握基本運控能力,再用真機數(shù)據(jù)微調(diào)適配真實場景。“我們用仿真數(shù)據(jù)訓(xùn)練的一個目標(biāo),是讓機器人接下來能獲得更多真實數(shù)據(jù),有了真實數(shù)據(jù),整體能力才能再提升。”在程昊看來這很可能是一個螺旋上升的過程。
視頻數(shù)據(jù)則成為基座模型訓(xùn)練的重要補充。智源研究院院長王仲遠認為“視頻數(shù)據(jù)訓(xùn)練基座模型”這一套邏輯其實跟現(xiàn)在小朋友刷手機來認識世界是一個原理——先通過視頻學(xué)習(xí)到這個世界,再通過真實的交互體驗來提升他們的技能。這些視頻數(shù)據(jù)包含時空、因果、意圖等多維度信息,且能大規(guī)模獲取,是當(dāng)前缺乏海量真機數(shù)據(jù)時的“折中最優(yōu)解”。但在具身研習(xí)社追問“從視頻中學(xué)習(xí)如何解決觸覺跟力控精細化數(shù)據(jù)?”時,王仲遠也承認,視頻中確實缺乏力反饋、觸覺等信息,但這并不影響其價值。現(xiàn)在智源研究院具身智能實驗室里也備有帶力反饋數(shù)據(jù)的采集設(shè)備。視頻數(shù)據(jù)更多用于“打基礎(chǔ)”,還需結(jié)合其他數(shù)據(jù)做針對性優(yōu)化、微調(diào)。
信號5:“數(shù)量”“質(zhì)量”“種類”,具身企業(yè)全方位需求數(shù)據(jù)
隨著具身智能向復(fù)雜場景滲透,行業(yè)對數(shù)據(jù)的需求正不斷升級,不僅“量”要大,“質(zhì)”要高,“種類”也要更豐富,形成了越來越大的“數(shù)據(jù)胃口”。
首先是對“量”的渴求,“互聯(lián)網(wǎng)級別”數(shù)據(jù)成為行業(yè)共同的期待。如趙行認為,數(shù)據(jù)的規(guī)?;軌蚍聪蝌?qū)動模型的進化和智能的實現(xiàn)。王仲遠也表示“更好的具身大模型,可能要等大量機器人在真實場景中解決具體問題、累積出‘具身智能互聯(lián)網(wǎng)’級別的數(shù)據(jù)之后,才會出現(xiàn)”。換句話說,沒有足夠的數(shù)據(jù),模型就像沒吃飽的孩子,跑不快也長不壯。
當(dāng)業(yè)內(nèi)為Generalist構(gòu)建的27萬小時真機數(shù)據(jù)集,疑似觸碰到所謂規(guī)模化法則而歡呼時,王仲遠對具身研習(xí)社坦言,“幾十萬小時的數(shù)據(jù)依然不能叫海量數(shù)據(jù),還遠沒到ChatGPT時刻”。

在“量”之外,是對“質(zhì)”的追求,“高質(zhì)量數(shù)據(jù)比海量低質(zhì)數(shù)據(jù)更有價值”的觀點逐漸成為主流。王潛認為,數(shù)據(jù)雖然很重要,但不是簡單的“越多越好”。
事實上,語言模型已經(jīng)驗證過,單純堆數(shù)據(jù)規(guī)模未必帶來最好效果,高質(zhì)量、高效率的數(shù)據(jù)才是決定性因素。他認為在具身場景里,數(shù)據(jù)質(zhì)量比數(shù)據(jù)總量更能拉開一個量級上的差距。在這里,站在金字塔頂尖的真機數(shù)據(jù)或許可以少,但很可能是打地基的那一層或者說是針對仿真、視頻數(shù)據(jù)之外,支撐大局的存在。
最后是對“種類”的豐富需求,多模態(tài)數(shù)據(jù)的需求日益迫切。隨著機器人應(yīng)用場景擴展,單一類型的數(shù)據(jù)已無法滿足需求。比如在家庭服務(wù)場景中,機器人需要同時處理視覺(識別物體)、聽覺(理解指令)、觸覺(感知物體軟硬)、力反饋(控制動作力度)等多維度信息。當(dāng)前業(yè)內(nèi)所說的多模態(tài)能力,多是承襲基座大模型的視覺、語言能力,在真正物理交互中的觸覺、力反饋等模態(tài)少之又少。
這種對數(shù)據(jù)種類的豐富需求,也讓行業(yè)意識到:未來的數(shù)據(jù)采集,不僅要記錄“機器人做了什么”,還要記錄“環(huán)境發(fā)生了什么”“交互有何反饋”“人類需要什么”,才能讓模型更懂物理世界、更懂人類需求。在技術(shù)的早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè):真正的智能不是從一條路徑長出來,而是從無數(shù)次試錯、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實的生命力所在。
本文來自微信公眾號“具身研習(xí)社”,作者:彭堃方,編輯:呂鑫燚,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



