北京開源天工“視覺語言大腦”,具身智能新突破
怎樣將人形機器人天工“長眼會動腦”的能力推廣到更多機器人上呢?11月13日,北京人形機器人創(chuàng)新中心全面開源了具身智能VLM(視覺 - 語言)模型——Pelican - VL 1.0。這個模型就如同人形機器人天工的“視覺語言大腦”,涵蓋7B、72B參數(shù)規(guī)模,是目前“最大規(guī)模的開源具身多模態(tài)大模型”,也是全球性能最強的具身智能VLM模型。

當(dāng)下,要實現(xiàn)“讓機器人服務(wù)人類”這一目標(biāo),還面臨著具身智能體對“空間 - 時間”理解不足、多步驟長線程復(fù)雜決策能力缺失等難題。在機器人典型的“視覺 - 語言 - 行動”系統(tǒng)中,Pelican - VL起著“視覺語言大腦”的作用,負責(zé)“看圖聽話”,讓機器人理解指令和環(huán)境,能像人類一樣把復(fù)雜任務(wù)拆解并進行操作。

Pelican - VL發(fā)布現(xiàn)場。北京人形機器人創(chuàng)新中心 / 供圖
例如,當(dāng)人類向天工發(fā)出“把鞋子放到鞋架上、將桌上的垃圾扔到垃圾桶,再把衣服放入洗衣機”這樣一連串指令時,Pelican - VL就能感知房間里的物體和布局,構(gòu)建出整個環(huán)境的語義表示,然后根據(jù)指令自動生成行動序列,指揮機器人依次完成移動、抓取、放置等任務(wù)。
為了實現(xiàn)這一突破,Pelican - VL的核心主創(chuàng)團隊提出了一套全新的DPPO(刻意訓(xùn)練)訓(xùn)練范式,這是全球首創(chuàng)的具身多模態(tài)大模型后訓(xùn)練自進化算法框架。該框架能讓Pelican - VL如同一個刻苦學(xué)習(xí)的學(xué)生,每次訓(xùn)練循環(huán)都會“看視頻—自主練習(xí)—發(fā)現(xiàn)錯誤—糾正提升”,并在這個循環(huán)中不斷自我糾錯和迭代進步。這使得Pelican - VL僅用其他大模型1/10甚至1/50的數(shù)據(jù)量,就達成了“性能最強”的目標(biāo)。
經(jīng)測試,Pelican - VL 1.0在具身智能領(lǐng)域的性能超越GPT - 5同類模型15.79%,與Google gemini系列模型相比提升19.25%,成為目前最強的開源具身多模態(tài)大模型。
Pelican - VL 1.0的開源,不僅意味著北京人形機器人在具身智能領(lǐng)域有了重大突破,還能幫助更多人形機器人更好地感知空間 - 時間、實現(xiàn)具身交互。作為具身智能的基礎(chǔ)軟件平臺,Pelican - VL 1.0的開源將以“開放型大腦”的形式,讓各廠商基于它快速開發(fā)特定場景下的應(yīng)用方案,大大降低開發(fā)成本和難度。在商業(yè)服務(wù)、工業(yè)制造、高危作業(yè)、家庭服務(wù)等多種真實場景中,更多機器人將在其助力下具備靈活自適應(yīng)、多步規(guī)劃的能力。
北京人形機器人新中心自2023年11月在北京經(jīng)開區(qū)成立以來,依托區(qū)內(nèi)完善的研發(fā)場地、測試環(huán)境及產(chǎn)業(yè)配套支持,打造了通用硬件平臺“具身天工”和通用軟件平臺“慧思開物”,并在此基礎(chǔ)上推動具身智能從“能跑”邁向“聰明和好用”的突破。在區(qū)內(nèi)舉辦的全球首個人形機器人半程馬拉松賽事中,北京人形機器人新中心“天工Ultra ”人形機器人奪得冠軍。此次Pelican - VL 1.0的開源,不僅是技術(shù)上的突破,也是生態(tài)布局的又一步。隨著政策與場景等協(xié)同推進,北京亦莊正賦能軟硬協(xié)同攻關(guān)、二次開發(fā)等領(lǐng)域,加快推動具身智能機器人創(chuàng)新發(fā)展,搶占全球機器人產(chǎn)業(yè)制高點。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

