91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

最強VLA模型π*0.6登場,機器人辦公室開咖啡廳

2025-11-19

用VLA自身行為進行訓(xùn)練的新方法,大幅提升了具身智能的成功率和處理效率。

新方法大幅提升了具身智能的成功率、處理效率。



完全基于真實世界數(shù)據(jù)訓(xùn)練的具身智能,具備何種能力呢?


本周,美國具身智能創(chuàng)業(yè)公司Physical Intelligence(簡稱PI或π)推出了旗下最新的機器人基礎(chǔ)模型π*0.6。


PI是一家總部位于舊金山的機器人與AI創(chuàng)業(yè)公司,其目標(biāo)是將通用人工智能從數(shù)字世界引入物理世界。他們的首個機器人通用基礎(chǔ)模型π?,能讓同一套軟件控制多種物理平臺執(zhí)行各類任務(wù)。


2024年,PI獲得超4億美元融資,估值突破20億美元,成為具身智能賽道備受關(guān)注的企業(yè)之一。


PI的技術(shù)路線聚焦“視覺 - 語言 - 動作”(VLA)模型,通過大規(guī)模機器人感知與動作數(shù)據(jù)訓(xùn)練出具有泛化能力的策略,使機器人能在未知環(huán)境中靈活執(zhí)行任務(wù),而非局限于預(yù)設(shè)動作。



機器學(xué)習(xí)與決策控制領(lǐng)域的知名專家、UC Berkeley副教授、Physical Intelligence聯(lián)合創(chuàng)始人Sergey Levine表示,搭載該模型的機器人已能在公司辦公室為人們制作拿鐵、美式和意式咖啡。


Sergey Levine稱,對π*0.6模型進行微調(diào)后,除處理衣物外的任務(wù)成功率可達90%,且任務(wù)處理效率大幅提升。


在Physical Intelligence的一篇博客中,工程師詳細介紹了π*0.6的機制與性能。


以組裝紙箱為例,人類完成此任務(wù),首先會向他人學(xué)習(xí)基礎(chǔ)知識,了解有效方法、常見錯誤和正確技巧;其次,優(yōu)秀的老師會演示操作并糾正錯誤;最后,通過反復(fù)練習(xí)達到熟練掌握。


過去一年,機器人學(xué)習(xí)領(lǐng)域很多成果僅采用第一步,即通過人類演示訓(xùn)練機器人。雖能讓機器人完成一半任務(wù),但難以保證每次成功,更難在復(fù)雜實際任務(wù)中達到人類水平的效率。而實際機器人任務(wù)需要可靠且快速運行的系統(tǒng)。


基于此,Physical Intelligence開發(fā)了名為Recap(基于優(yōu)勢條件策略的經(jīng)驗與糾錯強化學(xué)習(xí))的方法,實現(xiàn)了上述三個步驟:通過演示訓(xùn)練、糾錯指導(dǎo),并讓機器人從自主經(jīng)驗中改進。利用Recap改進的視覺 - 語言 - 動作 (VLA) 模型π(0.6),能穩(wěn)健高效地執(zhí)行復(fù)雜任務(wù),如制作意式濃縮咖啡、組裝紙箱和折疊衣物。


經(jīng)強化學(xué)習(xí)訓(xùn)練后的模型π*(0.6),利用Recap在自主經(jīng)驗上訓(xùn)練,可使一些困難任務(wù)的吞吐量提高一倍以上,失敗率降低2倍或更多,達到實際應(yīng)用所需的魯棒性,能連續(xù)制作意式咖啡、折疊衣物和組裝紙箱。


模仿是遠遠不夠的


我們會疑惑,為何VLA僅依靠監(jiān)督學(xué)習(xí)(模仿)難以持續(xù)成功,而監(jiān)督學(xué)習(xí)在LLMs等系統(tǒng)中效果良好。原因已被認知,但此前缺乏實用解決方案。


模仿訓(xùn)練的VLA控制機器人時會犯小錯誤,如夾爪位置錯誤、抓取失敗或撞倒物體。在真實物理環(huán)境中,這些錯誤會產(chǎn)生與訓(xùn)練數(shù)據(jù)不同的情境,錯誤會累積,導(dǎo)致更大錯誤和任務(wù)失敗。


對于產(chǎn)生靜態(tài)輸出的AI系統(tǒng)(如LLMs),這不是大問題;但對于持續(xù)與外部環(huán)境互動的機器人控制策略,這是嚴重問題。即讓VLA偶爾完成任務(wù)較易,但保證可靠穩(wěn)定成功很難。


使用VLA自身行為的額外數(shù)據(jù),讓其在真實世界糾正錯誤,可解決累積錯誤問題。但這類經(jīng)驗缺乏真實標(biāo)簽,若讓模型復(fù)制之前行為,會繼續(xù)犯錯,關(guān)鍵是從糟糕經(jīng)驗數(shù)據(jù)中提取良好訓(xùn)練信號。


糾正式指導(dǎo)與強化學(xué)習(xí)


Recap能從“質(zhì)量較差”的經(jīng)驗數(shù)據(jù)中獲取良好訓(xùn)練信號,途徑有兩種:


糾正式指導(dǎo)(coaching with corrections):專家展示機器人修復(fù)錯誤或做得更好的方法;


強化學(xué)習(xí)(reinforcement learning):機器人根據(jù)任務(wù)最終結(jié)果判斷行為好壞,迭代學(xué)習(xí)強化好行為、避免壞行為。


糾正式指導(dǎo)需專家遠程操作人員提供糾正信號,展示如何從機器人實際錯誤中恢復(fù),即運行當(dāng)前最強策略,出錯時手動遠程接管控制。此干預(yù)可作為監(jiān)督信號,解決錯誤累積問題。


但僅依靠糾正式指導(dǎo)有限,其質(zhì)量取決于人類判斷和糾正能力。要獲得最佳性能,機器人必須自主學(xué)習(xí)。


強化學(xué)習(xí)的核心挑戰(zhàn)是“信用分配”,即判斷機器人哪些動作導(dǎo)致好結(jié)果,哪些導(dǎo)致壞結(jié)果。如機器人抓取意式咖啡機手柄方式錯誤,插入時會遇困難,正確的信用分配應(yīng)將失敗歸因于抓取動作。



僅通過模仿學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型插入手柄時會遇困難,失敗原因可能在更早階段。


Recap通過訓(xùn)練“價值函數(shù)”解決信用分配問題。如象棋游戲中,價值函數(shù)根據(jù)棋局預(yù)測智能體獲勝概率,使價值函數(shù)上升的動作應(yīng)被鼓勵,下降的動作應(yīng)被抑制。



在一個回合中不同時間點的值函數(shù)預(yù)測,完成任務(wù)的(負)步數(shù)會隨機器人進展而變化。


訓(xùn)練好價值函數(shù)后,需用其得到更好的策略。Recap中,Physical Intelligence讓VLA根據(jù)價值變化調(diào)整,使用所有訓(xùn)練數(shù)據(jù),標(biāo)注動作好壞。在強化學(xué)習(xí)中,“價值變化”即優(yōu)勢,執(zhí)行時讓VLA選擇高優(yōu)勢動作,得到更優(yōu)策略。


面向真實世界任務(wù)


Physical Intelligence用Recap訓(xùn)練π*(0.6)模型,使其能執(zhí)行多項真實世界任務(wù)。π*(0.6)基于π(0.6)訓(xùn)練,π(0.6)是π(0.5)的改進版,采用稍大骨干網(wǎng)絡(luò),能處理更異質(zhì)化的提示與條件信息。


https://website.pi-asset.com/pi06star/PI06_model_card.pdf



研究了制作意式咖啡飲品、折疊衣物和組裝紙盒三個應(yīng)用場景。Recap第一階段用離線強化學(xué)習(xí)預(yù)訓(xùn)練π*(0.6),與基礎(chǔ)模型的監(jiān)督學(xué)習(xí)方法不同。在此基礎(chǔ)上,通過示范數(shù)據(jù)微調(diào),再利用機器人真實環(huán)境數(shù)據(jù)強化學(xué)習(xí),包括專家糾正和獎勵反饋。


對比不同階段模型性能,對每個任務(wù)測量吞吐量和成功率。對于困難任務(wù),加入機器人真實執(zhí)行經(jīng)驗后,吞吐量和成功率提升超兩倍。



Recap顯著提升所有任務(wù)的吞吐量,通常也大幅提高成功率。


最終的π*(0.6)模型結(jié)合示范數(shù)據(jù)和自身經(jīng)驗,能熟練完成各應(yīng)用任務(wù)。



π*(0.6)能應(yīng)對多種條件,從錯誤中恢復(fù)。


各任務(wù)都有挑戰(zhàn),如組裝紙箱需復(fù)雜物理操作,處理邊緣情況;折疊衣物要處理多樣性和不同布料特性;制作意式咖啡需長操作序列,處理液體、判斷機器狀態(tài)和清潔機器。而π*(0.6)能以超90%的成功率完成這些任務(wù)。


下一步?


目前機器人基礎(chǔ)模型依賴人為收集的示范數(shù)據(jù),雖訓(xùn)練簡單,但需大量人工投入,模型受人類操作水平限制,無法通過經(jīng)驗提升。Recap能解決這些限制,可直接從機器人自身經(jīng)驗中學(xué)習(xí)。


隨著機器人在真實世界廣泛部署,從經(jīng)驗中學(xué)習(xí)將成為重要數(shù)據(jù)來源和高性能模型的關(guān)鍵。


如同人類通過“指導(dǎo) — 輔導(dǎo) — 練習(xí)”成長,機器人也將從多種數(shù)據(jù)來源學(xué)習(xí),專家示范定義新行為,糾正式指導(dǎo)改進策略,自主經(jīng)驗打磨行為,有望超越人類表現(xiàn)。


參考鏈接:


https://www.pi.website/blog/pistar06#where-are-we-headed


本文來自微信公眾號“機器之心”,編輯:澤南、冷貓,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com