VidBot:讓Stretch3機(jī)器人看視頻就能學(xué)動(dòng)作,零樣本執(zhí)行成現(xiàn)實(shí)
在機(jī)器人技術(shù)的發(fā)展歷程中,如何讓機(jī)器人高效學(xué)會(huì)執(zhí)行各類復(fù)雜動(dòng)作,一直是科研人員探索的關(guān)鍵課題。
近期,一項(xiàng)名為 VidBot 的技術(shù)“橫空出世”,為該領(lǐng)域帶來了突破性進(jìn)展。它實(shí)現(xiàn)了機(jī)器人直接從視頻學(xué)習(xí)生成執(zhí)行動(dòng)作,為機(jī)器人的智能化發(fā)展開辟了新路徑。
引言:機(jī)器人如何像人類一樣學(xué)習(xí)???
想象一下,如果機(jī)器人能夠像人類一樣通過觀看視頻學(xué)習(xí)新技能,那將是多么高效和便捷!
傳統(tǒng)的機(jī)器人訓(xùn)練需要大量人工演示和編程,成本高且難以規(guī)模化。然而,慕尼黑工業(yè)大學(xué)、蘇黎世聯(lián)邦理工與微軟的最新研究 ??VidBot?? 提出了一種創(chuàng)新方法:??
機(jī)器人僅需觀看人類日常視頻,就能學(xué)會(huì)執(zhí)行復(fù)雜的操作任務(wù)??,無需人工訓(xùn)練或機(jī)器人專用演示。
傳統(tǒng)困境與 VidBot 的創(chuàng)新突破
傳統(tǒng)機(jī)器人學(xué)習(xí)執(zhí)行動(dòng)作的方式,往往依賴大量真實(shí)世界數(shù)據(jù)或仿真訓(xùn)練。收集這些數(shù)據(jù)不僅耗費(fèi)大量人力、物力,而且針對不同硬件形態(tài)的機(jī)器人,還需單獨(dú)進(jìn)行訓(xùn)練,這無疑極大地限制了機(jī)器人技術(shù)的推廣與應(yīng)用。
VidBot 則另辟蹊徑,它能從自然單目 RGB 人類視頻中學(xué)習(xí)三維空間表征(3D affordance),構(gòu)建起一個(gè)零樣本機(jī)器人操作框架。
簡單來說,就是機(jī)器人無需針對特定任務(wù)進(jìn)行復(fù)雜的前期訓(xùn)練,就能依據(jù)視頻中的人類動(dòng)作,直接執(zhí)行相應(yīng)操作。其技術(shù)核心在于通過精妙的算法,從視頻里提取出 3D 手部軌跡,再利用獨(dú)特的學(xué)習(xí)模型,將這些軌跡轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作指令。
VidBot的核心技術(shù):從視頻到機(jī)器人動(dòng)作??
??1. 從2D視頻提取3D動(dòng)作??
VidBot的核心創(chuàng)新在于??從單目RGB視頻中提取3D手部軌跡??,并結(jié)合??深度估計(jì)模型(如Depth Anything)和運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)技術(shù)??,重建出??時(shí)序一致、度量尺度的三維空間表征(3D affordance)??。
- 3D手部軌跡提取??:VidBot利用??SfM優(yōu)化相機(jī)位姿??,并結(jié)合??手-物檢測模型??(如Segment Anything)分割手和物體,最終生成??3D交互軌跡??。
- Affordance學(xué)習(xí)??:機(jī)器人不僅能識(shí)別“接觸點(diǎn)”,還能預(yù)測“目標(biāo)點(diǎn)”和??完整的交互路徑??,例如“如何打開抽屜”或“如何拿起水壺”。
2. 從粗到細(xì)的動(dòng)作生成??
VidBot 采用“兩階段學(xué)習(xí)模型”??:
- ??粗預(yù)測(Coarse Prediction)??:識(shí)別??接觸點(diǎn)和目標(biāo)點(diǎn)??(如“抽屜把手”和“拉開方向”)。
- ??細(xì)預(yù)測(Fine Prediction)??:利用??擴(kuò)散模型(Diffusion Model)??生成??平滑的3D軌跡??,并結(jié)合??測試時(shí)刻約束??(如避障、多目標(biāo)優(yōu)化)確保動(dòng)作合理。
實(shí)驗(yàn)結(jié)果:零樣本泛化能力驚人!??
VidBot在??13個(gè)日常操作任務(wù)??(如開櫥柜、推抽屜、拿水壺)上進(jìn)行了測試,??成功率高達(dá)88.2%??,遠(yuǎn)超現(xiàn)有方法(如VRB、GAPartNet)。在??Hello Robot Stretch3(7DOF開源移動(dòng)操作機(jī)器人)??上,VidBot成功執(zhí)行了??推拉、抓取、開關(guān)??等任務(wù),成功率80%以上。
VidBot 的實(shí)際應(yīng)用大放異彩
家庭服務(wù)領(lǐng)域
在家庭場景中,移動(dòng)操作機(jī)器人的需求持續(xù)增長。Hello Robot Stretch3搭載VidBot技術(shù)后,能通過觀看人類日常動(dòng)作視頻,快速模仿執(zhí)行開櫥柜、推抽屜等任務(wù)。例如在廚房場景中,它可精準(zhǔn)識(shí)別目標(biāo)位置,規(guī)劃運(yùn)動(dòng)路徑完成取物操作,為家庭生活增添便利。
教育科研場景
7DOF 開源移動(dòng)操作機(jī)器人(如Stretch3)結(jié)合VidBot技術(shù),能成為教育科研的得力工具。科研人員可通過視頻讓其掌握實(shí)驗(yàn)流程,學(xué)生則能直觀觀察機(jī)器人的學(xué)習(xí)過程,加深對編程與運(yùn)動(dòng)控制的理解,激發(fā)對機(jī)器人技術(shù)的探索興趣。
結(jié)語與展望
VidBot的技術(shù)突破,讓機(jī)器人通過視頻學(xué)習(xí)技能成為可能,而Hello Robot Stretch3作為適配該技術(shù)的移動(dòng)操作機(jī)器人,在家庭服務(wù)、教育科研等場景中展現(xiàn)出顯著優(yōu)勢。
隨著技術(shù)迭代和Hello Robot 移動(dòng)操作機(jī)器人Stretch 3的廣泛社區(qū)支持,在未來Stretch3有望更深度融入多元場景,為用戶帶來更智能的體驗(yàn)。
【版權(quán)聲明】
本文部分技術(shù)內(nèi)容及數(shù)據(jù)援引自論文《VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation》(arXiv:2503.07135v2)。項(xiàng)目網(wǎng)站:https://hanzhic.github.io/vidbot-project/
文章詳情