VidBot：讓Stretch3機(jī)器人看視頻就能學(xué)動(dòng)作，零樣本執(zhí)行成現(xiàn)實(shí)

在機(jī)器人技術(shù)的發(fā)展歷程中，如何讓機(jī)器人高效學(xué)會(huì)執(zhí)行各類復(fù)雜動(dòng)作，一直是科研人員探索的關(guān)鍵課題。

近期，一項(xiàng)名為 VidBot 的技術(shù)“橫空出世”，為該領(lǐng)域帶來了突破性進(jìn)展。它實(shí)現(xiàn)了機(jī)器人直接從視頻學(xué)習(xí)生成執(zhí)行動(dòng)作，為機(jī)器人的智能化發(fā)展開辟了新路徑。

引言：機(jī)器人如何像人類一樣學(xué)習(xí)？??

想象一下，如果機(jī)器人能夠像人類一樣通過觀看視頻學(xué)習(xí)新技能，那將是多么高效和便捷！

傳統(tǒng)的機(jī)器人訓(xùn)練需要大量人工演示和編程，成本高且難以規(guī)模化。然而，慕尼黑工業(yè)大學(xué)、蘇黎世聯(lián)邦理工與微軟的最新研究 ??VidBot?? 提出了一種創(chuàng)新方法：??

機(jī)器人僅需觀看人類日常視頻，就能學(xué)會(huì)執(zhí)行復(fù)雜的操作任務(wù)??，無需人工訓(xùn)練或機(jī)器人專用演示。

傳統(tǒng)困境與 VidBot 的創(chuàng)新突破

傳統(tǒng)機(jī)器人學(xué)習(xí)執(zhí)行動(dòng)作的方式，往往依賴大量真實(shí)世界數(shù)據(jù)或仿真訓(xùn)練。收集這些數(shù)據(jù)不僅耗費(fèi)大量人力、物力，而且針對不同硬件形態(tài)的機(jī)器人，還需單獨(dú)進(jìn)行訓(xùn)練，這無疑極大地限制了機(jī)器人技術(shù)的推廣與應(yīng)用。

VidBot 則另辟蹊徑，它能從自然單目 RGB 人類視頻中學(xué)習(xí)三維空間表征（3D affordance），構(gòu)建起一個(gè)零樣本機(jī)器人操作框架。

簡單來說，就是機(jī)器人無需針對特定任務(wù)進(jìn)行復(fù)雜的前期訓(xùn)練，就能依據(jù)視頻中的人類動(dòng)作，直接執(zhí)行相應(yīng)操作。其技術(shù)核心在于通過精妙的算法，從視頻里提取出 3D 手部軌跡，再利用獨(dú)特的學(xué)習(xí)模型，將這些軌跡轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作指令。

VidBot的核心技術(shù)：從視頻到機(jī)器人動(dòng)作??

??1. 從2D視頻提取3D動(dòng)作??

VidBot的核心創(chuàng)新在于??從單目RGB視頻中提取3D手部軌跡??，并結(jié)合??深度估計(jì)模型（如Depth Anything）和運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（SfM）技術(shù)??，重建出??時(shí)序一致、度量尺度的三維空間表征（3D affordance）??。

3D手部軌跡提取??：VidBot利用??SfM優(yōu)化相機(jī)位姿??，并結(jié)合??手-物檢測模型??（如Segment Anything）分割手和物體，最終生成??3D交互軌跡??。
Affordance學(xué)習(xí)??：機(jī)器人不僅能識(shí)別“接觸點(diǎn)”，還能預(yù)測“目標(biāo)點(diǎn)”和??完整的交互路徑??，例如“如何打開抽屜”或“如何拿起水壺”。

2. 從粗到細(xì)的動(dòng)作生成??

VidBot 采用“兩階段學(xué)習(xí)模型”??：

??粗預(yù)測（Coarse Prediction）??：識(shí)別??接觸點(diǎn)和目標(biāo)點(diǎn)??（如“抽屜把手”和“拉開方向”）。
??細(xì)預(yù)測（Fine Prediction）??：利用??擴(kuò)散模型（Diffusion Model）??生成??平滑的3D軌跡??，并結(jié)合??測試時(shí)刻約束??（如避障、多目標(biāo)優(yōu)化）確保動(dòng)作合理。

實(shí)驗(yàn)結(jié)果：零樣本泛化能力驚人！??

VidBot在??13個(gè)日常操作任務(wù)??（如開櫥柜、推抽屜、拿水壺）上進(jìn)行了測試，??成功率高達(dá)88.2%??，遠(yuǎn)超現(xiàn)有方法（如VRB、GAPartNet）。在??Hello Robot Stretch3（7DOF開源移動(dòng)操作機(jī)器人）??上，VidBot成功執(zhí)行了??推拉、抓取、開關(guān)??等任務(wù)，成功率80%以上。

VidBot 的實(shí)際應(yīng)用大放異彩

家庭服務(wù)領(lǐng)域

在家庭場景中，移動(dòng)操作機(jī)器人的需求持續(xù)增長。Hello Robot Stretch3搭載VidBot技術(shù)后，能通過觀看人類日常動(dòng)作視頻，快速模仿執(zhí)行開櫥柜、推抽屜等任務(wù)。例如在廚房場景中，它可精準(zhǔn)識(shí)別目標(biāo)位置，規(guī)劃運(yùn)動(dòng)路徑完成取物操作，為家庭生活增添便利。

教育科研場景

7DOF 開源移動(dòng)操作機(jī)器人（如Stretch3）結(jié)合VidBot技術(shù)，能成為教育科研的得力工具。科研人員可通過視頻讓其掌握實(shí)驗(yàn)流程，學(xué)生則能直觀觀察機(jī)器人的學(xué)習(xí)過程，加深對編程與運(yùn)動(dòng)控制的理解，激發(fā)對機(jī)器人技術(shù)的探索興趣。

結(jié)語與展望

VidBot的技術(shù)突破，讓機(jī)器人通過視頻學(xué)習(xí)技能成為可能，而Hello Robot Stretch3作為適配該技術(shù)的移動(dòng)操作機(jī)器人，在家庭服務(wù)、教育科研等場景中展現(xiàn)出顯著優(yōu)勢。

隨著技術(shù)迭代和Hello Robot 移動(dòng)操作機(jī)器人Stretch 3的廣泛社區(qū)支持，在未來Stretch3有望更深度融入多元場景，為用戶帶來更智能的體驗(yàn)。

【版權(quán)聲明】

本文部分技術(shù)內(nèi)容及數(shù)據(jù)援引自論文《VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation》（arXiv:2503.07135v2）。項(xiàng)目網(wǎng)站：https://hanzhic.github.io/vidbot-project/

文章詳情

創(chuàng)建時(shí)間：2025-07-28 15:52

ꄴ前一個(gè)：無

ꄲ后一個(gè)：無

信倍通科技（北京）有限公司

ICT Tech (Beijing）Co., Ltd

넳 넲

去首頁看看

聯(lián)系我們

信倍通科技（北京）有限公司是領(lǐng)先的前沿科技和產(chǎn)品引進(jìn)、整合、推廣、集成和服務(wù)商，基于全球豐富的供應(yīng)商資源，立足國內(nèi)應(yīng)用場景和市場，貫通國內(nèi)外先進(jìn)技術(shù)經(jīng)驗(yàn)和多樣需求，為中國客戶提供智能安全的協(xié)作機(jī)器人和機(jī)器人協(xié)作應(yīng)用方案、精準(zhǔn)獨(dú)特的測量檢測設(shè)備、豐富精密的感知傳感產(chǎn)品、強(qiáng)壯有效的外骨骼及高速低時(shí)延大通量的5G芯片等產(chǎn)品。

掃一掃關(guān)注官方微信公眾號

ꁸ 回到頂部
010-62360234
ꁗ QQ客服
微信公眾號

色欲天天天综合网,国产suv精二区,国产在视频线自在拍下载,精品亚洲无人区一区二区,看亚洲a级一级片,精品中文综合影视,免费欧美视频一区二区三区,特大巨黑吊xxx,强奸视频午夜网站,欧美性白人极品hd

VidBot：讓Stretch3機(jī)器人看視頻就能學(xué)動(dòng)作，零樣本執(zhí)行成現(xiàn)實(shí)

引言：機(jī)器人如何像人類一樣學(xué)習(xí)？??