具身智能入数据驱动阶段,DPVR RoboPilot面向多方客户
具身智能进入“数据驱动”阶段RoboPilot所关注的,正是围绕遥操作过程,将人的空间动作、机器人执行状态和任务结果连接起来,形成更具训练价值的多模态操作数据。RoboPilot并不是机器人本体,也不替代机器人运控系统或模型训练平台。
机器人缺的不是视频,是带动作的多模态数据
对于具身智能训练而言, 最令人头疼的问题, 并非算法不够强大, 而是数据质量欠佳。拍摄一段机器人抓取杯子的视频较为轻易, 然而, 即便模型观看过后, 依旧不清楚该如何着手操作。这是由于视频当中未曾记录手部是怎样伸展过去的, 夹爪应当在何时闭合, 以及杯子是否被稳稳拿住。机器人所需的是一整套完整的数据, 涵盖画面、动作、位姿、关节角度以及任务结果, 并且这些数据全都需在时间维度上实现精准对齐。哪怕仅仅相差一毫秒, 所训练出来的模型都极有可能出现偏差。

诸多团队耗费大量资金搭建动捕系统、外骨骼以及多传感器, 然而最终数据却依旧无法对齐。问题究竟出在哪里, 原因就在于采集过程当中仅仅记录了画面, 却将动作以及状态的同步给忽略掉了。而真正具备实用价值的训练数据, 必须要把操作者的头部、手部, 机器人的关节、夹爪状态, 还有任务的成败情况, 都精准地对应到同一个时间轴之上。唯有如此, 模型才能够切实理解“动作究竟是如何发生的”。
PCVR让操作者用自然动作教机器人干活
为何PCVR适宜去进行数据采集呢, 是由于机器人的操作是在三维空间当中发生, 并非二维屏幕就能处理妥当的。抓取杯子需要明确手从何处起始、怎样去接近、以何种角度握上去才行。键鼠以及摇杆根本无法将这些空间信息予以表达。借助VR头显以及手柄, 操作者能够如同真人那般转头去看、伸手去抓,动作轨迹会被自然而然地记录成为数据。
PCVR方案的DPVR借助PC端算力保障低延迟, 当操作者做出动作时, 机器人会同步做出反应, 延迟低到让人感觉不到。一旦延迟变高, 操作者就会出现卡顿, 动作变得不连续, 如此采集到的数据便无法使用。低延迟不但能使操作更加顺畅, 还能让数据更为稳定, 进而让训练出来的模型更加靠谱。
一套方案搞定遥操作和数据采集
DPVR既不制造机器人, 也不构建算法平台, 其所从事的事情极为简单, 那便是将人类操作与机器人学习连接起来。当操作者戴上头显并手持手柄后, 便能够远程操控机械臂去抓取物品、进行倒水以及开门等动作。与此同时, 系统会自动记录操作者的头位、手位, 还有机器人的关节角度、夹爪状态以及任务结果。这些数据会被直接提供给算法团队, 从而省去了后期对齐所带来的麻烦。
以下这套方案, 能够解决三种不同类型的需求: 其一, 能够迅速组建起遥操作验证的环境, 而无需等待长达数月的时间来构建动捕系统;其二, 于操作的进程之中, 沉淀下多模态的数据, 以便用来开展模仿学习以及VLA模型的训练;其三, 研发团队能够回溯查看操作的记录, 对问题究竟是出在视觉识别方面、动作规划方面, 还是控制延迟方面进行分析。
比传统方案更便宜,部署更快

当今市面上针对机器人遥操作以及数据采集的方案, 往往动不动就需要动捕系统是一种情况, 外骨骼属于另一种情况, 还有定制控制平台亦是如此, 这一套弄下来花费几十万之多, 而其部署周期长达几个月时间。DPVR是基于成熟的PCVR硬件来开展相关工作的, 与之相比成本要低许多, 同时部署速度也很快。对于团队而言, 只要配备一台高性能电脑, 再准备一套DPVR头显以及手柄, 便能够搭建起遥操作环境然后开始采集数据。
针对高校科研机构而言, 这个门槛具有相当重要性, 高校科研机构在资金预算方面存在限制, 然而却迫切需要尽快获取高质量数据用以训练模型。对于小型机器人创业公司来讲, 这个门槛极为关键, 小型机器人创业公司资金预算有限, 同时也急需尽快拿到高质量数据来训练模型。DPVR的方案能够使他们在开支更少的情况下, 于更短的时间范围内, 取得与高端方案质量相近的数据。
从操作到数据,DPVR在打通整个训练链路
DPVR并非单纯售卖硬件, 其所欲达成之事乃是连通整个具身智能数据链条, 往后它会与机器人本体、灵巧手、数据手套、运控系统、数据标注平台、模型训练框架皆实现打通, 进而构建出一条从遥操作起始,历经数据采集, 最终至训练验证的完备链路。
那么机器人公司便无需自行拼凑诸多设备, 而是直接接入到DPVR的入口, 进而能够着手开展采集数据、训练模型的工作。 DPVR所充当的角色乃是那个“数据前端”, 其作用是将人类的操作转变为机器人可加以运用的训练样本。 每一回出现的抓取动作、以及每一回进行的倒水行为等, 均会转变为模型的学习素材。
人类操作是机器人学习的最好老师

存在于真实世界层面的机器人, 肩负着干活职责, 这其间就得学会去理解人类究竟是怎样进行判断的, 又是怎样予以调整的, 以及怎样做出修正动作的。视频无法直接供给这样的内容, 唯有多模态操作数据才能够对机器人起到教导作用。DPVR所从事的工作, 即为将人类的每一回操作, 转变成为机器人能够看懂、能够再度沿用的训练数据。
不论是从虚拟现实转变至机器人空间交互, 还是从手追踪转至动作数据采集, 长期有着技术积累的DPVR, 现已步入到一个全新的行业之中。它能够使人类操作直接变成机器人学习的样本, 无需再经历中间复杂的转换过程。
你认为机器人训练之中最难的方面, 是收集的数据花费的成本偏高, 还是这些数据的质量算不上优良? 欢迎进行评论并展开互动, 点赞再分享, 从而让更多的人能够看到这个方向。