让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了

当机器人也有潜意识。

大模型固然性能强大,但限制也颇多。


如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨。近段时间,小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域,也出现在了机器人领域。

昨天晚上,朱玉可和 Jim Fan 团队(英伟达 GEAR 团队)新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络,但它足以控制人形机器人执行多种机体运动。

先来看看效果,将 HOVER 在不同模式下控制的机器人放到一起组成阵列,其中每一台机器人都有自己的控制模式。还挺壮观的!这也佐证了 HOVER 的通用性。你能看出它们的不同之处吗?

无论是 H2O 模式、OmniH2O Mode 模式、还是 ExBody 模式 、HumanPlus 模式,左手和右手的慢动作都直接被 HOVER 大一统了。

实际上,HOVER 就是一个通用型的人形机器人控制器。

据介绍,HOVER 的设计灵感来自人类的潜意识。人类在行走、保持平衡和调整四肢位置时都需要大量潜意识的计算,HOVER 将这种「潜意识」能力融合进了机器人。这个单一模型可以学习协调人形机器人的电机,从而实现运动和操控。

HOVER 的训练使用了 NVIDIA Isaac,这是一个由 GPU 驱动的模拟套件,可将物理加速到实时的 1 万倍。按 Jim Fan 的比喻就是说,只需在一张 GPU 卡上运算大概 50 分钟,机器人就像是在虚拟「道场」中经历了一整年的密集训练。

然后,无需微调,就可以将这个神经网络以零样本方式迁移到真实世界。

HOVER 可以接收多种高级运动指令,即所谓的「控制模式(control mode)」,比如:

  • 头部和手部姿势,可通过 Apple Vision Pro 等增强现实设备捕捉;
  • 全身姿势,可通过 MoCap 或 RGB 相机;
  • 全身关节角度:外骨骼;
  • 根速度命令:操纵杆。

这项研究的贡献包括:

  • 一个统一的界面,可让控制者使用任何方便的输入设备来控制机器人;
  • 一种更简单的全身远程操作数据收集方法;
  • 一个上游的视觉 - 语言 - 动作模型,可用于提供运动指令,之后 HOVER 会将其转换为高频的低级运动信号。

HOVER 是如何炼成的?

用于人形机器人的基于目标的强化学习

该团队将所研究的问题表述成了一个基于目标的强化学习任务…

用户人形机器人控制的命令空间设计…


至整篇文章内容之末。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了

https://www.gptnb.com/2024/11/01/2024-10-31-auto5_2-ajZWqk/

作者

ByteAILab

发布于

2024-11-01

更新于

2025-03-21

许可协议

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

评论

You forgot to set the shortname for Disqus. Please set it in _config.yml.