23-12-15 05:41 微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

Octo 🐙,开源的通用机器人策略(Generalist Robot Policy)

这是一个基于 80 万次机器人轨迹训练的多功能策略,性能优于 RT-1X,具备灵活的观测和行动空间,并且完全开源。Octo 能够控制多台机器人,接受第三人称视角和手腕摄像头的输入,以及语言指令和目标图像。它能在不到 5 小时内适应新的观测和行动空间,前提是使用具有 24 GB VRAM 的 GPU。

Octo 设计上支持扩展,采用大型 Transformer 架构,配备小型编码器和动作控制头,以及扩散动作解码技术,提升表现力。项目还包括了两种规格的模型:Octo-Small(2700 万参数)和 Octo-Base(9300 万参数),并在 HuggingFace 平台提供。此外,发布了技术报告和与 PyTorch 及 JAX 兼容的高质量数据加载器,以及精心策划的数据集分割,旨在打造真正的“基础级”机器人模型。

项目地址:http://t.cn/A6lfldTv

发布于 美国