能理解,才能想象。
2021 年,因缺乏足够的训练数据,OpenAI 低调地终止了内部的机器人研究项目。
现在,我们却有机会看到 OpenAI 那未被实现的愿景。
2017 年,三位 OpenAI 早期研究成员创立了 Covariant,用直接投入行业去解决那个让 OpenAI 止步不前的数据难题 —— 没有数据,那就「创造」数据。
Covariant 的三位联合创始人都曾是 OpenAI 员工:Rocky Duan,CTO;Pieter Abbeel 总裁兼首席科学家;Peter Chen,CEO。
来到 2023 年,专注于打造软件平台的 Covariant 发布了机器人基础模型「RFM-1」。
在这个基础模型的支持上,人们印象冷冰冰的工厂机械臂,不仅能直接和用户对话,甚至还懂得「想象」与「求助」。
01 为何要让机械臂能「对话」,会「想象」?
我刚意识到我是这个台上唯一一个不是 CTO 的人
在上周的英伟达 GTC 活动中,Covariant CEO Peter Chen 在其中一个论坛中说道。
从某个角度来看,这也正好体现了 Covariant 产品的一个重要差异性 —— 关于技术的对话,可以更友好。
一般来说,如果想让机械臂完成流水线上的某项工作,譬如说给机器拧上特定一颗螺丝,工程师必须为此进行专门的编程,让机械臂完成,且只能完成这项工作。
如果要换个任务,那又是另一番的编程工作。
就如 ChatGPT 打破了普通人和 AI 对话的门槛,Covariant 的 RFM-1 也打破了普通人和机械臂对话的障碍。
有了这个底层大模型,用户可以直接像和 ChatGPT 聊天一样和机械臂实时对话:
—— 框里有水果吗?—— 有的。我看到了苹果和香蕉。—— 拿起所有的红苹果。
有了这样的灵活性,工厂、仓库里的机械臂能敏捷地适应不同需求。
让我印象更深刻的是,和聊天机器人爱「信口张来」的习惯相比,RFM-1 支持的机械臂在遇到难题时显得更谨慎,甚至会主动「求助」人类。
在演示视频中,机械臂在被要求拿起一筒筒的网球时遇到了困难:
—— 我没法抓住。—— 你有什么建议吗?—— 移到物件高处两厘米旁,轻轻地把它推倒。
来自机械臂的「求助」
试过这个建议后,机械臂能把学到的应用到下一个动作中。
从这些自然语言的交互也能看出,RFM-1 也和我们更熟悉的大语言模型一样,在训练时学习了大量的文本、图像、视频等素材。
在这基础上,让它真正区别于其他同类模型的,是大批量真实的机械臂操作视频。
还记得最开始说 OpenAI 是因为缺乏可用训练数据才放弃机器人项目的吗?
Covariant 也不是一开始就拥有了这样宝贵的数据,而是一步步自己「做」出来的。