0°

Open AI 的设想被谷歌突破!DeepMind官宣SIMA动嘴就能完成游戏

  八年前,OpenAI 提出了一个前卫的设想:创建一个能够能在复杂环境中执行任务的 AI,让 AI 智能体能够像人类一样使用计算机。

  就在昨天(3月13日),Google 的 DeepMind 团队宣布了他们的最新研究成果,他们的全能 AI 智能体 SIMA(Simulation-to-Anything)已经将这一设想变为现实。这是一个可扩展、可指导的多世界智能体,能够在多样化的 3D 虚拟环境中执行多种任务。

  它能够遵循自然语言指令,在各种视频游戏设置中执行各种复杂任务,不需要任何 API 和其他信息输入,只靠观察游戏画面和你的指令即可执行任务,并且还能将某个游戏中习得的技能带到新游戏中应用和继续学习!

  众所周知,视频游戏是 AI 系统的重要试验场。DeepMind 团队的这项新研究不仅旨在让 AI 学会玩游戏,更重要的是将抽象语言转化为实际行动,让智能体学会在多种游戏环境中遵循指令。视频游戏作为一个沙盒,提供了一种安全、可访问的测试方法,这可能会解锁更多用于各种环境的实用 AI 智能体。

  如果能在这一研究领域中,攻克将抽象的语言命令转化为具体的、可执行的物理动作的难题,这对于推动 AI 技术的边界,尤其是在智能机器人和交互式 AI 系统的开发上,具有深远的意义。

  与 OpenAI 在 2016 年推出的 Universe 相比,SIMA 更侧重于研究多智能体系统的行为和动态。它提供了一个灵活且可定制的平台,让研究人员能够深入探索多智能体系统的各个方面。SIMA 的这些能力展示了利用语言驱动的 AI 智能体在多种 3D 虚拟环境中实现复杂交互和任务执行的潜力,为开发更通用、更有帮助的 AI 系统开辟了可能性。

  SIMA 技术报告:

  https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

  Deepmind:SIMA

  以往的方法通常是为特定任务设计特定的模型,这限制了其在其他任务上的适用性。因此,DeepMind 团队提出了开发通用 AI 智能体的理念,使其能够在不同类型的环境中执行各种任务。

  他们设计的 SIMA 能够遵循自然语言指令,在各种视频游戏设置中执行各种复杂任务。SIMA 包括预训练的视觉模型以及一个具备内存的主模型,后者能够输出键盘和鼠标动作。

  ▲SIMA 概述

  SIMA 的核心挑战在于如何在多个模拟 3D 环境中实现语言与具身行为之间的连接,即必须克服如何将语言理解和物理行动有效结合的难题,确保两者之间的无缝对接与协同工作。这种连接不仅是构建未来通用具身人工智能的关键,而且与谷歌目前正在研究的具身智能项目 Robotic Transformer2(RT2)的目标紧密相关。

  SIMA 的设计灵感源自生物学和心理学。与以往的程序不同,SIMA 并不是针对特定任务进行优化的,而是通过学习和适应来解决各种任务。这种方法使其能够适应不同的环境和任务,并在执行中不断改进和优化自己的表现。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论