华体会官网入口:科幻!谷歌放出Gemini Robotics-ER 15:机器人有了真正的思考力

来源:华体会官网入口    发布时间:2025-11-28 08:57:05 9999

华体会官网优惠:

  。这是首个被广泛开放给所有开发者的Gemini机器人系列模型,它将作为机器人的Gemini Robotics-ER 1.5(简称 Gemini Robotics-Embodied Reasoning)是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型,能够推理物理世界、原生调用工具,并规划逻辑步骤来完成任务

  虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似,但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题:解读复杂的视觉数据、执行空间推理,以及根据自然语言命令规划行动

  在操作方面,Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API,使模型能够编排这些行为,以便机器人完成长时程任务

  5.将自然语言命令分解为一系列逻辑子任务,并对现有的机器人行为进行函数调用。人机交互

  Gemini Robotics-ER 1.5预览版现已开放。能够最终靠以下方式开始体验:

  想象一下,你对一个机器人说:“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”

  2.理解眼前的各种物品。3.根据本地规则规划出分类方法。4.执行所有步骤,完成投放。像这样的日常任务,大多需要结合上下文信息并分多步才能完成。

  (embodied reasoning)而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平

  Gemini Robotics-ER 1.5专为机器人应用进行了目标性微调,并引入了多项新功能:

  :以Gemini Flash模型的低延迟,实现顶尖的空间理解能力。该模型擅长生成语义精确的2D坐标点,这些坐标点基于对物品尺寸、重量和功能可供性的推理,从而支持如“指出所有你能拿起的物体”这类指令,实现精确、快速的交互

  :利用先进的空间和时间推理、规划和成功检验测试能力,可靠地执行长周期任务循环(例如,“按照这张照片重新整理我的书桌”)。它还能原生调用谷歌搜索和任何第三方自定义函数(例如,“根据本地规定将垃圾分类”)

  :开发者现在可以直接控制模型的延迟与准确性之间的权衡。这在某种程度上预示着,对于像规划多步组装这样的复杂任务,你可以让模型“思考更长时间”;而对于探测或指向物体等需要快速反应的任务,则能要求更快的响应

  :模型在语义安全方面做了改进,能更好地识别并拒绝生成违反物理约束的计划(例如,超出机器人的有效载荷能力),让开发的人能更自信地进行构建智能大脑

  你可以将Gemini Robotics-ER 1.5视为机器人的高级大脑。它能理解复杂的自然语言指令,对长周期任务进行推理,并协调复杂的行为。

  当收到一个像“把桌子收拾干净”这样的复杂请求时,Gemini Robotics-ER 1.5能将其分解成一个计划,并调用正确的工具来执行,无论是机器人的硬件API、专门的抓取模型,还是用于运动控制的视觉-语言-行为模型(VLA)。

  为了与物理世界互动,机器人一定要能感知和理解其所处的环境。Gemini Robotics-ER 1.5经过微调,能够生成高质量的空间结果,为物体提供精确的2D坐标点

  值得注意的是,提示要求模型只标记图中出现的物品,这可以有效的预防模型产生幻觉(比如为不存在的“独角兽”生成坐标),使其始终基于视觉现实

  例如,在一个视频中,机械臂先将一支绿色记号笔放入木盘,再将蓝色和红色的笔放入笔筒。当我们要求模型按顺序描述任务步骤时,它给出了完全正确的答案

  当启用思考功能时,模型可以对复杂的指向和边界框查询进行推理。下面是一个制作咖啡的例子,展示了模型如何理解达成目标所需的“如何做”和“在哪里做”

  现在,我需要关上咖啡机。请绘制一条由8个点组成的轨迹,指示盖子把手应如何移动以关闭它答:模型:生成了一条从开启到关闭位置的精确路径

  我喝完咖啡了。现在应该把杯子放在哪里清洗?答:模型:在水槽中标记了一个点

  模型的性能随着思考token预算的增加而提升。对于像物体检测这样的简单空间理解任务,很小的预算就能达到高性能;而更复杂的推理任务则需要更大的预算

  这使得开发的人能在需要低延迟响应的任务和需要高精度结果的挑战性任务之间取得平衡。开发的人能通过请求中的