返回每日动态
每日动态

MolmoMotion 开源,机器人和 3D 任务开始听懂自然语言动作指令

Allen AI 发布 MolmoMotion,可根据视频、3D 点标记和自然语言指令预测 3D 运动轨迹,为机器人、仿真和具身智能提供新基础能力。

作者:CRAZYAIGC
#MolmoMotion#机器人#具身智能#3D视觉#多模态AI

MolmoMotion 开源,机器人和 3D 任务开始听懂自然语言动作指令

为什么值得关注

Allen AI 发布 MolmoMotion,基于 Molmo 2 构建,可从视频帧、3D 点标记和文本动作指令中预测 3D 运动轨迹,并同步发布数据集和评测基准。这类模型的重点不是“看懂图片”,而是进一步理解物体、空间和动作之间的关系。

对企业来说,具身智能和机器人落地的难点往往不在单个模型效果,而在任务描述、场景变化、动作拆解和安全边界。MolmoMotion 这类研究说明,自然语言正在成为连接人、视觉场景和物理动作的中间层。

在制造、仓储、门店、实验室、培训和售后场景里,大量工作都包含“看、判断、移动、摆放、检查、复位”等动作。短期内,企业可以先用 AI 做视频标注、SOP 拆解、培训模拟和质检辅助;长期看,这些结构化动作数据会成为机器人项目的重要基础。

对企业 AI 落地的启发

  • 企业要做机器人或具身智能,不应只关注硬件,也要沉淀动作 SOP、场景视频和异常处理知识。
  • 培训、质检、仓储和售后服务可以优先把重复动作流程转成可标注、可评估、可复盘的数据资产。
  • 多模态 AI 项目需要把语言、图像、视频、空间和流程放在同一个业务闭环里设计。

来源

  • Hugging Face Blog: MolmoMotion: Language-guided 3D motion prediction: https://huggingface.co/blog/allenai/molmomotion
  • 本文由 CRAZYAIGC Daily 基于公开来源整理,重点关注企业 AI 落地、产品变化与可执行启发。