每日动态2026年6月18日

MolmoMotion 开源，机器人和 3D 任务开始听懂自然语言动作指令

Allen AI 发布 MolmoMotion，可根据视频、3D 点标记和自然语言指令预测 3D 运动轨迹，为机器人、仿真和具身智能提供新基础能力。

作者：CRAZYAIGC

#MolmoMotion#机器人#具身智能#3D视觉#多模态AI

为什么值得关注

Allen AI 发布 MolmoMotion，基于 Molmo 2 构建，可从视频帧、3D 点标记和文本动作指令中预测 3D 运动轨迹，并同步发布数据集和评测基准。这类模型的重点不是“看懂图片”，而是进一步理解物体、空间和动作之间的关系。

对企业来说，具身智能和机器人落地的难点往往不在单个模型效果，而在任务描述、场景变化、动作拆解和安全边界。MolmoMotion 这类研究说明，自然语言正在成为连接人、视觉场景和物理动作的中间层。

在制造、仓储、门店、实验室、培训和售后场景里，大量工作都包含“看、判断、移动、摆放、检查、复位”等动作。短期内，企业可以先用 AI 做视频标注、SOP 拆解、培训模拟和质检辅助；长期看，这些结构化动作数据会成为机器人项目的重要基础。

Hugging Face Blog: MolmoMotion: Language-guided 3D motion prediction: https://huggingface.co/blog/allenai/molmomotion
本文由 CRAZYAIGC Daily 基于公开来源整理，重点关注企业 AI 落地、产品变化与可执行启发。