M3-Agent
M3-Agent M3-Agent M3-Agent
M3-Agent
M3-Agent是一个创新性的多模态智能体框架,其核心在于配备了先进的长期记忆能力。该智能体能够实时处理视觉和听觉输入,从而构建并持续更新其情景记忆和语义记忆,逐步积累世界知识,并以实体为中心、多模态的形式组织记忆,旨在实现对环境更深层、更一致的理解。当接收到指令后,M3-Agent能自主执行多轮迭代推理,并从其长期记忆中检索相关信息以高效完成任务。为评估多模态智能体在长期记忆有效性和基于记忆推理方面的表现,该项目同时开发了M3-Bench,这是一个全新的长视频问答基准数据集,包含来自机器人视角和网页源的多种真实世界视频,旨在测试智能体在人类理解、通用知识提取和跨模态推理等关键方面的能力。实验结果表明,通过强化学习训练的M3-Agent在M3-Bench和VideoMME-long上显著超越了包括Gemini-1.5-pro和GPT-4o在内的强大基线模型,推动了多模态智能体在实现更类人长期记忆方面的进展,并为其实际设计提供了宝贵见解。