M3-Agent

M3-Agent M3-Agent M3-Agent

2024-01-01 1 分钟阅读

M3-Agent

M3-Agent是一个创新性的多模态智能体框架，其核心在于配备了先进的长期记忆能力。该智能体能够实时处理视觉和听觉输入，从而构建并持续更新其情景记忆和语义记忆，逐步积累世界知识，并以实体为中心、多模态的形式组织记忆，旨在实现对环境更深层、更一致的理解。当接收到指令后，M3-Agent能自主执行多轮迭代推理，并从其长期记忆中检索相关信息以高效完成任务。为评估多模态智能体在长期记忆有效性和基于记忆推理方面的表现，该项目同时开发了M3-Bench，这是一个全新的长视频问答基准数据集，包含来自机器人视角和网页源的多种真实世界视频，旨在测试智能体在人类理解、通用知识提取和跨模态推理等关键方面的能力。实验结果表明，通过强化学习训练的M3-Agent在M3-Bench和VideoMME-long上显著超越了包括Gemini-1.5-pro和GPT-4o在内的强大基线模型，推动了多模态智能体在实现更类人长期记忆方面的进展，并为其实际设计提供了宝贵见解。

M3-Agent

本指南使用到的工具