LiveMCPBench
LiveMCPBench LiveMCPBench MCP tools
LiveMCPBench
LiveMCPBench是一个专注于在大型多选择工具(MCP tools)环境中,对人工智能代理(agent)执行真实世界任务能力进行基准测试和评估的开源项目。该项目核心功能包括提供一个MCP Copilot代理实现、一套名为LiveMCPEval的评估框架以及LiveMCPTool工具集,并包含标注好的任务数据,旨在帮助研究人员理解和比较不同代理在复杂工具使用场景下的表现。它支持对GLM 4.5、GPT-5-Mini、Kimi-K2等多种模型进行评估,并通过Docker镜像简化了部署流程,同时还维护了一个公开排行榜,以促进相关领域的竞争与进步。