OpenBench

OpenBench OpenBench Groq

1 分钟阅读

OpenBench

OpenBench是一个专注于为语言模型提供标准化、可重现评估的开源基础设施,其核心功能是支持超过20个涵盖知识、推理、编程和数学的评估套件,并且具备与Groq、OpenAI、Anthropic、Google、AWS Bedrock、Azure以及本地Ollama模型等15+模型提供商的广泛兼容性。该项目基于inspect-ai框架构建,提供简化的命令行界面(如bench evalbench view)以便于用户运行和查看基准测试结果,同时强调其高度可扩展性、易于添加新基准和指标的能力,并通过提供精选的评分器和共享工具来确保评估代码的清晰性、可靠性和开发者体验,旨在提供一个值得信赖且易于维护的LLM基准测试库。