OpenBench

OpenBench OpenBench Groq

2024-01-01 1 分钟阅读

OpenBench

OpenBench是一个专注于为语言模型提供标准化、可重现评估的开源基础设施，其核心功能是支持超过20个涵盖知识、推理、编程和数学的评估套件，并且具备与Groq、OpenAI、Anthropic、Google、AWS Bedrock、Azure以及本地Ollama模型等15+模型提供商的广泛兼容性。该项目基于inspect-ai框架构建，提供简化的命令行界面（如bench eval和bench view）以便于用户运行和查看基准测试结果，同时强调其高度可扩展性、易于添加新基准和指标的能力，并通过提供精选的评分器和共享工具来确保评估代码的清晰性、可靠性和开发者体验，旨在提供一个值得信赖且易于维护的LLM基准测试库。

OpenBench

本指南使用到的工具