MiniMax-M1

MiniMax-M1 MiniMax-M1 MoE)

2024-01-01 2 分钟阅读

MiniMax-M1是一个大型混合注意力推理模型，它具有以下主要功能和特点：

混合专家模型(MoE) ：该模型采用混合专家模型架构，该架构结合了闪电注意力机制。总共有4560亿个参数，每个token激活459亿个参数。
超长上下文 ：原生支持100万token的上下文长度，是DeepSeek R1的8倍。
高效计算 ：由于采用了闪电注意力机制，MiniMax-M1在测试时能够有效地扩展计算能力，例如，在生成10万个token时，其FLOPs消耗量仅为DeepSeek R1的25%。
强化学习训练 ：使用大规模强化学习(RL)进行训练，涉及数学推理到基于沙盒的真实世界软件工程环境等多种问题。
CISPO算法 ：采用了名为CISPO的新型算法，该算法裁剪重要性抽样权重而非token更新，优于其他竞争性RL变体。
模型变体 ：提供MiniMax-M1模型的两个版本，分别具有40K和80K的思考预算。
优越性能 ：在标准基准测试中，该模型优于其他强大的开放权重模型，尤其是在复杂的软件工程、工具使用和长上下文任务方面。
支持Function Calling ：该模型支持函数调用功能，可以识别何时需要调用外部函数，并以结构化格式输出函数调用参数。
在线服务和API ：提供具有在线搜索能力的Chatbot以及面向开发者的在线API。

简而言之，MiniMax-M1凭借其混合MoE架构、超长上下文处理能力、强化学习训练以及在复杂任务上的卓越性能，为下一代语言模型智能体奠定了坚实的基础。

本指南使用到的工具