MiniMax M2.5：驱动 MaxClaw 的 AI 模型

发布于 2026 年 2 月 26 日

MaxClaw 基于 MiniMax M2.5 构建——这是一个拥有 2290 亿参数的 Mixture-of-Experts 语言模型，专为智能体任务、代码生成和复杂推理而设计。M2.5 与 MaxClaw 于 2026 年 2 月 26 日同步发布，以 Claude 3.5 Sonnet 1/7 至 1/20 的成本提供与其相当的编程能力，推理速度高达每秒 100 个 token，上下文窗口从 20 万扩展到 100 万 token。本页面涵盖 MaxClaw 背后模型的技术架构、实际影响和竞争定位。

技术规格

MiniMax M2.5 概览

M2.5 是一个 Mixture-of-Experts (MoE) 模型，每个 token 仅激活其总参数的一小部分，以极低的计算成本实现高智能。以下是关键规格。

规格	MiniMax M2.5
架构	Mixture of Experts (MoE)
总参数量	2290 亿
每 token 激活参数量	约 100 亿
上下文窗口	20 万 – 100 万 Token
推理速度	最高 100 Token/秒
相比 Claude 3.5 Sonnet 的成本	1/7 至 1/20
核心优势	代码生成、多步工具调用、逻辑推理
编程性能	与 Claude 3.5 Sonnet 相当

核心创新

Lightning Attention：长上下文的线性扩展

传统 Transformer 模型的注意力机制存在二次复杂度问题——上下文长度翻倍，计算成本翻四倍。Lightning Attention 是 MiniMax 的解决方案：一种与序列长度成线性比例扩展的注意力机制，使标准 SoftMax 注意力下成本过高的上下文窗口成为可能。

Lightning Attention 的工作原理

Lightning Attention 用线性近似替代了标准的二次成本注意力计算，同时保留了模型在完整上下文窗口内关注相关信息的能力。关键洞察在于，实际中大多数注意力模式是稀疏的——token 仅强烈关注其他 token 的一小部分——Lightning Attention 利用这种稀疏性来减少计算图。

混合设计

M2.5 采用混合架构，每 1 层 SoftMax 注意力层对应 7 层 Lightning Attention 层。这一比例在获得 Lightning Attention 线性扩展优势的同时，在最关键的地方保留了传统 Transformer 注意力的高质量推理特性。

SoftMax 层充当周期性的"全注意力检查点"以维持全局一致性，而 Lightning 层以线性成本处理大部分计算。

支持超长上下文

这种混合方法使 MiniMax-01 系列能够支持高达 400 万 token 的上下文窗口——远超任何纯 SoftMax Transformer 在合理成本下所能处理的范围。

具体到 M2.5，Lightning Attention 使 20 万至 100 万 token 的上下文窗口在推理速度上仍然适合实时智能体交互。

为何这对智能体任务至关重要

AI 智能体需要在长时间、多步骤的交互中维持上下文——跟踪对话历史、工具输出、中间推理和用户偏好。Lightning Attention 使这一切成为可能，而不会出现通常伴随此类长上下文需求的指数级成本增长。对于 MaxClaw 而言，这意味着即使会话变得很长，持久记忆和文档分析功能仍然保持响应。

架构深度解析

Mixture of Experts：2290 亿参数，约 100 亿激活

Mixture-of-Experts 架构是定义 M2.5 的第二大核心创新。M2.5 不会为每个 token 激活全部 2290 亿参数（如密集模型那样），而是使用学习路由机制，仅激活最相关的子集——大约 100 亿参数——来处理每个 token。

MoE 如何实现高效性

在 MoE 架构中，模型包含许多专门的"专家"子网络。门控机制评估每个传入的 token，并将其路由到最适合处理它的专家。结果是，模型拥有 2290 亿参数模型的总知识容量，但每次推理步骤的计算成本仅相当于约 100 亿参数模型。

稀疏激活的经济学

这种稀疏激活模式使 M2.5 的成本优势成为可能。密集的 2290 亿模型每个 token 所需的计算量大约是 M2.5 实际使用量的 23 倍。这些节省贯穿整个技术栈：

更低的每次推理 GPU 成本——激活的参数更少意味着每个 token 的浮点运算更少
更高的吞吐量——相同的硬件可以处理更多并发请求
更快的响应时间——每秒最高 100 个 token，对交互式智能体使用至关重要
终端用户成本——在同等编程任务上，成本为 Claude 3.5 Sonnet 的 1/7 至 1/20

无需高昂计算费用即可获得智能

MoE 的基本权衡是众所周知的：稀疏模型需要更多的总参数才能匹配密集模型的质量，但每个 token 的计算成本大幅降低。M2.5 证明，一个精心设计的 2290 亿 MoE 模型可以实现与 Claude 3.5 Sonnet——一种更密集的架构——相当的编程性能，同时运行成本只是其一小部分。这是使 MaxClaw 定价模式在高频自动化场景中可行的核心经济洞察。

实际影响

M2.5 如何驱动 MaxClaw

MaxClaw 于 2026 年 2 月 25 日发布，是 MiniMax 构建的云端 AI 智能体。M2.5 不仅是底层模型——它专门针对 MaxClaw 处理的智能体工作负载进行了优化。以下是 M2.5 的每项能力如何对应到 MaxClaw 功能。

多步工具调用

M2.5 针对需要按顺序链接多个工具调用的智能体任务进行了优化——读取数据、处理数据、调用 API 并综合结果。这是 MaxClaw 在各消息平台上执行的核心工作流循环。

代码执行

凭借与 Claude 3.5 Sonnet 相当的编程能力，M2.5 使 MaxClaw 能够在其任务执行管道中生成和执行代码。这为智能体工作流中的数据分析、自动化脚本和复杂计算提供了支持。

经济可行的自动化

以同类模型 1/7 至 1/20 的成本，M2.5 使高频智能体自动化在经济上可行。MaxClaw 用户可以在多个渠道上全天候运行智能体，而不会导致每 token 成本飙升至不可持续的水平。

快速推理，响应式交互

每秒 100 个 token 的推理速度意味着 MaxClaw 智能体能够实时响应。在用户期望近乎即时回复的消息场景中，这种速度不是奢侈——而是自然交互体验的必要条件。

长上下文支持持久记忆

20 万至 100 万 token 的上下文窗口使 MaxClaw 能够在扩展会话中保持持久记忆。智能体可以引用长对话的早期部分、分析上传的文档，并积累关于用户偏好和工作流的上下文而不会丢失线索。结合 Lightning Attention 的线性扩展特性，即使会话增长到数万次交互，这种长上下文能力仍然具有成本效益。

复杂推理

M2.5 的逻辑推理能力使 MaxClaw 智能体能够处理需要多步推导、条件逻辑和结构化问题求解的任务。这超越了简单的问答，进入了真正的任务完成领域——规划行动序列、评估结果，并根据中间结果调整策略。

竞争格局

M2.5 与其他前沿模型的对比

了解 M2.5 相对于其他领先模型的定位有助于明确其优势和权衡。以下对比基于模型已公布的能力和定价。

维度	MiniMax M2.5	Claude 3.5 Sonnet	Kimi K2.5
架构	229B MoE（约 10B 激活）	密集架构（规模未公开）	1T MoE
上下文窗口	20 万 – 100 万 token	20 万 token	12.8 万 token
编程能力	与 Claude 3.5 相当	前沿水平	优秀
成本（相对）	1x（基准）	7x – 20x	更高（1T 参数）
推理速度	最高 100 tok/s	中等	中等
智能体优化	首要关注	通用目的	通用目的

对比 Claude 3.5 Sonnet

M2.5 在编程性能上达到与 Claude 3.5 Sonnet 相当的水平，而每个 token 的成本仅为其 1/7 至 1/20。权衡在于 Claude 3.5 是一个更通用的模型，在创意、分析和对话任务方面覆盖更广，而 M2.5 专门针对智能体和编程工作负载进行了优化。对于 MaxClaw 的用例——自主智能体执行——这种专业化是一种优势，而非局限。

对比 GPT-4o

MiniMax-01 系列在长上下文能力方面超越了 GPT-4o，上下文窗口最高可达 400 万 token，而 GPT-4o 为 12.8 万。M2.5 继承了这一血统，拥有 20 万至 100 万 token 的窗口，轻松超越 GPT-4o 的上下文容量，使其更适合需要大量文档分析或长期对话记忆的任务。

对比 Kimi K2.5

Kimi K2.5 是一个 1 万亿参数的 MoE 模型——远大于 M2.5 的 2290 亿参数。然而，更大并不总是更好：额外的参数意味着更高的推理成本和更复杂的基础设施需求。M2.5 更精简的架构转化为更低的每 token 成本和更快的推理速度，这在 MaxClaw 运行的高频智能体工作负载中是至关重要的优势。M2.5 于 2026 年 2 月 26 日与 MaxClaw 同步发布，体现了 MiniMax 同步优化模型和智能体部署的战略。

模型谱系

MiniMax 模型家族

M2.5 是 MiniMax 系列模型中的最新成员，这些模型共享共同的架构理念：混合注意力机制与 Mixture-of-Experts 相结合，实现高效的长上下文智能。

MiniMax-01

该系列的基础模型。MiniMax-01 引入了混合 Lightning Attention + SoftMax 注意力架构，并展示了高达 400 万 token 的上下文窗口——这是行业的里程碑。

MiniMax-01 证明了线性注意力可以与传统注意力相结合，同时实现规模和质量，为 M1 和 M2.5 奠定了基础。

MiniMax M1

M2.5 的直接前身。M1 完善了混合注意力架构，并作为优化 MoE 路由效率和推理速度的主要研究平台。

M1 验证了 M2.5 将继承的架构决策，建立了 M2.5 旨在超越的性能基线。

当前版本 · 驱动 MaxClaw

MiniMax M2.5

该家族中最新、最强大的模型。M2.5 专门针对智能体和编程任务进行了优化，总参数 2290 亿，每 token 激活约 100 亿，推理速度高达 100 tok/s。

M2.5 于 2026 年 2 月 26 日与 MaxClaw 同步发布，体现了 MiniMax 协同设计模型和智能体以实现最佳实际性能的战略。