MiniMax M2.5：驅動 MaxClaw 的 AI 模型

發佈於 2026 年 2 月 26 日

MaxClaw 基於 MiniMax M2.5 構建——這是一個擁有 2290 億參數的 Mixture-of-Experts 語言模型，專為智能體任務、代碼生成和複雜推理而設計。M2.5 與 MaxClaw 於 2026 年 2 月 26 日同步發佈，以 Claude 3.5 Sonnet 1/7 至 1/20 的成本提供與其相當的編程能力，推理速度高達每秒 100 個 token，上下文窗口從 20 萬擴展到 100 萬 token。本頁面涵蓋 MaxClaw 背後模型的技術架構、實際影響和競爭定位。

技術規格

MiniMax M2.5 概覽

M2.5 是一個 Mixture-of-Experts (MoE) 模型，每個 token 僅激活其總參數的一小部分，以極低的計算成本實現高智能。以下是關鍵規格。

規格	MiniMax M2.5
架構	Mixture of Experts (MoE)
總參數量	2290 億
每 token 激活參數量	約 100 億
上下文窗口	20 萬 – 100 萬 Token
推理速度	最高 100 Token/秒
相比 Claude 3.5 Sonnet 的成本	1/7 至 1/20
核心優勢	代碼生成、多步工具調用、邏輯推理
編程性能	與 Claude 3.5 Sonnet 相當

核心創新

Lightning Attention：長上下文的線性擴展

傳統 Transformer 模型的注意力機制存在二次複雜度問題——上下文長度翻倍，計算成本翻四倍。Lightning Attention 是 MiniMax 的解決方案：一種與序列長度成線性比例擴展的注意力機制，使標準 SoftMax 注意力下成本過高的上下文窗口成為可能。

Lightning Attention 的工作原理

Lightning Attention 用線性近似替代了標準的二次成本注意力計算，同時保留了模型在完整上下文窗口內關注相關信息的能力。關鍵洞察在於，實際中大多數注意力模式是稀疏的——token 僅強烈關注其他 token 的一小部分——Lightning Attention 利用這種稀疏性來減少計算圖。

混合設計

M2.5 採用混合架構，每 1 層 SoftMax 注意力層對應 7 層 Lightning Attention 層。這一比例在獲得 Lightning Attention 線性擴展優勢的同時，在最關鍵的地方保留了傳統 Transformer 注意力的高質量推理特性。

SoftMax 層充當週期性的"全注意力檢查點"以維持全局一致性，而 Lightning 層以線性成本處理大部分計算。

支持超長上下文

這種混合方法使 MiniMax-01 系列能夠支持高達 400 萬 token 的上下文窗口——遠超任何純 SoftMax Transformer 在合理成本下所能處理的範圍。

具體到 M2.5，Lightning Attention 使 20 萬至 100 萬 token 的上下文窗口在推理速度上仍然適合實時智能體交互。

為何這對智能體任務至關重要

AI 智能體需要在長時間、多步驟的交互中維持上下文——跟蹤對話歷史、工具輸出、中間推理和用户偏好。Lightning Attention 使這一切成為可能，而不會出現通常伴隨此類長上下文需求的指數級成本增長。對於 MaxClaw 而言，這意味着即使會話變得很長，持久記憶和文檔分析功能仍然保持響應。

架構深度解析

Mixture of Experts：2290 億參數，約 100 億激活

Mixture-of-Experts 架構是定義 M2.5 的第二大核心創新。M2.5 不會為每個 token 激活全部 2290 億參數（如密集模型那樣），而是使用學習路由機制，僅激活最相關的子集——大約 100 億參數——來處理每個 token。

MoE 如何實現高效性

在 MoE 架構中，模型包含許多專門的"專家"子網絡。門控機制評估每個傳入的 token，並將其路由到最適合處理它的專家。結果是，模型擁有 2290 億參數模型的總知識容量，但每次推理步驟的計算成本僅相當於約 100 億參數模型。

稀疏激活的經濟學

這種稀疏激活模式使 M2.5 的成本優勢成為可能。密集的 2290 億模型每個 token 所需的計算量大約是 M2.5 實際使用量的 23 倍。這些節省貫穿整個技術棧：

更低的每次推理 GPU 成本——激活的參數更少意味着每個 token 的浮點運算更少
更高的吞吐量——相同的硬件可以處理更多併發請求
更快的響應時間——每秒最高 100 個 token，對交互式智能體使用至關重要
終端用户成本——在同等編程任務上，成本為 Claude 3.5 Sonnet 的 1/7 至 1/20

無需高昂計算費用即可獲得智能

MoE 的基本權衡是眾所周知的：稀疏模型需要更多的總參數才能匹配密集模型的質量，但每個 token 的計算成本大幅降低。M2.5 證明，一個精心設計的 2290 億 MoE 模型可以實現與 Claude 3.5 Sonnet——一種更密集的架構——相當的編程性能，同時運行成本只是其一小部分。這是使 MaxClaw 定價模式在高頻自動化場景中可行的核心經濟洞察。

實際影響

M2.5 如何驅動 MaxClaw

MaxClaw 於 2026 年 2 月 25 日發佈，是 MiniMax 構建的雲端 AI 智能體。M2.5 不僅是底層模型——它專門針對 MaxClaw 處理的智能體工作負載進行了優化。以下是 M2.5 的每項能力如何對應到 MaxClaw 功能。

多步工具調用

M2.5 針對需要按順序鏈接多個工具調用的智能體任務進行了優化——讀取數據、處理數據、調用 API 並綜合結果。這是 MaxClaw 在各消息平台上執行的核心工作流循環。

代碼執行

憑藉與 Claude 3.5 Sonnet 相當的編程能力，M2.5 使 MaxClaw 能夠在其任務執行管道中生成和執行代碼。這為智能體工作流中的數據分析、自動化腳本和複雜計算提供了支持。

經濟可行的自動化

以同類模型 1/7 至 1/20 的成本，M2.5 使高頻智能體自動化在經濟上可行。MaxClaw 用户可以在多個渠道上全天候運行智能體，而不會導致每 token 成本飆升至不可持續的水平。

快速推理，響應式交互

每秒 100 個 token 的推理速度意味着 MaxClaw 智能體能夠實時響應。在用户期望近乎即時回覆的消息場景中，這種速度不是奢侈——而是自然交互體驗的必要條件。

長上下文支持持久記憶

20 萬至 100 萬 token 的上下文窗口使 MaxClaw 能夠在擴展會話中保持持久記憶。智能體可以引用長對話的早期部分、分析上傳的文檔，並積累關於用户偏好和工作流的上下文而不會丟失線索。結合 Lightning Attention 的線性擴展特性，即使會話增長到數萬次交互，這種長上下文能力仍然具有成本效益。

複雜推理

M2.5 的邏輯推理能力使 MaxClaw 智能體能夠處理需要多步推導、條件邏輯和結構化問題求解的任務。這超越了簡單的問答，進入了真正的任務完成領域——規劃行動序列、評估結果，並根據中間結果調整策略。

競爭格局

M2.5 與其他前沿模型的對比

瞭解 M2.5 相對於其他領先模型的定位有助於明確其優勢和權衡。以下對比基於模型已公佈的能力和定價。

維度	MiniMax M2.5	Claude 3.5 Sonnet	Kimi K2.5
架構	229B MoE（約 10B 激活）	密集架構（規模未公開）	1T MoE
上下文窗口	20 萬 – 100 萬 token	20 萬 token	12.8 萬 token
編程能力	與 Claude 3.5 相當	前沿水平	優秀
成本（相對）	1x（基準）	7x – 20x	更高（1T 參數）
推理速度	最高 100 tok/s	中等	中等
智能體優化	首要關注	通用目的	通用目的

對比 Claude 3.5 Sonnet

M2.5 在編程性能上達到與 Claude 3.5 Sonnet 相當的水平，而每個 token 的成本僅為其 1/7 至 1/20。權衡在於 Claude 3.5 是一個更通用的模型，在創意、分析和對話任務方面覆蓋更廣，而 M2.5 專門針對智能體和編程工作負載進行了優化。對於 MaxClaw 的用例——自主智能體執行——這種專業化是一種優勢，而非侷限。

對比 GPT-4o

MiniMax-01 系列在長上下文能力方面超越了 GPT-4o，上下文窗口最高可達 400 萬 token，而 GPT-4o 為 12.8 萬。M2.5 繼承了這一血統，擁有 20 萬至 100 萬 token 的窗口，輕鬆超越 GPT-4o 的上下文容量，使其更適合需要大量文檔分析或長期對話記憶的任務。

對比 Kimi K2.5

Kimi K2.5 是一個 1 萬億參數的 MoE 模型——遠大於 M2.5 的 2290 億參數。然而，更大並不總是更好：額外的參數意味着更高的推理成本和更復雜的基礎設施需求。M2.5 更精簡的架構轉化為更低的每 token 成本和更快的推理速度，這在 MaxClaw 運行的高頻智能體工作負載中是至關重要的優勢。M2.5 於 2026 年 2 月 26 日與 MaxClaw 同步發佈，體現了 MiniMax 同步優化模型和智能體部署的戰略。

模型譜系

MiniMax 模型家族

M2.5 是 MiniMax 系列模型中的最新成員，這些模型共享共同的架構理念：混合注意力機制與 Mixture-of-Experts 相結合，實現高效的長上下文智能。

MiniMax-01

該系列的基礎模型。MiniMax-01 引入了混合 Lightning Attention + SoftMax 注意力架構，並展示了高達 400 萬 token 的上下文窗口——這是行業的里程碑。

MiniMax-01 證明了線性注意力可以與傳統注意力相結合，同時實現規模和質量，為 M1 和 M2.5 奠定了基礎。

MiniMax M1

M2.5 的直接前身。M1 完善了混合注意力架構，並作為優化 MoE 路由效率和推理速度的主要研究平台。

M1 驗證了 M2.5 將繼承的架構決策，建立了 M2.5 旨在超越的性能基線。

當前版本 · 驅動 MaxClaw

MiniMax M2.5

該家族中最新、最強大的模型。M2.5 專門針對智能體和編程任務進行了優化，總參數 2290 億，每 token 激活約 100 億，推理速度高達 100 tok/s。

M2.5 於 2026 年 2 月 26 日與 MaxClaw 同步發佈，體現了 MiniMax 協同設計模型和智能體以實現最佳實際性能的戰略。