MiniMax M2.5 登场:Agent 平台已正式部署上线,对标Claude Opus 4.6

12333社保查询网www.sz12333.net.cn 2026-02-15来源:人力资源和社会保障局

  正值春节来临之际,中国国产模型都纷纷上线最新模型,从 seedance2.0,Qwen-image, GLM-5 到MiniMax M2.5,真是百花齐放,百家争鸣。

  MiniMax M2.5 目前官方网站还没有发布对应的文章,但是MiniMax agent 平台已经提前部署上线了MiniMax M2.5。

  一个月前 M2.1 刚发布,我还在适应它带来的多语言编程能力提升;现在 M2.5 又来了,这节奏让我不禁感叹:国产大模型的迭代速度,真的是快得有点可怕。

先说说背景:M2 系列为什么这么能打

  在聊 M2.5 之前,我觉得有必要先回顾一下 MiniMax 这个系列的"家族史"。

  去年 10 月,MiniMax M2 横空出世,在 Artificial Analysis 榜单上拿下开源第一、全球第五的成绩。当时最让我印象深刻的不是性能,而是价格——每百万 Token 输入 0.3 美元,输出 1.2 美元,只有 Claude Sonnet 4.5 的 8%。

  这意味着什么意味着我终于可以放开手脚,不用再担心 API 账单了。之前用 Claude,总是小心翼翼地控制调用次数;换了 M2 之后,我甚至直接把它接入了我的个人项目,让它 24 小时帮我监控代码仓库、自动生成测试用例。

  到了 12 月,M2.1 发布。官方说这次主要加强了多语言编程能力,在 Rust、Java、Golang、C++、Kotlin 等语言上都有专门优化。我当时正好在用 Rust 重构一个老项目,试了试 M2.1,确实感觉到它对 Rust 的理解比 M2 好了不少——至少不会再给我生成一堆所有权问题的代码了。

M2.5:一个月后的"又一次升级"

  现在,距离 M2.1 发布才一个多月,M2.5 就开始内测了。

我最关心的几个问题

  在实际测试之前,我先列了几个自己最关心的问题:

  1. 参数量会不会增加

  有用户在社区里提到,M2.1 参数量太小了(总参数 230B,激活参数 10B),希望 M2.5 能达到 300B 左右,才能跟上 GLM-5 的体验。

  说实话,我也有这个感觉。M2.1 在处理一些复杂的多文件编辑任务时,偶尔会"力不从心"——不是说它做不了,而是需要我多给几次提示。如果 M2.5 真的把参数量提上去,那体验应该会好很多。

  2. 指令遵循能力有没有优化

  这是我用 M2.1 时最大的痛点。之前有用户反馈"M2.1 不听话,不爱调 MCP 工具,调用时也经常格式错误"——我自己也遇到过这个问题。

  有一次我让它通过 MCP 工具去读取我的 Google Drive 文件,它愣是试了三次都没调对格式,最后我只能手动改提示词。如果 M2.5 能在这方面有大的改进,那真的是解决了一个大问题。

  3. 速度和成本会不会变化

  M2.1 的一大卖点就是又快又便宜。官方说"响应速度显著提升,Token 消耗明显下降"。如果 M2.5 在提升性能的同时,还能保持这个优势,那就太香了。

实测体验:M2.5 到底表现如何

  由于我拿到的是内测版本,很多细节官方还没公布,我这里只能分享一些初步的使用感受。

Case 1: 多文件重构任务

  我给了 M2.5 一个中等难度的任务:重构一个 TypeScript + React 项目,把组件拆分得更细,同时优化性能。

  这个任务涉及到:

  • 分析现有代码结构
  • 识别可以复用的逻辑
  • 拆分组件
  • 优化渲染性能
  • 更新测试文件

      结果:

      M2.5 的表现让我有点惊喜。它不仅正确识别了所有需要拆分的组件,还主动建议我用 React.memo 和 useMemo 来优化性能——这在 M2.1 上是很少见的。

      更重要的是,整个过程它只问了我两次问题,其他时候都是自己判断、自己执行。这种"自主性"比 M2.1 强了不少。

    Case 2: MCP 工具调用

      这次我特意测试了 MCP 工具调用,因为这是 M2.1 的"老大难"问题。

      任务很简单:通过 MCP 工具读取我的 Notion 数据库,提取所有待办事项,然后生成一个 Markdown 格式的周报。

      结果: M2.5 一次成功。

      没有格式错误,没有重复调用,甚至连工具参数都填得规规矩矩。虽然只是一个小 case,但这让我对它的指令遵循能力有了信心。

    Case 3: 长上下文处理

      我扔给它一个 15000 行的代码仓库,让它分析项目结构并找出潜在的性能瓶颈。

      结果:

      M2.5 成功处理了整个仓库,并且给出了详细的分析报告。但我注意到,在处理到第 8000 行左右时,它的响应速度有点慢——这可能是因为内测版本还没有完全优化。

      不过总体来说,它对长上下文的处理能力比 M2.1 好,至少没有出现"忘记前面内容"的情况。

    与 GLM-5 的对比:谁更强

      我当然要跟最近很火的 GLM-5 对比一下。

    编程能力

      在纯编程任务上,我觉得两者不相上下。GLM-5 在处理复杂逻辑时可能稍微细腻一些,但 M2.5 的速度更快。

      举个例子:同样是生成一个 Web 应用,GLM-5 可能会给你更多的注释和解释,而 M2.5 更倾向于"直接干活,少说废话"。

    Agent 能力

      这是 MiniMax 的传统强项。M2.5 在处理多步骤任务、工具调用、自我纠错等方面,我觉得比 GLM-5 稳定一些。

      但 GLM-5 在"规划"能力上更出色——它会先给你列出详细的执行计划,然后一步步完成。M2.5 则更倾向于"边做边想"。

    性价比

      这个没得比。M2 系列的 API 价格只有 Claude Sonnet 4.5 的 8%,GLM-5 虽然也不贵,但还是比 M2.5 贵一些。

    一些未解之谜

      官方没有公布M2.5文章,一些信息需要等待官方发布相关文章:

    1. 正式版什么时候发布 根据之前的节奏,应该在春节前后。
    2. 参数量到底有多大 目前没有官方数据,但从表现来看,应该比 M2.1 大。
    3. 价格会不会涨 希望不会...毕竟性价比是 MiniMax 的核心竞争力。
    写在最后:国产大模型的"卷王时代"

      最近这段时间,国产大模型的迭代速度简直让人眼花缭乱:

  • GLM-5 一个月迭代一次,从 4.7 到 5.0 只用了 30 天
  • Kimi 的 K2.5 也发布了
  • seedance 2.0 也是被大家玩嗨了
  • 现在 MiniMax 又推出了 M2.5

      这种"军备竞赛"对用户来说当然是好事——模型越来越强,价格越来越便宜,选择越来越多。

      但说实话,作为一个普通开发者,我有时候会觉得有点"跟不上"。每次刚适应一个新模型,下一个版本就又来了。API 调用代码要改,提示词模板要调,测试用例要更新...

      不过,这可能就是 AI 时代的节奏吧。

      写这篇文章的时候,我突然意识到,我们正在经历一个特殊的时期——AI 模型从"稀缺资源"变成"基础设施"的转折点。

      以前,能用上 GPT-4 就已经很奢侈了;现在,国产模型性能接近甚至超越 GPT-4,价格却只有十分之一甚至更低。这种变化,可能会从根本上改变整个行业的生态。

      而我们这些开发者,正好站在这个变革的浪尖上。说实话,挺刺激的。

      这里同步一下MiniMax agent 的模型更新了 Gemini 3 Pro,在使用时,也可以选择Gemini 3 Pro

    本文标题:MiniMax M2.5 登场:Agent 平台已正式部署上线,对标Claude Opus 4.6本文网址:https://www.sz12333.net.cn/zhzx/kexue/72810.html 编辑:12333社保查询网
  • 本站是社保查询公益性网站链接,数据来自各地人力资源和社会保障局,具体内容以官网为准。
    定期更新查询链接数据 苏ICP备17010502号-11