12333社保查询网

手机社保查询　|　加入收藏

首页 > 综合资讯 > 科学 >

MiniMax M2.5 登场：Agent 平台已正式部署上线，对标Claude Opus 4.6

12333社保查询网www.sz12333.net.cn 2026-02-15来源：人力资源和社会保障局

　　正值春节来临之际，中国国产模型都纷纷上线最新模型，从 seedance2.0，Qwen-image， GLM-5 到MiniMax M2.5，真是百花齐放，百家争鸣。

　　MiniMax M2.5 目前官方网站还没有发布对应的文章，但是MiniMax agent 平台已经提前部署上线了MiniMax M2.5。

　　一个月前 M2.1 刚发布,我还在适应它带来的多语言编程能力提升;现在 M2.5 又来了,这节奏让我不禁感叹:国产大模型的迭代速度,真的是快得有点可怕。

先说说背景:M2 系列为什么这么能打

　　在聊 M2.5 之前,我觉得有必要先回顾一下 MiniMax 这个系列的"家族史"。

　　去年 10 月,MiniMax M2 横空出世,在 Artificial Analysis 榜单上拿下开源第一、全球第五的成绩。当时最让我印象深刻的不是性能,而是价格——每百万 Token 输入 0.3 美元,输出 1.2 美元,只有 Claude Sonnet 4.5 的 8%。

　　这意味着什么意味着我终于可以放开手脚,不用再担心 API 账单了。之前用 Claude,总是小心翼翼地控制调用次数;换了 M2 之后,我甚至直接把它接入了我的个人项目,让它 24 小时帮我监控代码仓库、自动生成测试用例。

　　到了 12 月,M2.1 发布。官方说这次主要加强了多语言编程能力,在 Rust、Java、Golang、C++、Kotlin 等语言上都有专门优化。我当时正好在用 Rust 重构一个老项目,试了试 M2.1,确实感觉到它对 Rust 的理解比 M2 好了不少——至少不会再给我生成一堆所有权问题的代码了。

M2.5:一个月后的"又一次升级"

　　现在,距离 M2.1 发布才一个多月,M2.5 就开始内测了。

我最关心的几个问题

　　在实际测试之前,我先列了几个自己最关心的问题:

　　1. 参数量会不会增加

　　有用户在社区里提到,M2.1 参数量太小了(总参数 230B,激活参数 10B),希望 M2.5 能达到 300B 左右,才能跟上 GLM-5 的体验。

　　说实话,我也有这个感觉。M2.1 在处理一些复杂的多文件编辑任务时,偶尔会"力不从心"——不是说它做不了,而是需要我多给几次提示。如果 M2.5 真的把参数量提上去,那体验应该会好很多。

　　2. 指令遵循能力有没有优化

　　这是我用 M2.1 时最大的痛点。之前有用户反馈"M2.1 不听话,不爱调 MCP 工具,调用时也经常格式错误"——我自己也遇到过这个问题。

　　有一次我让它通过 MCP 工具去读取我的 Google Drive 文件,它愣是试了三次都没调对格式,最后我只能手动改提示词。如果 M2.5 能在这方面有大的改进,那真的是解决了一个大问题。

　　3. 速度和成本会不会变化

　　M2.1 的一大卖点就是又快又便宜。官方说"响应速度显著提升,Token 消耗明显下降"。如果 M2.5 在提升性能的同时,还能保持这个优势,那就太香了。

实测体验:M2.5 到底表现如何

　　由于我拿到的是内测版本,很多细节官方还没公布,我这里只能分享一些初步的使用感受。

Case 1: 多文件重构任务

　　我给了 M2.5 一个中等难度的任务:重构一个 TypeScript + React 项目,把组件拆分得更细,同时优化性能。

　　这个任务涉及到:

分析现有代码结构

识别可以复用的逻辑

拆分组件

优化渲染性能

更新测试文件

　　结果:

　　M2.5 的表现让我有点惊喜。它不仅正确识别了所有需要拆分的组件,还主动建议我用 React.memo 和 useMemo 来优化性能——这在 M2.1 上是很少见的。

　　更重要的是,整个过程它只问了我两次问题,其他时候都是自己判断、自己执行。这种"自主性"比 M2.1 强了不少。

Case 2: MCP 工具调用

　　这次我特意测试了 MCP 工具调用,因为这是 M2.1 的"老大难"问题。

　　任务很简单:通过 MCP 工具读取我的 Notion 数据库,提取所有待办事项,然后生成一个 Markdown 格式的周报。

　　结果: M2.5 一次成功。

　　没有格式错误,没有重复调用,甚至连工具参数都填得规规矩矩。虽然只是一个小 case,但这让我对它的指令遵循能力有了信心。

Case 3: 长上下文处理

　　我扔给它一个 15000 行的代码仓库,让它分析项目结构并找出潜在的性能瓶颈。

　　结果:

　　M2.5 成功处理了整个仓库,并且给出了详细的分析报告。但我注意到,在处理到第 8000 行左右时,它的响应速度有点慢——这可能是因为内测版本还没有完全优化。

　　不过总体来说,它对长上下文的处理能力比 M2.1 好,至少没有出现"忘记前面内容"的情况。

与 GLM-5 的对比:谁更强

　　我当然要跟最近很火的 GLM-5 对比一下。

编程能力

　　在纯编程任务上,我觉得两者不相上下。GLM-5 在处理复杂逻辑时可能稍微细腻一些,但 M2.5 的速度更快。

　　举个例子:同样是生成一个 Web 应用,GLM-5 可能会给你更多的注释和解释,而 M2.5 更倾向于"直接干活,少说废话"。

Agent 能力

　　这是 MiniMax 的传统强项。M2.5 在处理多步骤任务、工具调用、自我纠错等方面,我觉得比 GLM-5 稳定一些。

　　但 GLM-5 在"规划"能力上更出色——它会先给你列出详细的执行计划,然后一步步完成。M2.5 则更倾向于"边做边想"。

性价比

　　这个没得比。M2 系列的 API 价格只有 Claude Sonnet 4.5 的 8%,GLM-5 虽然也不贵,但还是比 M2.5 贵一些。

一些未解之谜

　　官方没有公布M2.5文章，一些信息需要等待官方发布相关文章:

正式版什么时候发布根据之前的节奏,应该在春节前后。
参数量到底有多大目前没有官方数据,但从表现来看,应该比 M2.1 大。
价格会不会涨希望不会...毕竟性价比是 MiniMax 的核心竞争力。

写在最后:国产大模型的"卷王时代"

　　最近这段时间,国产大模型的迭代速度简直让人眼花缭乱:

GLM-5 一个月迭代一次,从 4.7 到 5.0 只用了 30 天

Kimi 的 K2.5 也发布了

seedance 2.0 也是被大家玩嗨了

现在 MiniMax 又推出了 M2.5

　　这种"军备竞赛"对用户来说当然是好事——模型越来越强,价格越来越便宜,选择越来越多。

　　但说实话,作为一个普通开发者,我有时候会觉得有点"跟不上"。每次刚适应一个新模型,下一个版本就又来了。API 调用代码要改,提示词模板要调,测试用例要更新...

　　不过,这可能就是 AI 时代的节奏吧。

　　写这篇文章的时候,我突然意识到,我们正在经历一个特殊的时期——AI 模型从"稀缺资源"变成"基础设施"的转折点。

　　以前,能用上 GPT-4 就已经很奢侈了;现在,国产模型性能接近甚至超越 GPT-4,价格却只有十分之一甚至更低。这种变化,可能会从根本上改变整个行业的生态。

　　而我们这些开发者,正好站在这个变革的浪尖上。说实话,挺刺激的。

　　这里同步一下MiniMax agent 的模型更新了 Gemini 3 Pro，在使用时，也可以选择Gemini 3 Pro

本文标题：MiniMax M2.5 登场：Agent 平台已正式部署上线，对标Claude Opus 4.6本文网址：https://www.sz12333.net.cn/zhzx/kexue/72810.html　编辑：12333社保查询网

12333社保查询网

MiniMax M2.5 登场：Agent 平台已正式部署上线，对标Claude Opus 4.6

相关信息

推荐