12333社保查询网

MiniMax M2.5：卷疯了的国产大模型，这次能反向平替Claude了？

12333社保查询网www.sz12333.net.cn 2026-02-15来源：人力资源和社会保障局

　　过去的一年，是 Vibe Coding 和 Agent 的一年。短短一年，我们经历了从 Claude Code 到 OpenClaw 和 Claude Cowork 的转变。

　　现在，大家聊的是 Agent，是个人助理，是数字员工。Agent 正在从极客的玩具，加速成为白领的生产力工具。

　　这时，我们需要的是真正能干活的模型。

　　前段时间，OpenClaw 的作者说「MiniMax M2.1 是最优秀的开源模型」，并在 OpenClaw 里增加了对 M2.1 的官方支持。没想到 MiniMax 这么卷，居然赶在春节前，把 M2.5 端出来了，也不知道跟谁学坏的。

　　这次的 M2.5 号称能够对标 Claude Opus 4.6，甚至在 Multi-SWE-Bench 上做到了第一，更重要的是，M2.5 真正把「时薪价格」打到了 $1/h，让 Agent 大规模落地具有了经济意义。

　　我测试完以后的初步感受是：「平替」这个词，可能低估了 M2.5。在某些维度上，它甚至是一种「反向平替」，用更务实的方案，解决了更具体的问题。

Vibe Coding 让每个人都能实现「个性化软件定制」的自由

　　测评分数我这里就不贴了，直接上实战。是骡子是马，拉出来遛遛。其他各种测试大家看了很多了，我就不测那些很浮夸的项目了，来做一个浏览器插件。

　　Vibe Coding 出来以后，我感觉最大的变化是个人生产力的变化。大家也许对生产环境的代码质量有顾虑，但拿来搓一些自己用的脚本和插件，简直不要太爽。

　　以前遇到一些需求，还要到插件商城找插件，测试三五个好不容易遇到好用的，结果得付费。Vibe Coding 基本让我实现了插件自由，日常使用中的痛点都能以很低的成本定制工具。

　　比如，我平时喜欢逛 HackerNews，有时想要把 HN 的评论区复制下来，去做情感分析。这种工作用爬虫有点重，手动又有点蠢，就适合做个小插件。

　　我先用 CC-Swith 添加 MiniMax M2.5 的接口，把模型全部填成MiniMax-M2.5。然后新建一个项目，把某一个贴子的王远源码作为示例。

　　我也没有给太复杂的要求，Prompt 直接写「我需要做一个Chrome浏览器插件，功能是把HackerNews评论区的所有内容，一键复制为markdown格式。你需要分析 @example.html 的页面结构，并生成完整的项目文件。」

　　M2.5 大约花了两分半去实现功能：

　　然后直接到浏览器的扩展管理里面，选择「加载未打包的扩展程序」，选择项目文件夹即可：

　　在页面上的效果如图：

　　如果觉得这种弹出式的插件不方便，也可以继续让 AI 进行修改，比如在特定页面上固定一个「按钮」：

　　我以前用其他模型写浏览器插件，偶尔还会遇到忘记创建缩略图之类的小问题，这次真·一把做出来的，就能直接用了。实测，复制出来的内容是符合我预期的，而且能直接作为 markdown 后续喂给 AI。

　　MiniMax M2.5 从零开始做出这么一个插件，只用了不到三分钟。

　　而且这种插件是完全个性化定制的，不依赖于第三方开发者，假如我需要调整格式、内容，直接给 AI 说就好了。

　　这种插件自由的感觉，真的，推荐大家想想自己手边有什么日常重复的动作，都可以插件化。

　　当然，还有一种做法是使用油猴脚本。AI 在这方面的表现也不错，留给大家自行探索。

当 AI Agent 进化为「数字员工」

　　如果说写代码是专才，那处理日常办公任务就是通才。AI 想要真正提升白领生产力，就必须能无缝融入现有的各种工作应用中。

　　大家也许听说了，Claude Cowork 带崩了美股的 SaaS 软件股，因为资本看到了智能体真正进入千行百业日常工作的可能性。

　　Github 上已经有很多开源版的 Cowork，我选择了 Star 最多、更新最频繁的different-ai/openwork来测试 M2.5 的表现。

　　安装过程我就省略了，大家参照项目文档来，并不复杂。唯一需要注意的是这个项目基于OpenCode，需要先下载并配置好OpenCode才能使用 GUI 版的OpenWork。

　　目前OpenCode上可以免费使用 MiniMax M2.5 模型，直接/model切换模型即可。

　　也可以运行opencode auth login，设置自己的 MiniMaxi API Key。

　　简单重复劳动

　　OK，我们先来测试一个比较简单的报销场景。

　　经常出差的朋友一定见过这种堆了一堆分不清文件名的 PDF 发票的文件夹。

　　特别是很多个同事一起出去，集中报销，收到一大堆没有修改名字的文件，真的头大。这种工作毫无技术含量，又相当浪费时间。

　　现在，我们可以直接告诉 M2.5：「把文件夹下面的车票和住宿发票，整理为一个差旅费的说明。」

　　它会把明细写成一个文档，然后给出报销汇总：

　　结果我核对了一下，是没有问题的。

　　顺便，我还让 M2.5 帮我把 PDF 文件重新整理了一下：「把 PDF 文件整理并重新命名，车票命名为“人名-车次-票价.pdf”，酒店发票命名为“酒店-日期(YYMMDD)-金额.pdf”」。

　　M2.5 依然是一次就搞定了，这说明这种简单的文件和信息整理，已经难不倒它了。而且你仔细想想，把类似的情况推而广之，是不是很多琐碎的工作已经能省心外包了。

　　复杂深度研究

　　刚才的例子，如果仔细看运行过程会发现，因为我们没有提供阅读 PDF 的工具或 Skill，所以 Agent 会自己尝试安装一些工具来完成任务。

　　这类 CLI Agent 强就强在它会使用 bash 命令和 Python 脚本自主解决问题。但如果每次都让 AI 去自己尝试，效率太低，所以才会出现 Skill，便于复用常用能力。

　　比如，我试了一下，让 Agent 调研并制作 PPT：

　　我本来是没报太大希望的，没想到确实一遍就能运行下来。

　　虽然效果还比较简陋，但流程已经完全走通了，考虑到我并没有额外配置 MCP 和 Skill，就是开箱即用地在做测试，这说明 M2.5 的 Agent 能力是完全胜任的，可以调用多个工具、渐进式加载 Skill 完成任务。

　　后面可以继续打磨工作流，给 Agent 接入更好用的搜索 API，优化制作 Skill 里的指令和能力。

不只是平替，更是务实的胜利

　　初步测试下来，我感觉 M2.5 在编程和办公 Agent 场景下，绝对是可用的。而且在我看来，M2.5 的真正价值在于，它在性能紧追第一梯队的同时，走出了一条差异化的「务实路线」。

　　技术的务实：小模型，大能量

　　M2.5 没有参加万亿参数的军备竞赛，应该延续了 M2 和 M2.1 的尺寸。这说明，MiniMax 团队有能力更精巧的模型结构和更高效的训练方法，实现数倍于自己参数的巨无霸模型相当的效果。

　　这带来了什么好处？压倒性的私有化部署优势。

　　对于对数据安全有严格要求的企业，比如金融、法律、政企等领域，公有云 API 是不可接受的。M2.5 这样的「小尺寸」旗舰模型，意味着更低的部署门槛、更小的显存占用、更高的推理效率。

　　龙虾 Bot 的作者用的就是一台 512GB 的 Mac Studio 单机运行了 MiniMax，用不到 10 万的价格，私有化部署这样的准旗舰模型，这放在前两年是想都不敢想的。

　　Opus 4.6 虽好，但普通用户用得起吗？能部署在内网吗？

　　体验的务实：速度和成本，就是生产力

　　第二点务实在于速度和成本。

　　进入推理模型和 Agent 时代，模型的思维链越来越长，运行的任务越来越复杂，速度是影响用户体验的最大因素，成本是影响 Agent 落地的最大制约。

　　比如 OpenAI 和芯片创业公司 Cerebras 合作，专门搞了个 GPT-5.3-Codex-Spark，也是为了把模型的推理速度拉满。

　　但国外这几家闭源模型依然没有解决成本问题，Claude Opus 4.6 甚至推出了一个 fast mode，价格直接提高到 6 倍！来到 $30/1M 输入和 $150/1M 输出，这谁用的起？

　　相反，M2.5 的官方定价只有 $0.3/1M 输入和 $1.2/1M 输出，相当于 Opus 快速模型的百分之一。

　　换句话说，使用 M2.5 来做 Agent，连续工作 1 个小时才花 $1，真正让 Agent 大规模落地有了可能。

　　架构的务实：为 Agent 而生的原生优势

　　M2.5 在处理复杂任务时，表现得非常稳定、有规划性。这得益于其「智能体原生架构」。它不是一个聊天模型外挂了一堆工具，而是在设计之初就通过大规模的强化学习，深度优化了对复杂任务的拆解能力、工具调用能力和长链路执行能力。

　　官方在技术博客中提到的 CISPO 算法、过程奖励机制等，都是为了解决 Agent 在长上下文中信用分配的难题。简单来说，就是让模型不仅知道最终结果对不对，还知道过程中哪一步做得好、哪一步做得差，从而学会以更精简的路径解决问题。

　　所以，M2.5 的推理逻辑和工具使用是深度耦合的，它的规划能力是在海量真实任务中“演化”出来的。随着 AI 的发展重心从“对话”转向“自动化”，这种原生 Agent 架构将构筑起越来越深的护城河。

写在最后

　　总结一下，在我来看，MiniMax 最大的意义，不是直接和巨头去拼军备竞赛，而是选择了在「能效比」和「场景化」上进行突破。

　　它给出的答案是：一个足够聪明、足够快、足够便宜，并且能部署到企业内部的生产力工具。

　　与其在所有指标上盲目追赶国外闭源模型，不如找到自己的生态位，解决真实世界中最迫切的问题。

　　大模型的下半场，比的可能不是谁的模型更大，而是谁的解决方案更「好用」。

　　虽然我这篇文章中，用到的都是编程场景，但 MiniMax 在网页版为大家提供了可以免费使用的 Agent。

　　现在或许是时候亲自上手，感受一下这种「务实」的力量了，毕竟，能真正帮你干活、省钱的，才是好模型。

本文标题：MiniMax M2.5：卷疯了的国产大模型，这次能反向平替Claude了？本文网址：https://www.sz12333.net.cn/zhzx/kexue/69838.html　编辑：12333社保查询网

12333社保查询网

MiniMax M2.5：卷疯了的国产大模型，这次能反向平替Claude了？

相关信息

推荐