过去的一年,是 Vibe Coding 和 Agent 的一年。短短一年,我们经历了从 Claude Code 到 OpenClaw 和 Claude Cowork 的转变。
现在,大家聊的是 Agent,是个人助理,是数字员工。Agent 正在从极客的玩具,加速成为白领的生产力工具。
这时,我们需要的是真正能干活的模型。
前段时间,OpenClaw 的作者说「MiniMax M2.1 是最优秀的开源模型」,并在 OpenClaw 里增加了对 M2.1 的官方支持。没想到 MiniMax 这么卷,居然赶在春节前,把 M2.5 端出来了,也不知道跟谁学坏的。
这次的 M2.5 号称能够对标 Claude Opus 4.6,甚至在 Multi-SWE-Bench 上做到了第一,更重要的是,M2.5 真正把「时薪价格」打到了 $1/h,让 Agent 大规模落地具有了经济意义。
我测试完以后的初步感受是:「平替」这个词,可能低估了 M2.5。在某些维度上,它甚至是一种「反向平替」,用更务实的方案,解决了更具体的问题。
Vibe Coding 让每个人都能实现「个性化软件定制」的自由测评分数我这里就不贴了,直接上实战。是骡子是马,拉出来遛遛。其他各种测试大家看了很多了,我就不测那些很浮夸的项目了,来做一个浏览器插件。
Vibe Coding 出来以后,我感觉最大的变化是个人生产力的变化。大家也许对生产环境的代码质量有顾虑,但拿来搓一些自己用的脚本和插件,简直不要太爽。
以前遇到一些需求,还要到插件商城找插件,测试三五个好不容易遇到好用的,结果得付费。Vibe Coding 基本让我实现了插件自由,日常使用中的痛点都能以很低的成本定制工具。
比如,我平时喜欢逛 HackerNews,有时想要把 HN 的评论区复制下来,去做情感分析。这种工作用爬虫有点重,手动又有点蠢,就适合做个小插件。
我先用 CC-Swith 添加 MiniMax M2.5 的接口,把模型全部填成MiniMax-M2.5。然后新建一个项目,把某一个贴子的王远源码作为示例。
我也没有给太复杂的要求,Prompt 直接写「我需要做一个Chrome浏览器插件,功能是把HackerNews评论区的所有内容,一键复制为markdown格式。你需要分析 @example.html 的页面结构,并生成完整的项目文件。」
M2.5 大约花了两分半去实现功能:
然后直接到浏览器的扩展管理里面,选择「加载未打包的扩展程序」,选择项目文件夹即可:
在页面上的效果如图:
如果觉得这种弹出式的插件不方便,也可以继续让 AI 进行修改,比如在特定页面上固定一个「按钮」:
我以前用其他模型写浏览器插件,偶尔还会遇到忘记创建缩略图之类的小问题,这次真·一把做出来的,就能直接用了。实测,复制出来的内容是符合我预期的,而且能直接作为 markdown 后续喂给 AI。
MiniMax M2.5 从零开始做出这么一个插件,只用了不到三分钟。
而且这种插件是完全个性化定制的,不依赖于第三方开发者,假如我需要调整格式、内容,直接给 AI 说就好了。
这种插件自由的感觉,真的,推荐大家想想自己手边有什么日常重复的动作,都可以插件化。
当然,还有一种做法是使用油猴脚本。AI 在这方面的表现也不错,留给大家自行探索。
当 AI Agent 进化为「数字员工」如果说写代码是专才,那处理日常办公任务就是通才。AI 想要真正提升白领生产力,就必须能无缝融入现有的各种工作应用中。
大家也许听说了,Claude Cowork 带崩了美股的 SaaS 软件股,因为资本看到了智能体真正进入千行百业日常工作的可能性。
Github 上已经有很多开源版的 Cowork,我选择了 Star 最多、更新最频繁的different-ai/openwork来测试 M2.5 的表现。
安装过程我就省略了,大家参照项目文档来,并不复杂。唯一需要注意的是这个项目基于OpenCode,需要先下载并配置好OpenCode才能使用 GUI 版的OpenWork。
目前OpenCode上可以免费使用 MiniMax M2.5 模型,直接/model切换模型即可。
也可以运行opencode auth login,设置自己的 MiniMaxi API Key。
简单重复劳动
OK,我们先来测试一个比较简单的报销场景。
经常出差的朋友一定见过这种堆了一堆分不清文件名的 PDF 发票的文件夹。
特别是很多个同事一起出去,集中报销,收到一大堆没有修改名字的文件,真的头大。这种工作毫无技术含量,又相当浪费时间。
现在,我们可以直接告诉 M2.5:「把文件夹下面的车票和住宿发票,整理为一个差旅费的说明。」
它会把明细写成一个文档,然后给出报销汇总:
结果我核对了一下,是没有问题的。
顺便,我还让 M2.5 帮我把 PDF 文件重新整理了一下:「把 PDF 文件整理并重新命名,车票命名为“人名-车次-票价.pdf”,酒店发票命名为“酒店-日期(YYMMDD)-金额.pdf”」。
M2.5 依然是一次就搞定了,这说明这种简单的文件和信息整理,已经难不倒它了。而且你仔细想想,把类似的情况推而广之,是不是很多琐碎的工作已经能省心外包了。
复杂深度研究
刚才的例子,如果仔细看运行过程会发现,因为我们没有提供阅读 PDF 的工具或 Skill,所以 Agent 会自己尝试安装一些工具来完成任务。
这类 CLI Agent 强就强在它会使用 bash 命令和 Python 脚本自主解决问题。但如果每次都让 AI 去自己尝试,效率太低,所以才会出现 Skill,便于复用常用能力。
比如,我试了一下,让 Agent 调研并制作 PPT:
我本来是没报太大希望的,没想到确实一遍就能运行下来。
虽然效果还比较简陋,但流程已经完全走通了,考虑到我并没有额外配置 MCP 和 Skill,就是开箱即用地在做测试,这说明 M2.5 的 Agent 能力是完全胜任的,可以调用多个工具、渐进式加载 Skill 完成任务。
后面可以继续打磨工作流,给 Agent 接入更好用的搜索 API,优化制作 Skill 里的指令和能力。
不只是平替,更是务实的胜利初步测试下来,我感觉 M2.5 在编程和办公 Agent 场景下,绝对是可用的。而且在我看来,M2.5 的真正价值在于,它在性能紧追第一梯队的同时,走出了一条差异化的「务实路线」。
技术的务实:小模型,大能量
M2.5 没有参加万亿参数的军备竞赛,应该延续了 M2 和 M2.1 的尺寸。这说明,MiniMax 团队有能力更精巧的模型结构和更高效的训练方法,实现数倍于自己参数的巨无霸模型相当的效果。
这带来了什么好处?压倒性的私有化部署优势。
对于对数据安全有严格要求的企业,比如金融、法律、政企等领域,公有云 API 是不可接受的。M2.5 这样的「小尺寸」旗舰模型,意味着更低的部署门槛、更小的显存占用、更高的推理效率。
龙虾 Bot 的作者用的就是一台 512GB 的 Mac Studio 单机运行了 MiniMax,用不到 10 万的价格,私有化部署这样的准旗舰模型,这放在前两年是想都不敢想的。
Opus 4.6 虽好,但普通用户用得起吗?能部署在内网吗?
体验的务实:速度和成本,就是生产力
第二点务实在于速度和成本。
进入推理模型和 Agent 时代,模型的思维链越来越长,运行的任务越来越复杂,速度是影响用户体验的最大因素,成本是影响 Agent 落地的最大制约。
比如 OpenAI 和芯片创业公司 Cerebras 合作,专门搞了个 GPT-5.3-Codex-Spark,也是为了把模型的推理速度拉满。
但国外这几家闭源模型依然没有解决成本问题,Claude Opus 4.6 甚至推出了一个 fast mode,价格直接提高到 6 倍!来到 $30/1M 输入和 $150/1M 输出,这谁用的起?
相反,M2.5 的官方定价只有 $0.3/1M 输入和 $1.2/1M 输出,相当于 Opus 快速模型的百分之一。
换句话说,使用 M2.5 来做 Agent,连续工作 1 个小时才花 $1,真正让 Agent 大规模落地有了可能。
架构的务实:为 Agent 而生的原生优势
M2.5 在处理复杂任务时,表现得非常稳定、有规划性。这得益于其「智能体原生架构」。它不是一个聊天模型外挂了一堆工具,而是在设计之初就通过大规模的强化学习,深度优化了对复杂任务的拆解能力、工具调用能力和长链路执行能力。
官方在技术博客中提到的 CISPO 算法、过程奖励机制等,都是为了解决 Agent 在长上下文中信用分配的难题。简单来说,就是让模型不仅知道最终结果对不对,还知道过程中哪一步做得好、哪一步做得差,从而学会以更精简的路径解决问题。
所以,M2.5 的推理逻辑和工具使用是深度耦合的,它的规划能力是在海量真实任务中“演化”出来的。随着 AI 的发展重心从“对话”转向“自动化”,这种原生 Agent 架构将构筑起越来越深的护城河。
写在最后总结一下,在我来看,MiniMax 最大的意义,不是直接和巨头去拼军备竞赛,而是选择了在「能效比」和「场景化」上进行突破。
它给出的答案是:一个足够聪明、足够快、足够便宜,并且能部署到企业内部的生产力工具。
与其在所有指标上盲目追赶国外闭源模型,不如找到自己的生态位,解决真实世界中最迫切的问题。
大模型的下半场,比的可能不是谁的模型更大,而是谁的解决方案更「好用」。
虽然我这篇文章中,用到的都是编程场景,但 MiniMax 在网页版为大家提供了可以免费使用的 Agent。
现在或许是时候亲自上手,感受一下这种「务实」的力量了,毕竟,能真正帮你干活、省钱的,才是好模型。
本站是社保查询公益性网站链接,数据来自各地人力资源和社会保障局,具体内容以官网为准。
定期更新查询链接数据 苏ICP备17010502号-11