中国AI大模型周调用量14.19万亿连续六周碾压美国，DeepSeek/MiniMax M3/阶跃等国产开源模型全球霸榜背后的技术突破与生态逆袭深度分析

中国大模型调用量连续六周全球第一：国产开源的逆袭密码

阅读: 185 评论: 0 点赞: 0 发布时间：发布日期：2026-06-09 08:31:08

14.19万亿 vs 3.2万亿，一组数据宣告了一个时代的转折

昨天（6月8日），OpenRouter发布了一组让整个AI圈震动的数据：在6月1日至7日这一周，中国AI大模型周调用量达到14.19万亿Token，环比暴涨27.49%；而同期美国大模型调用量为3.2万亿Token，环比下降了24.53%。这已经是中国连续第六周在调用量上碾压美国。

更扎眼的是全球调用量排行榜——前四名全部被国产模型包揽：DeepSeek-V4-Flash以3.69万亿Token登顶，腾讯Hy3 preview 以2.94万亿紧随其后，刚发布一周的MiniMax M3直接空降第三（2.5万亿），小米MiMo-V2.5以2.19万亿排在第四，环比还涨了50%。而曾经风光无限的Claude Sonnet 4.6跌出前五、Claude Opus 4.7环比暴跌38%。

说实话，看到这组数据的时候我反复确认了好几遍。半年之前你跟我说中国大模型调用量能超过美国，我可能觉得是远期目标。但现在不是"超过"，是碾压——中国14.19万亿，美国3.2万亿，差了四倍不止。这不是渐进的追赶，这是个拐点。

MiniMax M3：首周就冲进前三的"编程怪兽"

6月1日，稀宇科技发布了MiniMax M3，用了一个自研的"稀疏注意力架构"（MSA），在三个方向上同时开火：编程能力、超长上下文、原生多模态。

在SWE-Bench Pro这个编程能力硬指标上，M3拿下了59.0%的得分，直接超越了OpenAI的GPT-5.5和谷歌的Gemini。很多做开发的朋友跟我说，这可能是今年最被低估的一次技术发布——国内首个同时拥有前沿编程、1M超长上下文和原生多模态三件套的开源模型，不是某个单项强，是三件套全部拉满。

这背后的技术思路值得琢磨。MiniMax没有走"堆参数"的老路，而是从架构层做创新——MSA稀疏注意力让模型在1M上下文长度下依然保持高效的推理速度，同时把显存占用压了下来。这意味着你不需要8张A100才能跑起来，一张消费级显卡就能本地部署一个能啃下百万字长文档的模型。

首周就空降全球前三，用户用脚投票比任何PR稿都有说服力。这其实说明了一件事：开发者群体对"高性能+开源+低成本部署"这个组合的需求是巨大的，而M3正好踩中了这个点。

阶跃Step 3.7 Flash：专为生产级Agent打造的"速度怪物"

5月29日，阶跃星辰开源了Step 3.7 Flash。这个模型的参数配置很有意思：总参数量196B+1.8B（ViT视觉编码器），但采用了稀疏MoE架构，每次推理只激活11B参数。最高生成速度达到400 Tokens/s。

这意味着什么？你让它写一篇2000字的文章，理论上一两秒就能出结果。对于Agent场景来说，速度是生命线——一个企业级Agent可能需要在一次任务中调用几十次模型推理，每次都等几秒加起来就是不可接受的延迟。

阶跃星辰把这个模型定义为"生产级Agent"专用。这个定位很精准。今年开年以来，AI Agent从"酷炫Demo"走向"生产环境"的趋势非常明显。Claude Code让开发者可以在终端里直接让AI写代码、跑测试、提交PR；OpenAI Operator试图让AI直接操作浏览器完成业务流程；Google Spark则瞄准了个人助理场景。但这些产品背后都需要一个又快又准的模型做支撑，Step 3.7 Flash就是瞄准了这层需求。

196B总参数但只激活11B，这个设计哲学其实代表了2026年模型架构的一个共识方向：做大参数量是为了知识储备，做小激活量是为了效率。你用不着每次都把196B的脑容量全部开动，只唤醒最相关的那几个专家就够了。

150万Token上下文：不是"更长了"，是"质变了"

6月的另一条大新闻是上下文窗口的极限突破。GPT-5.6据传将支持150万Token上下文，而月之暗面的Kimi K2.6则直接把数字推到了200万Token以上。

如果对这个数字没概念，换个说法：

150万Token差不多是完整三体三部曲的体量，一次全塞进去分析
一家中型上市公司全年财报+审计报告+股东大会记录，一次搞定
一座工厂所有设备一年的运行日志，全量分析故障模式
一套完整的基因序列端到端分析，不再需要分段拼接

两年前GPT-4刚出128K上下文的时候，大家已经在惊呼"够用了"。现在回头看，那只是个小水坑。从128K到150万，扩大了超过10倍，这个量变带来的其实是质变——以前AI处理的是"片段"，现在可以直接处理"全集"。法律文书、医学文献、工程文档这些动辄几万页的东西，不再是AI的盲区。

国产模型在这波上下文竞赛中一点都不手软。Kimi K2.6的200万+、MiniMax M3的1M、通义千问Qwen3.6的全尺寸覆盖……字节跳动的豆包系列也在传闻中准备把上下文推到新高度。这块曾经是海外模型的护城河，现在已经被国产填平了。

Agent进入"生产化元年"：从酷炫Demo到数字员工

抛开调用量数据，2026年上半年真正值得关注的趋势只有一个：Agent从实验室走进了生产线。

80%的财富500强企业已经在至少一个业务环节部署了AI Agent。Claude Code在开发者群体中的渗透速度快得吓人，很多团队已经把"AI先写代码再人工review"变成了标准工作流。OpenAI的Operator正在测试让AI直接操控浏览器完成差旅预订、报表生成这类重复性任务。Google Spark瞄准的是个人助理——帮你管理日程、处理邮件、整理会议纪要。

在中国市场，这波Agent落地的节奏甚至更快。因为国产模型天然在成本上有优势。DeepSeek-V4-Flash的API定价只有海外同性能模型的五分之一甚至十分之一，这让大量中小企业也能承担起"给每个员工配一个AI助手"的成本。调用量数据的爆发，本质上就是这种成本优势的直接体现——能用得起就用得多。

不过我也得泼点冷水。Agent的可靠性问题还没有完全解决。一个人类助理出错了你会觉得"下次注意"，但AI Agent在自动化财务流程或客户沟通时出一丁点儿差错，信任成本就极高。这也是为什么阶跃星辰把Step 3.7 Flash定位为"生产级"的原因之一——不是所有模型都适合直接用在生产环境，速度快只是第一步，一致性、安全性、可审计性才是真正的门槛。

推理时计算：从"可选"到"标配"的技术范式转移

Gemini 3.5 Pro引入了一个重要概念：推理时计算（Test-Time Compute）。简单说，就是模型在回答问题之前，会先在内部"多想几步"再输出。这听起来简单，但效果惊人——推理准确率比前代提升了35%以上。

IDC预测到2026年底，超过60%的企业级AI应用将采用推理时计算架构。这个趋势意味着什么？

过去两年AI行业的共识是"把模型做大、再做更大"。参数规模从几百亿冲到几千亿，训练成本从几千万美元飙升到几亿美元。但推理时计算给出了另一条路：不靠堆参数也能提升效果，让模型在推理时多动脑子。这条路对国产模型尤其友好——因为训练算力我们跟美国还有差距，但推理部署和工程优化是我们的强项。

DeepSeek-V4-Flash的成功某种程度上已经验证了这一点。它的参数规模并不是最大的，但在实际使用中的表现和调用量都领先，靠的就是推理架构的优化和极致的性价比。中国团队在"用更少的资源做更多的事"这件事上，确实是全球顶尖的。

全球调用量36.1万亿Token：AI正在变成水电一样的基础设施

还有一个容易被忽略的数字：上周全球AI大模型总调用量达到36.1万亿Token，环比增长13.5%，已经连续七周上涨。36.1万亿是什么概念？如果把这些Token印成书，大概相当于人类有史以来所有出版物的总和——而且这只是一周的量。

这说明AI大模型的使用正在从"尝鲜"变成"刚需"。越来越多的应用在底层接入了大模型API，你刷的每一条推荐、搜的每一个问题、写的每一行代码自动补全，背后都在消耗Token。中国之所以在调用量上领先，除了模型性价比高，还有一个结构性的原因：中国的数字化场景比美国更密集——电商、社交、短视频、移动支付、政务服务的数字化渗透率都极高，每个场景都在产生海量的AI调用需求。

从厂商层面看，DeepSeek以6.75万亿Token的总量连续四周位居全球厂商榜首，超越了Anthropic和谷歌。而刚发新品的MiniMax也以3.05万亿Token的总量超越了小米和腾讯。这个排名的变化速度之快，说明这个市场还远远没有定型——今天的第一名，半年后可能就不在榜上了。

最后说两句

调用量全球第一当然是个好消息，但我觉得不应该把这个当成终点。14.19万亿Token的调用量背后，有多少是真正的高价值应用，有多少是"为了用而用"的薅羊毛式调用？中国大模型在最前沿的学术研究、基础算法创新、顶级论文产出上跟OpenAI、Google DeepMind的差距缩小了多少？这些才是更值得追踪的指标。

不过有一点是确定无疑的：国产开源模型的生态正在以远超预期的速度膨胀。HuggingFace上中国产开源模型过去半年的下载量增长了超过300%，社区贡献度同样暴涨300%以上。当调用量领先、开源生态繁荣、应用场景密集这三个条件同时满足时，后来居上就不只是可能性，而是大概率事件。

2026年的6月，全球AI版图正在重绘。而这一次，画笔在中国手里。

上一篇 > DCMM新国标只剩23天就生效：门槛抬高一级，920亿数据治理市场中小软件公司怎么切
下一篇 > 2026年中AI复盘：Agent接管业务流，开源模型逼近闭源，企业落地还差临门一脚