中国大模型调用量连续六周全球第一:国产开源的逆袭密码

阅读: 185 评论: 0

标签:

14.19万亿 vs 3.2万亿,一组数据宣告了一个时代的转折

昨天(6月8日),OpenRouter发布了一组让整个AI圈震动的数据:在6月1日至7日这一周,中国AI大模型周调用量达到14.19万亿Token,环比暴涨27.49%;而同期美国大模型调用量为3.2万亿Token,环比下降了24.53%。这已经是中国连续第六周在调用量上碾压美国

更扎眼的是全球调用量排行榜——前四名全部被国产模型包揽:DeepSeek-V4-Flash以3.69万亿Token登顶,腾讯Hy3 preview 以2.94万亿紧随其后,刚发布一周的MiniMax M3直接空降第三(2.5万亿),小米MiMo-V2.5以2.19万亿排在第四,环比还涨了50%。而曾经风光无限的Claude Sonnet 4.6跌出前五、Claude Opus 4.7环比暴跌38%。

说实话,看到这组数据的时候我反复确认了好几遍。半年之前你跟我说中国大模型调用量能超过美国,我可能觉得是远期目标。但现在不是"超过",是碾压——中国14.19万亿,美国3.2万亿,差了四倍不止。这不是渐进的追赶,这是个拐点。

MiniMax M3:首周就冲进前三的"编程怪兽"

6月1日,稀宇科技发布了MiniMax M3,用了一个自研的"稀疏注意力架构"(MSA),在三个方向上同时开火:编程能力、超长上下文、原生多模态。

在SWE-Bench Pro这个编程能力硬指标上,M3拿下了59.0%的得分,直接超越了OpenAI的GPT-5.5和谷歌的Gemini。很多做开发的朋友跟我说,这可能是今年最被低估的一次技术发布——国内首个同时拥有前沿编程、1M超长上下文和原生多模态三件套的开源模型,不是某个单项强,是三件套全部拉满。

这背后的技术思路值得琢磨。MiniMax没有走"堆参数"的老路,而是从架构层做创新——MSA稀疏注意力让模型在1M上下文长度下依然保持高效的推理速度,同时把显存占用压了下来。这意味着你不需要8张A100才能跑起来,一张消费级显卡就能本地部署一个能啃下百万字长文档的模型。

首周就空降全球前三,用户用脚投票比任何PR稿都有说服力。这其实说明了一件事:开发者群体对"高性能+开源+低成本部署"这个组合的需求是巨大的,而M3正好踩中了这个点。

阶跃Step 3.7 Flash:专为生产级Agent打造的"速度怪物"

5月29日,阶跃星辰开源了Step 3.7 Flash。这个模型的参数配置很有意思:总参数量196B+1.8B(ViT视觉编码器),但采用了稀疏MoE架构,每次推理只激活11B参数。最高生成速度达到400 Tokens/s

这意味着什么?你让它写一篇2000字的文章,理论上一两秒就能出结果。对于Agent场景来说,速度是生命线——一个企业级Agent可能需要在一次任务中调用几十次模型推理,每次都等几秒加起来就是不可接受的延迟。

阶跃星辰把这个模型定义为"生产级Agent"专用。这个定位很精准。今年开年以来,AI Agent从"酷炫Demo"走向"生产环境"的趋势非常明显。Claude Code让开发者可以在终端里直接让AI写代码、跑测试、提交PR;OpenAI Operator试图让AI直接操作浏览器完成业务流程;Google Spark则瞄准了个人助理场景。但这些产品背后都需要一个又快又准的模型做支撑,Step 3.7 Flash就是瞄准了这层需求。

196B总参数但只激活11B,这个设计哲学其实代表了2026年模型架构的一个共识方向:做大参数量是为了知识储备,做小激活量是为了效率。你用不着每次都把196B的脑容量全部开动,只唤醒最相关的那几个专家就够了。

150万Token上下文:不是"更长了",是"质变了"

6月的另一条大新闻是上下文窗口的极限突破。GPT-5.6据传将支持150万Token上下文,而月之暗面的Kimi K2.6则直接把数字推到了200万Token以上

如果对这个数字没概念,换个说法:

两年前GPT-4刚出128K上下文的时候,大家已经在惊呼"够用了"。现在回头看,那只是个小水坑。从128K到150万,扩大了超过10倍,这个量变带来的其实是质变——以前AI处理的是"片段",现在可以直接处理"全集"。法律文书、医学文献、工程文档这些动辄几万页的东西,不再是AI的盲区。

国产模型在这波上下文竞赛中一点都不手软。Kimi K2.6的200万+、MiniMax M3的1M、通义千问Qwen3.6的全尺寸覆盖……字节跳动的豆包系列也在传闻中准备把上下文推到新高度。这块曾经是海外模型的护城河,现在已经被国产填平了。

Agent进入"生产化元年":从酷炫Demo到数字员工

抛开调用量数据,2026年上半年真正值得关注的趋势只有一个:Agent从实验室走进了生产线

80%的财富500强企业已经在至少一个业务环节部署了AI Agent。Claude Code在开发者群体中的渗透速度快得吓人,很多团队已经把"AI先写代码再人工review"变成了标准工作流。OpenAI的Operator正在测试让AI直接操控浏览器完成差旅预订、报表生成这类重复性任务。Google Spark瞄准的是个人助理——帮你管理日程、处理邮件、整理会议纪要。

在中国市场,这波Agent落地的节奏甚至更快。因为国产模型天然在成本上有优势。DeepSeek-V4-Flash的API定价只有海外同性能模型的五分之一甚至十分之一,这让大量中小企业也能承担起"给每个员工配一个AI助手"的成本。调用量数据的爆发,本质上就是这种成本优势的直接体现——能用得起就用得多。

不过我也得泼点冷水。Agent的可靠性问题还没有完全解决。一个人类助理出错了你会觉得"下次注意",但AI Agent在自动化财务流程或客户沟通时出一丁点儿差错,信任成本就极高。这也是为什么阶跃星辰把Step 3.7 Flash定位为"生产级"的原因之一——不是所有模型都适合直接用在生产环境,速度快只是第一步,一致性、安全性、可审计性才是真正的门槛。

推理时计算:从"可选"到"标配"的技术范式转移

Gemini 3.5 Pro引入了一个重要概念:推理时计算(Test-Time Compute)。简单说,就是模型在回答问题之前,会先在内部"多想几步"再输出。这听起来简单,但效果惊人——推理准确率比前代提升了35%以上。

IDC预测到2026年底,超过60%的企业级AI应用将采用推理时计算架构。这个趋势意味着什么?

过去两年AI行业的共识是"把模型做大、再做更大"。参数规模从几百亿冲到几千亿,训练成本从几千万美元飙升到几亿美元。但推理时计算给出了另一条路:不靠堆参数也能提升效果,让模型在推理时多动脑子。这条路对国产模型尤其友好——因为训练算力我们跟美国还有差距,但推理部署和工程优化是我们的强项。

DeepSeek-V4-Flash的成功某种程度上已经验证了这一点。它的参数规模并不是最大的,但在实际使用中的表现和调用量都领先,靠的就是推理架构的优化和极致的性价比。中国团队在"用更少的资源做更多的事"这件事上,确实是全球顶尖的。

全球调用量36.1万亿Token:AI正在变成水电一样的基础设施

还有一个容易被忽略的数字:上周全球AI大模型总调用量达到36.1万亿Token,环比增长13.5%,已经连续七周上涨。36.1万亿是什么概念?如果把这些Token印成书,大概相当于人类有史以来所有出版物的总和——而且这只是一周的量。

这说明AI大模型的使用正在从"尝鲜"变成"刚需"。越来越多的应用在底层接入了大模型API,你刷的每一条推荐、搜的每一个问题、写的每一行代码自动补全,背后都在消耗Token。中国之所以在调用量上领先,除了模型性价比高,还有一个结构性的原因:中国的数字化场景比美国更密集——电商、社交、短视频、移动支付、政务服务的数字化渗透率都极高,每个场景都在产生海量的AI调用需求。

从厂商层面看,DeepSeek以6.75万亿Token的总量连续四周位居全球厂商榜首,超越了Anthropic和谷歌。而刚发新品的MiniMax也以3.05万亿Token的总量超越了小米和腾讯。这个排名的变化速度之快,说明这个市场还远远没有定型——今天的第一名,半年后可能就不在榜上了。

最后说两句

调用量全球第一当然是个好消息,但我觉得不应该把这个当成终点。14.19万亿Token的调用量背后,有多少是真正的高价值应用,有多少是"为了用而用"的薅羊毛式调用?中国大模型在最前沿的学术研究、基础算法创新、顶级论文产出上跟OpenAI、Google DeepMind的差距缩小了多少?这些才是更值得追踪的指标。

不过有一点是确定无疑的:国产开源模型的生态正在以远超预期的速度膨胀。HuggingFace上中国产开源模型过去半年的下载量增长了超过300%,社区贡献度同样暴涨300%以上。当调用量领先、开源生态繁荣、应用场景密集这三个条件同时满足时,后来居上就不只是可能性,而是大概率事件。

2026年的6月,全球AI版图正在重绘。而这一次,画笔在中国手里。

上一篇 > DCMM新国标只剩23天就生效:门槛抬高一级,920亿数据治理市场中小软件公司怎么切
下一篇 > 2026年中AI复盘:Agent接管业务流,开源模型逼近闭源,企业落地还差临门一脚