万亿参数、36T数据、奥数级推理：阿里Qwen3-Max-Thinking更聪明了_快讯

分析师/智涵

校对/Tina

策划/Eason

凌晨发布、同步上线、直接对标国际顶流——阿里这次没有任何铺垫，直接把千问最新旗舰推理模型 Qwen3-Max-Thinking推到台前。

参数规模一口气拉到万亿级别、预训练数据量高达36T Tokens、19项权威基准测试刷爆纪录，这是目前阿里体系内规模最大、能力最强的一次模型升级。更关键的是，它并不是“堆参数”的概念展示，而是一次明确指向复杂推理、真实业务和智能体时代的实战型模型发布。

从公开测试结果来看，Qwen3-Max-Thinking的表现相当直接：在涵盖科学、数学、编程、工具调用等方向的19项权威基准测试中刷新多项纪录，正面与 GPT-5.2-Thinking、Claude Opus、Gemini 3 Pro等国际顶级模型对打，整体性能并不落下风，部分关键指标甚至实现反超。

对普通用户来说，这种变化已经不是“实验室里的进步”。目前在千问 PC 端和网页端，只需一键切换，就能直接启用这一推理模型；App 端也即将接入。更强的逻辑、更低的幻觉、更主动的工具调用，让 AI 从“陪你聊天”走向“替你办事”。

这一次，阿里给出的信号很清晰：大模型的竞争，已经进入真正拼推理深度与落地能力的阶段。模型不仅“更会想”，而且“更会查、敢纠错、能自证”。大模型正在从“展示智能”进入“交付能力”的阶段，而阿里，显然不想缺席这一轮关键跃迁。

万亿参数成为推理能力的分水岭

从技术层面看，Qwen3-Max-Thinking 最直观的变化是规模：超1T参数、36T Tokens预训练数据，这是目前阿里千问体系内体量最大的推理模型。但真正的变化，并不只是“更大”，而是规模开始直接转化为稳定、可复用的高阶能力。

在科学知识（GPQADiamond）、数学推理（IMO-AnswerBench）和代码编程（LiveCodeBench）等高难度基准中，Qwen3-Max-Thinking 的表现已经稳定站在第一梯队。在IMO级数学推理中，其得分达到91.5 分，预览版甚至在 AIME 25、HMMT 25 中拿下双满分。这类测试不考模板记忆，而是考察模型能否进行长链条、多假设的严密推理。

更具代表性的，是HLE工具调用基准。这一测试被业内称为“人类最后的测试”，重点考察模型在复杂场景下是否能正确选择工具、调用工具并验证结果。Qwen3-Max-Thinking以58.3 分明显领先 GPT-5.2-Thinking 和 Gemini 3 Pro，显示其已经具备接近“独立执行者”的能力。

这背后反映的是一个事实：当模型规模跨过某个阈值后，推理不再是零散能力，而开始呈现出系统性优势。

两大核心突破，让“聪明”变得可依赖数

真正决定模型能否进入业务系统的，并不是跑分，而是可靠性。Qwen3-Max-Thinking的两项关键升级，正好指向这一问题。

第一，是测试时扩展（TTS）机制。传统模型在遇到难题时，往往通过并行推理“多想几遍”，但其中大量计算是重复的。Qwen3-Max-Thinking 采用类似“经验提取”的反思策略，在推理阶段集中算力解决尚未覆盖的难点，从而在相同算力下获得更高质量推理结果。这也是它在GPQA、LiveCodeBench 等测试中显著提分的重要原因。

第二，是原生Agent能力的系统性增强。模型在对话中可自主判断是否调用搜索、记忆或代码解释器，而不是依赖用户手动指令。这种机制在实测中直接降低了幻觉率：例如，当被刻意误导提问“黄金价格是否下降”时，模型会先检索事实、纠正前提，再给出更符合现实的判断。

这种“能查证、会纠错”的能力，正是企业敢把业务交给 AI 的底气。AI不再只是给建议，而是能像专业人员一样，对结论负责。

从模型到生态：阿里正在把AI变成“办事系统”

如果只看模型本身，Qwen3-Max-Thinking 已经足够强；但阿里的真正优势，在于其全栈布局。

在C端，千问月活用户已突破1亿，并深度接入淘宝、支付宝、飞猪、高德等生态，覆盖400多项 AI 办事功能。用户可以通过自然语言完成购物、订票、出行规划等完整流程，AI 的价值正在从信息层，进入交易与服务层。

在B端，企业用户可通过阿里云百炼调用API；在底层，阿里同步推进芯片、算力与云基础设施建设，计划三年投入3800亿元，规模与国际科技巨头处于同一量级。与此同时，Qwen系列在Hugging Face上的衍生模型数量已突破20万个，下载量超10亿次，稳居全球开源大模型第一。

这条路径非常清晰：用顶级模型能力，驱动生态应用，再反向强化模型。Qwen3-Max-Thinking 的发布，标志着阿里在算法、算力和应用三层已经形成协同闭环。对于中国大模型而言，这不仅是一次技术验证，更是一次从“追赶者”向“规则参与者”转变的重要节点。

随着推理能力在B端率先成熟、再反向塑造C端体验，一个更现实的变化正在发生：AI 不再是用来试试看的新奇工具，而是逐步进入可以被信任、被依赖、甚至被托付关键事务的阶段。这或许才是Qwen3-Max-Thinking留给行业最重要的信号。

快讯

万亿参数、36T数据、奥数级推理：阿里Qwen3-Max-Thinking更聪明了

关注我们

189-1071-7116

服务热线（9:00-18:00）