万亿参数、36T数据、奥数级推理:阿里Qwen3-Max-Thinking更聪明了

作者:智涵      时间: 2026-01-29      浏览数:2534

1.png

分析师/智涵
校对/Tina
策划/Eason

凌晨发布、同步上线、直接对标国际顶流——阿里这次没有任何铺垫,直接把千问最新旗舰推理模型 Qwen3-Max-Thinking推到台前。

参数规模一口气拉到万亿级别、预训练数据量高达36T Tokens19项权威基准测试刷爆纪录,这是目前阿里体系内规模最大、能力最强的一次模型升级。更关键的是,它并不是“堆参数”的概念展示,而是一次明确指向复杂推理、真实业务和智能体时代的实战型模型发布。

从公开测试结果来看,Qwen3-Max-Thinking的表现相当直接:在涵盖科学、数学、编程、工具调用等方向的19项权威基准测试中刷新多项纪录,正面与 GPT-5.2-ThinkingClaude OpusGemini 3 Pro等国际顶级模型对打,整体性能并不落下风,部分关键指标甚至实现反超。

对普通用户来说,这种变化已经不是“实验室里的进步”。目前在千问 PC 端和网页端,只需一键切换,就能直接启用这一推理模型;App 端也即将接入。更强的逻辑、更低的幻觉、更主动的工具调用,让 AI 从“陪你聊天”走向“替你办事”。

这一次,阿里给出的信号很清晰:大模型的竞争,已经进入真正拼推理深度与落地能力的阶段。模型不仅“更会想”,而且“更会查、敢纠错、能自证”。大模型正在从“展示智能”进入“交付能力”的阶段,而阿里,显然不想缺席这一轮关键跃迁。

01
万亿参数成为推理能力的分水岭

从技术层面看,Qwen3-Max-Thinking 最直观的变化是规模:超1T参数、36T Tokens预训练数据,这是目前阿里千问体系内体量最大的推理模型。但真正的变化,并不只是更大,而是规模开始直接转化为稳定、可复用的高阶能力。

在科学知识(GPQADiamond)、数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench)等高难度基准中,Qwen3-Max-Thinking 的表现已经稳定站在第一梯队。在IMO级数学推理中,其得分达到91.5 分,预览版甚至在 AIME 25HMMT 25 中拿下双满分。这类测试不考模板记忆,而是考察模型能否进行长链条、多假设的严密推理。

2.png

更具代表性的,是HLE工具调用基准。这一测试被业内称为人类最后的测试,重点考察模型在复杂场景下是否能正确选择工具、调用工具并验证结果。Qwen3-Max-Thinking58.3 分明显领先 GPT-5.2-Thinking  Gemini 3 Pro,显示其已经具备接近独立执行者的能力。

3.png

这背后反映的是一个事实:当模型规模跨过某个阈值后,推理不再是零散能力,而开始呈现出系统性优势。

02
两大核心突破,让“聪明”变得可依赖


真正决定模型能否进入业务系统的,并不是跑分,而是可靠性。Qwen3-Max-Thinking的两项关键升级,正好指向这一问题。

第一,是测试时扩展(TTS)机制。传统模型在遇到难题时,往往通过并行推理“多想几遍”,但其中大量计算是重复的。Qwen3-Max-Thinking 采用类似“经验提取”的反思策略,在推理阶段集中算力解决尚未覆盖的难点,从而在相同算力下获得更高质量推理结果。这也是它在GPQALiveCodeBench 等测试中显著提分的重要原因。

第二,是原生Agent能力的系统性增强。模型在对话中可自主判断是否调用搜索、记忆或代码解释器,而不是依赖用户手动指令。这种机制在实测中直接降低了幻觉率:例如,当被刻意误导提问“黄金价格是否下降”时,模型会先检索事实、纠正前提,再给出更符合现实的判断。

这种“能查证、会纠错”的能力,正是企业敢把业务交给 AI 的底气。AI不再只是给建议,而是能像专业人员一样,对结论负责。

03
从模型到生态:阿里正在把AI变成“办事系统”


如果只看模型本身,Qwen3-Max-Thinking 已经足够强;但阿里的真正优势,在于其全栈布局。

4.png

C端,千问月活用户已突破1亿,并深度接入淘宝、支付宝、飞猪、高德等生态,覆盖400多项 AI 办事功能。用户可以通过自然语言完成购物、订票、出行规划等完整流程,AI 的价值正在从信息层,进入交易与服务层。

B端,企业用户可通过阿里云百炼调用API;在底层,阿里同步推进芯片、算力与云基础设施建设,计划三年投入3800亿元,规模与国际科技巨头处于同一量级。与此同时,Qwen系列在Hugging Face上的衍生模型数量已突破20万个,下载量超10亿次,稳居全球开源大模型第一。

这条路径非常清晰用顶级模型能力,驱动生态应用,再反向强化模型。Qwen3-Max-Thinking 的发布,标志着阿里在算法、算力和应用三层已经形成协同闭环。对于中国大模型而言,这不仅是一次技术验证,更是一次从追赶者规则参与者转变的重要节点。

随着推理能力在B端率先成熟、再反向塑造C端体验,一个更现实的变化正在发生:AI 不再是用来试试看的新奇工具,而是逐步进入可以被信任、被依赖、甚至被托付关键事务的阶段。这或许才是Qwen3-Max-Thinking留给行业最重要的信号。


北京第一新声信息咨询有限公司 版权所有(C)2024 京ICP备2024089855号-1

第一新声商务经理 Sherry
Tel:18910717116

第一新声商务经理 Sherry
Tel:18910717116

第一新声研究客服 Kim小严

第一新声编辑客服 Tina

第一新声运营经理 孟小新