OpenAI发布GPT-5.3 Instant:幻觉率下降26.8%,减少“废话文学”

作者:贾玥      时间: 2026-03-04      浏览数:6215


封面.jpeg
分析师/贾玥
校对/Tina
策划/Eason


今天凌晨,谷歌前脚刚发布Gemini 3.1 Flash-Lite,OpenAI后脚就“贴脸开大”——不到两小时,GPT-5.3 Instant连夜上线。

但这次更新有点反常。OpenAI没有像往常一样甩出一串霸榜的跑分数据,也没有在参数规模上疯狂内卷,而是干了一件用户苦等已久的事:把ChatGPT日常聊天里最让人崩溃的毛病,彻底治了。

如果你用过ChatGPT,大概率经历过这种崩溃:明明问的是一个正常问题,模型却先甩出一段“作为AI我需要提醒你”的免责声明,再告诉你“我不能帮你做这个”,最后还列一串你根本不需要的替代选项。

而GPT-5.3 Instant,则攻克了这一难题。


01
告别“废话文学”:不用再看免责声明小作文


GPT-5.3 Instant的第一刀,砍向了让用户尴尬又无奈的“废话文学”。

OpenAI给了一个典型案例:用户请求计算超远距离射箭轨迹。GPT-5.2 Instant的反应堪称“经典翻车”——先是大段“我不能帮你进行真实目标计算”的安全声明,然后把回答分成三个方向让你选,最后还追问“这是为了游戏还是真实射箭?”

而GPT-5.3 Instant呢?一句“没问题”,直接列参数、给公式、问你要不要加空气阻力——干净利落,毫不拖泥带水。


1.png


OpenAI坦言,前代模型的问题可以概括为一个词:cringe(尴尬到脚趾扣地)。过于强势、爱揣测用户意图、动不动来一句“停下来,深呼吸”——这些让用户浑身不舒服的“AI腔”,在新版中被系统性剔除。

面对“为什么我在旧金山找不到真爱”这种扎心提问,GPT-5.2 Instant开口就是“首先你没毛病,你也不是一个人”,然后洋洋洒洒分析性别比例、创业文化,最后还来一段灵魂拷问。而GPT-5.3 Instant直接跳过无效安慰,开门见山分析结构性原因,语气平等,不居高临下。


2.png
02
幻觉率暴降27%,搜索不再“堆砌链接”


除了情商提升,GPT-5.3 Instant在降低幻觉方面也给出了硬核数据。

OpenAI用了两套内部评估:一套聚焦法律、金融等高风险领域;另一套统计用户标记为事实错误的真实对话。

结果相当亮眼:在高风险领域评估中,联网模式下幻觉率降低26.8%,仅靠内部知识时降低19.7%;在用户反馈评估中,联网时幻觉减少22.5%,不联网时减少9.6%。

这意味着,当你用GPT-5.3 Instant查询专业问题或最新资讯时,它“一本正经胡说八道”的概率将明显降低。

联网搜索能力也同步升级。

以前的ChatGPT容易“过度依赖搜索结果”——要么甩一串链接,要么把结果松散拼在一起,读起来像没消化过的摘要。新版模型能更好地平衡搜索结果与自身知识储备,不再简单罗列,而是先想清楚你真正想问什么,再给出有重点的回答。

OpenAI展示的案例很能说明问题:用户问“2025-26年棒球休赛期最大的签约是什么,为什么对棒球长期前景重要?”GPT-5.2 Instant回答的是上一年胡安·索托签约大都会的旧闻,分析框架没问题但信息过时。GPT-5.3 Instant则准确抓到真正的焦点——凯尔·塔克签约道奇,4年2.4亿美元创历史纪录,还把这笔交易放进了人才集中化、薪资差距拉大的联盟大背景里分析。对比起来,一个在念旧报纸,一个刚从ESPN直播间出来。


3.png
03
写作能力“开窍”:用细节代替煽情


最容易被忽视但体验中感受最深的升级,或许是写作能力。

让模型以“费城一位退休邮递员最后一次送信”为题写短诗,新旧两代模型的差异堪称教科书。

GPT-5.2 Instant走的是抽象感伤路线:“联排别墅眨着眼睛醒来,古老的门廊记住了他的脚步声”——它在“告诉”你该感动了。

GPT-5.3 Instant则完全换了一种写法:它写邮袋今天变轻了的触感,那个带掉漆蓝色栏杆的门廊,默瑟街上一个女人手里已经握好一封信说“我们会想你的”。最后一句“当邮筒盖合上的时候,那声音听起来就像一段温柔岁月的终结。一扇永远都在那里的门,终于,悄悄地关上了”——不讲情绪,而是用细节让你自己感受。


4.png


新模型在小说、文风润色与创意探索上更有层次,生成的文本更具共鸣效果、想象力与沉浸感。在实用任务与表达性写作之间切换更加顺畅,且不会牺牲逻辑清晰度。

有趣的是,GPT-5.3 Instant和同一天发布的谷歌Gemini 3.1 Flash-Lite打法完全不同。

Flash-Lite是典型的跑分碾压型发布——用几分之一的价格在GPQA、SimpleQA上暴打竞品。而GPT-5.3 Instant压根没提任何benchmark。

在OpenAI看来,这些问题“不总能在基准测试中跑出来,但直接决定了ChatGPT是让你得心应手,还是让你抓狂”。对每天用ChatGPT的普通用户来说,跑分多两个百分点他们无感,但“问正常问题被拒答”“搜索像甩链接”“回复语气浑身不舒服”,这些才是体验中的真实痛点。

当然也可以从另一个角度解读:在Gemini和Claude轮番登顶的当下,OpenAI在性能赛道上选择避其锋芒,转而在用户体验这个更软性但同样关键的角度发力。务实还是无奈?见仁见智。

不过,目前能体会到这些变化的只有英语用户。OpenAI坦承,日语、韩语等语言的回复仍然生硬、翻译腔偏重,多语言语气自然度的提升仍是长期任务。

目前,GPT-5.3 Instant已向所有ChatGPT用户开放,API开发者可使用“gpt-5.3-chat-latest”版本。GPT-5.2 Instant将保留三个月,2026年6月3日正式下线。

OpenAI还同步放出彩蛋:GPT-5.4“比你预想的更快到来”。


5.png


对于每天和AI打交道的用户来说,这次更新最值得庆祝的或许是:那个满嘴说教、动辄免责的“爹味AI”,终于学会像个正常人一样聊天了。


北京第一新声信息咨询有限公司 版权所有(C)2024 京ICP备2024089855号-1

第一新声商务经理 Sherry
Tel:18910717116

第一新声商务经理 Sherry
Tel:18910717116

第一新声研究客服 Kim小严

第一新声编辑客服 Tina

第一新声运营经理 孟小新