OpenAI押注“音频优先”AI，剑指下一代无屏设备_快讯

分析师/智涵

校对/Tina

策划/Eason

当大多数AI公司仍在优化“屏幕里的体验”时，OpenAI 正在做一件反直觉的事：把屏幕拿走。

据多家外媒披露，OpenAI的新一代音频模型预计将在2026年第一季度发布。此前，OpenAI已在内部重组多个工程、产品和研究团队，把资源集中投向音频 AI；以65亿美元收购由前苹果首席设计官Jony Ive联合创立的io公司；并围绕一款“始终在线、以语音为核心、完全无屏”的消费级设备展开长期规划。

这并不是一次单点创新，而是一种新的假设：如果AI真正理解你所在的环境、你正在做的事，它是否还需要一个屏幕，来证明自己的存在？

在OpenAI的设想中，下一代设备不再要求你低头、滑动、确认，而是像一个“环境中的存在”，通过聆听和观察，在合适的时刻介入。Sam Altman直言，屏幕限制了AI的可能性；而Jony Ive则将这一项目视为“一场新的设计运动”。

实际上，这样的转向并非只有OpenAI一家公司在做。从谷歌的音频概览、Meta的智能眼镜，到特斯拉车内的对话式AI，弱化屏幕、强化音频与环境感知，似乎正成为硅谷高度一致的方向选择。

那么，这场集体转向，究竟在押注什么？

先改模型，再造设备：OpenAI的无屏布局

从动作层面看，OpenAI 对音频方向的投入已经不再是“功能优化”，而是一次自上而下的战略重排。

报道称，相关工作由前Character.ai研究员Kundan Kumar牵头，产品研究主管Ben Newhouse与ChatGPT产品经理Jackie Shannon深度参与，几条研究、产品与工程线被统一拉到同一目标之下：为未来的无屏设备打造真正可用的音频“操作系统”。

据知情人士透露，这一团队已经研发出全新的音频模型架构，在语音自然度、情感表达和回答准确性上都有明显提升，并首次支持实时打断和双向对话——模型甚至可以在用户还没说完时作出回应。OpenAI 计划在2026年第一季度发布这一代音频模型，用以弥补当前语音模型在速度和可靠性上仍落后于文本模型的短板。

这一技术布局，正好对应着OpenAI更宏大的硬件野心。

此前《华尔街日报》披露的一次内部员工通话显示，Jony Ive与Sam Altman已为首款产品定下清晰方向：它既不是手机，也不是眼镜，而是一款完全无屏的“第三核心设备”，可以放入口袋，或与MacBook和iPhone一起摆在桌面上使用。据了解，该硬件设备很可能是一支“AI笔”。

这款设备强调对环境和用户情境的持续感知，而不是依赖任何视觉界面。Altman在内部测试Ive的原型后，甚至将其称为“世界上最酷的科技产品”，并认为这笔交易可能为公司增加1万亿美元的价值。该产品的目标是在2026年底前发货，并计划以“比任何公司推出新产品达到一亿台的速度更快”的速度，达到1亿台销量。

总而言之，无论最终以智能笔、智能音箱、桌面设备还是其他形态出现，OpenAI想要的并不是一件新玩具，而是一个在日常生活中地位足以与智能手机比肩的“超级 AI 助手”。

弱化屏幕：一次硅谷高度一致的集体转向

如果只看 OpenAI 的硬件计划，很容易把它理解为一次激进的产品实验。但把视角拉远，会发现这是一个更广泛的行业共识。这背后主要有三点原因：

第一，屏幕的创新空间正在变窄。过去十年，几乎所有主流交互创新——多点触控、全面屏、手势操作——都已经被消化殆尽。继续围绕屏幕做文章，边际提升越来越小，却越来越昂贵。

第二，注意力成为最稀缺的资源。用户的“看屏幕时间”已经高度饱和。再增加一个需要持续注视的设备，只会加剧竞争，而不是创造新的使用场景。

第三，AI 的角色正在发生变化。当系统从“被调用的工具”变成“持续协助的智能体”，屏幕反而成了阻碍。真正的环境智能，理想状态下应该在后台工作，只在必要时出现。

正是在这样的背景下，音频被重新推到舞台中央。它不要求视觉占用，不需要学习复杂界面，更容易融入走路、开车、做饭、聊天这些真实生活场景。这也是为什么，OpenAI、谷歌、Meta、特斯拉正在不约而同地，把“对话”当作下一代计算入口。

无屏背后：技术难点的集中爆发

无屏，并不意味着更简单，恰恰相反，它把所有复杂性集中在了后台。

首先是“何时说话，何时保持沉默”的问题。所谓的轮次控制，需要同时解决语音活动检测、说话人识别、优雅打断以及上下文理解。在嘈杂、多说话人的真实环境中，一次误判就足以消耗用户信任。

其次是始终在线带来的电力与算力压力。设备必须依赖超低功耗传感器判断“是否需要唤醒”，而真正的多模态推理则在本地与云端之间动态切换。这要求极端的模型压缩、内存优化，以及对延迟的精细管理。

再往后，是隐私与感知范围的博弈。摄像头能提供关键上下文，但也放大了侵入感。物理静音、遮挡机制、清晰可感知的权限控制，几乎决定了这类设备能否被长期接受。

音频优先设备失败的原因，往往不是“做不到”，而是在真实世界中不够稳健、不够克制。

野心与现实之间：无屏AI能否撑起下一个时代

OpenAI 并非第一个尝试无屏AI的公司。此前，一批背景各异的初创公司也抱有同样的信念，只是成效不一。

例如，Humane AI Pin的开发团队也曾在无屏可穿戴设备上烧掉了数亿美元，最终却成了行业反面教材。其失败的教训仍历历在目：响应慢、续航差、价值模糊。市场已经证明，“概念正确”并不等于“体验成立”。

不同之处在于，OpenAI同时握有两张关键筹码：一是持续演进的大模型能力，二是 Jony Ive 对硬件形态与人机关系的长期思考。这无疑给了OpenAI尝试转向无屏的底气：大模型提供了智能与适应性，设计则提供了交互体验和行为规范。

然而，真正的考验并不在发布当天，而在第一周、第一月的日常使用中：

无屏AI是否真的比手机更快？

是否在大多数时候选择不打扰？

是否让人愿意把“说话”当成一种默认操作方式？

如果答案是肯定的，那么无屏并非退化，而是一种更深的嵌入。

如果不是，它只会再次证明：屏幕之所以存在，并非偶然。

快讯

OpenAI押注“音频优先”AI，剑指下一代无屏设备

关注我们

189-1071-7116

服务热线（9:00-18:00）