行业困于“伪智能”,原力无限以VLA与世界模型双线破局

作者:雷晶      时间: 2025-11-28      浏览数:9874


8181af577357fb581f222caec2d39e8c.png
分析师/雷晶
校对/Tina
策划/Eason

能跑、能拿、能跳舞的机器人早已站上科技赛道C位。走进任何一家具身智能公司的实验室,会看到机器人已能完成各种令人惊叹的任务。

在资本与技术的双重加持下,这条赛道正以惊人增速领跑科技领域。然而,估值水涨船高的背后,是整个行业仍在等待那个真正引爆市场的“杀手级应用”。机器人不仅尚未跨越智能“门槛”,更陷入场景难落地的困境。

在这场同质化竞争的突围战中,原力无限认为,破局关键不在硬件堆砌,而在技术路径的探寻。当前,原力无限正以VLA打通机器人的感知与响应闭环,并通过世界模型为其构建内在的推演与预判能力。
当行业还在比拼动作完成度,真正的竞争已悄然转向任务理解深度。在这场关乎未来的突围战中,如何将实验室的潜力转化为商业的真实效能呢?
本期,第一新声专访原力无限创始人、CEO白惠源与其资深研究科学家陈佳玉博士,深入剖析具身智能行业面临的核心难题,共同探讨如何以VLA与世界模型为双翼,走出一条差异化的具身智能进阶路径。
01
智能尚未真正“涌现”

当前,具身智能尚未真正实现“智能涌现”。不够智能究竟表现在哪些地方

从实际表现来看,人形机器人而言“大脑”与“身体”的协同难题尤为突出。大脑会下达躯体、头部、手臂等部位的目标位置指令,但人形机器人全身自由度高达数十个,指令与动作往往难以精准匹配,形成决策与执行的错配。

而双臂机器人虽能快速响应位置指令,却卡在“大脑“决策环节面对长时序任务或高复杂度操作,它们容易出错,缺乏在复杂情境下的灵活应变能力。

总体而言,当前具身智能最核心的短板,在于应对突发状况的应变力不足,以及从错误中自我恢复的自愈力缺失。

图片

那么,为什么机器人始终难以实现真正的智能?

一个关键的原因在于行业对大语言模型成功路径的盲目追随。正如原力无限资深研究科学家陈佳玉博士指出:“人们在大语言模型上看到了‘数据+算力’的成功范式,就想把这一整套直接搬到机器人学习上。结果导致具身智能在‘大脑’层面缺乏独立探索,整体仍处于蹒跚学步的阶段。”

大语言模型的成功提供了一套看似清晰、可复制的技术范式,但是这套“抄作业”的思路,在具身智能领域遭遇了明显的“水土不服”,主要受限于两大因素:

首先是数据的匮乏。大语言模型之所以能借助海量文本实现强大泛化能力,根本在于语言是单一模态信息。无论是新闻、代码还是对话,都可以统一为文本进行处理,采集和清洗成本低、效率高。

而具身智能需要处理视觉、语音、触觉、动作控制等多模态信息,不同模态数据的采集逻辑差异巨大,导致数据积累成本高、难度大。缺乏高质量、大规模的数据“喂养”,机器人自然难以应对未知场景,更无法实现自主纠错与恢复。

其次是跨模态协同带来的复杂性。大语言模型只需处理文字逻辑,不同文本间的关联是线性、可预测的,但机器人要同时完成看到物体、听懂指令、摸到质感、做出动作的闭环。

陈佳玉博士举例道,“让机器人拿起桌上的杯子,它得先通过视觉判断杯子位置,再结合语言指令理解‘轻拿’的要求,同时靠触觉反馈调整握力,最后通过动作控制完成抬手、抓取的连贯流程。”

这每一步的信息协同都需要精准匹配,而这种多模态信息的协同本身就是难题,再加上不同机器人的本体结构不同,动作空间更是千差万别,使得机器人结合多模态信息并做出反应的难度呈指数级上升。

这种智能能力的不足,也直接拖累了具身智能在真实场景中的落地进程。

图片

如今走进任何一场科技展会,都能看到机器人表演抓取、倒水、甚至跳舞,但这些亮眼的Demo,到了真实场景里却很难真正胜任。

在工业场景中,机器人往往难以真正替代人力。不少企业宣称机器人能替代人力,但实际应用中,机器人的操作效率远低于熟练工人,且对场景适配性较差。面对不同规格的零件、流水线微小变动,就可能出现操作失误,若是碰撞导致故障而停机维修,反而给企业增加了设备维护和生产停滞的隐性成本。

在家庭场景中,机器人则跳不出单一功能的孤岛。当前的家庭服务机器人大多只能专注一项任务,未能实现多场景的部署扫地机器人无法兼顾擦窗,洗碗机器人不能处理台面污渍,想让一台机器人既扫地又洗碗,甚至根据家人需求调整动作,几乎不可能。

尽管瓶颈显著,行业的探索并未止步。面对数据与协同的双重挑战,不同技术路线正逐渐成形,试图在感知、决策与控制等环节实现突破,为具身智能的下一步发展寻找可行路径。

02
双线交织下的技术演进

在具身智能从实验室走向产业化的过程中,技术路线选择成为核心焦点。当前产业界已分化出两条核心技术路径,一是以快速落地为锚点VLA(视觉语言动作模型),二是以突破泛化为目标世界模型。

在行业迫切需要从01验证商业价值的当下,VLA这有成熟践行经验的技术路径率先跑出。

VLA是如何让机器人听懂指令、完成动作的呢?

其核心逻辑是延续大语言模型“token化”思路,将视觉图像、语言指令、动作等多模态信息,统一拆解为离散化token”,通过监督学习直接建立输入输出的映射关系,让机器人通过模仿学习快速掌握具体任务。

以日常指令接一杯咖啡”为例VLA系统中不是一个模糊的需求,而是能够被拆解为一系列标准化动作。陈佳玉博士解释道:“VLA会将指令转化为可执行的动作序列移动机械臂至杯子上方、控制夹爪力度握紧、平移至咖啡机出水口、触发冲泡按钮、等待设定时间,最后将咖啡移至指定位置并松开,每一步都依照标准化的动作列表。

图片

这套看似连贯的操作,并非依赖复杂的逻辑推理,而是基于海量动作数据训练出的“条件反射”。VLA通过数据驱动的模式学会将指令映射为预设的动作列表,相当于照着脚本模仿本身并不具备自主的智能推演能力。

得益于这种技术架构,机器人研发的效率得到了显著提升。

一方面,开发者无需重新设计整体系统结构,仅需调整或替换输出模块,就能适配新任务,大幅缩短了研发与部署周期。另一方面,模型可通过增加数据和提升基座大模型能力实现迭代升级,有效降低了长期设计与维护成本。

更重要的是,VLA打破了以往只能在单个任务上训练大模型的局限性,让机器人第一次拥有了将语言意图、视觉感知与物理动作整合成连续决策能力,让具身智能更加通用和泛化,极大缩短了指令理解和任务执行之间的距离。

正因如此,VLA已成为当前具身智能领域应用最广的技术路径之一。2025年以来,多家科技巨头与创业公司陆续发布自研VLA模型,赛道竞争日趋激烈。

然而,VLA并非万能钥匙,其深层瓶颈正随场景复杂化逐渐暴露。

首先是数据采集难度大、成本高。VLA的训练依赖大规模、高质量的多模态数据集,需同步采集视觉、语言与动作信息。然而,当前具身硬件商用化程度低,数据采集成本高、可扩展性差,制约了模型的进一步发展。

其次是长期规划与状态跟踪能力的缺失。VLA通常由作为“大脑”的VLM(视觉语言模型和作为“小脑”的动作模型构成,二者依赖语言指令直接驱动动作,缺乏对时序依赖的有效处理,也缺少长期记忆机制。这导致模型在复杂任务中容易出现步骤遗漏、逻辑混乱,甚至陷入行为停滞或目标误判,难以胜任需多步推理的长流程任务。

VLA的路线截然不同,世界模型为机器人赋予了一种更接近“思考”的能力它不直接教机器人“怎么做”,而是先让它理解“世界如何运作”。这一路径的核心,在于让机器人在执行动作之前,先学会感知并预测环境的变化。

陈佳玉博士指出“VLA是从状态到动作的映射,而世界模型学习的是从当前时刻的状态到下一时刻状态的预测,它让机器人能够基于对物理规律的认知进行自主规划。”

世界模型是怎么教会机器人自主规划与泛化能力的呢?

世界模型通过编码物理世界的底层规律,在虚拟空间中构建出一个可推演的数字环境。在执行真实任务前,机器人可在此模型中预演多种动作路径,并推断其后果,从而自主规划出最优操作序列。

陈博士以“在桌面移动杯子”的任务为例进行说明:“世界模型能够预测到,如果杯子被推到桌边仍继续移动,就会因重力掉落。基于这种对因果关系的理解,机器人会在规划阶段主动避开边缘区域,生成安全可靠的动作序列。”

图片

整个过程不是对训练数据的简单复现,而是基于物理规律预测和风险规避的自主推理。

世界模型的独特优势在于其能够进行事实推理。也就是说,当接到指令时,世界模型不会依赖预设的动作脚本,而是先在内部模拟场景变化。整个过程的动作序列都是基于预测后果和规避风险的逻辑生成的,而非重复训练数据中的动作。

正是因为这种机制,使机器人从“重复学到的动作”升级为“理解行为背后的逻辑”,从而显著增强在动态环境中的应变与决策能力。也因这一潜力,世界模型已成为具身智能领域备受关注的研究方向。

陈博士认为,世界模型能够达到的技术天花板更高。不过,世界模型目前仍处于发展早期,尚未进入成熟应用阶段。

首先在于技术路线尚未统一。世界模型需要同时捕捉几何结构、物理规则与因果关系,建模复杂度极高,导致研发投入巨大、周期漫长。

其次是模拟到现实的迁移差距显著。虚拟环境中的推演无法完全匹配真实世界的复杂性,导致生成的动作指令在实际执行时经常出现偏差。

因此,尽管世界模型在理论上代表了一条通向通用智能的可行路径,但目前仍更多停留在研究与原型验证阶段,尚未实现规模化商业落地。陈佳玉博士预测,至少需要三到五年时间,世界模型才能真正跑起来

VLA与世界模型并非彼此替代,而是在不同阶段、不同场景中互为补充。在两条路线的交织演进中,具身智能正逐步跨越演示可行真正可用的关键门槛。

03
原力无限的“杀手气质”

在具身智能行业仍处于技术验证与场景探索的早期阶段,原力无限凭借清晰的商业化路径与高度务实的产品逻辑,展现出一种独特的“杀手气质”。

正如其创始人白惠源所言:“我们的杀手气质,不是为了杀死竞品、让行业内卷,而是体现在追求极致、不破不立的决心,敢于触碰别人不愿涉足的复杂领域让用户享受更优质的服务和更好的体验。”

图片

基于这一理念,当前原力无限的商业图景已初见成效。原力无限FORCE系列已经在全国20多个核心城市落地,服务数千万的新能源车主。而AstroDroid系列机器人已拿到2.6亿元订单,面向家庭、文旅、服务等场景,能够适配多样需求。

原力无限为何能够快速实现商业落地?

这并非单一优势的偶然爆发,而是源于其在全链条团队、双线技术路线与场景聚焦三个维度上的协同。这种协同使其在有用与前沿之间找到了关键平衡,既避免了纯算法探索的资源空耗,也跳出了单一技术路径的发展局限,在落地中迭代。

三类人才协同,打破技术断层

具身智能的突破离不开科研、工程、硬件的协同,原力无限搭建的“三驾马车”团队架构,恰好补上了行业普遍存在的能力断层短板。

白惠源介绍道,“原力无限的团队成员一类具备深厚的科研实力;一类拥有成熟的工程化能力,之前在智驾领域有成熟落地案例,能直接借鉴到具身智能领域;还有一类专注于硬件设计与控制,来自传统机器人领域,负责本体和小脑侧的运动控制与设计。这三驾马车共同确保,未来不管是在技术、产品还是在商业化能力上,原力无限能在行业处于第一梯队的位置。”

原力无限的科研引领层以资深研究科学家陈佳玉博士为核心,深耕多模态大模型与强化学习领域多年而强化学习正是机器人“大脑”后训练与“小脑”高难度运控的核心技术,多模态大模型则是VLA路线的底层基座,这些积累与具身智能研发高度契合。在他的带领下,团队可以在前沿方向延伸,避免了技术探索的盲目性。

图片

工程落地层的核心成员多为智能驾驶及主机厂背景,自带全流程工程化经验。从数据采集、清理到标注,他们能快速搭建起数据模型的闭环体系,有效支撑模型训练所需的海量真实数据,大幅降低数据采集成本,为技术落地提供坚实支撑。

硬件支撑层则汇聚了传统机器人领域的资深人才,专注于本体设计与运动控制。这一布局自主掌控硬件设计,既能避免依赖外部本体导致的API调用限制,也能让“大脑”的决策指令与“身体”的运动能力精准匹配为人形机器人解决高自由度运控难题,实现大脑、小脑、本体的深度协同。

三类人才形成的合力,让原力无限既能深耕算法前沿,又能搞定工程落地,还能自主优化硬件适配,构成了难以复制的核心壁垒。

VLA+世界模型,双轨并进实现优势互补

面对VLA的落地优势与世界模型的未来潜力,原力无限选择双线并行的技术路线,既保证当下能落地,也抢占未来制高点。

陈佳玉博士解释选择两条技术路线并行的原因,“VLA的训练依赖于大量的数据,在真实世界去采集数据成本会比较高。世界模型就相当于是一个虚拟的世界,如果能有一个很好的世界模型,可以在虚拟的世界里采集大量的数据来训练VLA能够很好地节约成本。同时,世界模型作为前沿方向,能突破VLA的固有局限。”

在实用端,团队以VLA技术为核心,快速推进场景落地。依托工程团队的数据流能力,原力无限基于海量数据训练VLA模型,让机器人能快速掌握具体任务。该框架技术成熟、落地门槛低,能借助端到端架构实现感知与控制一体化,避免传统模块拼接的逻辑断层。目前,原力无限自主研发的Hyper-VLA端到端模型已实现突破,能将视觉、语言与动作控制深度贯通,模型在有限的数据与算力条件下,仍能高效进化。

图片

在前沿端,团队布局世界模型研发。陈佳玉介绍团队技术攻坚的关键方向一是捕捉可泛化的因果关系,让机器人理解动作与结果的本质关联二是构建以Agent为中心的世界模型,让机器人能基于自身体验持续更新对世界的认知,而非依赖第三方视角的通用数据三是探索多时间尺度的预测能力,让规划更贴合真实世界的动态变化。

这种布局既发挥了VLA技术成熟、易落地的优势,又通过世界模型突破了其数据依赖、泛化性弱的瓶颈,实现了短期实用与长期前沿的兼顾。

原力无限认为,未来通用智能诞生的挑战不仅仅是模型和算法之战,更是如果高效获取数据、增加数据的有效性和增广之战。白惠源透露,在数据这个方向上,原力无限还有更多杀手锏技术即将发布。

聚焦场景落地,制定长期战略

原力无限的所有布局都围绕“落地”展开。在白惠源看来,“我们做人形机器人最核心的一个目标其实就是面向通用性。它不是为了解决某个特定的问题,而是能在更多的泛化场景下去实现自己的能力。”

图片

当前,原力无限构建出清晰的战略路径。短期来看,团队聚焦工业制造与商业服务等可控场景,以可快速部署的产品验证技术实用性。在商业场景,FORCE系列机器人已在多个核心场景落地,这些产品的落地不仅带来了实际营收,更重要的是形成了数据飞轮机器人在真实场景中持续产生数据,反哺模型优化,让后续产品的泛化能力不断提升。

而长期来看,原力无限则瞄准家用人形机器人,通过“一脑多身”架构打破传统机器人单任务专用的局限,实现跨场景的泛化能力。白惠源强调一脑多身”不仅仅是一种产品形态,更是一种数据战略。如果为每个场景单独造机器人,数据就是孤岛。但当我们用同一个大脑(Hyper-VLA)去驱动充电机器人、巡检机器人、陪伴机器人甚至未来的人形机器人时,不同场景的数据就开始产生化学反应。这就好比一个孩子,学会了在操场上跑步,这种平衡能力自然能帮助他在客厅里走路。原力无限正在构建的,就是这样一种通用的物理世界通用智能。

具身智能从蹒跚学步到稳步前行,依然道阻且长。当前行业都尚未真正突破通用能力的临界点在技术路线逐渐分野、落地逻辑日趋清晰的当下,原力无限走出了一条不唯技术论、而以落地为导向的路径。“杀手气质”并非一句口号,而是一种在复杂系统中找准发力点的能力找到持续进化的平衡。

原力无限的实践或许只是行业演进中的一个切片,这条路没有捷径,但每一步有效的落地,都在为行业校准方向

北京第一新声信息咨询有限公司 版权所有(C)2024 京ICP备2024089855号-1

第一新声商务经理 Sherry
Tel:18910717116

第一新声商务经理 Sherry
Tel:18910717116

第一新声研究客服 Kim小严

第一新声编辑客服 Tina

第一新声运营经理 孟小新