

作家团队来自南洋理工大学 MARS Lab、加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构的议论者。团队长久关爱机器东说念主学习、具身智能、天下模子、多模态基础模子与机器东说念主计谋学习。
天下模子正在成为机器东说念主学习中绕不开的议题。
往时几年,机器东说念主计谋学习的干线之一,是从传统的任务特定计谋,转向更通用的 Vision-Language-Action (VLA) 模子。通过大范畴视觉谈话模子和机器东说念主轨迹数据,VLA 模子大致将视觉不雅测、谈话请示和动作输出长入起来,在跨任务、跨场景泛化上展现出后劲。
但机器东说念主收尾并不仅仅「看图回应动作」。在确什物理环境中,计谋模子需要面对斗殴、报复、万古序依赖、虚伪积蓄和多步瞎想等问题。一个只凭据现时不雅测平直输转移作的模子,常常空匮对异日景况变化的显式预判。
这使得天下模子再行成为机器东说念主学习中的中枢场地:机器东说念主不仅要知说念「当今是什么」,还要能展望「要是奉行某个动作,天下接下来会若何演化」。
近日,来自南洋理工大学 MARS Lab 的议论者,连接加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构,发布综述论文《World Model for Robot Learning: A Comprehensive Survey》,系统梳理了天下模子在机器东说念主学习中的界说、架构范式、应用场景、评测基准与异日挑战。论文共 43 页,并配套捏续更新孤寒的 GitHub 资源库。

论文标题:World Model for Robot Learning: A Comprehensive Survey

图 1:论文合座框架图
机器东说念主天下模子:
要点不是生成,而是可用于决策的展望
在机器学习和明白科学语境中,world model 并不是一个新看法。它频繁指大致描绘环境景况若何随时分和动作发生变化的展望模子。
但在机器东说念主学习中,作家强调需要对这一看法作更严格的界定。机器东说念主天下模子不应仅仅一个能生成异日画面的模子,而应是大致样式「智能体——环境」动态演化的模子。换言之,它需要回应的是:在现时景况下,要是机器东说念主奉行某个动作,异日景况会若何改革。
这少许也区分了机器东说念主天下模子和一般视频生成模子。后者不错生成视觉上合理的视频,但随机具备动作一致性。举例,模子可能生成一段看似当然的物体挪动视频,却无法准确反应机器东说念主夹爪动作、斗殴干系和受力变化。关于机器东说念主收尾来说,这么的展望价值有限。
因此,论文将机器东说念主天下模子的中枢才能空洞为三类:
第一,foresight,即在奉行前展望动作后果;
华游娱乐中国官网入口第二,imagination-driven planning,即通过念念象 rollout 比较候选行径;
第三,data amplification,即通过合成轨迹或演示数据改善计谋学习。
这也评释了为什么天下模子与机器东说念主学习的伙同正在加快。VLA 计谋提供了从视觉停火话到动作的接口,而天下模子补充了对异日物理变化的展望结构。二者伙同后,机器东说念主计谋不再仅仅反应式映射,而是有契机引入更强的前瞻性和瞎想才能。
天下模子若何接入机器东说念主计谋?
论文伊始议论的是天下模子与机器东说念主计谋的伙同样式。作家将现存形式按架构诀别为多类,从早期解耦式形式,到单主干采集、MoE / MoT 架构、长入 VLA,再到 latent-space world modeling。

图 2:时分线发展图
早期阶梯频繁经受「展望异日,幸运彩票app官方手机版再复原动作」的两阶段框架。模子先哄骗视频生成或异日不雅测展望模块,生成任务操办的异日景况;随后,一个逆能源学模子凭据现时不雅测和展望异日,算计机器东说念主应奉行的动作。UniPi、VidMan、Vidar、Gen2Act 等使命不错归入这一类。
这类形式的上风在于模块澄莹。天下模子认真展望「将会发生什么」,计谋模块认真把展望收尾飘摇为动作。但问题也很显着:两个模块之间存在接口格外,生成的视频或 latent 表征要是与确实动作后果不一致,就会影响后续收尾。
随后,议论运转转向更紧耦合的决策。一类形式使用单一世成主干同期建模异日视觉景况和动作序列,将视频展望与动作生成放进团结个扩散或流匹配经由。UVA、UWA、VideoVLA、Cosmos Policy 等形式都体现了这一趋势。它们不再把天下模子动作外部模块,而是试图让展望和收尾在团结个模子里面共同发生。
另一类形式经受 MoE / MoT 或多分支群众结构。视频群众、动作群众停火话和会模块保捏一定进度的参数零丁,但通过分享提防力、交叉提防力或层间交互已毕信息和会。Motus、LingBot-VA、BagelVLA 等形式都属于这一场地。比拟皆备分享主干,这种瞎想保留了不同模态的挑升才能,同期让视频展望中的时序和物理先验影响动作生成。

图 3:IDM、Single-Backbone、MoT 三种样式的对比
长入 VLA 则代表了另一条阶梯。它们不一定显式调用外部视频天下模子,而是通过异日图像展望、视觉 foresight、结构化天下常识或 latent 动态建模,把展望瞎想内化到 VLA 历练经由之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等形式都在不同层面体现了这种趋势。
值得提防的是,论文并莫得简便判断哪一起线还是胜出。相背,作家指出,现时机器东说念主天下模子仍处在快速演化阶段。解耦模块、长入生成主干、群众羼杂结构和 latent 表征各有优劣,最终收尾取决于数据范畴、收尾频率、任务复杂度、推理资本以及模子是否确实捕捉到动作条目下的物理变化。
从计谋模块到可交互模拟器
天下模子的第二类弘大用途,开云世界杯中国有限公司官网是作为机器东说念主学习中的模拟器。
传统机器东说念主强化学习濒临一个长久瓶颈:确实交互资本高、采样服从低、复位艰苦,况且存在硬件安全风险。要是不错用学习到的天下模子替代确实环境进行 rollout,计谋就不错在杜撰交互中取得历练信号。
论文将这一场地称为 World Model as Simulator。在这一范式中,天下模子收受现时不雅测、任务请示和候选动作,展望下一步不雅测、奖励或断绝信号。计谋模子不错在这个学习到的环境中进行强化学习后历练,也不错在测试阶段用天下模子评估多个候选动作。

图 4:天下模子作为 RL 模拟器和动作考证器
这一起线的关键价值,是把天下模子从「支持展望器」股东到「历练环境」。举例,部分形式尝试用天下模子生成 imagined transitions,用于 VLA 的 RL post-training;也有形式哄骗展望 rollout 对候选动作进行排序,在奉行前判断哪一组动作更可能得手。
不外,作为模拟器的天下模子也濒临更高要求。用于洞开式视频生成时,模子只需在视觉上保捏合理;但用于计谋历练时,模子虚伪会平直影响计谋优化场地。一个略略偏差的能源学展望,可能在多步 rollout 中被放大,导致计谋学到虚伪行径。因此,长久结识性、动作敏锐性和奖励一致性,是这一场地绕不开的问题。
视频生成模子能否成为机器东说念主天下模子?
频年来,大范畴视频生成模子的发展,为机器东说念主天下模子提供了新的基础才略。视频模子自然学习时序变化、通顺贯穿性和空间结构,因此被以为可能为机器东说念主收尾提供有价值的先验。
但论文强调,机器东说念主视频天下模子不行平直等同于通用视频生成。关于机器东说念主学习而言,最弘大的并不是画面质地,而是动作可控性和物理一致性。
一个确实有用的机器东说念主视频天下模子,需要在给定谈话请示、现时不雅测和动作序列时,生成与动作后果一致的异日景况。它还需要科罚物体报复、斗殴变化、用具使用、场景几何和万古序任务等问题。
论文将机器东说念主视频天下模子的发展空洞为几个阶段:
从当先的 imagination-based generation,即生成异日视频作为计谋学习的支持;
到 action-controllable world model,即显式建模动作对异日视觉景况的影响;
再到 structure-aware world model,即引入深度、3D、对象、轨迹、场景结构等中间暗示;
最终走向 foundation-scale world model,即具备更大数据范畴、更强泛化才能和多任务适当性的基础天下模子。

图 5:机器东说念主视频天下模子操办分类
评测门径正在发生变化
论文的另一个要点是评测。关于天下模子,单纯评估视频澄莹度或生成质地还是不够。
在机器东说念主场景中,评测应关爱模子是否能改善确实任务推崇。举例,它能否提高计谋得手率?能否正确排序候选动作?能否展望失败轨迹?能否在万古序任务中保捏因果一致?能否匡助计谋减少确实交互样本?
因此,作家以为异日的 benchmark 需要从 open-loop visual fidelity 转向 closed-loop task utility。也即是说,天下模子的犀利不应只由「生成得像不像」决定,而应由「是否匡助机器东说念主作念得更好」来决定。

图 6:机器东说念主与天下模子数据集
论文整理了多个机器东说念主学习 benchmark 和数据集,包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等,并对不同天下模子计谋在这些环境中的推崇进行了归类比较。这些收尾走漏,现时最灵验的形式并不麇集在单一架构上;不同任务下,解耦式、长入式、群众羼杂式和 latent-space 形式都可能推崇出竞争力。
异日挑战:动作一致性、服从和物理 grounding
尽管天下模子在机器东说念主学习中展现出后劲,但论文也指出,距离可靠部署仍有多项关键挑战。
伊始是动作条目下的因果一致性。模子不行只凭据历史不雅测「脑补」异日,而必须准确反应动作带来的景况变化。关于闭环收尾来说,这是天下模子是否确实有用的基础。
其次是推理服从。好多视频扩散模子诡计资本较高,难以满足机器东说念主及时收尾需求。因此,越来越多形式运转探索 latent-space prediction、历练时使用天下模子、测试时跳过显式视频生成等决策。
第三是物理 grounding。确实机器东说念主交互依赖摩擦、力、触觉、物体材质和斗殴结识性,仅靠视觉展望常常不及。未下天下模子可能需要和会实践嗅觉、力觉、触觉和结构化几何暗示。
此外,论文也提到,神经天下模子并不消然取代传统瞎想和收尾形式。相背,记号暗示、对象干系、因果结构和经典收尾仍可能为万古序任务提供更结识的抽象层。若何把神经展望才能与结构化瞎想伙同起来,将是机器东说念主天下模子的弘大场地。
结语
这篇综述的价值在于,它莫得把天下模子简便视为视频生成模子在机器东说念主领域的转移,而是从机器东说念主学习本人起程,再行梳理了天下模子应该承担的功能:支持计营生成、充任学习模拟器、搭救评估与瞎想、生成历练数据,并最终劳动于确实可奉行的机器东说念主行径。
对机器东说念主学习而言,天下模子的中枢问题不是「能不行念念象异日」,而是「念念象出的异日能否用于收尾」。
当机器东说念主大致在行动前展望后果、在奉行中更正瞎想、在历练中哄骗杜撰交互翻新计谋开云世界杯中国有限公司官网,天下模子才确实从生成模子走向具身智能系统的中枢组件。