清华大学等顶尖高校联手打造“沉浸式世界模拟器”:技术突破与未来展望
2026年6月,清华大学联合华中科技大学、快手科技(旗下Kling团队)、香港科技大学、武汉大学,共同发布了名为AnchorWorld的“沉浸式世界模拟器”研究成果,相关论文已发表于arXiv平台(论文编号:arXiv:2606.07326),旨在解决AI生成虚拟世界时“空间一致性差、交互响应不自然”的核心痛点,让虚拟世界更贴近真实物理规律。
一、现有技术痛点:为什么需要“锚点”设计?
在AI视频生成领域,现有技术在模拟“可交互的沉浸式世界”时存在两大核心缺陷:
空间感知缺失:传统AI生成虚拟世界时,采用“走到哪、生成到哪”的模式,未对未探索区域做预设。用户绕圈回到原点时,墙上的画可能变色、房间里的人可能消失,场景缺乏“全局一致性”。
身体-环境交互割裂:第一人称视角下,AI难以通过碎片化的画面(如仅能看到双手)理解“身体动作与视觉变化”的关联,导致用户移动时,虚拟世界的响应不符合真实物理逻辑(如迈步时地板不会“逼近”、转头时物体不会“滑入视野”)。
二、AnchorWorld的核心技术突破
针对上述痛点,研究团队提出“锚点世界”(AnchorWorld)框架,通过两大技术创新实现“可交互、高一致”的沉浸式虚拟世界:
1. 混合视角训练法:破解“第一人称交互”难题
为解决“第一人称视角下身体动作信息缺失”的问题,团队采用混合视角训练策略:
第三人称预训练:利用20万条真实单人动作视频+10.1万条虚幻引擎生成的合成视频(MultiCamVideo数据集),让AI先学习“完整人体动作与视觉变化的空间映射关系”(如脚部迈步、身体重心转移如何影响周围场景)。
第一人称迁移训练:将第三人称阶段学到的“身体-空间”逻辑迁移到第一人称场景,即使仅能看到双手,AI也能推测身体其他部位的动作,生成符合物理规律的虚拟世界响应(如用户转身时,角落的书柜会自然“滑入视野”)。
2. 空间姿态注意力机制:实现“全局场景锚定”
通过空间姿态注意力模块,将人体动作数据注入AI视频生成底层模型(基于流匹配技术的扩散模型Wan),实现:
动态锚点预设:在虚拟世界关键位置(如房间角落、家具旁)提前设置“状态锚点”,记录物体位置、人物动作等核心信息。
全局一致性维护:用户移动时,AI会根据锚点信息实时调整场景,确保“未探索区域的状态与已探索区域逻辑一致”(如绕圈回到原点,墙上的画、房间里的人保持初始状态)。
三、技术价值与未来应用场景
AnchorWorld的研究不仅是AI视频生成的技术突破,更在多个领域具备落地潜力:
元宇宙与虚拟社交:构建“多人共享、状态一致”的虚拟社交空间,用户在不同视角下看到的场景、人物动作完全同步,解决“虚拟世界多人交互割裂”的痛点。
具身智能与机器人训练:为机器人提供“可交互、高保真”的虚拟训练环境,让机器人在模拟场景中反复试错,降低真实物理世界的训练成本与安全风险。
教育与医疗模拟:打造“沉浸式、可交互”的教学/诊疗场景(如虚拟手术模拟、历史场景重现),提升用户体验与学习效率。
四、行业趋势:多智能体世界模型进入“联机时代”
除AnchorWorld外,清华大学刘芳甫博士联合英伟达、多伦多大学发布的Gamma-World,也实现了“多玩家共享同一虚拟世界”的突破:
支持4路第一人称视角同时展开,玩家移动、交互时,共享地形与建筑状态完全一致;
技术迁移到真实双臂机器人任务中,两条机械臂可协同操作同一物体,空间逻辑无错乱。 这类“多智能体世界模型”的研究,标志着AI生成的虚拟世界正从“单视角、静态生成”向“多主体、动态交互”演进,未来将逐步实现“走进AI构建的沉浸式世界”的愿景。