智源研究院将世界模型视为AI迈向通用智能(AGI)的下一个关键战场,正通过技术迭代与战略布局,推动AI从数字世界向物理世界深度演进。以下是核心信息梳理:
一、技术演进:从大模型到世界模型的清晰路径
智源的技术布局呈现明确的阶段性升级,逐步聚焦“物理世界交互”这一核心方向:
大语言模型阶段(2021-2022):发布中国首个超大规模预训练语言模型“悟道1.0”及参数量领先的“悟道2.0”,引领国内大模型浪潮
。
多模态模型阶段(2022-2023):布局多模态大模型,2023年推出“Emu1”和“Emu2”,实现多模态输入到输出的端到端映射,具备跨模态上下文学习能力
。
世界模型阶段(2023至今):2024年发布全球首个原生多模态世界模型“悟界·Emu3”,成果登上《Nature》正刊,是我国科研机构主导的大模型成果首次在该期刊发表
;2025年10月推出“Emu3.5”,实现从“预测下一个词元”到“预测下一个物理状态”的能力跃迁
。
二、核心成果:Emu系列世界模型的迭代突破
智源的世界模型研发以“悟界·Emu”系列为核心,持续刷新技术标杆:
Emu3(2024年10月):全球首个原生多模态世界模型,仅基于“下一个token预测”技术,无需扩散模型或组合方法,即可实现文本、图像、视频三种模态的统一理解与生成,验证了自回归框架在多模态领域的普适性
。
Emu3.5(2025年10月):在Emu3基础上实现三大升级:
能力跃迁:从“预测下一个词元”升级为“预测下一个物理状态”,模拟人类自然学习方式,赋予模型可泛化的世界建模能力
。
数据规模突破:基于超10万亿token的多模态数据训练,视频数据时长从15年跃升至790年,参数量从8B提升至34B,揭示原生多模态Scaling范式潜力
。
效率与能力双提升:创新“离散扩散自适应(DiDA)”技术,推理速度提升近20倍,首次使自回归模型效率媲美顶尖闭源扩散模型;同时具备意图到规划(理解高层级意图并生成多步骤行动路径)、动态世界模拟(预测物理动态、时空演化与长时程因果关系)、泛化交互基础(因果推理与具身操控能力)三大核心能力
。
三、战略定位:抢占AI物理交互的“下一个十年主战场”
智源研究院院长王仲远明确表示,大语言模型时代已完成探索,世界模型是“下一个十年的主战场”,其核心逻辑在于:
重新定义世界模型:区别于当前主流的“视频生成模型”,智源认为真正的世界模型应“预测下一个物理状态”,而非仅生成虚拟画面。其目标是构建“大模型驱动的通用基座模型”,在潜力上远超人类经验构建的仿真引擎,未来可用于科学发现、物理规律探索等领域
。
技术先行战略:智源坚持“技术先行,早于产品,早于系统”的理念,类比深度学习从2006年提出到2022年大模型爆发的历程,认为世界模型当前处于“2012年大语言模型”的早期阶段,数据与路径尚未收敛,但未来3-5年将快速迭代
。
全球竞争格局:世界模型已成为全球AI竞争的核心坐标,除智源外,杨立昆(AMILab)、李飞飞(WorldLabs)、谷歌DeepMind(Genie系列)、英伟达(Cosmos)及字节、阿里、腾讯、华为等厂商均在加速布局,竞争焦点从“虚拟内容生成”转向“物理世界真实交互”
。
四、挑战与展望:数据是核心卡点,AGI路径清晰可见
尽管前景广阔,智源也清醒认识到世界模型仍处于初级阶段:
核心挑战:真实世界数据极度缺乏,当前科研技术尚未充分挖掘有价值信息。王仲远比喻:“2岁孩子通过刷短视频自学拆糖果,世界模型也需要类似的海量真实数据来加速认知形成”
。
未来路径:智源计划持续迭代世界模型,推动AI从“理解世界”向“行动世界”演进,最终实现与物理环境的泛化交互,为通用人工智能(AGI)提供坚实基座
。