切换到宽版
  • 46阅读
  • 2回复

[智能应用]AI的下一场革命,智源“押注”世界模型 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
188633
金币
692496
道行
20100
原创
769
奖券
545
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 24001(小时)
注册时间: 2012-06-21
最后登录: 2026-06-17
只看楼主 倒序阅读 楼主  发表于: 06-12
— 本帖被 兵马大元帅 执行加亮操作(2026-06-15) —
回顾国内AI的早期发展历程,一定离不开北京智源研究院。2021年3月,智源发布的悟道1.0开启了中国的大模型时代,杨植麟、唐杰等后来的国内大模型翘楚均曾在此工作,也正因如此,智源研究院一度被视为国内大模型的“黄埔军校”。
当时间推移到2026年6月,智源的主要研究方向却并不再是大语言模型。理由很简单。“作为新型研发机构,智源主要做高校、企业不愿意做的人工智能方向重大科研创新,我们一直都在人工智能大模型的最前沿。”智源研究院院长王仲远告诉新京报贝壳财经记者。
6月11日,新京报贝壳财经记者随“活力中国调研行”走访智源研究院,了解到了当下王仲远认为“最前沿”的领域——世界模型。智源研究院,也是国内最早倡导世界模型的科研机构。


新京报贝壳财经记者 罗亦丹 摄
世界模型不是3D生成,而是“预测下一个物理状态”
新京报贝壳财经记者曾体验过不少“世界模型”产品,如用户提供一张图片,世界模型可以依据该图片生成一个“3D世界”,一些产品还允许用户进入该“世界”进行移动探索,从表现形式来看,更类似视频生成或者网络游戏。
但在王仲远看来,视频生成并不等于世界模型,“现在业内普遍把视频生成模型称作世界模型,源头是OpenAI发布 Sora时用了‘世界模拟器(World Simulator)’的说法,这个叫法原本只是形容视频生成。如今热门的视觉-语言-动作模型(VLA)、世界动作模型(World Action Model),只是把画面视频和动作数据拼在一起。目前来看,大家都在叫的世界模型都不是真正意义上的世界模型。”
什么是世界模型?这一概念实际上众说纷纭,6月初,被誉为“AI之母”的李飞飞就曾发布长文,试图给世界模型“下定义”。而此次对话,王仲远给出了一个更易理解的答案——相比大语言模型预测的是“下一个Token(词元)”,世界模型所预测的应该是“下一个物理状态”。
“你看到的3D世界生成的产品概念更多应用于虚拟世界,在这一领域,目前许多游戏已经拥有了非常逼真的模型、光线以及物理引擎。但仿真引擎也有自己的上限。我们所希望的世界模型是大模型驱动,只要数据量足够就会远超人类经验构建出来的引擎。在潜力方面,就像现在大语言模型将来用于科学发现一样,世界引擎也可以用来帮助我们发现新的规律,作为未来的世界基座模型,世界模型在理论上存在更大的上限空间。”王仲远告诉新京报贝壳财经记者。
王仲远表示,智源一直都在人工智能大模型的最前沿,“早在当年的语言大模型时代,我们发布了悟道1.0、2.0和3.0,也孵化出了智谱、面壁这些主流大模型公司。正是因为有了这样的布局,才会有大模型不同阶段的成果产出。而2023年,智源开始涉及世界模型,2025年发布emu3和emu3.5多模态世界模型,2026年推出了physis和orca,一直在探索前沿。”
“从智源研究院的角度来看,我们一直沿着几年前对于人工智能技术的预判不断发展。”王仲远强调,智源不是在跟风,而是在按照既定的战略方向稳步推进。大语言模型两年之前就已经完成探索,交给智谱、面壁这些企业去做;现在开始注重世界模型,因为这是下一个十年的主战场。
他的理念是:技术先行,早于产品,早于系统,“就像深度学习是从2006年提出的理念和解决方案,Transformer2017年提出,而大语言模型直到2022年底才爆发。因此,现在就需要对技术路径进行各种各样的探索,可以引领和促进世界模型的爆发。”
王仲远说,在大语言模型时代,智源是跟随者,但到了多模态时代,智源已经开始提出自己独立的技术路径,“世界模型开始,我们有了自己对于这个问题的定义,技术路线上也有我们自己的信仰,某种程度上也证明了中国人工智能力量在努力探索前沿方向,希望能够最终引领。”
世界模型仍处于初级阶段,“就像2012年的大语言模型
尽管智源对世界模型的未来充满信心,但王仲远毫不讳言当前的真实处境——世界模型依然处于非常早期的阶段。“必须承认物理AI特别是世界基座模型的研究,在全世界范围依然处于非常早期,甚至概念和技术路径都远没有收敛。”
他比喻称,目前世界模型所处的阶段类似于“2012年的大语言模型”,彼时深度学习刚刚开始兴起,虽然神经网络已有十层、一百层,但依然只能解决较为具体的问题和任务,经过不断升级迭代和互联网海量数据的积累,才有了GPT的出现。
“当下世界模型还没到GPT时代,因为数据非常缺乏。”王仲远表示,从2012年到2022年底ChatGPT发布,走了十年,现阶段随着人工智能越来越强,演化速度越来越快,可能三年五年就能有足够多的数据累积。
数据是当前最核心的卡点。王仲远表示,长期来看,构建世界模型的真实世界数据依然缺乏,对于有价值的信息,现在的科研技术还没有充分挖掘。他举例称,一个2岁的小女孩也可以通过天天刷短视频,在父母没有教过她的前提下学会拆糖果,他认为,正如同现在孩子获取信息的渠道比之前一辈人更多,极大加速了脑中认知的形成,世界模型也有“异曲同工”之处。
实际上,当前世界模型的技术路线也远未收敛。王仲远总结了现在世界模型的四种主流技术定义方式:以像素为中心、以三维结构为中心、以视觉表征为中心,以及以语言为中心。他表示,当前智源更接近第四种以及视觉与语言的融合方向,同时也坦承,这不代表其他路线就没有价值。
“世界模型不同路线的差异客观上造成了一定的认知混乱,但这也并非坏事,而是行业开始形成共识的过程,意味着人才、资本、技术解决方案的不断提出,客观上会促进世界模型的迭代、演进和发展。”王仲远说。
青年挑大梁:大四学生成为世界模型团队负责人
在采访中,新京报贝壳财经记者注意到,智源世界模型团队的人员构成非常年轻,如智源行为世界模型创新中心负责人陈博远今年大四。
“智源研究院一直都在强调青年挑大梁,不看帽子资历,给年轻人舞台。这些年轻、高潜力、又有代表作的青年科学家恰恰就是智源研究院成立八年以来一直努力做事的体现,也是智源在大模型时代、多模态时代产生行业和科研成果的基础。”王仲远说。
这样的人才是如何被发现的?王仲远用“惺惺相惜”来形容,“优秀的人才和天才都是有重力场的,会互相吸引。比如当前世界模型研究团队的两位负责人是在一个寻常的中午,吃盒饭聊天时‘发掘’出来的,经过谈话,我们发现虽然世界模型有很多定义,但我们的理解和目标完全一致,之后几乎当场拍板,决定要一起来做这件事。”
对此,陈博远也表达了自己的看法:“可能我并不算是千里马,但伯乐一定非常难寻。在智源研究院搞研发,核心愿景就是制造出来能够超越人类智能水平的通用AGI,我觉得这不一定是虚无缥缈的学术理想,它可以实际落地、改变生活。”
王仲远认为,这体现了智源研究院创新的机制体制以及灵活决策的优势,“智源愿意提供这样的环境和舞台,让这样一群优秀的、有着技术信仰的年轻人聚集在一起,不被外界干扰,不被琐事影响,专心致志进行技术突破。”
这种模式的核心是什么?王仲远总结了几个关键要素:有规划的前沿科研探索,基于对人工智能技术路径的发展;青年挑大梁,不以帽子,不以资历,而是以代表作和潜力选择人才,给予充足的资源搞科研;开源开放的生态,不管是科研成果还是跟很多企业合作,使得路越走越宽。智源一定会坚持去做这些“对的事情”。
对于世界模型的未来,王仲远保持着乐观但理性的态度。“智源推出的产品中,不论是悟界Physis还是RoboBrain·Orca,目标都不是短期就要在真实物理世界大规模部署,周期可能是三年甚至更长时间。世界模型是一个长期过程,短期落地不是我们最着急的事。”
在采访最后,当被问及智源去进行前沿技术的早期“试错”,如果失败怎么办,以及是否考虑更加商业化这一问题时,王仲远给出了颇具个人风格的回答:
“企业有企业的商业逻辑和商业目标,所以不太可能像我们这样纯粹地思考和探索。对于可能失败的模型、新的方向和技术路径的探索,智源需要担起这样的责任,去开创,去创新,去突破,当然也有可能失败,但这也恰恰是科研的魅力。”
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
188633
金币
692496
道行
20100
原创
769
奖券
545
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 24001(小时)
注册时间: 2012-06-21
最后登录: 2026-06-17
只看该作者 沙发  发表于: 06-12
智源研究院将世界模型视为AI迈向通用智能(AGI)的下一个关键战场,正通过技术迭代与战略布局,推动AI从数字世界向物理世界深度演进。以下是核心信息梳理:

一、技术演进:从大模型到世界模型的清晰路径
智源的技术布局呈现明确的阶段性升级,逐步聚焦“物理世界交互”这一核心方向:

大语言模型阶段(2021-2022):发布中国首个超大规模预训练语言模型“悟道1.0”及参数量领先的“悟道2.0”,引领国内大模型浪潮

多模态模型阶段(2022-2023):布局多模态大模型,2023年推出“Emu1”和“Emu2”,实现多模态输入到输出的端到端映射,具备跨模态上下文学习能力

世界模型阶段(2023至今):2024年发布全球首个原生多模态世界模型“悟界·Emu3”,成果登上《Nature》正刊,是我国科研机构主导的大模型成果首次在该期刊发表
;2025年10月推出“Emu3.5”,实现从“预测下一个词元”到“预测下一个物理状态”的能力跃迁

二、核心成果:Emu系列世界模型的迭代突破
智源的世界模型研发以“悟界·Emu”系列为核心,持续刷新技术标杆:

Emu3(2024年10月):全球首个原生多模态世界模型,仅基于“下一个token预测”技术,无需扩散模型或组合方法,即可实现文本、图像、视频三种模态的统一理解与生成,验证了自回归框架在多模态领域的普适性

Emu3.5(2025年10月):在Emu3基础上实现三大升级:
能力跃迁:从“预测下一个词元”升级为“预测下一个物理状态”,模拟人类自然学习方式,赋予模型可泛化的世界建模能力

数据规模突破:基于超10万亿token的多模态数据训练,视频数据时长从15年跃升至790年,参数量从8B提升至34B,揭示原生多模态Scaling范式潜力

效率与能力双提升:创新“离散扩散自适应(DiDA)”技术,推理速度提升近20倍,首次使自回归模型效率媲美顶尖闭源扩散模型;同时具备意图到规划(理解高层级意图并生成多步骤行动路径)、动态世界模拟(预测物理动态、时空演化与长时程因果关系)、泛化交互基础(因果推理与具身操控能力)三大核心能力

三、战略定位:抢占AI物理交互的“下一个十年主战场”
智源研究院院长王仲远明确表示,大语言模型时代已完成探索,世界模型是“下一个十年的主战场”,其核心逻辑在于:

重新定义世界模型:区别于当前主流的“视频生成模型”,智源认为真正的世界模型应“预测下一个物理状态”,而非仅生成虚拟画面。其目标是构建“大模型驱动的通用基座模型”,在潜力上远超人类经验构建的仿真引擎,未来可用于科学发现、物理规律探索等领域

技术先行战略:智源坚持“技术先行,早于产品,早于系统”的理念,类比深度学习从2006年提出到2022年大模型爆发的历程,认为世界模型当前处于“2012年大语言模型”的早期阶段,数据与路径尚未收敛,但未来3-5年将快速迭代

全球竞争格局:世界模型已成为全球AI竞争的核心坐标,除智源外,杨立昆(AMILab)、李飞飞(WorldLabs)、谷歌DeepMind(Genie系列)、英伟达(Cosmos)及字节、阿里、腾讯、华为等厂商均在加速布局,竞争焦点从“虚拟内容生成”转向“物理世界真实交互”

四、挑战与展望:数据是核心卡点,AGI路径清晰可见
尽管前景广阔,智源也清醒认识到世界模型仍处于初级阶段:

核心挑战:真实世界数据极度缺乏,当前科研技术尚未充分挖掘有价值信息。王仲远比喻:“2岁孩子通过刷短视频自学拆糖果,世界模型也需要类似的海量真实数据来加速认知形成”

未来路径:智源计划持续迭代世界模型,推动AI从“理解世界”向“行动世界”演进,最终实现与物理环境的泛化交互,为通用人工智能(AGI)提供坚实基座
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
257876
金币
992255
道行
2006
原创
2475
奖券
3735
斑龄
47
道券
1645
获奖
0
座驾
设备
摄影级
在线时间: 53398(小时)
注册时间: 2008-10-01
最后登录: 2026-06-17
只看该作者 板凳  发表于: 06-12
从大模型黄埔到世界模型先行者:智源研究院战略转向深度解读
一、历史底色:悟道开山,国内大模型的“黄埔军校”
回望中国通用大模型发展起点,北京智源研究院是绕不开的关键机构。
2021年3月,智源发布悟道1.0,正式拉开国内大语言模型产业时代的序幕;悟道2.0、3.0持续迭代,同时孵化出智谱AI、面壁智能等如今国内一线大模型企业,杨植麟、唐杰等行业顶尖人才均出自智源体系,因此行业将其称作国内大模型领域的黄埔军校。

时至2026年6月,智源核心研发重心彻底离开成熟的大语言模型赛道,全面押注世界模型。院长王仲远给出清晰定位:智源作为新型研发机构,主攻高校、商业企业不愿投入的长线、高风险前沿AI基础创新;语言大模型赛道已完成早期拓荒使命,产业落地交由孵化企业承接,世界模型是未来十年AI主战场。

二、厘清核心概念:市面上的“伪世界模型”与智源定义的真世界模型
当下行业普遍存在概念混淆,大众将Sora类视频生成、3D虚拟场景生成、VLA视觉动作模型统称为世界模型,王仲远明确区分二者本质差异:
1. 行业通俗伪概念
OpenAI Sora提出“世界模拟器”仅为形容视频生成能力;各类视频、3D、游戏仿真、视觉动作拼接模型,只是复刻画面,只能生成静态/动态视觉素材,不具备物理推演能力,无法自主预判客观世界运行规律。游戏内置物理引擎依靠人工规则搭建,存在固定上限,无法自主学习拓展新物理规律。
2. 智源对世界模型的核心定义
大语言模型的核心任务是预测下一个Token;而真正的世界模型核心能力是预测下一个物理状态。
依托海量真实世界数据驱动,自主推演力学、空间、因果、物质变化等客观规律,理论上限远高于人工编写的传统仿真引擎;未来可像大模型赋能科学研究一样,用于物理、工程、机器人领域挖掘未知自然规律,成为通用物理世界基础基座。

三、智源世界模型完整技术布局与时间线:提前三年布局,自有独立路线
智源并非跟风布局,而是长期技术预判下的稳步战略落地:
1. 2023年:启动世界模型前置研究,提前切入多模态物理AI赛道;
2. 2025年:发布Emu3、Emu3.5多模态世界模型,完成多模态基础能力搭建;
3. 2026年:推出两大核心基座模型——物理世界模型Physis、机器人世界模型Orca(RoboBrain)。

发展阶段定位清晰:
- 语言大模型阶段:智源属于全球跟随创新;
- 多模态阶段:形成自主研究框架;
- 世界模型阶段:拥有原创定义、独立技术路线,目标实现中国AI在前沿基础领域的引领突破。

当前四大主流世界模型技术路线
行业路线尚未收敛,存在四种并行方向,认知分歧客观存在,但会加速行业迭代:
1. 像素为中心;2. 三维结构为中心;3. 纯视觉表征为中心;4. 语言表征融合视觉(智源当前主攻方向)。
王仲远表示多条路线均具备研究价值,路线碰撞是行业走向共识的必经过程。

四、行业阶段判断:世界模型≈2012年的深度学习,仍处极早期
王仲远做出关键类比:当前全球世界模型研究水平,等同于2012年深度学习刚兴起的阶段,距离ChatGPT级成熟应用尚有漫长周期。
1. 核心瓶颈:真实物理世界数据严重稀缺
人类孩童仅通过日常短视频、生活互动就能自主学习物理常识,但AI缺少同等规模、高价值、标注完整的现实交互数据;现有技术手段难以充分挖掘真实世界有效信息,是制约能力突破的最大卡点。
2. 发展周期预判:
2012年深度学习萌芽到2022年ChatGPT爆发耗时十年;AI迭代速度持续加快,世界模型完整成熟周期有望缩短至3—5年。
3. 落地节奏:不追求短期商业化
Physis、Orca两大模型不以当下大规模真实场景落地为目标,属于3年以上长线基础研究项目,短期商业落地并非核心诉求。

五、独特人才机制:不拘资历,青年科研者挑大梁
智源世界模型创新中心负责人陈博远,仅为在校大四学生,是机构人才机制的典型缩影。
1. 选材标准:不看职称、头衔、资历,只看科研潜力与代表作,依靠理念共识发掘天才研究者;两位核心团队负责人仅通过一次午餐交流,因对世界模型底层认知高度契合便敲定合作。
2. 组织氛围:隔绝行政琐事、市场干扰,给予青年团队充足算力、资金、资源,专注基础技术突破;
3. 人才吸引逻辑:高潜力科研人才相互吸引,形成人才“重力场”;
4. 青年研究者愿景:AGI并非空想,世界模型技术可落地改造现实产业,拥有清晰的实践路径。

六、新型研发机构的定位:承担企业不愿做的高风险长线创新
面对“探索失败怎么办、为何不侧重商业化”的提问,王仲远明确区分新型研发机构与商业公司的分工边界:
1. 商业企业核心目标是短期营收、稳定落地,无力承担高风险、长周期基础试错;
2. 智源的核心社会责任:承接前沿技术试错、基础理论开拓,即便多条路线探索失败,也是基础科研的固有价值;
3. 完整运转三大支撑机制:
    ① 前置技术预判,长线科研规划,不追逐短期热点;
    ② 青年优先的人才选拔与资源倾斜体系;
    ③ 开源开放科研生态,联动产业协同迭代。

七、全文核心总结
1. 赛道迭代逻辑:智源完成历史使命交接——大语言模型赛道完成拓荒,交由市场化企业商业化;世界模型是下一个十年AI底层核心赛道,提前布局抢占基础研究话语权。
2. 技术本质区分:视频生成、3D渲染不等于世界模型,核心分水岭是能否自主预测、推演完整物理因果状态。
3. 行业现状:全球尚处萌芽期,数据匮乏是最大瓶颈,多条技术路线并行探索,短期难以大规模商用。
4. 差异化优势:依托新型研发机构体制优势,不计短期商业回报,扶持青年科研力量深耕长线基础创新,力争在世界模型赛道实现中国AI从跟随到引领的转变。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个