切换到宽版
  • 193阅读
  • 2回复

[智能应用]AI的下一场革命,智源“押注”世界模型 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君
 

发帖
190569
金币
709816
道行
19600
原创
769
奖券
554
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 24328(小时)
注册时间: 2012-06-21
最后登录: 2026-07-02
只看楼主 倒序阅读 楼主  发表于: 06-12
— 本帖被 兵马大元帅 执行加亮操作(2026-07-01) —
用户被禁言,该主题自动屏蔽!
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖
190569
金币
709816
道行
19600
原创
769
奖券
554
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 24328(小时)
注册时间: 2012-06-21
最后登录: 2026-07-02
只看该作者 沙发  发表于: 06-12
用户被禁言,该主题自动屏蔽!
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
261716
金币
1023813
道行
2006
原创
2478
奖券
3735
斑龄
47
道券
1645
获奖
0
座驾
设备
摄影级
在线时间: 53747(小时)
注册时间: 2008-10-01
最后登录: 2026-07-02
只看该作者 板凳  发表于: 06-12
从大模型黄埔到世界模型先行者:智源研究院战略转向深度解读
一、历史底色:悟道开山,国内大模型的“黄埔军校”
回望中国通用大模型发展起点,北京智源研究院是绕不开的关键机构。
2021年3月,智源发布悟道1.0,正式拉开国内大语言模型产业时代的序幕;悟道2.0、3.0持续迭代,同时孵化出智谱AI、面壁智能等如今国内一线大模型企业,杨植麟、唐杰等行业顶尖人才均出自智源体系,因此行业将其称作国内大模型领域的黄埔军校。

时至2026年6月,智源核心研发重心彻底离开成熟的大语言模型赛道,全面押注世界模型。院长王仲远给出清晰定位:智源作为新型研发机构,主攻高校、商业企业不愿投入的长线、高风险前沿AI基础创新;语言大模型赛道已完成早期拓荒使命,产业落地交由孵化企业承接,世界模型是未来十年AI主战场。

二、厘清核心概念:市面上的“伪世界模型”与智源定义的真世界模型
当下行业普遍存在概念混淆,大众将Sora类视频生成、3D虚拟场景生成、VLA视觉动作模型统称为世界模型,王仲远明确区分二者本质差异:
1. 行业通俗伪概念
OpenAI Sora提出“世界模拟器”仅为形容视频生成能力;各类视频、3D、游戏仿真、视觉动作拼接模型,只是复刻画面,只能生成静态/动态视觉素材,不具备物理推演能力,无法自主预判客观世界运行规律。游戏内置物理引擎依靠人工规则搭建,存在固定上限,无法自主学习拓展新物理规律。
2. 智源对世界模型的核心定义
大语言模型的核心任务是预测下一个Token;而真正的世界模型核心能力是预测下一个物理状态。
依托海量真实世界数据驱动,自主推演力学、空间、因果、物质变化等客观规律,理论上限远高于人工编写的传统仿真引擎;未来可像大模型赋能科学研究一样,用于物理、工程、机器人领域挖掘未知自然规律,成为通用物理世界基础基座。

三、智源世界模型完整技术布局与时间线:提前三年布局,自有独立路线
智源并非跟风布局,而是长期技术预判下的稳步战略落地:
1. 2023年:启动世界模型前置研究,提前切入多模态物理AI赛道;
2. 2025年:发布Emu3、Emu3.5多模态世界模型,完成多模态基础能力搭建;
3. 2026年:推出两大核心基座模型——物理世界模型Physis、机器人世界模型Orca(RoboBrain)。

发展阶段定位清晰:
- 语言大模型阶段:智源属于全球跟随创新;
- 多模态阶段:形成自主研究框架;
- 世界模型阶段:拥有原创定义、独立技术路线,目标实现中国AI在前沿基础领域的引领突破。

当前四大主流世界模型技术路线
行业路线尚未收敛,存在四种并行方向,认知分歧客观存在,但会加速行业迭代:
1. 像素为中心;2. 三维结构为中心;3. 纯视觉表征为中心;4. 语言表征融合视觉(智源当前主攻方向)。
王仲远表示多条路线均具备研究价值,路线碰撞是行业走向共识的必经过程。

四、行业阶段判断:世界模型≈2012年的深度学习,仍处极早期
王仲远做出关键类比:当前全球世界模型研究水平,等同于2012年深度学习刚兴起的阶段,距离ChatGPT级成熟应用尚有漫长周期。
1. 核心瓶颈:真实物理世界数据严重稀缺
人类孩童仅通过日常短视频、生活互动就能自主学习物理常识,但AI缺少同等规模、高价值、标注完整的现实交互数据;现有技术手段难以充分挖掘真实世界有效信息,是制约能力突破的最大卡点。
2. 发展周期预判:
2012年深度学习萌芽到2022年ChatGPT爆发耗时十年;AI迭代速度持续加快,世界模型完整成熟周期有望缩短至3—5年。
3. 落地节奏:不追求短期商业化
Physis、Orca两大模型不以当下大规模真实场景落地为目标,属于3年以上长线基础研究项目,短期商业落地并非核心诉求。

五、独特人才机制:不拘资历,青年科研者挑大梁
智源世界模型创新中心负责人陈博远,仅为在校大四学生,是机构人才机制的典型缩影。
1. 选材标准:不看职称、头衔、资历,只看科研潜力与代表作,依靠理念共识发掘天才研究者;两位核心团队负责人仅通过一次午餐交流,因对世界模型底层认知高度契合便敲定合作。
2. 组织氛围:隔绝行政琐事、市场干扰,给予青年团队充足算力、资金、资源,专注基础技术突破;
3. 人才吸引逻辑:高潜力科研人才相互吸引,形成人才“重力场”;
4. 青年研究者愿景:AGI并非空想,世界模型技术可落地改造现实产业,拥有清晰的实践路径。

六、新型研发机构的定位:承担企业不愿做的高风险长线创新
面对“探索失败怎么办、为何不侧重商业化”的提问,王仲远明确区分新型研发机构与商业公司的分工边界:
1. 商业企业核心目标是短期营收、稳定落地,无力承担高风险、长周期基础试错;
2. 智源的核心社会责任:承接前沿技术试错、基础理论开拓,即便多条路线探索失败,也是基础科研的固有价值;
3. 完整运转三大支撑机制:
    ① 前置技术预判,长线科研规划,不追逐短期热点;
    ② 青年优先的人才选拔与资源倾斜体系;
    ③ 开源开放科研生态,联动产业协同迭代。

七、全文核心总结
1. 赛道迭代逻辑:智源完成历史使命交接——大语言模型赛道完成拓荒,交由市场化企业商业化;世界模型是下一个十年AI底层核心赛道,提前布局抢占基础研究话语权。
2. 技术本质区分:视频生成、3D渲染不等于世界模型,核心分水岭是能否自主预测、推演完整物理因果状态。
3. 行业现状:全球尚处萌芽期,数据匮乏是最大瓶颈,多条技术路线并行探索,短期难以大规模商用。
4. 差异化优势:依托新型研发机构体制优势,不计短期商业回报,扶持青年科研力量深耕长线基础创新,力争在世界模型赛道实现中国AI从跟随到引领的转变。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个