切换到宽版
  • 9阅读
  • 2回复

[智能应用]GPT-5.1"情商"大升级,AI教父"离家出走" [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
164214
金币
457763
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19880(小时)
注册时间: 2012-06-21
最后登录: 2025-11-18
只看楼主 倒序阅读 使用道具 楼主  发表于: 前天 10:33
World Labs发布世界模型Marble。这个生成式AI世界模型允许用户根据文本、图像、视频和3D布局等多种输入,生成可持续交互的3D环境。这些模型基于渲染场景中的高斯溅射特征生成3D世界,能在用户探索时保持一致性。

World Labs一直在开发能够突破空间智能边界的世界模型,其理念基于该公司创始人李飞飞所提出的“空间智能是AI下一个前沿”。空间智能是AI理解物理世界的基础,支持创建和编辑交互式AI世界;这项技术有望成为一种基础性的AI模型技术,既能服务于视频和图像的生成式AI模型,也能支持机器人和自动驾驶汽车等与物理世界交互的AI模型。

锐评:这是要造出《黑客帝国》母体的节奏。
二、AI技术与产品发布:从会说话到会“说人话”,个性成GPT-5.1新亮点
1. 新闻:本周OpenAI发布GPT-5.1。作为GPT-5的更新版,GPT-5.1旨在实现更“富有人情味”的交互体验。它提供两种主要模式:GPT-5.1 Instant (即时模式),用于快速、热情、遵循指令的聊天;以及GPT-5.1 Thinking(思考模式),用于更持久的多步骤推理。即时模式能提供快速、友好的回答,而思考模式则会在处理复杂任务时自动放慢速度。而在“自动”模式下,ChatGPT会自动将用户任务分配给最合适的模式。

GPT-5.1还包含一套更丰富的个性预设(默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄),让用户可以通过设置微调回复的语气。GPT-5.1的发布公告并未提及新模型的推理或基准测试能力有何具体提升,而旧版GPT-5模型将会保留数月时间。
评测指出,GPT-5.1感觉更“温暖”、更具个性化,解决了此前GPT-5缺乏个性的问题,在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar的日常使用评测称GPT-5.1“能力更强且更可控”。Digital Trends则表示:“我更喜欢用Gemini,但GPT-5.1更新可能会让ChatGPT成为你真正想用的AI助手。”
OpenAI还扩展了ChatGPT的协作功能,允许多人与同一个AI对话。GPT-5.1中的这项功能主要针对项目工作、规划和学习小组的需求,允许用户邀请朋友加入进行中的ChatGPT对话,并看到AI结合上下文回复每个人的消息。
锐评:GPT情商拉满,终于学会“好好说话”了。
2. 新闻:百度发布ERNIE-4.5-VL-28B-A3B-Thinking,这是一个基于混合专家(MoE)架构的新型多模态推理模型。其总参数量为280亿,但每个token仅激活30亿参数。ERNIE-4.5-VL-28B-A3B-Thinking能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在MathVista和其他VQA(视觉问答)套件等基准测试中,它的表现与Gemini 2.5 Pro和GPT-5.1相当,但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking基于Apache 2.0开源许可协议,其文档、演示以及权重已同步上线Hugging Face。

锐评:百度这波“以小博大”,证明“浓缩就是精华”,顺手还给开源了。
3. 新闻:ElevenLabs推出Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime能以低于150毫秒的延迟转录语音,目标应用场景包括语音助手、会议助手和实时字幕,并支持90多种语言。ElevenLabs为使用其API的用户和开发者提供了产品页面和技术文档。
锐评:话音未落,已转录成文。
4. 新闻:谷歌更新Android和iOS平台上的Gemini Live,提供更具适应性和表现力的语音功能。用户现在可以调整语速,听到更细微的语调和节奏变化,还可以要求AI用不同角色的口音来讲故事。新版应用还改进了AI对语言学习和练习对话的支持。此外,Gemini Live API中新增的本地音频模型降低了延迟,提升了语音优先应用的性能。
锐评:除了不像人会喘气,啥音都会。
5. 新闻:谷歌在其搜索的AI模式以及Gemini应用中推出了一整套AI购物工具。对话式购物功能可以从包含约500亿个产品列表的图谱中提取信息;“智能结账”功能可跟踪价格,并在商品价格降至用户设定阈值以下时通过Google Pay自动下单;“让Google致电”的智能体功能可代替用户致电本地商店,查询库存和促销信息。
锐评:这下网购花钱更快了。
6. 新闻:Terminal-Bench基准测试已更新至2.0版。Terminal-Bench是一个开源基准测试,包含89个实际终端任务,用于评估AI智能体在真实Shell环境中的操作能力。Terminal-Bench团队还发布了基于容器的标准框架Harbor,可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench的公开排行榜会跟踪各智能体在终端AI自动化任务上的表现。
锐评:智能体考试也越来越难,还要比拼敲命令行。
7. 新闻:总部位于巴黎的H Company公司发布新一代多模态模型Holo Two,旨在推动跨平台的计算机使用智能体。Holo Two模型有40亿、80亿和300亿-A3B MoE三种规模,均是经过调优的视觉语言模型,用于在真实GUI(图形用户界面)中进行定位、导航和任务执行。这些模型使智能体能够“查看”屏幕,并通过点击和按键来控制屏幕;它们可以在网页、桌面以及移动端运行。Holo Two模型现已开放权重并上线Hugging Face平台。
锐评:能看屏幕、能点按钮、能跑GUI,这不是把坐办公室的活全包了嘛。
8. 新闻:新发布的Robyn是前医生Jenny Shao创建的一款富有同理心的AI伴侣。作为一款iOS应用,Robyn的定位并非替代心理医生,而是一个高情商的伙伴。它能记住用户的详细信息,具备长期跟踪模式,可以提供关于压力、情感依恋风格和习惯方面的见解,同时为了确保安全还内置了防护措施和危机响应流程。
锐评:明明白白你的心,渴望一份真感情。
9. 新闻:Gemini 3和Nano Banana 2即将发布。Gemini 3预览版现已在LMArena上线,代号为“riftrunner”。谷歌新一代AI图像模型Nano Banana 2也已以预览形式出现在Gemini应用内。Nano Banana 2在角度和视点方面具备更强的类相机控制,改进了文本渲染能力,并采用多步骤的“规划、生成、评估、修复”工作流,在呈现最终结果前会反复自我修正图像。
锐评:还会反复纠错,AI出图这是要卷到用户满意为止。
三、AI研究动态:小模型打出大智慧,多语言多环境AI纷纷出炉
1. 新闻:Meta推出语音识别系统Omnilingual ASR,能支持超过1600种语言和方言。Meta表示,Omnilingual ASR是“被设计成一个社区驱动的框架”,其中包含一套用于自动语音识别 (ASR) 的新型开源AI模型和一个涵盖350种冷门小语种的转录语音数据集。这些AI模型的参数量从3.5亿到70亿不等,均基于Meta的wav2vec 2.0架构开发。Meta在论文《Omnilingual ASR:支持1600多种语言的开源多语言语音识别》中公布了他们的研究成果。
锐评:能不能听懂我们的温州话?
2. 新闻:微博AI发布VibeThinker-1.5B,并在论文《小模型,大逻辑:多样性驱动优化在VibeThinker-1.5B中激发大模型推理能力》一文中对其进行了介绍。VibeThinker-1.5B是一个15亿参数的推理模型,针对数学和逻辑任务进行了优化,在数学推理基准测试中的得分超过许多大模型。这款AI模型采用多样性驱动的优化策略,能从规模更小的网络中激发出大模型风格的推理行为。
锐评:证明参数不是一切,大模型被啪啪打脸。
3. 新闻:谷歌DeepMind推出基于Gemini的智能体SIMA 2,它可在3D虚拟世界和商业游戏中运行,通过感知屏幕和控制键盘鼠标来执行任务。据描述,新版比SIMA 1更通用且自我改进能力更强,能够处理先前没见过的环境和更复杂的任务。目前SIMA 2仍是一个研究性AI模型,但被DeepMind视为迈向通用智能体、可在丰富模拟环境中通过交互进行学习的重要一步。
锐评:SIMA 2靠“看屏幕、敲键鼠”就能通关,人类玩家的“高光时刻”不多了。
四、AI商业与政策:淘金热度不减,连杨立昆也坐不住了?
1. 新闻:Anthropic宣布将在未来十年向美国AI基础设施投资500亿美元,在得克萨斯州和纽约州建立AI数据中心,以满足30多万商业客户对Claude日益增长的需求。这些项目预计将创造约800个永久性工作岗位和2400个建筑工作岗位,也符合美国保持先进计算领域领导地位的AI战略。
锐评:哪是训练Claude,这分明是在用钞票给AI筑巢。
2. 新闻:Meta首席AI科学家杨立昆(Yann LeCun)计划离开Meta,创办自己的公司。他的离职反映出Meta AI团队的人事动荡;但这也可能是机遇,或将催生出一个更注重研究的AI实验室,追求的成果完全不同于那些专注于大语言模型的AI公司。

锐评:小扎的钞能力不好用了?
3. 新闻:AI原生代码编辑器开发商Cursor宣布完成23亿美元D轮融资,估值达到293亿美元。该公司现已用其热门产品Cursor给自己命名,据称2025年营收增长了100倍,并表示年化营收突破10亿美元大关,客户包括数百万开发者和许多全球顶尖的工程组织。考虑到Cursor惊人的营收增幅,高达290亿美元的估值也就不足为奇了。
锐评:AI时代最赚钱的不是造AI,而是给造AI的“码农”造工具。
4. 新闻:欧洲数据保护监察局 (EDPS) 发布AI风险管理指导文件,为欧盟机构提供在数据保护法框架下如何管理AI系统风险的实用指南。这份名为《AI系统风险管理指南》的文件概述了在公共部门部署AI时进行风险评估、文档记录和人工监督的步骤,并将指导意见与《通用数据保护条例》的义务和欧盟最新的《AI法案》对齐。
锐评:模型还没跑起来,文件倒出了不少。
五、AI观点与文章:狂飙之后,该谁来付“电费”
新闻:彭博社专栏作家警告称,随着超大规模云服务商纷纷锁定数据中心所需的大量能源供应,AI“电力争夺”正与能源可负担性发生冲突。如果AI电力需求上涨冲击到能源价格,可能会引发公众的强烈反对和监管介入。
这种担忧并非首次出现,但政策制定者和企业需要解决谁来为AI能源需求背后的基础设施买单的问题。否则公众反对建设AI数据中心的声音将会越来越大。
锐评:再不解决“电费谁出”的问题,小心公众拔插头。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
164214
金币
457763
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19880(小时)
注册时间: 2012-06-21
最后登录: 2025-11-18
只看该作者 沙发  发表于: 前天 10:34
GPT-5.1:情商与智能的双重升级
2025年11月,OpenAI推出GPT-5.1系列旗舰模型,核心目标是让ChatGPT更智能、对话体验更有趣,重点提升情商与人性化交互。该系列包含两个核心模型:

GPT-5.1 Instant(常用模型):更具人情味、更智能,擅长遵循指令。默认风格更热情、有对话感,优化了指令遵循能力,能更精准理解并执行用户具体要求;首次引入自适应推理机制,面对数学、编程等高难度问题时主动投入更多时间思考,既保持简单问题的快速响应,又为复杂请求提供更详尽准确的答案。
GPT-5.1 Thinking(高级推理模型):处理简单任务时更易理解、速度更快,应对复杂任务时更具持久性。输出文本更清晰,减少专业术语和晦涩表达,让普通用户能轻松理解复杂技术概念;默认基调同样更热情、有同理心。
此外,GPT-5.1扩展了个性化预设功能,可供选择的风格增至八种(包括默认、专业、坦诚、古灵精怪等);部分用户可在设置中微调输出风格(如简洁度、热情度、表情符号使用频率等),系统会感知用户偏好并主动提议更新设置。推送计划上,付费用户(Pro、Plus、Go、Business)优先获得使用权,随后逐步覆盖免费用户;旧版GPT-5将保留三个月后被取代。

"AI教父"杨立昆离职:理念与战略的决裂
2025年11月,Meta首席AI科学家、图灵奖得主杨立昆(Yann LeCun)计划离职创业,这位被誉为“AI教父”的顶尖学者的离开,源于与Meta CEO扎克伯格在AI发展路线上的根本性分歧及内部战略调整:

路线分歧:扎克伯格当前全力押注大语言模型(追求快速商业化),而杨立昆主张“世界模型”(通过视频和空间数据学习世界运作的内部模型,形成对环境的内部理解,真正掌握物理世界的因果与逻辑)。他认为,世界模型是通向真正通用人工智能的关键,尽管这条路更慢、更难,但可能避免大语言模型的“死路”。
内部调整:Meta近期频繁调整AI部门架构,杨立昆的汇报关系发生变化(从向首席产品官汇报划归年轻后辈麾下),长期基础研究资源被削减,核心职权遭调整。这种快速变动的环境和汇报关系的调整,让习惯长期探索、追求学术自由的杨立昆难以接受。


杨立昆的创业计划将聚焦“世界模型”领域研究,延续其对通用人工智能的探索。行业反应方面,网友和分析师普遍认为这是Meta的历史性失误,批评其战略失误和内部动荡加速了杨立昆的离开,称其“剥夺科研权力的愚蠢重组”是导致这一结果的重要原因。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
203709
金币
548865
道行
2004
原创
2435
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45060(小时)
注册时间: 2008-10-01
最后登录: 2025-11-19
只看该作者 板凳  发表于: 前天 17:21
World Labs推出的生成式AI世界模型 Marble,代表了当前三维数字环境生成技术的重大突破。其核心创新之一在于融合了高斯溅射(Gaussian Splatting) 作为几何与外观表征的基础,结合深度学习驱动的生成建模能力,实现了从单张或少量图像输入到可交互、高保真、动态响应式3D环境的端到端构建。以下将系统性地解析 Marble 如何基于高斯溅射特征实现这一目标,并深入探讨其技术架构、生成逻辑与交互机制。

---

一、高斯溅射:新一代显式场景表示范式的崛起

传统3D重建方法如NeRF(神经辐射场)虽能生成逼真的视图,但存在训练慢、推理成本高、难以编辑等缺陷。而 3D高斯溅射(3D Gaussian Splatting, 3DGS) 提出了一种显式、可微分、高效渲染的场景表示方式:

- 每个“高斯”是一个空间中的椭球分布,包含位置、协方差矩阵(控制形状与方向)、颜色和不透明度。
- 场景由成千上万个可学习的高斯粒子构成,通过alpha混合进行快速光栅化渲染。
- 支持实时帧率渲染(>100 FPS),且易于优化与编辑。

在 Marble 中,这种表示被用作基础几何与外观载体,使得生成的世界既具备物理合理性,又支持后续交互操作。

---

二、从生成式先验到结构化3D世界的映射机制

Marble 的关键在于:它不仅仅是一个重建工具,而是能够“想象”并生成全新、连贯、语义丰富的3D环境。其实现路径如下:

1. 多模态潜空间编码与世界生成
Marble 利用大规模视觉-语言预训练模型(如扩散模型 + CLIP 或世界规模的视频理解模型)构建一个通用场景先验知识库。当用户输入文本描述(如“一座清晨阳光洒落的北欧木屋庭院”)或参考图像时:
- 系统首先在潜空间中解码出语义结构布局(房间拓扑、物体类别、光照条件等);
- 然后通过逆向渲染与几何先验网络,将这些抽象语义转化为初始的3D高斯云分布;
- 这些高斯点并非随机初始化,而是带有语义标签(如墙面、树木、地板),为后续交互打下基础。

> 🌟 技术亮点:Marble 使用了语义感知的高斯分布生成器(Semantic-Aware Gaussian Generator),确保每个高斯不仅携带RGB与几何信息,还嵌入了语义ID与物理属性(如材质反射率、刚体性)。

---

三、基于高斯特征的可交互性设计

真正的“可交互3D环境”意味着用户不仅能自由漫游,还能进行物体拾取、形变、光照调整甚至因果推演。Marble 借助高斯溅射的显式特性实现了多层次交互:

| 交互类型 | 实现机制 |
|--------|---------|
| 视角交互(Navigation) | 高斯点云支持任意新视角合成,配合SLAM风格的相机估计模块,实现第一人称沉浸浏览 |
| 物体级操作(Manipulation) | 语义标记的高斯组可被整体选中、移动、缩放;例如拖动一棵树时,仅更新该语义簇的位置与协方差 |
| 光照重编辑(Relighting) | 引入球谐函数(Spherical Harmonics)编码环境光,允许用户调节光源方向与色温,高斯颜色随之重新计算 |
| 动态模拟(Physics-aware Editing) | 结合轻量级物理引擎(如NVIDIA PhysX),将部分高斯绑定为刚体,支持重力掉落、碰撞反馈等简单动力学行为 |

> 💡 深层洞察:由于高斯是局部、稀疏、可分离的表达形式,对某一区域的操作不会影响全局一致性,这极大提升了交互效率与稳定性。

---

四、闭环学习框架:从交互反馈中持续优化世界模型

Marble 并非静态生成系统,而是具备在线学习与自我修正能力的主动世界构建者:

- 当用户进行交互(如移除一堵墙),系统会记录此操作意图,并触发局部重生成以保持结构合理性(自动补全后方景观);
- 用户标注错误(如误识别窗户为门)可通过反向传播微调语义分类头;
- 所有交互数据被匿名化收集,用于增强未来版本的生成先验——形成“人类偏好驱动的世界演化”。

这一机制使 Marble 超越传统生成模型,迈向具身智能代理(Embodied Agent) 的雏形:一个能理解、响应并记忆用户行为的虚拟世界共创伙伴。

---

五、应用场景拓展与未来潜力

Marble 的技术范式正在重塑多个领域:

1. 元宇宙内容生产:几分钟内生成个性化的虚拟家园、城市街区,降低UGC门槛;
2. 建筑与室内设计:设计师输入草图即可获得可行走、可编辑的3D样板间;
3. 自动驾驶仿真:基于真实街景生成无限变体的城市环境,用于极端场景测试;
4. 教育与文化遗产:复现历史遗址或科学现象(如火山喷发)为互动教学提供平台;
5. 游戏开发流水线革新:替代传统建模+贴图流程,直接生成可玩关卡原型。

更深远地看,Marble 正在推动 AI 从“描述世界”走向“构建世界”的范式跃迁。

---

总结:生成式AI世界模型的技术哲学

Marble 的成功,本质上源于三大理念的融合:

- 几何表达的选择:放弃隐式连续场,拥抱显式离散粒子(高斯),换取效率与可控性;
- 生成智能的升级:不止于像素生成,而是生成具有语义、功能与可操作性的“功能性空间”;
- 人机协同的设计观:把AI视为“共同创造者”,而非被动执行者,强调交互即学习、编辑即进化。

在未来,我们或将看到 Marble 类系统进一步整合触觉反馈、语音指令、情感建模,最终构建出真正意义上的“活的世界”——在那里,每一粒高斯都不仅是光的投影,更是意义的节点。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个