9阅读
2回复

[智能应用]GPT-5.1"情商"大升级，AI教父"离家出走" [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 164214

金币: 457763

道行: 20030

原创: 766

奖券: 341

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 19880(小时)
注册时间: 2012-06-21
最后登录: 2025-11-18

只看楼主倒序阅读使用道具楼主发表于: 前天 10:33

World Labs发布世界模型Marble。这个生成式AI世界模型允许用户根据文本、图像、视频和3D布局等多种输入，生成可持续交互的3D环境。这些模型基于渲染场景中的高斯溅射特征生成3D世界，能在用户探索时保持一致性。

World Labs一直在开发能够突破空间智能边界的世界模型，其理念基于该公司创始人李飞飞所提出的“空间智能是AI下一个前沿”。空间智能是AI理解物理世界的基础，支持创建和编辑交互式AI世界；这项技术有望成为一种基础性的AI模型技术，既能服务于视频和图像的生成式AI模型，也能支持机器人和自动驾驶汽车等与物理世界交互的AI模型。

锐评：这是要造出《黑客帝国》母体的节奏。
二、AI技术与产品发布：从会说话到会“说人话”，个性成GPT-5.1新亮点
1. 新闻：本周OpenAI发布GPT-5.1。作为GPT-5的更新版，GPT-5.1旨在实现更“富有人情味”的交互体验。它提供两种主要模式：GPT-5.1 Instant （即时模式），用于快速、热情、遵循指令的聊天；以及GPT-5.1 Thinking（思考模式），用于更持久的多步骤推理。即时模式能提供快速、友好的回答，而思考模式则会在处理复杂任务时自动放慢速度。而在“自动”模式下，ChatGPT会自动将用户任务分配给最合适的模式。

GPT-5.1还包含一套更丰富的个性预设（默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄），让用户可以通过设置微调回复的语气。GPT-5.1的发布公告并未提及新模型的推理或基准测试能力有何具体提升，而旧版GPT-5模型将会保留数月时间。
评测指出，GPT-5.1感觉更“温暖”、更具个性化，解决了此前GPT-5缺乏个性的问题，在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar的日常使用评测称GPT-5.1“能力更强且更可控”。Digital Trends则表示：“我更喜欢用Gemini，但GPT-5.1更新可能会让ChatGPT成为你真正想用的AI助手。”
OpenAI还扩展了ChatGPT的协作功能，允许多人与同一个AI对话。GPT-5.1中的这项功能主要针对项目工作、规划和学习小组的需求，允许用户邀请朋友加入进行中的ChatGPT对话，并看到AI结合上下文回复每个人的消息。
锐评：GPT情商拉满，终于学会“好好说话”了。
2. 新闻：百度发布ERNIE-4.5-VL-28B-A3B-Thinking，这是一个基于混合专家（MoE）架构的新型多模态推理模型。其总参数量为280亿，但每个token仅激活30亿参数。ERNIE-4.5-VL-28B-A3B-Thinking能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在MathVista和其他VQA（视觉问答）套件等基准测试中，它的表现与Gemini 2.5 Pro和GPT-5.1相当，但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking基于Apache 2.0开源许可协议，其文档、演示以及权重已同步上线Hugging Face。

锐评：百度这波“以小博大”，证明“浓缩就是精华”，顺手还给开源了。
3. 新闻：ElevenLabs推出Scribe v2 Realtime，这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime能以低于150毫秒的延迟转录语音，目标应用场景包括语音助手、会议助手和实时字幕，并支持90多种语言。ElevenLabs为使用其API的用户和开发者提供了产品页面和技术文档。
锐评：话音未落，已转录成文。
4. 新闻：谷歌更新Android和iOS平台上的Gemini Live，提供更具适应性和表现力的语音功能。用户现在可以调整语速，听到更细微的语调和节奏变化，还可以要求AI用不同角色的口音来讲故事。新版应用还改进了AI对语言学习和练习对话的支持。此外，Gemini Live API中新增的本地音频模型降低了延迟，提升了语音优先应用的性能。
锐评：除了不像人会喘气，啥音都会。
5. 新闻：谷歌在其搜索的AI模式以及Gemini应用中推出了一整套AI购物工具。对话式购物功能可以从包含约500亿个产品列表的图谱中提取信息；“智能结账”功能可跟踪价格，并在商品价格降至用户设定阈值以下时通过Google Pay自动下单；“让Google致电”的智能体功能可代替用户致电本地商店，查询库存和促销信息。
锐评：这下网购花钱更快了。
6. 新闻：Terminal-Bench基准测试已更新至2.0版。Terminal-Bench是一个开源基准测试，包含89个实际终端任务，用于评估AI智能体在真实Shell环境中的操作能力。Terminal-Bench团队还发布了基于容器的标准框架Harbor，可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench的公开排行榜会跟踪各智能体在终端AI自动化任务上的表现。
锐评：智能体考试也越来越难，还要比拼敲命令行。
7. 新闻：总部位于巴黎的H Company公司发布新一代多模态模型Holo Two，旨在推动跨平台的计算机使用智能体。Holo Two模型有40亿、80亿和300亿-A3B MoE三种规模，均是经过调优的视觉语言模型，用于在真实GUI（图形用户界面）中进行定位、导航和任务执行。这些模型使智能体能够“查看”屏幕，并通过点击和按键来控制屏幕；它们可以在网页、桌面以及移动端运行。Holo Two模型现已开放权重并上线Hugging Face平台。
锐评：能看屏幕、能点按钮、能跑GUI，这不是把坐办公室的活全包了嘛。
8. 新闻：新发布的Robyn是前医生Jenny Shao创建的一款富有同理心的AI伴侣。作为一款iOS应用，Robyn的定位并非替代心理医生，而是一个高情商的伙伴。它能记住用户的详细信息，具备长期跟踪模式，可以提供关于压力、情感依恋风格和习惯方面的见解，同时为了确保安全还内置了防护措施和危机响应流程。
锐评：明明白白你的心，渴望一份真感情。
9. 新闻：Gemini 3和Nano Banana 2即将发布。Gemini 3预览版现已在LMArena上线，代号为“riftrunner”。谷歌新一代AI图像模型Nano Banana 2也已以预览形式出现在Gemini应用内。Nano Banana 2在角度和视点方面具备更强的类相机控制，改进了文本渲染能力，并采用多步骤的“规划、生成、评估、修复”工作流，在呈现最终结果前会反复自我修正图像。
锐评：还会反复纠错，AI出图这是要卷到用户满意为止。
三、AI研究动态：小模型打出大智慧，多语言多环境AI纷纷出炉
1. 新闻：Meta推出语音识别系统Omnilingual ASR，能支持超过1600种语言和方言。Meta表示，Omnilingual ASR是“被设计成一个社区驱动的框架”，其中包含一套用于自动语音识别 (ASR) 的新型开源AI模型和一个涵盖350种冷门小语种的转录语音数据集。这些AI模型的参数量从3.5亿到70亿不等，均基于Meta的wav2vec 2.0架构开发。Meta在论文《Omnilingual ASR：支持1600多种语言的开源多语言语音识别》中公布了他们的研究成果。
锐评：能不能听懂我们的温州话？
2. 新闻：微博AI发布VibeThinker-1.5B，并在论文《小模型，大逻辑：多样性驱动优化在VibeThinker-1.5B中激发大模型推理能力》一文中对其进行了介绍。VibeThinker-1.5B是一个15亿参数的推理模型，针对数学和逻辑任务进行了优化，在数学推理基准测试中的得分超过许多大模型。这款AI模型采用多样性驱动的优化策略，能从规模更小的网络中激发出大模型风格的推理行为。
锐评：证明参数不是一切，大模型被啪啪打脸。
3. 新闻：谷歌DeepMind推出基于Gemini的智能体SIMA 2，它可在3D虚拟世界和商业游戏中运行，通过感知屏幕和控制键盘鼠标来执行任务。据描述，新版比SIMA 1更通用且自我改进能力更强，能够处理先前没见过的环境和更复杂的任务。目前SIMA 2仍是一个研究性AI模型，但被DeepMind视为迈向通用智能体、可在丰富模拟环境中通过交互进行学习的重要一步。
锐评：SIMA 2靠“看屏幕、敲键鼠”就能通关，人类玩家的“高光时刻”不多了。
四、AI商业与政策：淘金热度不减，连杨立昆也坐不住了？
1. 新闻：Anthropic宣布将在未来十年向美国AI基础设施投资500亿美元，在得克萨斯州和纽约州建立AI数据中心，以满足30多万商业客户对Claude日益增长的需求。这些项目预计将创造约800个永久性工作岗位和2400个建筑工作岗位，也符合美国保持先进计算领域领导地位的AI战略。
锐评：哪是训练Claude，这分明是在用钞票给AI筑巢。
2. 新闻：Meta首席AI科学家杨立昆（Yann LeCun）计划离开Meta，创办自己的公司。他的离职反映出Meta AI团队的人事动荡；但这也可能是机遇，或将催生出一个更注重研究的AI实验室，追求的成果完全不同于那些专注于大语言模型的AI公司。

锐评：小扎的钞能力不好用了？
3. 新闻：AI原生代码编辑器开发商Cursor宣布完成23亿美元D轮融资，估值达到293亿美元。该公司现已用其热门产品Cursor给自己命名，据称2025年营收增长了100倍，并表示年化营收突破10亿美元大关，客户包括数百万开发者和许多全球顶尖的工程组织。考虑到Cursor惊人的营收增幅，高达290亿美元的估值也就不足为奇了。
锐评：AI时代最赚钱的不是造AI，而是给造AI的“码农”造工具。
4. 新闻：欧洲数据保护监察局 (EDPS) 发布AI风险管理指导文件，为欧盟机构提供在数据保护法框架下如何管理AI系统风险的实用指南。这份名为《AI系统风险管理指南》的文件概述了在公共部门部署AI时进行风险评估、文档记录和人工监督的步骤，并将指导意见与《通用数据保护条例》的义务和欧盟最新的《AI法案》对齐。
锐评：模型还没跑起来，文件倒出了不少。
五、AI观点与文章：狂飙之后，该谁来付“电费”
新闻：彭博社专栏作家警告称，随着超大规模云服务商纷纷锁定数据中心所需的大量能源供应，AI“电力争夺”正与能源可负担性发生冲突。如果AI电力需求上涨冲击到能源价格，可能会引发公众的强烈反对和监管介入。
这种担忧并非首次出现，但政策制定者和企业需要解决谁来为AI能源需求背后的基础设施买单的问题。否则公众反对建设AI数据中心的声音将会越来越大。
锐评：再不解决“电费谁出”的问题，小心公众拔插头。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 164214

金币: 457763

道行: 20030

原创: 766

奖券: 341

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 19880(小时)
注册时间: 2012-06-21
最后登录: 2025-11-18

只看该作者沙发发表于: 前天 10:34

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

GPT-5.1：情商与智能的双重升级
2025年11月，OpenAI推出GPT-5.1系列旗舰模型，核心目标是让ChatGPT更智能、对话体验更有趣，重点提升情商与人性化交互。该系列包含两个核心模型：

GPT-5.1 Instant（常用模型）：更具人情味、更智能，擅长遵循指令。默认风格更热情、有对话感，优化了指令遵循能力，能更精准理解并执行用户具体要求；首次引入自适应推理机制，面对数学、编程等高难度问题时主动投入更多时间思考，既保持简单问题的快速响应，又为复杂请求提供更详尽准确的答案。
GPT-5.1 Thinking（高级推理模型）：处理简单任务时更易理解、速度更快，应对复杂任务时更具持久性。输出文本更清晰，减少专业术语和晦涩表达，让普通用户能轻松理解复杂技术概念；默认基调同样更热情、有同理心。
此外，GPT-5.1扩展了个性化预设功能，可供选择的风格增至八种（包括默认、专业、坦诚、古灵精怪等）；部分用户可在设置中微调输出风格（如简洁度、热情度、表情符号使用频率等），系统会感知用户偏好并主动提议更新设置。推送计划上，付费用户（Pro、Plus、Go、Business）优先获得使用权，随后逐步覆盖免费用户；旧版GPT-5将保留三个月后被取代。

"AI教父"杨立昆离职：理念与战略的决裂
2025年11月，Meta首席AI科学家、图灵奖得主杨立昆（Yann LeCun）计划离职创业，这位被誉为“AI教父”的顶尖学者的离开，源于与Meta CEO扎克伯格在AI发展路线上的根本性分歧及内部战略调整：

路线分歧：扎克伯格当前全力押注大语言模型（追求快速商业化），而杨立昆主张“世界模型”（通过视频和空间数据学习世界运作的内部模型，形成对环境的内部理解，真正掌握物理世界的因果与逻辑）。他认为，世界模型是通向真正通用人工智能的关键，尽管这条路更慢、更难，但可能避免大语言模型的“死路”。
内部调整：Meta近期频繁调整AI部门架构，杨立昆的汇报关系发生变化（从向首席产品官汇报划归年轻后辈麾下），长期基础研究资源被削减，核心职权遭调整。这种快速变动的环境和汇报关系的调整，让习惯长期探索、追求学术自由的杨立昆难以接受。

杨立昆的创业计划将聚焦“世界模型”领域研究，延续其对通用人工智能的探索。行业反应方面，网友和分析师普遍认为这是Meta的历史性失误，批评其战略失误和内部动荡加速了杨立昆的离开，称其“剥夺科研权力的愚蠢重组”是导致这一结果的重要原因。

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 203709

金币: 548865

道行: 2004

原创: 2435

奖券: 3180

斑龄: 40

道券: 1167

获奖: 0

座驾

设备

摄影级

在线时间: 45060(小时)
注册时间: 2008-10-01
最后登录: 2025-11-19

只看该作者板凳发表于: 前天 17:21

World Labs推出的生成式AI世界模型 Marble，代表了当前三维数字环境生成技术的重大突破。其核心创新之一在于融合了高斯溅射（Gaussian Splatting）作为几何与外观表征的基础，结合深度学习驱动的生成建模能力，实现了从单张或少量图像输入到可交互、高保真、动态响应式3D环境的端到端构建。以下将系统性地解析 Marble 如何基于高斯溅射特征实现这一目标，并深入探讨其技术架构、生成逻辑与交互机制。

---

一、高斯溅射：新一代显式场景表示范式的崛起

传统3D重建方法如NeRF（神经辐射场）虽能生成逼真的视图，但存在训练慢、推理成本高、难以编辑等缺陷。而 3D高斯溅射（3D Gaussian Splatting, 3DGS）提出了一种显式、可微分、高效渲染的场景表示方式：

- 每个“高斯”是一个空间中的椭球分布，包含位置、协方差矩阵（控制形状与方向）、颜色和不透明度。
- 场景由成千上万个可学习的高斯粒子构成，通过alpha混合进行快速光栅化渲染。
- 支持实时帧率渲染（>100 FPS），且易于优化与编辑。

在 Marble 中，这种表示被用作基础几何与外观载体，使得生成的世界既具备物理合理性，又支持后续交互操作。

---

二、从生成式先验到结构化3D世界的映射机制

Marble 的关键在于：它不仅仅是一个重建工具，而是能够“想象”并生成全新、连贯、语义丰富的3D环境。其实现路径如下：

1. 多模态潜空间编码与世界生成
Marble 利用大规模视觉-语言预训练模型（如扩散模型 + CLIP 或世界规模的视频理解模型）构建一个通用场景先验知识库。当用户输入文本描述（如“一座清晨阳光洒落的北欧木屋庭院”）或参考图像时：
- 系统首先在潜空间中解码出语义结构布局（房间拓扑、物体类别、光照条件等）；
- 然后通过逆向渲染与几何先验网络，将这些抽象语义转化为初始的3D高斯云分布；
- 这些高斯点并非随机初始化，而是带有语义标签（如墙面、树木、地板），为后续交互打下基础。

> 🌟 技术亮点：Marble 使用了语义感知的高斯分布生成器（Semantic-Aware Gaussian Generator），确保每个高斯不仅携带RGB与几何信息，还嵌入了语义ID与物理属性（如材质反射率、刚体性）。

---

三、基于高斯特征的可交互性设计

真正的“可交互3D环境”意味着用户不仅能自由漫游，还能进行物体拾取、形变、光照调整甚至因果推演。Marble 借助高斯溅射的显式特性实现了多层次交互：

| 交互类型 | 实现机制 |
|--------|---------|
| 视角交互（Navigation） | 高斯点云支持任意新视角合成，配合SLAM风格的相机估计模块，实现第一人称沉浸浏览 |
| 物体级操作（Manipulation） | 语义标记的高斯组可被整体选中、移动、缩放；例如拖动一棵树时，仅更新该语义簇的位置与协方差 |
| 光照重编辑（Relighting） | 引入球谐函数（Spherical Harmonics）编码环境光，允许用户调节光源方向与色温，高斯颜色随之重新计算 |
| 动态模拟（Physics-aware Editing） | 结合轻量级物理引擎（如NVIDIA PhysX），将部分高斯绑定为刚体，支持重力掉落、碰撞反馈等简单动力学行为 |

> 💡 深层洞察：由于高斯是局部、稀疏、可分离的表达形式，对某一区域的操作不会影响全局一致性，这极大提升了交互效率与稳定性。

---

四、闭环学习框架：从交互反馈中持续优化世界模型

Marble 并非静态生成系统，而是具备在线学习与自我修正能力的主动世界构建者：

- 当用户进行交互（如移除一堵墙），系统会记录此操作意图，并触发局部重生成以保持结构合理性（自动补全后方景观）；
- 用户标注错误（如误识别窗户为门）可通过反向传播微调语义分类头；
- 所有交互数据被匿名化收集，用于增强未来版本的生成先验——形成“人类偏好驱动的世界演化”。

这一机制使 Marble 超越传统生成模型，迈向具身智能代理（Embodied Agent）的雏形：一个能理解、响应并记忆用户行为的虚拟世界共创伙伴。

---

五、应用场景拓展与未来潜力

Marble 的技术范式正在重塑多个领域：

1. 元宇宙内容生产：几分钟内生成个性化的虚拟家园、城市街区，降低UGC门槛；
2. 建筑与室内设计：设计师输入草图即可获得可行走、可编辑的3D样板间；
3. 自动驾驶仿真：基于真实街景生成无限变体的城市环境，用于极端场景测试；
4. 教育与文化遗产：复现历史遗址或科学现象（如火山喷发）为互动教学提供平台；
5. 游戏开发流水线革新：替代传统建模+贴图流程，直接生成可玩关卡原型。

更深远地看，Marble 正在推动 AI 从“描述世界”走向“构建世界”的范式跃迁。

---

总结：生成式AI世界模型的技术哲学

Marble 的成功，本质上源于三大理念的融合：

- 几何表达的选择：放弃隐式连续场，拥抱显式离散粒子（高斯），换取效率与可控性；
- 生成智能的升级：不止于像素生成，而是生成具有语义、功能与可操作性的“功能性空间”；
- 人机协同的设计观：把AI视为“共同创造者”，而非被动执行者，强调交互即学习、编辑即进化。

在未来，我们或将看到 Marble 类系统进一步整合触觉反馈、语音指令、情感建模，最终构建出真正意义上的“活的世界”——在那里，每一粒高斯都不仅是光的投影，更是意义的节点。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]GPT-5.1"情商"大升级，AI教父"离家出走" [复制链接]