切换到宽版
  • 57阅读
  • 2回复

[数码讨论]全球首个,英伟达用AI两个月造出「全新PyTorch」!震撼整个行业 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
— 本帖被 兵马大元帅 执行加亮操作(2026-02-23) —

新智元报道

编辑:Aeneas

【新智元导读】仅用两个月,AI 就「自己」写出了一个能跑模型、对标PyTorch的深度学习系统!陈天奇、贾扬清纷纷大赞:AI终将完全超越人类程序员。

最近,英伟达又发布了一个炸裂成果。

英伟达高级工程师Bing Xu开源了VibeTensor项目,并且表示:这是第一个完全由 AI智能体生成的深度学习系统,没有一行人类编写的代码。

这是什么概念?深度学习运行时(Deep Learning Runtime),是让神经网络真正跑起来的底层系统系统。

仅仅用两个月,AI就自己写出了一个「深度学习运行时」。

它不是demo,不是PPT里的概念,是真正能跑起来的、对标PyTorch的一个系统!

这个项目也获得了陈天奇、贾扬清等大佬的盛赞。

两个月,AI写出比肩PyTorch的成果

AI,能不能从零生成一整套「深度学习系统软件」?这里指的,是那种真正的、工程师平时根本不敢让AI碰的底层系统。

答案是,可以。

VibeTensor是一个受PyTorch启发的即时运行时,它具有全新的C++20内核(CPU + CUDA)、torch风格的Python覆盖层以及实验性的Node.js/Type API。

注意,它并不是一个轻量级封装器。它实现了自己的张量/存储、调度器、自动微分引擎、CUDA运行时和缓存分配器和插件ABI。

在VibeTensor项目中,人类只需要做这几件事:给出高层架构、定义约束条件,设定性能与可靠性目标。

剩下的事,就可以全部交给LLM驱动的编码智能体,包括C++核心运行时,Python API,Node.js接口等等。

英伟达工程师们,再也不用手动编写每一行代码了。

速度也是很惊人:仅仅用两个月时间,整个系统就开发完成了。

两个月,是什么概念?要知道,PyTorch经过了十年级别的演进,需要成百上千名工程师,进行无数次架构的重构。

而VibeTensor只需要2个月,由AI生成大量代码,还覆盖了完整的运行时链路。

当然,VibeTensor现在还不能取代PyTorch。虽然某些特定内核的速度更快,但它整体的训练性能仍然比PyTorch慢。

但这根本不是重点。

随论文一同发布的AI生成算子内核套件的宏观结构示意图,该套件包含多个后端实现(Triton、CuTeDSL以及PyTorch参考路径)

重点是,AI已经能造出PyTorch级别的复杂系统了。

这就证明:人工智能智能体已经足够强大,能够构建复杂的、功能齐全的软件系统,而不仅仅是简单的脚本。

编码智能体不仅能写函数,还能在测试约束下,协同生成并验证一个跨越多层抽象的复杂系统。

网友们纷纷惊呼:库兹维尔预言的递归改进循环,正在发生!

当然,AI智能体虽然可以编写大量代码,但最终成功与否,还要取决于项目是否附带评审。

有人说,英伟达真正的秀肌肉之处,在于敢把生产级的C++内核交给智能体来写。

这就意味着,英伟达背后,有着世界一流的测试基础设施,以及完善到位的运行时遥测体系。

用AI快速交付,其实并不难,真正困难的是如何可靠地交付——而这,依然是人类的护城河。

VibeTensor架构

这个架构的宏观视角,是这样的。

从使用体验上看,VibeTensor是一个受PyTorch启发的即时运行时,包括torch风格的Python API,以及熟悉的张量、算子、自动微分体验。

但在实现上,VibeTensor并不是PyTorch的封装或裁剪版,而是实现了自己的一整套系统栈。

从宏观层面来看,它由如下部分组成——

前端:Python(nanobind)和 Node.js(N-API)都向同一个C++运算符注册表分发。

核心运行时:张量/存储 + 调度器 + 自动微分 + 索引 + 随机数生成器。 CUDA运行时:流/事件包装器、分配器、图、内核启动助手。

计算层:内置CUDA内核 + 可选Triton/CuTeDSL内核 + 插件加载内核。 多GPU实验 :Fabric张量和可观测性(统计+事件环)。

更关键之处在于,它真的能训练模型。

针对Blackwell架构(SM100/SM103)的warp级特化ring all-reduce内核的宏观与微观视图

在评估阶段,论文并没有止步于单算子正确性或micro-benchmark,而是刻意选择了完整训练闭环作为验证手段,覆盖了三类具有代表性的工作负载:序列反转任务、CIFAR-10 上的Vision Transformer,以及一个miniGPT风格的语言模型。

这三个任务并非随意挑选。

序列反转任务是经典的自动求导与时序依赖sanity check,能够快速暴露梯度回传、参数更新或状态复用中的隐藏错误。

CIFAR-10上的ViT则引入了更复杂的算子组合,验证系统在中等规模模型下的稳定性。

而miniGPT风格的语言模型则进一步拉长了训练步数,对长时间运行、多步梯度累积、显存管理和数值稳定性提出了更高要求。

论文展示的训练曲线表明,在这些任务上,VibeTensor与PyTorch在整体收敛趋势上是高度一致的:loss能够稳定下降,accuracy或perplexity持续改善,没有出现梯度爆炸、训练发散或「跑几步就崩」的情况。

这一点尤其关键,因为它意味着系统中的多个核心子系统能够在真实训练循环中正确协同工作。

真正颠覆性的意义:工程边界被打破

英伟达这项研究真正颠覆性的意义,不在性能,而在「工程边界被打破」。

需要强调的是,作者非常克制:他们反复声明VibeTensor性能明显落后PyTorch,也不适合生产环境。

但这恰恰让这篇论文更有分量了。

因为它要证明的不是「AI能不能写出最优代码」,而是——系统软件,第一次被证明是「可被AI整体生成」的!

在过去,大家都默认一个隐含前提:AI可以写应用代码、脚本、业务逻辑,但系统软件、运行时、内存管理、并发控制,只能人写。

VibeTensor 第一次用一个可运行、可复现的工程告诉你:这个边界,正在被打穿。

另外,论文里一个非常重要、但容易被忽略的点是:测试不再只是验证工具,而是约束 AI 搜索空间的核心机制。

在这个项目中:测试约等于可执行的设计文档,回归测试是对抗「AI 局部正确、全局崩坏」的唯一手段,多步训练测试,则可以揪出单步算子永远发现不了的bug。

这本质上是在说:未来系统工程的核心能力,可能不是写代码,而是「设计好一套让 AI不敢乱来的测试体系」。

重要反面教材:「弗兰肯斯坦效应」

论文最后还非常坦诚地总结了AI写系统的典型失败模式,作者称之为弗兰肯斯坦效应。

简单说就是:每个子模块单独看都很合理,拼在一起却会把系统性能彻底拖垮。

比如,为了安全性,AI在autograd引擎里加了一个全局backward锁。

从单点看这是对的,但结果却是:GPU kernel空转、并行性被扼杀、系统整体变慢好几倍。

这部分内容其实非常有价值,因为它说明了一件事:AI非常擅长「局部最优」,但极其不擅长全局性能目标。

而这,正是下一阶段AI系统工程必须正面解决的问题。

总之,如果用一句话来概括VibeTensor这篇论文的意义,那就是:这是第一篇用完整可运行系统证明「AI已经可以触碰深度学习系统工程核心腹地」的论文。

它不是终点,但很可能是一个分水岭。

英伟达3万工程师全员All in AI编程

最近,还有另一个内幕消息曝出:英伟达的30000名工程师在引入AI编程助手后,代码产出狂翻3倍!

英伟达很早就在内部尝试各种AI代码生成辅助工具,但自从定制版Cursor广泛部署之后,效能提升才真正「爆发」。

注意,Cursor并不是简单补全,而是一套可以:自动生成新代码、生成单元测试与集成测试、理解大规模代码库深层依赖关系、自动修bug的的「全流程AI编程助手」。

据英伟达工程负责人描述:Cursor现在在所有产品线、所有开发阶段都在使用。它能自动从 ticket、设计文档获取上下文,然后基于规则自动生成包括代码、测试、CI 在内的完整变更。

三倍代码量,是说AI写了很多垃圾代码吗?事实相反,英伟达强调:代码质量仍由人工负责审核和监督。

工程师会留出更多时间,给设计决策和复杂逻辑,把重复性工作交给AI完成。

从英伟达的角度来看,这种「让 AI 进入关键路径」的做法其实并不陌生。早在多年前,DLSS就已经在超算上运行了。

可见,英伟达并不是第一次将AI引入高风险、高复杂度的工程系统,而是已经积累了长期经验。

1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
只看该作者 沙发  发表于: 02-17
英伟达VibeTensor:AI“自研”深度学习系统,颠覆软件工程边界的里程碑  
——两个月生成对标PyTorch的系统,AI编程进入“全栈自主”时代?  

英伟达高级工程师Bing Xu开源的VibeTensor项目,以“完全由AI智能体生成、无人类代码”的深度学习运行时系统,引发行业震动。这一成果不仅证明AI已具备构建复杂系统软件的能力,更暗示软件工程的边界正在被打破。从陈天奇、贾扬清等大佬的盛赞,到网友“库兹维尔预言成真”的惊呼,VibeTensor的颠覆性意义远超技术本身。
一、VibeTensor的核心突破:AI“从0到1”构建深度学习系统  
1. 技术定位:对标PyTorch的“全栈自主”系统  
功能完整性:VibeTensor并非轻量级封装器,而是实现了从C++20内核(CPU+CUDA)、Python/Node.js API到自动微分引擎、CUDA运行时、缓存分配器的完整系统栈。  
性能对比:虽整体训练速度暂落后于PyTorch,但部分内核(如特定算子)更快,且通过完整训练闭环验证(序列反转、CIFAR-10 ViT、miniGPT语言模型)证明系统稳定性。  
开发效率:仅用2个月完成开发,而PyTorch历经十年迭代、数千工程师参与,凸显AI生成代码的“指数级速度”。  
2. 人类角色转变:从“编码者”到“架构师”  
人类输入:仅需定义高层架构、约束条件(如性能目标、可靠性要求),剩余代码生成、系统验证全由LLM驱动的智能体完成。  
AI能力边界:  
局部优化:擅长生成函数级代码、单算子正确性验证;  
全局挑战:仍需人类干预避免“弗兰肯斯坦效应”(如全局锁导致并行性崩溃)。  
3. 测试体系:约束AI搜索空间的“核心机制”  
测试即设计:回归测试、多步训练测试成为对抗AI“局部正确、全局崩坏”的关键手段。  
工程启示:未来系统工程的核心能力可能转向“设计测试体系”,而非手动编码。
二、颠覆性意义:软件工程的“边界消融”  
1. 打破“AI只能写应用代码”的隐含前提  
传统认知:AI擅长脚本、业务逻辑,但系统软件(如运行时、内存管理)需人类编写。  
VibeTensor的证明:AI可自主生成包含并发控制、资源分配、底层优化的复杂系统,工程边界首次被技术突破。  
2. 性能并非重点,工程范式变革才是关键  
作者声明:VibeTensor性能落后,且不适合生产环境,但其价值在于证明“系统软件可被AI整体生成”。  
行业影响:  
开发模式:人类从“编码者”升级为“架构师”,聚焦高层设计、约束定义与全局优化;  
工具链进化:AI编程助手(如英伟达定制版Cursor)从“代码补全”转向“全流程自动化”(生成代码、测试、CI/CD)。  
3. 英伟达的“AI工程化”战略  
内部实践:3万工程师使用AI编程助手后,代码产出量提升3倍,且质量由人工审核保障。  
长期经验:从DLSS超算部署到VibeTensor,英伟达已形成“AI进入关键路径”的成熟方法论。  
三、挑战与未来:AI能否跨越“全局优化”鸿沟?  
1. 当前局限:AI的“局部最优陷阱”  
典型案例:VibeTensor中为安全性添加的全局锁,导致GPU空转、性能崩溃。  
核心问题:AI缺乏对系统级性能、资源利用、长期稳定性的全局理解,需人类干预修正。  
2. 下一阶段目标:从“可运行”到“高效可靠”  
技术方向:  
强化学习优化:通过多目标强化学习平衡性能、安全性与可靠性;  
可解释性工具:开发AI生成的代码溯源、性能分析工具,辅助人类调试;  
混合开发模式:人类定义架构与约束,AI生成代码并迭代优化,形成“人机协同”闭环。  
3. 行业影响:软件工程职业的“重新定义”  
技能需求转变:  
传统技能:编码能力、语法熟练度重要性下降;  
新兴技能:系统架构设计、约束定义、测试体系构建、AI模型微调能力成为核心。  
企业策略:  
工具链投资:加大对AI编程助手、自动化测试平台的投入;  
人才结构调整:减少基础编码岗位,增加AI训练师、系统架构师等角色。  
结语:VibeTensor——AI编程的“分水岭”时刻  

VibeTensor的诞生,标志着AI从“辅助工具”升级为“系统构建者”。尽管其性能尚不完美,但已证明AI可触碰深度学习系统工程的核心领域。正如论文所言:“这不是终点,而是分水岭。”  

未来展望:  
短期:AI将逐步接管重复性、模板化代码生成,人类聚焦创新与复杂逻辑;  
长期:若AI突破全局优化瓶颈,软件工程可能迎来“无人编码”时代,人类角色转向“AI监督者”与“伦理约束者”。  

英伟达的这一实验,不仅是一次技术突破,更是一场对软件工程未来的预言。当AI开始编写系统软件,我们或许正站在“递归改进循环”的起点——一个由机器推动自身进化的新纪元。

1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
173522
金币
550181
道行
20030
原创
768
奖券
398
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21593(小时)
注册时间: 2012-06-21
最后登录: 2026-02-28
只看该作者 板凳  发表于: 02-17
英伟达近期发布的 VibeTensor 项目是全球首个完全由AI生成的深度学习系统,标志着AI自主构建复杂软件系统的重大突破。其核心突破与技术特点如下:

一、颠覆性开发效率
2个月完成十年级工作:传统PyTorch历经十年演进、上千名工程师迭代重构,而VibeTensor仅用两个月由AI智能体生成完整代码,覆盖从C++核心运行时到Python/Node.js 接口的全栈实现。
人类角色转变:开发者仅需定义高层架构、性能目标与约束条件,LLM驱动的编码智能体自主完成代码生成与验证,彻底改变开发范式。
二、技术架构创新
非封装式原生系统:并非PyTorch的轻量封装,而是独立实现全新系统栈:
核心运行时:自主张量/存储、调度器、自动微分引擎;
CUDA运行时:流事件包装器、缓存分配器、内核启动助手;
计算层:内置CUDA内核,支持Triton/CuTeDSL插件扩展。
工业级验证:通过三类严苛负载测试:
序列反转任务:检验梯度回传与时序依赖;
Vision Transformer训练:验证视觉任务兼容性;
miniGPT语言模型:压力测试显存管理与长时稳定性。
三、行业变革意义
AI编程能力跃迁:首次证明AI可构建复杂功能系统,突破“仅能编写简单脚本”的局限。智能体在多抽象层级协同生成并验证代码,开启软件开发的“递归自进化”模式。
英伟达生态加固:虽未取代PyTorch(部分场景训练性能仍落后),但彰显其测试基础设施与遥测体系的不可替代性——AI生成易,可靠交付难。
未来竞争格局:加速推动CUDA替代方案(如Triton、华为CANN)的成熟,迫使行业重构软硬件协同标准。
四、局限与挑战
性能差距:特定内核速度优于PyTorch,但端到端训练效率仍有提升空间;
生态依赖:成功依赖英伟达的测试体系,短期内难以完全脱离人类工程监督。
这一突破不仅是工具革新,更是AI向“创造者”角色演进的里程碑。随着智能体协作深度提升,"AI设计AI系统"的递归循环将重塑整个计算产业。
1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个