切换到宽版
  • 42阅读
  • 2回复

[智能应用]超6万GitHub项目实测:Agent写代码效率暴涨,通过率仍落后人类[5P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
119013
金币
5278
道行
19524
原创
29658
奖券
18433
斑龄
205
道券
10968
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 26094(小时)
注册时间: 2007-11-29
最后登录: 2026-02-27
— 本帖被 兵马大元帅 执行加亮操作(2026-02-23) —

当 AI 用 3 天完成人类程序员原本3年的代码任务量,人类的角色会发生怎样的变化?
当前,AI 正在从工具变为人类的“队友”。随着大模型的加速发展,AI 在软件工程领域的作用已不再是辅助代码补全,而是正在成为可自主编码的智能体(Agent)。
现在,我们只需向 AI 描述代码想要实现的功能,它就能自动生成完整代码;借助 Agent,甚至能在十几分钟内完成千行级别的代码生成或修改。
近期,加拿大女王大学博士后李豪与所在团队在一项研究中首次构建了一个大规模数据集 AIDev,系统分析和统计了自主编码 Agent 在 7,000 多个较流行的软件中的实际表现和影响。
其覆盖范围包括在 GitHub 平台上已提交的超 45.6 万条 Agent 代码合并请求(PR,pull requests),涵盖 6.1 万个代码库和 4.7 万名开发者,包括主流的 AI 编码工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。

图丨李豪(受访者)
研究人员在 AI 领域和软件工程做相关研究时,往往会选择用 SWE-bench 做测试,通过交给 AI 一些高质量、有测试样例的任务,来优化 AI 性能以及优化系统设计等。
但这也带来了很多挑战性的问题。例如,一家公司如果将测试题目用于训练模型,极有可能因“作弊”导致分数虚高。此外,由于 SWE-bench 是一个静态的基准集(benchmark),部分数据有可能存在一定滞后性。
李豪指出,该研究最大的不同点在于,AIDev 是真实世界、大规模、实时采集数据的数据集,更贴近于业界实践和生产。此外,研究人员还可以利用该数据集打造更新的 benchmark。

(arXiv)
研究团队在 AI 编码 Agent 的速度和质量方面找到了有趣的发现。一项个例分析结果显示,有开发者在使用 AI 编码 Agent 后,3 天内完成的任务量接近其过去 3 年的总量。
而 AI 在自然语言处理方面的优势,也同样值得关注。他们发现,AI 在编写代码或文本方面的任务中表现优异,例如从文档相关的合并请求接受率来看,OpenAI Codex 和 Claude Code 分别为 88.6% 和 85.7%,而人类在该方面表现为 76.5%。
(arXiv)
合并请求接受率是衡量 AI 产出质量和可信度的关键指标,它与人类开发者/项目维护者对 AI 贡献的认可度密切相关。该团队还发现,编码 Agent 的合并请求接受率比人类开发者低 15% 至 40%(不同任务类型下区间差异显著),尤其是在新功能开发、修复 Bug 等复杂的任务方面。例如,OpenAI Codex 的 PR 接受率为 64%,而人类开发者的 PR 接受率高达 76.8%。
这意味着,AI 写代码并非全面超越了人类。需要看到的是,尽管目前 AI 编码 Agent 生成速度很快,但性能方面还有一些缺陷,在结构上也相对较简单,需要研究人员继续对其进行增强,以确保代码的长期可维护性。
李豪对 DeepTech 表示:“短期看,AI Agent 的代码接受率相对人类较低,效率与质量的取舍仍需权衡(trade-off),但这种磨合期对应的是数据飞轮的启动阶段,形成飞轮效应后,我们有望获得生产力的显著提升。”

(arXiv)
该研究通过分析自主编码 Agent 的表现,为未来更好地优化人与 AI 协作提供了数据基础。这也带来了一种全新的生成模式,开发者面临的问题不是如何写更多的代码,而是接到一项任务后,如何拆分成更细的任务,再管理这些 AI 更好地执行。
“该方向在学界和产业界还存在较大的空白。编程人员的角色也会逐渐从写代码的人,转换成提供代码审查或提供管理模式的人。目前,我们也在做相关的研究,来探索新一代软件开发流程来支持开发者们利用 AI Agent。”李豪表示。
此外研究还揭示出,尽管 AI 的出现推动了人机协同审查流程,但同时也可能会带来偏见等问题。例如,假如 AI 写代码的 Agent 与审查代码的机器人自同一公司,很有可能在AI审查环节忽视某些特定类型的错误。
在未来的研究中,该团队计划建立更全面的 benchmark,对 AI 编程 Agent 进行真实的表现评测。他们还打算建立新知识库,推动领域内的研究人员共同改进相关方向,包括如何更好地预测和分析AI可能的失败场景,以及失败原因等。从更长远的发展来看,探索更自动化与标准化的审查机制,也是一个值得深入研究的方向。
1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
只看该作者 沙发  发表于: 02-19
AI 3天写完人类3年代码:程序员角色将如何进化? 🚀💻  

核心结论:  
AI编码Agent(如GitHub Copilot、OpenAI Codex)正以“3天完成人类3年任务量”的效率颠覆软件工程,但合并请求接受率仍比人类低15%-40%。程序员的角色将从“代码生产者”转向“任务拆解者、AI管理者、质量审查者”,人机协作进入“效率-质量”磨合期,数据飞轮效应或在未来3-5年释放生产力爆发潜力。  
一、AI编码Agent的“超能力”与“软肋” 🔥🔧  
1. 效率革命:从“年”到“天”的跨越  
案例:加拿大女王大学研究显示,开发者使用AI后,3天完成的任务量接近过去3年总量,千行代码生成仅需十几分钟。  
技术支撑:大模型(如GPT-4、Codex)的自然语言理解能力,可将需求描述直接转化为可执行代码。  
2. 质量短板:复杂任务仍需人类把关  
合并请求接受率(PR Acceptance Rate):  
AI:OpenAI Codex(64%)、Claude Code(未明确具体任务类型数据,但文档相关任务接受率85.7%);  
人类:新功能开发/Bug修复等复杂任务接受率达76.8%,文档相关任务76.5%。  
核心差距:AI在结构复杂度、长期可维护性、边界条件处理上仍弱于人类,尤其在跨模块协作或需求模糊时易出错。  
3. 偏见风险:AI自审代码的“盲区”  
问题:若编码Agent与审查Agent来自同一公司,可能因训练数据偏差或算法同质化,忽略特定类型错误(如安全漏洞、性能瓶颈)。  
案例:研究显示,AI审查可能对“语法正确但逻辑错误”的代码放行,而人类开发者更易发现此类问题。  
二、程序员角色的“三重进化” 🧬👨💻  
1. 从“写代码”到“拆任务”  
新能力需求:  
将复杂需求拆解为AI可执行的子任务(如“用户登录功能”→“表单验证+API调用+错误处理”);  
设计清晰的提示词(Prompt)和代码规范,减少AI理解偏差。  
工具:使用任务拆解框架(如TaskWeaver、AutoGPT)或可视化需求图谱工具。  
2. 从“执行者”到“AI管理者”  
核心职责:  
选择合适的AI编码工具(如Copilot擅长补全,Devin擅长自主项目);  
监控AI生成代码的进度和质量,及时介入修正偏差;  
优化AI的工作流(如并行生成多个代码版本,通过自动化测试筛选最优解)。  
案例:某团队用AI生成代码后,程序员仅需花20%时间审查,却能提升整体效率300%。  
3. 从“编码”到“审查与架构”  
高价值工作:  
代码审查:聚焦AI难以处理的逻辑、安全、性能问题;  
系统架构设计:定义模块边界、数据流和扩展性,确保AI生成的代码可集成;  
错误预测:利用AI失败案例库,提前规避常见陷阱(如内存泄漏、竞态条件)。  
数据支撑:研究显示,人类审查者对AI代码的修改中,60%集中在架构和逻辑层,而非语法层。  
三、人机协作的“未来图景” 🌌🤖  
1. 短期(1-3年):磨合期与数据飞轮启动  
挑战:AI代码接受率低,需反复调试;人类需适应“AI+人工”的新工作流。  
机遇:  
企业通过AI降低初级程序员需求,但需投资培训现有员工转型;  
研究机构建立AI编码Benchmark(如AIDev数据集),推动模型优化。  
2. 中期(3-5年):标准化协作流程成型  
新角色涌现:  
AI训练师:定制企业专属代码生成模型;  
审查自动化工程师:开发AI辅助审查工具,减少人类工作量;  
任务拆解专家:成为软件开发团队的核心岗位。  
技术突破:  
AI具备自我修正能力(如通过失败案例学习优化后续代码);  
多AI协作框架成熟(如编码Agent+测试Agent+部署Agent联动)。  
3. 长期(5-10年):程序员成为“AI指挥官”  
终极形态:  
人类仅需定义“做什么”(需求),AI完成“如何做”(代码生成、测试、部署);  
程序员转型为“技术战略家”,聚焦创新、伦理和跨领域融合(如AI+生物信息学)。  
风险预警:  
需防止AI编码垄断(如少数公司控制核心模型,限制开源协作);  
建立AI代码溯源机制,避免知识产权纠纷。  
四、行动建议:程序员如何拥抱AI时代? 🚀📚  
1. 技能升级  
学习提示词工程(Prompt Engineering),精准控制AI输出;  
掌握代码审查工具(如SonarQube、CodeGuru)和AI辅助调试技术;  
深入研究系统架构设计,提升抽象思维能力。  
2. 工具链构建  
部署AI编码工作台(如Cursor、Codeium),集成代码生成、审查、测试全流程;  
参与开源AI编码项目(如Hugging Face的CodeLlama),积累实战经验。  
3. 职业规划  
初级程序员:向“AI任务拆解者”转型,避免被自动化取代;  
资深开发者:聚焦架构设计、技术领导力,成为AI协作的“枢纽”;  
创业者:开发AI编码垂直领域工具(如针对游戏开发的AI代码生成器)。  
总结:AI不是“敌人”,而是“超级队友” 🤝✨  
✅ 效率:AI将代码生产速度提升100倍,但质量仍需人类把关;  
✅ 角色:程序员从“执行层”跃迁至“决策层”,专注高价值工作;  
✅ 未来:人机协作的终极形态是“人类定义问题,AI解决问题”。  

最后思考:  
“当AI能写代码时,程序员的价值不在于写多少行,而在于能否提出正确的问题。就像汽车发明后,司机的工作不是踩油门,而是规划路线——AI时代,程序员的‘路线图’就是技术战略与创新思维。” 💭🚗

1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
173522
金币
550181
道行
20030
原创
768
奖券
398
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21593(小时)
注册时间: 2012-06-21
最后登录: 2026-02-28
只看该作者 板凳  发表于: 02-20
超6万GitHub项目实测:Agent写代码效率与质量的权衡

一、实测范围与覆盖工具
本次研究覆盖GitHub平台上超45.6万条Agent代码合并请求(PR),涉及6.1万个代码库、4.7万名开发者,涵盖主流AI编码工具(如OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code等)。

二、效率提升:代码生成速度与简单任务表现
效率暴涨案例:部分开发者使用AI编码Agent后,3天内完成的任务量接近过去3年的总量,显著减少重复劳动时间。
简单任务优势:在文档相关、代码补全等重复性较高的任务中,AI表现优于人类——OpenAI Codex的文档类PR接受率达88.6%,Claude Code为85.7%,均高于人类的76.5%。
三、质量瓶颈:通过率仍落后人类
整体差距:AI编码Agent的PR接受率比人类低15%至40%(不同任务类型差异显著)。
复杂任务短板:在新增功能开发、Bug修复等需要深度逻辑的任务中,差距更明显——例如OpenAI Codex的PR接受率仅64%,而人类开发者的接受率高达76.8%。
根源分析:AI生成的代码结构相对简单,长期可维护性不足,需人类开发者进行二次审查与优化。
四、未来趋势:效率与质量的平衡
短期权衡:AI Agent的效率提升与质量短板需平衡,企业需在“快速产出”与“代码可靠性”间做取舍。
长期潜力:随着数据飞轮效应启动(更多代码数据反馈优化模型),AI的代码质量与接受率有望逐步提升。
角色转变:开发者的核心职责将从“写代码”转向“任务拆分与管理”——通过拆解任务、设定约束,让AI Agent更高效地执行具体编码工作,人类则聚焦于方向把控与结果校验。
总结
AI编码Agent在效率(尤其是简单重复任务)上的优势已得到验证,但质量(尤其是复杂任务)仍需提升。未来,人机协同模式将成为主流——人类提供专业判断与任务规划,AI负责高效执行,最终实现生产力的显著提升。
1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个