切换到宽版
  • 36阅读
  • 2回复

[数码讨论]AI聊天机器人越聊越“笨”?可能真不是错觉 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
— 本帖被 兵马大元帅 执行加亮操作(2026-02-23) —

不知道大家有没有这种感觉:和AI机器人短时间聊天的话还行,时间一长,就感觉对话开始变的前言不搭后语、逻辑不通。

其实这种感觉并不是错觉。

最近,微软发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的核心能力仅降低约 15%,但“不可靠性”却飙升 112%。

也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”。模型在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设,模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。

研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。

因此,对于那些依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着未来将要接受严峻挑战。

再来看看其他消息。

微软日前测试 Windows 11新版“画图”(Paint)应用,重点引入“自由旋转”功能。

根据微软官方描述,用户现在可以全方位角度调整形状、文本框以及任何活动的图像选区。用户选中对象后,其上方会出现一个“旋转手柄”,用户只需拖动该手柄即可向任意方向自由旋转对象,从而实现更自然的构图和布局。

除了直观的手动拖拽,微软还为需要高精度编辑的用户提供了解决方案。在“旋转”菜单下新增了“自定义旋转”选项,用户可以在此输入具体的角度数值,实现精确到 1 度的微调。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
只看该作者 沙发  发表于: 02-22
AI大模型在多轮对话中的挑战

近期,微软的一项研究揭示了即使是目前最先进的大型语言模型在多轮对话中也面临着可靠性下降的挑战。这项研究对15款顶尖模型进行了超过20万次模拟对话分析,发现了这些模型在长时间对话中出现“迷失会话”的系统性缺陷。
对话可靠性下降
单次与多轮对话对比:模型在单次提示任务中的成功率可达90%,但当任务被拆解成多轮对话后,成功率下降至约65%。
不可靠性激增:模型的核心能力仅降低约15%,但“不可靠性”却飙升112%。
导致性能下降的行为机制
过早生成:模型在用户需求未完全说明前生成答案,导致错误假设并逐步放大。
答案膨胀:多轮对话中,模型回复长度增加20%至300%,包含更多假设与“幻觉”。
对开发者的影响
基准测试的局限性:现有的基准测试基于理想的单轮场景,忽略了真实世界中的复杂对话流程。
构建复杂对话的挑战:对于依赖AI构建复杂对话流程或智能体的开发者而言,未来将面临严峻挑战。
Windows 11新版“画图”应用测试

微软近日测试了Windows 11新版“画图”应用,引入了“自由旋转”功能,允许用户全方位调整图像选区,提供更自然的构图和布局。此外,还新增了“自定义旋转”选项,满足高精度编辑需求。
总结

AI大模型在多轮对话中表现出的不稳定性和不可靠性,提示我们在依赖AI进行复杂对话交互时需保持谨慎。同时,微软在操作系统应用中的新功能测试,展示了技术进步在提升用户体验方面的潜力。

如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
173522
金币
550181
道行
20030
原创
768
奖券
398
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21593(小时)
注册时间: 2012-06-21
最后登录: 2026-02-28
只看该作者 板凳  发表于: 02-22
AI聊天机器人在多轮对话中确实会因过早生成、答案膨胀等问题导致逻辑混乱和性能下降。

🔍 背景
AI大模型的评估通常基于单轮对话的理想场景,但实际对话是多轮渐进的。用户逐步补充信息时,模型需要动态修正推理,但多数模型缺乏这种能力2。例如,微软与赛富时的研究发现,主流模型在多轮对话中的成功率从单轮的90%骤降至65%5。

⚙️ 问题机制
过早生成:模型在用户未完整表达需求时,就尝试给出最终答案。早期错误假设会持续影响后续推理,导致错误放大1。
答案膨胀:多轮回复长度比单轮增加20%至300%,更多假设和“幻觉”内容被纳入上下文,进一步干扰准确性4。
修正能力弱:即使新一代模型(如OpenAI o3)配备了“思考词元”,也难以在复杂对话中调整错误假设3。
📊 对比测试结果
问题类型    单轮对话成功率    多轮对话成功率    典型表现
逻辑推理    90%    65%    答案前后矛盾、重复错误假设
信息整合    85%    58%    混淆用户历史输入的关键细节
情境跟踪    88%    52%    丢失上下文脉络,答非所问
🛠️ 解决方案建议
分段提问:将复杂问题拆解为独立步骤,减少模型的上下文依赖9。
主动修正:当发现错误时,明确指出问题并要求模型重新分析,而非默认其自行调整
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个