武当休闲山庄

在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 190569

金币: 709816

道行: 19600

原创: 769

奖券: 554

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 24328(小时)
注册时间: 2012-06-21
最后登录: 2026-07-02

只看楼主倒序阅读楼主发表于: 06-11

— 本帖被兵马大元帅执行加亮操作(2026-07-01) —

用户被禁言,该主题自动屏蔽!

山庄提示：道行不够，道券不够？---☆点此充值☆

在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 190569

金币: 709816

道行: 19600

原创: 769

奖券: 554

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 24328(小时)
注册时间: 2012-06-21
最后登录: 2026-07-02

只看该作者沙发发表于: 06-11

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

用户被禁言,该主题自动屏蔽!

如何不发帖就快速得到金币和道行

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 261716

金币: 1023813

道行: 2006

原创: 2478

奖券: 3735

斑龄: 47

道券: 1645

获奖: 0

座驾

设备

摄影级

在线时间: 53747(小时)
注册时间: 2008-10-01
最后登录: 2026-07-02

只看该作者板凳发表于: 06-11

剑桥大规模研究警示：AI难以评判学术思想，绝不可独立担任学术考官
《科技日报》编译剑桥大学领衔OpRaise专项研究，以761篇本科真实论文实测Claude、GPT、Gemini顶尖大模型，证实生成式AI存在难以根治的评分缺陷，明确划定AI在学术评价中的能力边界——仅可作辅助工具，无法替代人类教师完成独立评分裁定。

一、研究基础：全场景、多顶尖模型的大规模实测
1. 样本与范围
剑桥大学心理学家德博拉·塔尔米牵头，联合曼彻斯特城市大学、诺丁汉大学，选取2022—2025年761篇本科论文，覆盖50个课程模块、87类作业，包含课堂作业、居家开卷考试、线下监考试卷，贴合高校完整考核场景。
2. 测试模型
当前主流顶尖大模型：Claude Opus4.6、GPT-5.4、Gemini 3 Flash；
团队提供完整官方评分细则、分数区间参考，并强制AI逐条输出打分理由，穷尽指令优化手段，但评分准确率依旧仅35%—65%，和人类专家定级匹配度不足一半。

二、AI阅卷两大核心致命缺陷
1. 中心倾向偏差：打分“掐头去尾”，区分度严重缺失
所有被测模型统一出现中庸化打分倾向，集中落在50—60分中等区间：
- 高质量一等论文（人类75分左右）：AI普遍压低分数，埋没优质创新成果；
- 逻辑薄弱、论证空洞的低分作业：AI反而抬分，掩盖学术短板。
AI无法精准区分顶尖佳作与不合格作业，而筛选优劣、划分学位等级恰恰是学术考核最核心目标，直接导致关键评级决策大面积失准。

2. 重语言形式、轻学术内核，看不懂思想深度
人类阅卷以论证逻辑、证据支撑、批判性思维、学科原创见解为核心标尺；
AI仅依靠文本语言统计学特征判断，过度看重篇幅长短、生僻词汇、复杂长句：文字包装越华丽，得分越高，完全忽略文章内在学术价值。
配套衍生两大问题：
1. 机械同质化：同一篇论文多次复测，AI分数几乎无波动，看似稳定，本质是只会匹配固定语言模板，不存在真正“理解”；独特、非常规但具备创新性的思考会被算法忽视；
2. 反馈缺少专业温度
AI评语篇幅是人工的3—8倍，压缩至同等长度后虽难以直观分辨，但师生知晓来源后，对AI评语认可度大幅下滑。学科圈层长期形成的专业共识、针对性人文指导、个性化点拨，是算法无法复刻的。

三、高校想用AI减负的现实矛盾与伦理风险
当下高校普遍面临阅卷任务繁重、师资人力紧张的压力，不少院校试图引入AI全权承担评分工作，但研究指出多重深层隐患：
1. 学生心理与公平问题
大量受访学生表示，若作业由AI独立打分，会产生强烈的不被尊重、被欺骗感；标准化算法抹平学生个体思考差异，扼杀个性化学术表达。
2. 动摇高等教育底层信任
学术评价不只是简单打分，更是师生间的“社会契约”：人工反馈传递专业认可、明确成长方向，维系学术标准与教育信任。完全依赖AI会消解教师专业判断力，抽离高等教育的人文内核。

四、研究给出明确定位：AI仅限辅助，人类掌握最终裁决权
报告并未否定AI教育价值，而是严格划分使用边界：
AI可承担的辅助工作
1. 批量筛查客观格式错误、文本规范问题；
2. 校验多份作业打分一致性，缩小人工阅卷主观偏差；
3. 快速标记AI打分与教师分差极大的试卷，推送教师重点复核；
4. 基础文字润色、文献格式整理等机械化劳动，解放教师精力，将时间留给针对性教学指导。

绝对禁止：AI独立担任考官、自主决定最终成绩
塔尔米团队强调：学术质量评判的核心——人类专业学科洞察、辩证推理、价值判断与教育责任，是现阶段所有生成式AI无法逾越的壁垒。在学位评定、课程结业考核等关键学术裁断场景，经过专业训练的人类教师，仍是不可替代的最终防线。

五、延伸现实启示
结合当下国内校园AI工具普及趋势，该研究具备极强参考意义：
1. 日常作业可用AI做初稿自查，但期中、期末、毕业论文等高权重考核，必须坚持人工终审；
2. 不能单纯追求阅卷效率而牺牲学术评价公平性，算法中庸偏差会造成优等生吃亏、劣质作业被宽容的系统性不公；
3. AI适合做“教学助手”，而非“考核判官”，教育的人文属性、思想价值评判，不能交由无自主认知的大模型完成。

如何不发帖就快速得到金币和道行

帖子

[智能应用]学术评判中，“AI考官”能被委以重任吗 [复制链接]


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选