剑桥大规模研究警示:AI难以评判学术思想,绝不可独立担任学术考官
《科技日报》编译剑桥大学领衔OpRaise专项研究,以761篇本科真实论文实测Claude、GPT、Gemini顶尖大模型,证实生成式AI存在难以根治的评分缺陷,明确划定AI在学术评价中的能力边界——仅可作辅助工具,无法替代人类教师完成独立评分裁定。
一、研究基础:全场景、多顶尖模型的大规模实测
1. 样本与范围
剑桥大学心理学家德博拉·塔尔米牵头,联合曼彻斯特城市大学、诺丁汉大学,选取2022—2025年761篇本科论文,覆盖50个课程模块、87类作业,包含课堂作业、居家开卷考试、线下监考试卷,贴合高校完整考核场景。
2. 测试模型
当前主流顶尖大模型:Claude Opus4.6、GPT-5.4、Gemini 3 Flash;
团队提供完整官方评分细则、分数区间参考,并强制AI逐条输出打分理由,穷尽指令优化手段,但评分准确率依旧仅35%—65%,和人类专家定级匹配度不足一半。
二、AI阅卷两大核心致命缺陷
1. 中心倾向偏差:打分“掐头去尾”,区分度严重缺失
所有被测模型统一出现中庸化打分倾向,集中落在50—60分中等区间:
- 高质量一等论文(人类75分左右):AI普遍压低分数,埋没优质创新成果;
- 逻辑薄弱、论证空洞的低分作业:AI反而抬分,掩盖学术短板。
AI无法精准区分顶尖佳作与不合格作业,而筛选优劣、划分学位等级恰恰是学术考核最核心目标,直接导致关键评级决策大面积失准。
2. 重语言形式、轻学术内核,看不懂思想深度
人类阅卷以论证逻辑、证据支撑、批判性思维、学科原创见解为核心标尺;
AI仅依靠文本语言统计学特征判断,过度看重篇幅长短、生僻词汇、复杂长句:文字包装越华丽,得分越高,完全忽略文章内在学术价值。
配套衍生两大问题:
1. 机械同质化:同一篇论文多次复测,AI分数几乎无波动,看似稳定,本质是只会匹配固定语言模板,不存在真正“理解”;独特、非常规但具备创新性的思考会被算法忽视;
2. 反馈缺少专业温度
AI评语篇幅是人工的3—8倍,压缩至同等长度后虽难以直观分辨,但师生知晓来源后,对AI评语认可度大幅下滑。学科圈层长期形成的专业共识、针对性人文指导、个性化点拨,是算法无法复刻的。
三、高校想用AI减负的现实矛盾与伦理风险
当下高校普遍面临阅卷任务繁重、师资人力紧张的压力,不少院校试图引入AI全权承担评分工作,但研究指出多重深层隐患:
1. 学生心理与公平问题
大量受访学生表示,若作业由AI独立打分,会产生强烈的不被尊重、被欺骗感;标准化算法抹平学生个体思考差异,扼杀个性化学术表达。
2. 动摇高等教育底层信任
学术评价不只是简单打分,更是师生间的“社会契约”:人工反馈传递专业认可、明确成长方向,维系学术标准与教育信任。完全依赖AI会消解教师专业判断力,抽离高等教育的人文内核。
四、研究给出明确定位:AI仅限辅助,人类掌握最终裁决权
报告并未否定AI教育价值,而是严格划分使用边界:
AI可承担的辅助工作
1. 批量筛查客观格式错误、文本规范问题;
2. 校验多份作业打分一致性,缩小人工阅卷主观偏差;
3. 快速标记AI打分与教师分差极大的试卷,推送教师重点复核;
4. 基础文字润色、文献格式整理等机械化劳动,解放教师精力,将时间留给针对性教学指导。
绝对禁止:AI独立担任考官、自主决定最终成绩
塔尔米团队强调:学术质量评判的核心——人类专业学科洞察、辩证推理、价值判断与教育责任,是现阶段所有生成式AI无法逾越的壁垒。在学位评定、课程结业考核等关键学术裁断场景,经过专业训练的人类教师,仍是不可替代的最终防线。
五、延伸现实启示
结合当下国内校园AI工具普及趋势,该研究具备极强参考意义:
1. 日常作业可用AI做初稿自查,但期中、期末、毕业论文等高权重考核,必须坚持人工终审;
2. 不能单纯追求阅卷效率而牺牲学术评价公平性,算法中庸偏差会造成优等生吃亏、劣质作业被宽容的系统性不公;
3. AI适合做“教学助手”,而非“考核判官”,教育的人文属性、思想价值评判,不能交由无自主认知的大模型完成。