AI在古代文本研究中的重大突破:Aeneas的多模态能力
人类历史始于书写,而铭文作为最早的书写形式之一,提供了关于古代文明思想、语言和历史的直接洞见。然而,解读这些珍贵的铭文并非易事,研究者往往面临诸多挑战。随着时间的推移,铭文中的字母、词语乃至整段内容可能已经遗失,而这些缺失部分的长度与内容往往难以预测,使得还原工作更加复杂艰难。
Aeneas:多模态生成式神经网络
为了应对这些挑战,Google DeepMind、诺丁汉大学团队及其合作者推出了一款名为Aeneas的多模态生成式神经网络。Aeneas能够协助对公元前7世纪至公元8世纪的拉丁铭文进行预测、断代、定位与解读。这一工具不仅能够评估铭文物体的视觉特征,还能分析文本本身,从而提供更全面的解读。
Aeneas的工作原理
Aeneas的输入是铭文的图像及其文本转录。其高效的架构完全基于字符运作,避免了先前方法中实现的基于单词级别的表示。这一过程依赖于历史丰富的嵌入式数据,用以捕捉文本中的历史与语言模式,从而使模型能够基于语义和语境进行比较。Aeneas能够为未知长度的缺失文本提供修复建议,这一能力对于研究严重受损的铭文尤为重要。
实际应用效果
为测试Aeneas在实际历史研究中的应用效果,团队组织了一项大规模的人机协作实验“古代历史学家与AI”。研究邀请了23名具备铭文学专业知识的参与者,涵盖从硕士生到教授的不同级别,他们在设定的时间限制内,参与了一项模拟现实研究流程的实验,与Aeneas展开互动。历史学者在90%的案例中认为Aeneas所检索的平行文本是有价值的研究起点,使他们在关键任务中的信心提高了44%。在人机协同下,文本修复与地理归属任务的表现优于单独由人类或人工智能完成的结果。在断代任务中,Aeneas达到了与真实年代范围平均相差13年的精度。
未来发展方向
Aeneas向我们展示了人工智能在推进历史研究方面的变革潜力,未来有多个方向值得进一步探索。其中一个关键方向是将Aeneas的能力整合到大规模对话模型中,从而实现更自然、交互性更强的研究流程。如何应对历史数据中固有的不确定性,特别是在年代归属方面,仍是一个重要挑战。未来研究可着重开发更优方法,来表示和评估宽泛的年代范围。
另一个有前景的方向是开展更多消融实验,以量化不同模块的具体贡献(例如视觉输入对不同任务的影响);以及探索上下文平行关系如何随不同文本输入而变化,以及系统对输入格式变动(以及不同类型铭文)的敏感性。进一步提升模型的多模态能力,需依托更大规模、高度标准化、并符合FAIR原则的数据集。
同时,将研究范围扩展到拉丁铭文之外,也是值得探索的研究方向。这将有助于更深入地挖掘视觉模态在地理归属之外的潜力,并可能通过图像学或其他考古学线索,辅助年代判断。最后,他们认为深化跨学科合作至关重要,希望未来的研究项目能够持续推进,将人文学科与自然科学进一步联结起来。
结论
Aeneas代表了AI在古代文本研究中的一次重大飞跃,其架构超越了此前的SOTA模型,具备多模态能力,能够恢复未知长度的文本序列,并可适配任何古代语言及书写媒介(如莎草纸、手稿或钱币)。这些特性凸显了它在以下方面的潜力:扩充具有文本和上下文对应关系的数据集、为缺失值提供假设,以及作为模块化组件,用于增强基于对话的语言模型。相关案例研究证明了Aeneas作为铭文学研究专用AI辅助工具的可靠性。