AI在历史研究中的局限性:新基准测试揭示的挑战

文章目录[隐藏]

一项由奥地利复杂性科学中心(CSH)主导的新研究表明,尽管大型语言模型(LLM)如OpenAI的GPT-4、Meta的Llama和Google的Gemini在编程或生成播客等任务上表现出色,但在通过高级历史考试方面却显得力不从心。这项研究利用了一个名为Hist-LLM的新基准测试,该测试基于Seshat全球历史数据库评估了这些顶级LLM在处理历史问题时的表现。

研究发现与分析

根据研究,在NeurIPS会议上展示的结果显示,即使是表现最佳的GPT-4 Turbo版本,其准确率也仅达到了约46%,这仅略高于随机猜测的水平。伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出:“虽然LLM令人印象深刻,但它们缺乏进行高级历史研究所必需的深度理解能力。”

研究人员提供了几个错误回答的例子来说明这一现象。例如,当被问及古埃及某个时期是否存在鳞甲时,GPT-4 Turbo给出了肯定的回答,但实际上这种技术直到1500年后才出现在埃及。类似地,关于古埃及是否拥有职业常备军的问题,正确的答案应该是“没有”,但LLM错误地选择了“有”。

Del Rio-Chanona解释说,这是因为LLM倾向于依赖于最常见的数据点进行推断,而难以访问较为冷僻的历史知识。此外,研究还发现,这些模型在撒哈拉以南非洲等地区的数据处理上存在不足,表明训练数据可能存在偏差。

未来展望

尽管如此,研究人员对LLM在未来能够辅助历史学家的工作仍抱有希望。他们正在努力通过增加来自代表性不足地区的信息以及提出更加复杂的问题来改进Hist-LLM基准测试。“总体而言,虽然我们的结果指出了LLM需要改进的地方,但也强调了这些模型在历史学领域内的潜在价值,”研究总结道。

领导这项研究的CSH教员Peter Turchin认为,尽管当前阶段LLM还不足以完全取代人类专家的角色,特别是在一些需要深入理解和独特见解的领域,但随着技术的发展和完善,它们有望成为历史学家的重要助手,帮助加速研究过程并提供新的视角。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注