AI·新世界

哈佛大学与谷歌合作发布100万本公共领域书籍作为AI训练数据集

2024年12月13日

文章目录[隐藏]

数据集来源
机构数据计划（IDI）
合作伙伴与支持
目标与影响
未来展望

AI训练数据的成本高昂，通常只有资金雄厚的科技公司能够负担得起大规模的数据集。为了打破这一壁垒，哈佛大学计划发布一个包含约100万本公共领域书籍的数据集，这些书籍涵盖了各种类型、语言和作者，包括经典作家如狄更斯、但丁和莎士比亚的作品。由于这些书籍年代久远，已经不再受版权保护，因此可以免费用于AI训练。

数据集来源

这个新数据集尚未正式发布，但其内容来自谷歌长期的书扫描项目 Google Books。自2004年以来，谷歌一直在扫描全球图书馆的书籍，并将其数字化。此次合作意味着谷歌将参与“广泛发布这个宝库”，使得这些珍贵的文学资源能够被更广泛地用于AI研究和开发。

机构数据计划（IDI）

早在2023年3月，哈佛大学就首次预告了 Institutional Data Initiative (IDI)，这是一个旨在创建“AI合法数据可信渠道”的项目。IDI的目标是为研究人员、学术机构和小型AI初创公司提供高质量的公共领域数据，帮助他们训练大型语言模型（LLMs），而无需依赖于少数几家大型科技公司的专有数据集。

合作伙伴与支持

IDI的启动得到了微软和OpenAI的财务支持，这表明该项目不仅得到了学术界的重视，也获得了业界的认可和支持。通过这种合作，IDI希望能够推动AI技术的民主化，确保更多的研究团队和开发者能够获得必要的资源来推动创新。

目标与影响

IDI执行主任 Greg Leppert 表示，该数据集的发布旨在“公平竞争”，向任何希望训练其大型语言模型的人——从研究实验室到AI初创公司——开放如此庞大的数据集。此举有望：

降低进入门槛：对于小型研究团队和初创公司来说，获取高质量的训练数据一直是一个巨大的挑战。通过提供免费的公共领域书籍数据集，哈佛大学和谷歌可以帮助这些团队更容易地参与到AI研究中。
促进多样性与包容性：该数据集涵盖了多种语言和文化背景的书籍，有助于训练更加多样化和包容性的语言模型。这对于减少AI系统的偏见和提高其在全球范围内的适用性至关重要。
加速创新：通过提供大量高质量的文本数据，研究人员可以更快地测试和改进他们的模型，从而加速AI技术的发展。

未来展望

尽管该数据集的具体发布时间和发布方式尚未公布，但哈佛大学和谷歌的合作无疑为AI领域带来了新的机遇。随着更多公共领域的数据被释放，我们可以期待看到更多的创新应用和更广泛的AI技术普及。