开源倡议组织(OSI)今天发布了其开源AI定义(OSAID)的1.0版本,旨在为AI模型提供一个标准化的开源定义。经过与学术界和行业的多年合作,OSAID将帮助政策制定者和AI开发者达成共识,确保AI模型的透明度和可访问性。
地址:https://opensource.org/ai/open-source-ai-definition
定义背景
开源AI的定义为何需要达成共识?OSI执行副总裁斯特凡诺·马富利表示,一个重要动机是让政策制定者和AI开发者达成一致。监管机构如欧盟委员会正在关注这一领域,并试图给予开源特殊认可。OSI希望通过广泛的外联活动,确保各个利益相关者都能参与讨论。
OSAID的核心内容
根据OSAID,要被视为开源,AI模型必须满足以下条件:
- 设计信息透明:提供足够的设计信息,使任何人可以“实质上”重新创建模型。
- 训练数据透明:披露训练数据的相关细节,包括来源、数据处理方式以及如何获取或授权。
- 代码和组件访问:提供用于训练和数据过滤的完整代码。
- 使用和修改自由:开发者可以自由地将模型用于任何目的,并在不需任何人许可的情况下进行修改。
开源AI的意义
“开源AI是一个让你完全了解其构建方式的AI模型,”马富利说。“这意味着你可以访问所有组件,例如用于训练和数据过滤的完整代码。”
OSAID还列出了开发者在使用开源AI时应期望的权利,如自由地将模型用于任何目的,并在不需任何人许可的情况下进行修改。“最重要的是,你应该能够在其基础上构建,”马富利补充道。
OSI的角色
OSI没有执行机制,不能强迫开发者遵守或遵循OSAID。但它确实打算标记那些被描述为“开源”但实际上不符合定义的模型。“我们的希望是,当有人试图滥用这个术语时,AI社区会说,‘我们不认为这是开源的’,然后它会被纠正,”马富利说。
行业反应
许多初创公司和大型科技公司使用了“开源”一词来描述其AI模型发布策略,但很少符合OSAID的标准。例如,Meta要求月活跃用户超过7亿的平台申请特殊许可证才能使用其Llama模型。马富利对Meta称其模型为“开源”的决定公开批评。
尽管如此,谷歌和微软同意放弃对不完全开源的模型使用“开源”一词,但Meta没有。Stability AI要求年收入超过100万美元的企业获得企业许可证,而法国AI初创公司Mistral的许可证禁止将某些模型和输出用于商业项目。
反对意见
Meta不同意这一评估,并对OSAID的书面内容提出异议。Meta为Llama的许可证辩护,认为条款和伴随的可接受使用政策作为防止有害部署的护栏。Meta还表示,随着加州的训练透明法等法规的发展,它对共享模型细节采取了“谨慎的态度”。
Meta指出,其他努力也在编纂“开源”AI,如Linux基金会提出的定义、自由软件基金会的“自由机器学习应用”标准,以及其他AI研究人员的建议。
开放问题
一些人认为OSAID还需要进一步深入,特别是在处理专有训练数据许可方面。Lightning AI的首席技术官卢卡·安蒂加指出,一个模型可能符合OSAID的所有要求,但用于训练的数据并非自由可用。如果必须支付数千美元才能检查模型创建者付费授权的私人图像库,那么它是“开放”的吗?
此外,OSAID的1.0版本没有涉及与AI模型相关的版权问题,以及授予版权许可是否足以确保模型满足开源定义。目前尚不清楚模型或其组件是否可以在当前知识产权法下获得版权。但如果法院决定它们可以,OSI建议可能需要新的“法律工具”来正确开源受知识产权保护的模型。
未来展望
马富利同意该定义将需要更新,并成立了委员会负责监控OSAID的应用情况,并为未来版本提出修正案。“这不是地下室里孤独天才的工作,”他说。“这是在广泛的利益相关者和不同利益集团中公开进行的工作。”