文章目录[隐藏]
Google DeepMind 于10月23日宣布,通过更新 Responsible Generative AI Toolkit 开源了 SynthID Text 文本水印工具。这一工具旨在帮助识别 AI 生成的文字内容,现已免费提供给开发人员和企业使用。
SynthID Text 功能
- 建立水印:
- SynthID Text 可以在不危及原始内容的前提下,将数字水印嵌入由 AI 生成的文本中。
- 这种水印是通过微调每个 Token 的概率分数来实现的,不会影响生成内容的质量和准确性。
- 辨识 AI 生成内容:
- SynthID Text 还具备扫描文本中的数字水印,以辨识内容是否由 AI 生成。
- 这种水印就像是一个隐形的数字签名,人眼无法察觉,但可以通过特定工具检测和验证。
技术原理
- Token 生成:
- 大语言模型(LLM)在生成文本时,一次生成一个 Token。这个 Token 可能是一个字符、一个单词,或者是段落的一部分。
- 模型会基于先前的文字和每个潜在 Token 的概率,预测下一个最可能生成的 Token。
- 概率分数调整:
- 当 LLM 生成「我最喜欢的水果是...」时,可能填入「芒果」、「荔枝」、「木瓜」或「榴莲」等 Token,每个 Token 都会获得一个概率分数。
- SynthID 会在不影响输出质量和准确性的情况下,微调每个 Token 的概率分数。
- 水印形成:
- 在反复执行上述程序后,一个句子可能包含10个或更多的经过 SynthID 调整的概率分数,一个页面可能包含数百个。
- 模型最终选择的 Token 概率分数与被 SynthID 调整的概率分数相结合,形成了水印。
开源与集成
- 论文发表:关于 SynthID Text 水印技术的论文已在《自然》杂志上发表。
- 开源工具:通过 Google Responsible Generative AI Toolkit,SynthID Text 已经开源,供开发人员和企业免费使用。
- 集成应用:Google 已经在 Gemini 应用程序和网页版中集成了 SynthID Text 技术。
意义与影响
- 保护原创内容:SynthID Text 可以帮助区分 AI 生成的内容和人类创作的内容,保护原创作者的权益。
- 提高透明度:通过水印技术,用户可以更容易地识别内容的来源,提高信息的透明度和可信度。
- 促进合规:企业和开发者可以利用这一工具确保内容符合法律法规和道德标准。
结语
Google DeepMind 的这一举措不仅为开发人员和企业提供了一个强大的工具,还在保护原创内容和提高信息透明度方面迈出了重要一步。通过 SynthID Text,我们可以更好地管理和识别 AI 生成的内容,促进数字内容生态的健康发展。