Google DeepMind 开源 SynthID Text 文本水印工具

Google DeepMind 于10月23日宣布,通过更新 Responsible Generative AI Toolkit 开源了 SynthID Text 文本水印工具。这一工具旨在帮助识别 AI 生成的文字内容,现已免费提供给开发人员和企业使用。

SynthID Text 功能

  1. 建立水印
    • SynthID Text 可以在不危及原始内容的前提下,将数字水印嵌入由 AI 生成的文本中。
    • 这种水印是通过微调每个 Token 的概率分数来实现的,不会影响生成内容的质量和准确性。
  2. 辨识 AI 生成内容
    • SynthID Text 还具备扫描文本中的数字水印,以辨识内容是否由 AI 生成。
    • 这种水印就像是一个隐形的数字签名,人眼无法察觉,但可以通过特定工具检测和验证。

技术原理

  1. Token 生成
    • 大语言模型(LLM)在生成文本时,一次生成一个 Token。这个 Token 可能是一个字符、一个单词,或者是段落的一部分。
    • 模型会基于先前的文字和每个潜在 Token 的概率,预测下一个最可能生成的 Token。
  2. 概率分数调整
    • 当 LLM 生成「我最喜欢的水果是...」时,可能填入「芒果」、「荔枝」、「木瓜」或「榴莲」等 Token,每个 Token 都会获得一个概率分数。
    • SynthID 会在不影响输出质量和准确性的情况下,微调每个 Token 的概率分数。
  3. 水印形成
    • 在反复执行上述程序后,一个句子可能包含10个或更多的经过 SynthID 调整的概率分数,一个页面可能包含数百个。
    • 模型最终选择的 Token 概率分数与被 SynthID 调整的概率分数相结合,形成了水印。

开源与集成

  • 论文发表:关于 SynthID Text 水印技术的论文已在《自然》杂志上发表。
  • 开源工具:通过 Google Responsible Generative AI Toolkit,SynthID Text 已经开源,供开发人员和企业免费使用。
  • 集成应用:Google 已经在 Gemini 应用程序和网页版中集成了 SynthID Text 技术。

意义与影响

  1. 保护原创内容:SynthID Text 可以帮助区分 AI 生成的内容和人类创作的内容,保护原创作者的权益。
  2. 提高透明度:通过水印技术,用户可以更容易地识别内容的来源,提高信息的透明度和可信度。
  3. 促进合规:企业和开发者可以利用这一工具确保内容符合法律法规和道德标准。

结语

Google DeepMind 的这一举措不仅为开发人员和企业提供了一个强大的工具,还在保护原创内容和提高信息透明度方面迈出了重要一步。通过 SynthID Text,我们可以更好地管理和识别 AI 生成的内容,促进数字内容生态的健康发展。

我们将24小时内回复。
取消