文章目录[隐藏]
AI初创公司Mistral推出了一个新的内容审核API,该API与Mistral的Le Chat聊天机器人平台中的审核功能使用相同的API。这一新工具旨在根据特定应用和安全标准进行定制,以提高内容审核的效率和准确性。
官方介绍:https://mistral.ai/news/mistral-moderation
技术细节
- 驱动模型:审核API由一个经过微调的模型(Ministral 8B)驱动,该模型经过训练,可以将多种语言(包括英语、法语和德语)的文本分类为九个类别之一:
- 性内容
- 恨和歧视
- 暴力和威胁
- 危险和犯罪内容
- 自残
- 健康
- 金融
- 法律
- 个人身份信息
- 适用范围:审核API可以应用于原始文本或对话文本。
公司声明
Mistral在博客文章中表示:“在过去几个月里,我们看到整个行业和研究社区对基于AI的新审核系统越来越感兴趣,这些系统可以帮助使审核在各种应用中更具扩展性和鲁棒性。我们的内容审核分类器利用最相关的政策类别来实现有效的护栏,并通过解决模型生成的危害(如不合格的建议和个人身份信息)来引入一种务实的模型安全方法。”
潜在优势与挑战
优势:
- 高效性:基于AI的审核系统可以快速处理大量内容,提高审核效率。
- 可定制性:根据特定应用和安全标准进行定制,灵活应对不同需求。
- 多语言支持:支持多种语言,适用于国际化的应用环境。
挑战:
- 偏见问题:一些经过训练以检测毒性的模型会将某些语言(如非洲裔美国人英语)中的短语误判为“有毒”。
- 技术缺陷:模型可能在检测某些类型的内容时出现误报或漏报。
Mistral的承诺
Mistral声称其审核模型非常准确,但也承认它仍在不断改进中。公司表示:“我们正在与客户合作,构建和共享可扩展、轻量级和可定制的审核工具,并将继续与研究社区合作,为更广泛的领域贡献安全进步。”
性能对比
值得注意的是,Mistral没有将其API的性能与其他流行的审核API(如Jigsaw的Perspective API和OpenAI的审核API)进行比较。这可能是由于性能测试仍在进行中,或者公司希望在未来提供更多的性能数据。
Mistral推出的内容审核API为内容审核领域带来了新的解决方案,特别是在多语言支持和可定制性方面。然而,像所有基于AI的系统一样,它也面临着偏见和技术缺陷的挑战。
Mistral承诺将继续改进其模型,并与研究社区合作,推动内容审核技术的发展。对于需要高效、准确内容审核的公司和组织来说,这是一个值得关注的工具。