长期以来,人力资源领域的一项重要发现是,简历上带有黑人或女性名字的求职者往往比带有白人或男性名字的求职者收到更少的回电和面试机会,即使简历的其他部分完全相同。然而,随着AI技术的发展,人们开始使用大语言模型(LLM)来评估简历,期望减少人为偏见。但最近的一项研究却发现,即使是由AI进行评估,类似的偏见仍然存在。(研究地址)
研究方法
华盛顿大学的两位研究人员在最近的AAAI/ACM人工智能、伦理和社会会议上发表了一篇论文,探讨了大规模文本嵌入(MTE)模型在评估简历时是否存在种族和性别偏见。他们选择了三种基于Mistal-7B LLM的不同模型,这些模型经过了不同的数据集微调,旨在提高文档检索、分类和聚类等任务的表现。
研究人员首先在没有名字的情况下运行简历,以确保模型的评估是基于简历内容本身。随后,他们再次运行带有不同种族和性别显著性名字的简历,以检测模型是否存在偏见。通过对比简历与职位描述的相关性分数,研究人员分析了哪些名字更容易被选中。
研究结果
研究结果显示,即使是AI评估也未能摆脱种族和性别的偏见:
- 种族偏见:在所有三种MTE模型中,白人名字在85.1%的测试中被偏好,而黑人名字仅在8.6%的测试中被偏好。
- 性别偏见:男性名字在51.9%的测试中被偏好,而女性名字在11.1%的测试中被偏好。
- 交叉偏见:在涉及种族和性别的“交叉”比较中,黑人男性名字从未在任何测试中被偏好于白人男性名字。
这些偏见在各种职位描述中普遍存在,表明这种偏见是模型的“默认偏好”,而非职业模式的真实反映。
结果解释
研究人员指出,这些模型似乎将“男性化和白人概念”视为“默认”值,而其他身份则被视为偏离这一默认值。尽管每次测试中的偏好差异通常很小,但在大量简历评估中,这种偏见可能会累积,导致显著的不公平现象。
实际应用与未来展望
尽管这项研究是在受控环境中进行的,但其结果提醒我们在实际招聘中使用AI工具时应保持警惕。Salesforce等公司的发言人表示,他们在模型发布前会进行严格的毒性和偏见测试,并采取措施保护客户数据和防止有害输出。
然而,2018年亚马逊被迫放弃一个对女性有偏见的内部AI招聘工具的事件,再次证明了AI系统可能继承训练数据中的偏见。因此,持续的研究和改进是必要的,以确保AI工具能够在公平和透明的基础上帮助招聘过程。
发表回复