Reddit热议:我分析了 25,500 次大语言模型简历筛选,结果为招聘偏见敲响警钟

作者称其研究分析了 25,500 次大语言模型简历评估:在保持同一份工作经历不变的情况下,只替换少量身份和人口统计变量,并覆盖 10 个不同模型,独立 AI 审计器标记出 45% 的偏见率,主要来自“沉默偏见”。与直接输出冒犯性判断不同,这些模型会用看似专业的理由降低候选人评分,例如仅把学校改成 MIT 后,模型就从肯定同一段经历变为称其“不相关”。研究还发现不同系统稳定性差异可达 6 倍,Qwen 和较旧 Gemini 模型波动较大,而 Claude、Mistral-Large 和 Llama 4 相对更稳定、公平。作者的核心警示是,AI 简历筛选输出的并非客观真相,而可能是受统计噪声驱动的主观且不可预测意见;在欧盟 AI 法案等监管框架下,这类工具可能带来重大合规责任。不过帖子只概述了方法和结论,具体数据细…

来源:Reddit(r/artificial)
原始发布时间:2026-06-01 21:46