洞察

AI打分比人工更公正?别闹了

2026年6月1日
0 阅读
原创

最近一家互联网大厂出了个事。年终绩效评定,公司全面启用AI评估系统,给每个员工打分。系统运行三个月后,研发团队整体评分普遍低于销售团队。技术总监不干了:“...

AI打分比人工更公正?别闹了

AI打分比人工更公正?别闹了

# AI打分比人工更公正?别闹了


“如果你现在还在迷信AI打分,那韭菜的就是你。”

01 痛的引入:一个正在发生的撕裂


最近一家互联网大厂出了个事。年终绩效评定,公司全面启用AI评估系统,给每个员工打分。系统运行三个月后,研发团队整体评分普遍低于销售团队。技术总监不干了:“代码质量、架构设计这些维度,AI能看懂?”HR的回复也很干脆:“系统评估是客观的,你们说自己厉害,拿数据出来。”


结果呢?核心架构师走的走,调的调。留下的工程师私下说了一句话:“我们不是不服AI,是不服这套逻辑背后的人。”


这个故事不是孤例。 Unilever全球推AI招聘,声称效率提升75%。但后来被发现,AI系统悄悄过滤掉了大量非名校背景的候选人——不是因为能力,而是因为训练数据里“成功员工”的画像太单一。 HireVue的AI面试系统被曝对女性求职者存在隐性偏见,分析她们的语言模式时,打分系统性低于男性。


问题来了:AI打分,到底在解决什么问题?又在制造什么问题?


核心观点:AI打分在效率上碾压人类,但在公正性上远未达标。真正靠谱的评估,是“人机协同”,而非“机器全责”。


02 第一个原因:AI没有常识,它只有统计


很多人对AI评估有个误解——以为算法是理性的,所以是公正的。


这是最大的认知盲区。


AI打分的基础是“历史数据的模式识别”。它做的事情是:把过去被认为是“好”的样本特征提取出来,然后给新样本打分。这套逻辑有个致命问题:历史偏见会被完整继承。


Pymetrics是一家做AI招聘评估的美国公司,核心产品是一套认知游戏+AI分析。早期他们给金融机构做评估,模型表现很好。但后来发现一个问题:游戏设计中融入了“时间压力”维度,擅长快速决策的人得分高。这恰好与“男性更适应高压环境”的历史偏见吻合,导致系统持续倾向于给男性候选人更高分。


你说这是算法的问题吗?不是。算法只是忠实地反映了训练数据中的偏见。它没有“常识”,不会质疑“为什么过去的样子就是对的”。


回到绩效评估。如果一家公司过去十年,管理层全是销售出身,AI系统用历史数据训练,大概率会认为“销售导向”就是好员工的标准。技术、产品、运营的贡献被系统性低估,不是AI“坏”,是AI“笨”——它根本不理解一家公司需要多元能力。


所以第一个结论:AI评估不是的天平,是放大镜。它放大的不是公正,是偏见。


03 第二个原因:打分是行为,评价是关系


绩效评估的本质是什么?


很多人以为评估就是“给表现打个分”。如果是这样,AI确实可以做——它处理数据的效率和一致性,人类拍马也赶不上。


但真正的绩效评估从来不只是打分。评估是一个关系事件:上级评估下级,不仅仅是评价工作成果,还在传递信号——“我关注什么”、“我认可什么”、“你对我重要吗”。


这是AI绝对做不到的。


一家公司里,两个员工同样完成KPI。一个是按部就班完成的,一个是主动突破创新完成的。AI可能给他们同样的分数,因为KPI是硬指标。但管理者清楚:这两个人的贡献质量完全不同。前者在“完成”,后者在“创造”。这种判断需要的是什么?不是数据,是对组织的理解、对业务的感知、对人的观察。


更重要的是,评估是组织管理的核心工具。它影响的不只是薪酬,还包括晋升、信��、机会。一个员工被AI打了低分,他不会怪系统,他会怪“公司”,然后离开。但如果是被上级打了低分,他可能还会想办法沟通、争取、改变。


评估这个动作本身,就是管理的一部分。而管理,需要的是关系,不是算法。


04 第三个原因:系统性漏洞与责任真空


第三个问题更致命:AI评估出了事,谁负责?


目前几乎所有AI评估系统都面临这个问题:算法不可解释,责任不可追溯。


2023年,全球最大招聘平台Indeed被求职者集体起诉。原因是AI筛选系统导致大量符合条件的候选人被自动过滤,当事人要求平台提供被拒的具体理由,平台的回复是“算法自动处理,无法提供具体解释”。这个案子的核心争议不是AI打分对不对,而是当AI犯错时,受害者连个说法都得不到


在企业内部绩效评估中,这个问题更严重。


如果一个员工因AI评估被调岗或裁员,他能告公司吗?能要求算法公开解释吗?目前法律层面几乎是个空白。更诡异的是,很多公司引入AI评估系统的初衷就是“减少人为干扰”、“更客观”。但一旦出了问题,公司会立刻说“这是系统评的,我们也在查”——责任成功转移到了算法头上。


这才是真正可怕的地方:AI打分让评估变成了一个“无法追问的黑箱”。公正的前提是可以被质疑,当质疑的渠道被堵死,公正就不存在了。


05 解决方案:人机协同的正确姿势


批评完了,总要给出路。


我的观点不是“AI不能用”,而是“AI不能全用”。人机协同的正确姿势是什么?三句话:


第一,AI做筛选,人做终审。 AI可以把简历过一遍,筛出符合硬性条件的候选人,但最终面试和决定,必须由人来做。这不是效率损失,是风控。


第二,AI做分析,人做判断。 绩效评估中,AI可以把数据喂出来——迟到率、项目完成度、同事互评分数——但这些数据怎么解读,权重如何分配,应该由管理者基于对业务和人的理解来决定。AI是镜子,不是裁判。


第三,算法要透明,机制要可纠错。 任何引入AI评估系统的公司,必须做到三点:a)算法的核心逻辑要对HR和管理层公开;b)员工可以通过申诉渠道要求人工复核;c)每年至少做一次“算法偏见审计”,检查系统是否对特定群体存在系统性偏差。


06 真实案例:Unilever的进与退


Unilever 是全球AI招聘的先驱,2017年开始与Pymetrics合作,用AI评估替代传统简历筛选据说效率提升了75%。一度被媒体吹爆。


但2022年开始,Unilever悄悄调整了策略。在北美市场,他们把AI评估从“决定性环节”降级为“参考环节”——AI打出的分数不再直接决定是否进入面试,而是作为面试官的辅助参考。内部人士的说法是:“系统帮我们看到了更多背景多元的候选人,但这不意味着我们应该把判断权完全交给系统。”


同样, HireVue 在2023年宣布放弃纯AI面试,改为人机混合模式。核心原因是:法律风险。全球多国开始出台法规,要求招聘算法具备“可解释性”和“反偏见审查”,纯AI评估的法律成本已经超过效率收益。


这些信号说明什么?行业最前沿的公司已经在回调。它们不是否定AI的价值,而是承认:AI是工具,不是裁判。


07 落地建议:给你的组织的行动清单


如果你是管理者或HR,现在要做三件事:


第一件事:给现行的AI评估系统做一次“偏见压力测试”。 找HR拉出过去两年AI评估的结果,按性别、年龄、学历、部门、司龄做交叉分析。如果某个群体的评分系统性低于其他群体,别急着解释,先查数据来源。


第二件事:��立“人工回溯”通道。 任何被AI评估影响晋升、调岗、优化的员工,有权在48小时内要求人工复核。复核必须由直接上级+隔级上级+HR三方共同完成,不能只是HR点头。


第三件事:把AI的角色定为“建议”,不是“结论”。 任何AI评估的输出,在系统中必须明确标注为“AI建议”,最终决策必须由人签发。签发人的名字进入系统留痕,未来出了事,找得到人。


08 结尾


回到开头的那个问题:AI打分和人工打分,哪个更靠谱?


我的答案很直接:AI在效率上靠谱,在公正上不靠谱。人工在主观上不靠谱,但在大是大非上比AI靠谱。


不要把“效率”当成“公正”的替代品。评估是组织最敏感的管理动作,一个错误的评估毁掉的不仅是一个人的信心,还有一个组织的文化。


真正靠谱的评估,不是让机器代替人做判断,而是让人借助机器看得更清。


“AI可以帮你看见数据,但看见之后的事,得人来做。”

配套行动工具

#AI

相关洞察