评价中心成本高难普及,AI介入能否解决规模与严谨性难题?
2026/5/9 15:34:58 网站建设 项目流程

评价中心:严谨却稀缺的人才选拔方法

当一家大公司选拔新任CEO时,会将候选人关进屋子三天,进行模拟董事会、处理危机邮件、带队谈判等活动,六位专家在隔壁观察。这就是评价中心(Assessment Centers),它像人才选拔领域的瑞士钟表,精密却昂贵,极少有人买得起。

评价中心是行业内最严谨的人才选拔方法之一,但绝大多数公司从未用过,也觉得用不起。其设计逻辑是在与岗位相关的真实情境中观察候选人实际行为,由多位受过训练的评鉴师独立打分,最后通过整合会议形成最终判断。然而,其结果的可信度和可靠性,恰恰也是它稀缺的原因。

一场为高管或管培生设计的传统评价中心,每位候选人成本通常在2000 - 5000美元之间,需要场地、多名评鉴师脱产数日、专业角色扮演者以及整合会议,整个流程从设计到部署往往以月计。结果是,评价中心几乎只服务于金字塔尖的少数候选人,绝大多数招聘和晋升决策依旧依赖效度更低的方法。

这种稀缺性在中国市场更明显。据现有行业数据估计,中国人才测评市场2022年总规模约为31亿元人民币,预计到2028年约47亿元,国内市场年均增速约10%,远低于海外30% - 50%的水平。“人才测评”在中国多数情况下指性格测验、认知能力测验和在线测验的组合,而真正意义上的评价中心是多维度、多评鉴师、多情境模拟。目前,主要是大型央国企的干部选拔与公开竞聘,以及少数将其作为高管继任和领导力发展工具的头部民营企业在使用。北森作为国内市场份额第一的本土厂商,客户覆盖约70%的中国500强,但在中型企业的渗透率明显偏低,政企行业整体渗透率约30%,已是各行业中最高的。

AI改写的,是经济学

在人才评估场景中,AI虽目前还不能比人类打分更准确,但能以传统方法做不到的成本和规模,复刻评价中心最有价值的基于行为的标准化观察。一个原本需要三周协调、六位评鉴师、专门场地的流程,理论上可浓缩成候选人在家完成的90分钟模拟。

资本市场相信这件事。乔什·伯辛公司(The Josh Bersin Company)在2024年的市场分析中估计,全球HR技术市场规模已达约2000亿美元,其中人才获取(talent acquisition)与人才智能(talent intelligence)是AI投入最为活跃的子市场之一。

过去几年,围绕情境模拟评估的代表性公司接连发生重大资本动作。2019年,凯雷集团(The Carlyle Group)取得HireVue多数股权;2023年5月,HireVue又收购了原Riverside Company旗下的Modern Hire;专注沉浸式角色扮演的Mursion也在2019 - 2020年间完成多轮千万美元级融资。

在中国市场,本土厂商从单一测评工具向AI驱动的一体化人才管理SaaS平台转型。例如,北森通过AI视频面试与在线评价中心等产品,推动情境模拟评估的数字化与规模化应用。

值得管理者注意的是,资本不需要科学完美就能赢得市场份额,它需要的是科学“看起来够好、够用”,外加快速集成、流畅UI和高管喜欢的仪表盘。在企业采购流程中,看起来可信、流畅的演示,往往比严谨的效度证据更具说服力。

AI没有改写的,是效度问题

同一种生成式AI在承诺规模化评估的同时,引入了测量问题,即相同的输入会得到不同的输出。哈尔达(Haldar)和霍肯迈尔(Hockenmaier)在2025年发表的研究中系统证明,把LLM当作评分者使用时,多次运行之间的一致性极低,最差情境下接近“随机”。斯图尔博格(Stureborg)等人2024年的进一步研究则记录了LLM评估者的多种系统性偏差,包括熟悉度偏好、评分尺度偏差、整数化评分倾向、锚定效应等。在评估场景中,同一份候选人转录稿跑五次可能得到五个不同的分数,这是当前生成式模型的固有属性。

更深层的问题是偏见。亚马逊在2018年关停了其试验中的AI简历筛选工具,原因是该系统在以男性为主的十年历史简历数据上训练后,系统性地降级了包含“women’s”一词或女子学院毕业生的简历。HireVue在2019年被EPIC(电子隐私信息中心)投诉至FTC(美国联邦贸易委员会)后,于2021年宣布停止使用面部表情分析评估候选人,但仍保留基于语言、语音和其他行为特征的分析,这些做法同样面临公平性、透明性和科学有效性的质疑。

工业与组织心理学几十年积累的核心教训之一是,模型从历史数据中学到的不是“什么是好员工”,而是“过去谁被录用了”。当历史本身有偏见,模型只是把偏见自动化、规模化,并把它隐藏在算法不透明性之后。

监管时钟在走

如果上述科学问题还能被产品营销暂时绕过,监管的脚步不会等。欧盟《AI法案》(Regulation (EU) 2024/1689)附件III明确将“用于招募、筛选、评估候选人”以及“影响劳动关系条款、晋升、解除雇佣的AI系统”列为高风险类别,要求供应商和部署方满足风险管理、数据治理、有意义的人工监督、技术文档、欧盟数据库注册等一系列义务,核心条款于2026年8月2日起强制执行。

在美国,科罗拉多州AI法案(Colorado AI Act, SB 24 - 205)是首部综合性州级AI立法,把雇佣和晋升明确纳入“重大决策”(consequential decision),要求开发者和部署者承担“合理注意义务”(reasonable care)以避免算法歧视。该法原定2026年2月1日生效,经过激烈产业博弈后由SB 25B - 004推迟至2026年6月30日,目前仍面临联邦层面的法律挑战。

中国的监管路径与欧美不同,但方向并不相反。由国家网信办等四部门发布、2022年3月1日施行的《互联网信息服务算法推荐管理规定》是国内首部针对算法应用的综合性部门规章,其中专门要求向劳动者提供算法服务时,“应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法”,并赋予用户算法知情权与选择权。这一条款的逻辑同样适用于AI招聘和晋升系统。

更直接相关的是2023年8月15日生效的《生成式人工智能服务管理暂行办法》。该办法第四条明确要求服务提供者“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视”。把这条规定和AI评估场景对照来看,训练数据中的历史招聘偏差、模型对某些行业用语的偏好、对地域口音或学历背景的隐性区分,都可能落入“歧视”范畴。同时,《办法》还要求具有舆论属性或社会动员能力的服务提供者履行算法备案和安全评估义务,目前监管对这两个概念的解释呈扩张趋势,AI招聘类系统是否会被纳入备案范围,目前业内并无定论,但风险显然存在。

对中国企业来说,采购AI测评工具时不能只看准确率和案例数,还需要至少回答两个问题:第一,供应商能否提供训练数据来源、模型偏差测试报告和算法审计文档?第二,如果一名被淘汰的候选人主张算法歧视,企业能否拿出符合《暂行办法》要求的合规证据?这两个问题在国资委监管的央企和涉外业务的大型民企中尤其关键,因为它们既要满足国内合规要求,也要在涉欧业务中应对EU AI Act的域外效力。

对所有企业而言,这些法律的真正意义不是该不该用AI,而是用了AI之后,是否能向监管者、法院和被拒绝的候选人解释清楚它做了什么、为什么这么做、对哪些群体可能造成差异化影响。这正是当前绝大多数AI评估产品最薄弱的地方。

业界目前最常被提到的折中方案是混合模型(hybrid model),即人和AI各做一部分。但把混合简化成一个人类评鉴师 + 一个AI评鉴师各打一分然后取平均值的做法,回避了真正的设计问题——什么任务该交给AI,什么任务必须留给人。

更有用的拆解是按“判断的边际成本和容错性”来分层。AI在结构化、可观察、有清晰行为锚点的维度上具备相当大的优势,如生成符合岗位分析的模拟情境、起草评分量表和行为锚定示例(BARS)、把候选人发言对照预设维度做初步标注、对大规模数据做一致性检查。而人在含有情境理解和反事实推理的复杂行为评估,以及任何会显著影响候选人职业生涯的最终决策上,目前依然不可替代。一位资深评鉴师讲过的案例显示,基于上下文的理解,是当前AI仍难以稳定胜任的事情,也正是欧盟法规中“有意义的人工监督”想要保护的内容。

给领导者的三个判断

对正在评估AI测评工具的高管来说,真正值得问的,可能已经不只是“它能不能降低成本”,甚至也不只是“它准不准”,而是三个更具体、也更关键的问题。

第一,这个工具能否让你向监管者以及你自己的法务部门清晰说明“它在做什么决策、基于什么训练数据、对哪些群体可能产生差异化影响”?无论是EU AI Act、Colorado AI Act还是中国《生成式人工智能服务管理暂行办法》,对“可解释性”和“反歧视”的要求在文本表述上各有不同,但底层逻辑趋同。一套今天回答不出这三个问题的工具,很有可能会在未来两到三年内变成合规债务。

第二,你是在用AI替代评估,还是在用AI扩大评估的覆盖范围?前者把AI放在原本由人类评鉴师把关的位置,继承了所有效度风险;后者把AI放在原本根本没有评估的环节,例如海量初筛或内部人才盘点的初稿,在这些环节即使中等质量的判断也比“什么都没有”要好。两者的风险与收益完全不同。

第三,谁拥有最终的判断权?这并不只是一个算法问题,更是一个组织治理问题。一旦AI输出被视为“默认正确”,或者对评鉴师形成强烈锚定,再专业的人类判断也可能逐渐退化为对机器建议的确认。测量与决策研究早已反复发现这种“自动化偏向”(automation bias),如今它开始影响招聘、晋升和领导者选拔等后果高度敏感的组织决策。

真正的代价

评价中心是少数被严谨研究、效度可被复现的选拔方法之一,它的问题从来不是科学,而是规模和可及性。AI能否解决这个问题?在某些环节上,大概率是可以的。但AI是否能在不损害科学严谨性的前提下解决这个问题?这一点远未确定。

未来几年真正的竞争,不是“AI还是人类”这种二选一,而是谁来定义这套混合系统的标准,是把分发渠道、用户界面和采购预算握在手里的科技公司,还是那些理解构念信度效度、偏见检测和心理测量学的专业群体。如果后者继续把自己定位成“慢工出细活的反对派”,答案不言自明;但如果他们能学会用业务语言、监管语言、产品语言把科学翻译出来,那么这套系统的标准就还有可能由专业判断、而非营销叙事来定义。

评价中心未来叫什么名字、长什么样,其实并不重要。重要的是它依然让对的人被看见、让错的人被识别,而这一点,从来都不只是一个技术问题。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询