目前,许多大学都秉承全面综合审查的理念。在美国大学招生咨询协会(NACAC)最近的一项调查中,70%的招生官表示,在选择申请者时,他们认为个人品质是一个重要的因素。然而,现实中的审查并不能确保公平,并且招生工作也受到相关资源的限制。
为应对上述挑战,宾夕法尼亚大学Benjamin Lira领导的研究团队训练了一个名为“Robustly Optimized BERT Pretraining Approach(RoBERTa)”的语言模型,用于审查入学申请者课外或工作中的论文,并寻找其中蕴含的7种个人品质。研究结果表明,基于人工评分训练的AI模型能在几分钟内生成数百万个人品质分数,精确地复制人工评分,而且具有可解释性和公平性。
相关研究论文以“Using artificial intelligence to assess personal qualities in college admissions”为题,已发表到Science子刊Science Advances上。然而,研究团队也强调:“没有算法能够决定大学入学过程的目标,或者哪些个人品质最重要,在自动化审查过程之前需要大学明确其入学目标。”
在许多大学中,全面综合审查已经成为一种广泛采用的招生评估方法,该方法将个人品质视为至关重要的考量。人们认为该方法可以促进公平,因为它允许申请者展示非认知技能和品格,而这些在标准化考试中无法反映出来。然而,历史上的案例显示,综合审查制度也可能带来不公平,特别是在评估标准不明确、缺乏解释或披露的情况下。
改进综合审查的方法包括采用更透明和系统化的评估方法,使用结构化的评分标准,以及进行多次独立的评估。这些建议体现了心理测量原则的应用,可以提高评估的可靠性、有效性和可解释性,从而减少潜在的偏见。然而,现实中依然存在问题,主要包括大学招生官面临不断增加的申请数量,时间和资源的限制。如果资源无限,那么可以更好地优化评估,实现更大的公平性。
在这项研究中,团队借助AI技术开发了一种能更好地评估个人品质的方法。首先,他们选取了去标识化的309594份大学申请样本,每份申请都包括一篇150字的论文,描述申请者选择的课外活动或工作。接下来,研究人员和招生人员选取了其中的3131篇论文用来训练语言模型——RoBERTa。
他们在申请者的论文中寻找他们是否具有以下7种品质:学习能力、毅力、目标追求、团队合作、内在动力、领导能力和利他目标,而这些品质可以帮助确定哪些申请者最有可能在大学中成功。最后,研究人员将这些微调的模型用于审查另外306463篇文章,并为每篇文章打分。
结果发现,研究人员和招生人员在每篇文章中都找到了七种个人品质中的证据。有些个人品质比其他更常见。例如,他们分别在42%和44%的文章中识别出了“领导能力”;相比之下,他们只在19%和21%的文章中识别出了“毅力”。
然而,这项研究也存在一定的局限性。首先,研究未包括Common Application所要求的个人陈述,这限制了研究的广度。
未来的研究应考虑包括这一要素,尤其是考虑到近期申请人的个人陈述是以PDF附件形式提交的。其次,数据集中的高中GPA仅基于一小部分申请人,这可能影响研究的代表性。未来的研究需要更多关注如何获取更多可用数据。第三,个人品质对大学毕业的预测效应在适度程度上较高,但这只是相对于标准化考试成绩来说。长期生活结果的预测具有复杂性,需要考虑多种因素。
未来研究可以探索其他未考虑的因素,如学费支付、学术准备和支持等。第四,研究仅关注大学毕业作为结果,而未考虑其他成功方面,如GPA、课外活动和社区贡献。这需要更广泛的共识,优化大学入学决策的目标和实施方式。未来的研究可以考虑更多方面的成功和其对个人品质的影响。
因此,本次研究对全面审查和选择性入学的当前状况带来了批判性的观点。未来的研究和实践应该集中于在自动化流程之前明确全面审查的目标。
另外,研究还发现,坎贝尔定律表明,在高风险决策中(与低风险研究相对),对评估赋予的权重越大,就越容易引发扭曲的动机。例如,申请者可能会尝试塑造自己的论文,也许使用AI工具(如ChatGPT),来迎合招生官和训练的算法的要求。值得注意的是,算法也会犯错,特别是在寻找模式方面。
例如,该研究微调的RoBERTa模型为句子“I donated heroin to the children’s shelter”(我向儿童收容所捐赠了海洛因)赋予了极高的社会目标分数。
因此,该研究建议使用AI来辅助而不是替代人工判断。没有算法能够决定大学入学流程的目标,或者哪些个人品质最为重要。将算法视为人工判断的补充而不是替代,也可以应对算法回避的问题,即在有矛盾证据的情况下,人们更倾向于信任人工决策者而不是算法。