哈佛本科招生被诉歧视亚裔,统计数据会撒谎吗?
一个人若是被哈佛这样的顶尖大学录取,等待ta的不仅是世界级的学术资源,还有丰富的社交资源和进入上层社会的机会。大学的教育质量,以及大学教育的社会属性,都意味着录取过程的公平性极其重要。2014前,美国保守派团体“学生公平录取促进会”起诉哈佛大学,控告其本科招生歧视亚裔。最近,哈佛大学被迫向原告披露的录取数据再掀波澜,这场已持续4年的诉讼重新进入公众视野。
2014年,美国保守派团体“学生公平录取促进会”(Students for Fair Admissions)起诉哈佛大学,控告其本科招生歧视亚裔(“亚裔美国人”的简称)学生,违反了1964年《民权法案》的第VI条:联邦财政援助的项目和活动,不得以种族为由歧视任何美国人。(2017年,哈佛获得了超过六亿美元的联邦资金。
)一旦法院认定哈佛对亚裔学生存在歧视,这一最负盛名的常春藤院校,声誉很可能遭受极大的打击。
2018年6月15日,媒体报道称,哈佛向原告披露了2000至2019届本科生的录取数据,原告方聘请的经济学家Peter Arcadiacono分析后提出,亚裔申请人整体的学术成绩、考试分数和课外活动均高于其他族裔,但哈佛招办对亚裔的个人素质和综合评分却显著低于其他族裔。
即便不考虑计分上的问题,同等综合得分的亚裔学生,录取概率也显著低于其他申请人。与此同时,哈佛被迫向原告提交的一份报告显示,早在2013年,哈佛内部就针对亚裔本科生申请的录取情况进行了研究,得出的结论印证了原告专家的指控——与学术成绩相同的其他族裔申请人相比,亚裔被哈佛录取的可能性低出不少。
这项披露,使得原本于今年10月开庭的案件提前成为舆论焦点。一时间,不少声音指责哈佛刻意隐瞒了早在2013年就知晓的事实,并在此后延续对亚裔的不公对待。哈佛则宣称,2013年的内部报告并不严密,结论也并非可靠,所以才一直没有采取行动。与此同时,哈佛方面聘请的经济学家David Card也出具了一份报告,批评了原告专家的统计方法,认为亚裔并没有遭受任何显著歧视。
统计数据会撒谎?
为何原告和被告聘请的专家针对同样的数据得出了不同结论?这还要从美国大学招生的复杂性说起。美国的大学录取和中国不同,申请人除了参加SAT(或者其他类似大学入学考试)之外,还必须提交申请文书、教师推荐信以及高中期间的课外活动和获奖经历。大多数申请人在录取前还须经过校友面试的检验。
许多大学都公开表示采用整体性(holistic)录取标准,在评估申请人时不单单重视学术表现,同时还会考量申请人其他方面的个人情况,例如申请人的家庭社会经济条件。
原告和被告聘用的经济学家都采用了同样的模型基准——逻辑回归(logistic regression)。
这一模型将哈佛披露的各项申请人信息作为自变量,将录取与否作为因变量,通过拟合样本数据,估计每个自变量在录取中所占的权重,以及这种估计可能产生的误差。如果一个自变量的权重很大,而其标准误差很小,通常就会认为这个自变量对于因变量的效应是显著的,而不是偶然误差所导致的(也就是说,假使这个自变量其实毫无影响,那我们看到这么大效应的概率就会非常小)。
原告聘用的经济学家在回归模型中囊括了申请人的基本信息、哈佛招生官赋予的学术、课外活动、体育能力评分,以及校友面试官、高中教师和辅导员赋予的评分,以及其SAT考试成绩和高中成绩作为自变量。相较而言,被告聘用的经济学家在其模型中额外添加了不少新的自变量,例如申请人是否在国外长大、将来计划从事何种职业,以及申请人高中学术质量(学校平均SAT成绩)等。
该经济学家在论证这样做的原因时说,原告的模型收录的信息太少,因而模型拟合的效果差。在添加额外自变量之后,拟合模型的McFadden伪R方(McFadden Pseudo R-squared)从0.62提高到了0.65。
然而,这个论证并不能成立。首先,根据McFadden本人的说法,伪R方的值在0.2-0.4之间就已经是出色的拟合(excellent fit)。
更大的问题在于,伪R方只是一种衡量样本内拟合程度的标准,不能反映一个模型是否合理。伪R方极高的逻辑回归模型,并不一定是有用的模型——如果我们给一个回归模型添加很多完全无关的自变量,未经调整的(不惩罚添加无关自变量的)伪R方依然会上升。如果用北京某天是否下雨来预测哈佛大学申请的结果,我们也可能无意间撞对几次,从而使得伪R方上升。但这并不意味着把北京的天气加入这个模型是有意义的。
其次,添加无关变量,让我们高估真正有关变量的标准误。通常情况下,想要发表论文的社会科学家会希望自己的模型得出显著的估计结果,因而他们会想尽办法,通过统计学手段,让自己的估计变得更高效(efficient),降低估计效应的误差。但是如果一个经济学家想让某个效应看起来不显著,则需要反其道而行之,添加各种无关紧要的自变量,让模型变得很低效。一旦标准误升高到一定程度,这个自变量的效应也就不显著了。
需要指出,哈佛聘用的经济学家的确在报告中叙述了加入每个自变量的“理论依据”。不过,对于某些无关紧要的自变量,想用非形式化的语言“阐释”其可能导致的作用并不困难。例如该专家援引哈佛内部的《招生案例》说明,招生官的确会着重考虑申请的潜在职业安排(大学申请中需要申请人标注将来希望从事何种职业)。但是这在形式化理论(例如博弈论)中很难论证。
高三学生自己很可能都不甚清楚将来希望从事什么职业,这个问题的信号价值非常低。何况如果学生可以推断出对录取有利的职业偏好,完全可以“撒谎”——所以招生官在绝大多数时候都没有理由认为申请人填写的潜在职业偏好是可信的。不过,正如被告专家自己在其报告中指出,职业偏好的填写和族裔高度相关。所以在同时包含了两者的模型中,代表职业偏好的自变量很可能“稀释”部分原本反映族裔自变量影响的效力。
原告的证据充分吗?但即使被告专家论证不合理,也不能自动证明原告的论证就是对的。因为不论原告还是被告使用的模型,本质上都只能用来预测,无法进行因果推断——论证亚裔身份是导致申请人哈佛录取率降低的因素。
因果推断可以用潜在结果模型(potential outcome framework)表述如下:对于某个亚裔哈佛申请人而言,在一个平行宇宙中,有一个和他其他所有条件都完全相同,唯有种族不同的申请人。
这两个人同时申请哈佛本科,如果他们被录取的概率有很大的显著差异,我们就可以说,哈佛招办的确在歧视亚裔申请人。显然,因为并不存在这样的一个平行宇宙,这两个潜在结果之间,我们只能观察到一个,所以直接比较并不能得出结果。
具体到这个例子而言,原告专家的模型中虽然包含了大学申请的多项指标,但也遗漏了一项非常重要的考量,即学生的申请文书。
假设亚裔的申请文书普遍比较枯燥,那么同等分数条件下,亚裔不被录取也就不能被归结为哈佛的歧视了。当然,笔者个人不相信这样的假设,也无意为其辩解。但问题在于,现有的数据不足以让我们有力地彻底拒绝这个假设,因为哈佛只披露了在他们看来“可以量化”的指标,并没有对原告公开申请文书、教师推荐信等文字资料。
整个案件中,哈佛也一再宣称,其录取标准非常重视申请文书等“无法量化”的指标,因而原告(以及哈佛2013年的内部调查)结论不足为信。
不过,录取文书并不是不可量化的。近年来,社会科学家在因果推断的方法领域取得了很大的进展,不少研究都关注了如何控制高维数据(例如文字、多媒体信息)的问题。
在2017年的一篇论文中,斯坦福大学商学院博士生Thai T. Pham和Yuanyuan Shen就尝试解决了一个非常类似的问题。他们研究了一个微小金融平台,发展中国家的农民可以在平台上提交一段描述,发达国家的用户则可根据这段描述和平台上的其他申请人资料决定是否给予金钱援助。论文探究个人申请和集体申请对得到的援助数量有何影响。
这个情形与哈佛招生的案例几乎如出一辙——招办和发达国家的用户一样,都只能通过申请人提交的信息(包括文字信息)做出决定。两位研究者通过深度学习的方法,将转为向量后的文字纳入了模型中,做出了可信的因果推断。所以,如果哈佛真的公开了所有申请数据,现有方法并非不可严谨衡量哈佛是否歧视亚裔申请人。但几乎可以肯定,无论是出于保护申请人隐私,还是出于自身的利益考虑,哈佛都不可能向原告方披露学生的申请文章。
原告的专家试图通过边缘突破的方法解决这个问题。他发现,亚裔申请人的校友面试官和高中老师评分,远远高于哈佛招办给出的个人素质评分。面试官和老师都亲自接触过申请人,而招生人员并没有,只能从面试官和老师的报告中形成对申请人的印象。因而这一评分差距很有可能是歧视的结果。不过哈佛同样可以宣称,校友面试官和高中老师和招办的评判标准不同,并不具有可比性。
法律的逻辑
综上所述,由于缺乏主动权,原告在这个案件中出于非常不利的地位。现有证据并不能充分证明,哈佛的本科招生的确构成了对亚裔的歧视。
此外,原告即便真的赢得了统计学的论证,也未必能赢得法院的判决。2000年的美国大选,共和党参选人布什以极为微弱的差距战胜民主党参选人戈尔。事后,政治学家通过数据分析,极为有力地证明,佛罗里达州的选票设计导致超过两千位戈尔的支持者错投他人,但这样的数据分析丝毫不可能影响选举的最终结果,以及最高法院对于选举有效性的认定。
统计学的逻辑和法律的逻辑,本质上是不一样的,更何况大学招生和背后的平权法案(Affirmative Action)涉及到美国社会种族关系、公民权利和平等保护的重中之重。可以判断,统计数据几乎肯定不会成为这个案件判决的核心因素。