IQ每年上涨0.3，人类不断突破智力极限？

IQ测试显示，人类的IQ值每10年就会上涨3分。照理来说，现在的孩子应该都要比上一辈更加聪明。但是根据一些研究比对发现，新生的孩子在智力上与过去并无太大差异。我们是被IQ测试给欺骗了吗？

1984年11月的一个星期六，我收到了一封令人震惊的邮件：荷兰一位知名学者发来的数据显示，仅通过一代人，荷兰男性的IQ就上升了许多。如今，我们在近30个国家都观察到类似现象。IQ上升可能不会一直持续下去，但这一趋势却贯穿了整个20世纪，足以滋生一场信心危机：要么今天的孩子确实远比父母聪明，要么IQ测试并非衡量智力水平的最佳方法，至少在某些情况下是这样。

研究智力就像研究原子：不仅要知道是什么将它的各组成部分结合在一起，还要了解是什么将它们拆分开来。将智力各组成部分绑定在一起的是一般智力因素g（general intelligence factor），而扮演“原子粉碎器”的，是随时间变化的认知趋向。能同时涵盖这两方面，且从1947年一直沿用至今的韦克斯勒儿童智力测试（WISC）是目前公认最完善的IQ测试。

WISC的10个项目分别测试不同的认知技能。类同测试测量人们察觉事物共性的能力；词汇测试检测日常词汇的积累情况；常识检测人们的基本信息储备量；算术测试检验人们解决数学问题的能力……如果在某项测试中，一个人的得分高于平均值，那么他往往会在所有测试项目中都表现出色。

因此，我们提出了一般智力因素（g），来量化人们在智力测试中的表现：用名为因素分析（factor analysis）的数学方法，测量人们在执行各种相互关联的认知任务时的表现，量化结果就是g。

执行一些认知任务时，优秀受试者的表现会高于平均水平。相对于日常行为，测试中的认知任务更为复杂，这有力地证明了g完全可用于衡量一般智力。WISC的测试项目也可以根据g的“负载量”进行分级：简单来说，在最高级的测试中，高IQ人群会比大部分普通人表现得好，而在中等层次的测试中，普通人的表现又比低IQ人群好。

不同任务拥有不同的g负载量，这并不奇怪：很多人都会击鼓，但只有具有音乐天赋的人才能弹好钢琴；优秀厨师在制作蛋奶酥时，或许比简单地炒鸡蛋更能显示出胜于常人的天赋，因为蛋奶酥的制作程序要比炒鸡蛋复杂，更适合测试厨师的烹饪技能。

如果一般IQ一直在增长，那我们可以推测，人们在WISC的每项测试中，得分上升幅度应该与测试的g负载量成正比。但面对IQ的增长时，我们惊讶地发现：每项测试结果的提高幅度与g负载量并不一致。类同和常识测试拥有相同的g负载量，然而前者的增长幅度却是后者的12倍。想想那个烹饪的例子，如果烹饪技能一直在提高，却忽略了g负载量，比如，炒鸡蛋的技巧有了显著的提高，而搅制蛋奶酥的水平却停滞不前，这就太奇怪了。

智商的增长由IQ值判断。从1947年到2002年间，WISC更新了三次，在此期间得出了三个时期的估计增值。最近，IQ增长呈现出一种混乱的模式：类同测试增长24分，而词汇、算术和常识测试55年来仅有3分进展。WISC不仅给出每项测试的分数，还对智力水平进行总结评估，称为综合智商（full scale IQ）。WISC测试结果增长巨大，总计18分。

瑞文推理测试（Raven’s Progressive Matrices，由英国心理学家J·C·瑞文于1938年创制）同样是分析IQ发展趋势的重要测试，它要求学生根据一组图片推测下一张图片是什么。基于其他国家的数据，我保守估计：人类IQ每10年会上升3分。为什么即使亲缘关系较近的先辈也与我们有这么大的智力差距？更糟糕的是，来自英国的数据表明，从1900年开始，IQ就在持续增长。

了解IQ激增的相关概念后，我们再来看看IQ增长导致的4个矛盾。前3个源于IQ增长的模式和幅度，第4个则与我们对基因和环境的看法相关。

矛盾1：因素分析矛盾

WISC测试中，IQ分数的增长模式与g负载量关系甚微。智力怎么可能同时是一元的（如因素分析中所体现的）和多元的（每项测试都有各自的增长趋势）？此矛盾的关键在于，因素分析采用的是静态设定，将个体与恒定的社会变化作比较。而IQ发展趋势是在动态环境中形成的，社会变化影响文化观念，其中就包括人们最关注的概念化技能（conceptual skills）。

在给定的任意时间内，因素分析会显示短跑和跳高拥有近似的高g负载量，也就是说，拥有弹性双腿的人短跑和跳高都十分出色。然而随着时间推移，年轻人或许会发现短跑魅力十足，而跳高枯燥乏味，因此短跑越来越出色，而跳高却没有进展。两者的相关性掩盖了一个事实：它们所需的技能基本没有函数关系。以最快的速度冲向横杆并不一定会跳得最高，因为你可能掌握不好起跳时间。最后，短跑越来越出色，而跳高却毫无起色，这并不矛盾。

两代人IQ的巨大差异理应在会话和日常生活中表现出来。为了解释IQ发展模式，我们需要从功能上分析，是什么随时间的推移提高了各种认知技能。科学的进步引发两大巨变：它教导我们，以科学的分类来划分世界与操纵世界同样重要；它使逻辑摆脱具体的桎梏，我们无需具体参考就可以在抽象环境下工作。在20世纪早期，一个典型推论（syllogism）会是这样：“巴吉度猎犬（Basset）擅长猎兔。

那是一条巴吉度猎犬，因此，我狩猎时会用上那条狗。”而今天，我们更可能这样说：“只有哺乳动物会哺育幼仔。兔子和狗都哺育幼仔，因此它们都是哺乳动物。”

如果问狗和兔子有什么共同点，生活在1900年的男孩会这样回答：“你可以用狗来猎捕兔子。”而生活在2007年的男孩会说：“它们都是哺乳动物。”一个世纪前的人绝不会给出这样“毫无价值”的答案，谁会关心狗和兔子都是哺乳动物？重要的是什么有用而且能为人所用。

过去一个世纪，人们在WISC类同测试中的得分之所以迅速上升，正是因为它给“狩猎”（即实用性答案）打0分，而给哺乳动物（即分类性答案）打满分。词汇和常识等测试则大为不同。因为它们提取的是日常生活中的核心词汇和基本信息，所以从具体到抽象的转变对它们基本没有影响。

另一个显示IQ分数大幅增长的是瑞文推理测试，在这一测试中，我们很容易发现分数升高的原因。要想得到高分，你必须发现图像的内在特征，并利用逻辑推理判断抽象图形。也就是说，你必须找出一组图形的逻辑顺序，而现代视觉文化恰恰促进了这一能力的提升。

我们很容易误解WISC类同测试和瑞文推理测试之间的关系。

各种智力测试的因素分析显示，这两者的得分比其他任何一对测试结果都相似，而且在这两项测试中，人们的得分也显示了同样幅度的高增长。然而它们就像短跑和跳高一样，几乎没有任何功能共性。那么，这两项测试为何会有相关性，人们在两项测试中得分的增长幅度为何如此相似？

原因在于，当一个人以科学的视角看待世界时，会获得两个截然不同的好处：把推理从细枝末节的束缚中解放出来，从而进行更深入的抽象分析，这提高了瑞文推理测试的得分；观察世界的角度从“实用”向“分类”转变，提高了类同测试的得分。一个人也许能从这两方面获得相同程度的好处，但与这两项测试相关的认知任务却是相互独立的。

因素分析还显示，算术测试和瑞文推理测试在同一因素上都拥有较高g负载量。这也证实，数学思维方式和瑞文推理测试中的认知问题具有功能相似性。毕竟，瑞文推理测试要求受试者能够看出图形间的逻辑关系（前提是受试者没有学过如何辨别这种关系），而数学则要求人们能够处理非语言素材从而获得证明。因此用瑞文式的问题训练小孩子，使他们更善于解决数学问题，不失为一个明智的做法，美国许多学校从1991年起就已经开始这样做了。

然而，人们在瑞文推理测试中得分的大幅度增长与算术测试得分的零增长表明，两者之间的功能相关性并不强。对一个非数学家来说，相比存在一个违背自然规律的独立实体，数学更缺乏逻辑。如同婴儿探索自然界一般，孩子们必须通过自我发现来探索数学世界，并逐渐熟悉其中的“事物”。然而瑞文式的任务对此没有任何贡献。

第一个矛盾解决了。在任一特定时刻，因素分析都能抽取出一个强有力的g因素。智力是单一的，而大多数认知技能却都彼此高度相关。随时间的流逝，社会现实揭示认知技能游离于g因素，智力开始呈现多样性。如果你想看到g，那么暂停播放电影，立即截取图像，因为当电影一直播放时你是看不到它的。社会并不做因素分析，它是消除因素负载量、强加自身偏好的主宰。

矛盾2：智力矛盾

人们的智商分数与瑞文推理测试的得分情况表明，父母的IQ总要比孩子低9～15分。理论上，两代间的差距应在会话和日常生活中表现出来，但事实上并非这样，我们不得不提出一个疑问：IQ的增长是否代表智力的增长？

这个问题本身就是错误的。它暗示认知能力要么大幅增长，要么毫无进步，而20世纪却见证了大众趋势中的一个特例。再来看看第62页IQ增长曲线表。WISC测试中，受试者得分小幅增长的测试项目，都与教学科目紧密相关。将这种趋势与美国国家教育进展评估测试（National Association of Educational Progress，通常称为全国成绩报告）的结果相比较，事情就很清楚了。

从1971年到2002年，四年级和八年级学生阅读能力的提高相当于IQ上升4分，而到了十二年级，IQ增长几乎回落到零。如果我们认真分析1972年到2002年间WISC测试结果的发展趋势，就会发现学龄儿童的基本信息储备没有任何进展，只是词汇量稍有增加。因此，即使今天的孩子能在更小的年纪读懂青少年文学作品，但对综合能力要求更高的成人文学，还是超过了他们的阅读能力。

在阅读《战争与和平》时，如果每隔一段就要查一次字典或者百科全书，便很难体会阅读的乐趣。从1973年到2000年，四年级和八年级学生的数学能力提高程度相当于IQ上升11分，而十二年级学生的IQ增长这次确实为零。

越来越多的孩子在更小的年纪就掌握了计算技能。WISC算术测试不仅测量计算技能，还测量其他一些能力。例如这样一个问题：“4个玩具6美元，7个玩具多少钱？”许多会直接笔算的孩子并不知道解答这道题需要两种运算方式：先做除法，再做乘法。另一些孩子则不会做涉及分数的心算。

我猜想，尽管孩子们在更小的年纪就掌握了计算技能，但数学推理技能却没有进步。而对于高等数学来说，推理技能是必需的。因此，到了十二年级，学生解决数学问题的能力得不到提高，影响了IQ的增长。

现在，我们知道了在交谈时，为什么孩子与长辈的表现相差不大。假设一个刚刚毕业的高中生正与祖父（也完成过高中学业）谈论一星期前两人都读过的一本小说。我们不会认为祖孙俩谁比谁差；同样，如果两人在高中毕业不久，都写了一篇关于当时现状的短文，我们也不会认为，祖孙俩的词汇量谁比谁大。

矛盾3：智力迟钝矛盾

第三个矛盾与我们100多年前的先辈有关。如果将现代人的平均智商设定为100，那么1900年的人平均智商就是50～70，这似乎表明那时的人都患有智力迟钝（mental retardation）。但我们知道，这个推论并不正确。我们的先辈并不比我们笨，而真正的智力迟钝者是无法应付日常起居的。

文兰适应行为量表（Vineland Adaptive Behavior Scale）显示，在IQ快速增长的时期，处理日常问题的能力保持恒定。与1984年的孩子相比，今天的孩子（7岁到18岁）在交流和社会化测试中的得分并没有提高，在日常生活技能测试中的得分反而下降了（该测试包含了一些过时的项目，比如“缝纫或给衣服镶边”。）

我们没有在1900年后变得更聪明，这并不意味IQ的大幅度增长毫无意义。随着科学将思想从具体情景中解放出来，各式问题也相继涌现，我们则可以运用抽象、逻辑和猜想来解决这些问题。自1950年以来，我们能够越来越巧妙地冲破先前习得规则的束缚，当即解决各种问题。

矛盾4：基因和环境矛盾

一对双胞胎一出生就被分开抚养，长大后，他们的智商水平要比随机选取的两个人相似得多。显而易见，这是因为他们拥有相同的基因。这些研究也常被引用来说明基因的作用是决定性的，而环境的影响微乎其微。但两代人IQ的巨大差异似乎又表明环境因素影响巨大。因此第四个矛盾就是，环境的影响既微不足道（血缘关系研究），又强而有力（IQ增长趋势），这是如何体现的？

设想双胞胎约翰（John）和乔（Joe）刚出生就被分开，且都生活在一个痴迷篮球运动的地方。相同的基因使他们比同龄人长得更高、发育更快。约翰在一个城市上学，比其他人更热衷打篮球，练习地更多，球技也更好，引起了学校年级教练的注意，于是得以进入球队，到高中后继续发展，在那里得到了职业化训练。

乔在几百英里外的另一个城市上学，由于他的基因与约翰相同，也比同龄人个头高、发育快，因此他很可能有着与约翰近似的生活轨迹。

换句话说，随着他们所处的环境越来越有利，刚出生时不明显的基因优势就决定了他们最终的篮球运动水平——进行更多练习、参加团队比赛、受到专业化训练等强有力的环境因素突显了基因的作用。

现在设想一个孩子的天资要比另一个高一些，他们中的哪一个会喜欢上学、经常受到赞扬、喜欢泡图书馆、在最优质的班级学习，最后考入大学？如果这个孩子有一个未曾谋面，但经历相似的孪生兄弟，如何解释他们成年以后相似的IQ水平？相同的基因并非独立作用，而是能够共同选择相似的环境，这将是一个难解之谜。控制了作用于能力和环境之间的强烈反馈回路（feedback loop），基因便可以从中获利。

一种基于基因的能力优势会带来有利的学习环境；而良好的学习环境会放大学习能力的优势，使之得以进入最优秀的班级，而这样的班级又为他提供了更好的学习环境；这一环境再一次放大能力优势，为他顺利进入优秀大学铺平道路。

这些反馈回路影响着一个人的命运，因此我和我的合作者美国布鲁金斯学会（Brooking Institution）的威廉·T·狄更斯（William T. Dickens）将它们称为“个体乘数”（individual multiplier）。

同样还存在“社会乘数”（social multiplier）。为满足19世纪末20世纪初工业革命的需要，社会教育程度不断提高。

当中学教育开始普及，每个渴望跻身中产阶级的人都想获得高中文凭；当高中文凭已经普及，大家又开始追求大学文凭。经济发展缔造了一个中产阶级，他们希望能够更明智地激励孩子；能胜任需要独当一面的高薪工作；能够享受需要更高认知技能的闲暇活动。没人愿意被看成是不称职的父母，不适合晋升的员工，无聊乏味的同事。

每个人都不断提高个人能力来应对新的社会环境，这推动社会平均水平向更高的方向发展；人们继续对新环境作出反应，进而继续将平均水平推向更高。如此反复的结果就是：认知技能仅经过一代人就大幅上升。

在一代人之中，遗传差异驱动反馈过程；在两代人之间，环境发展趋势驱动反馈过程。哪个因素起决定性作用，那个因素就更有效。

IQ增长与现实专业性工作提高了人们的创新能力。

因为社会需要越来越多的人从事管理、技术以及专业性工作，因此抛弃循规蹈矩（如推理测试显示），不断发展创新思维的能力则具有更重要的社会意义。第一胎出生的孩子对分析更感兴趣。近年来，家庭规模日益缩小，这也意味着有更大比例的新生儿都是第一胎。因此能否增强孩子的认知技能就成了评判家长是否称职的先决条件。父母必须认真对待孩子所能想到的各种问题，也就是说，他们要耐心回答无数个“为什么”。

视频和电子游戏提高了人们在视觉和符号环境下解决问题的能力。游戏中的具体认知要求如下：俄罗斯方块（Tetris）——空间几何；神秘岛(Myst)——工程解谜；侠盗猎车(Grand Theft Auto)——绘制地图。要想充分享受闲暇活动带来的乐趣，人们必须具备更强的解决问题的能力。国际象棋大师越来越年轻，锦标赛的参赛标准也越来越高。

上一代人的电视节目如《我爱露茜》（I Love Lucy）、《法网》(Dragnet)、《警界双雄》(Starsky and Hutch)，根本不需要集中注意力就可以轻松观赏，但是从1981年的《希尔街的布鲁斯》（Hill Street Blues）开始，一集剧情中就交织着多达10条线索。热播剧《24小时》（24）更是将20多个角色的生活串联在一起，而且每一个人物都有一个独立的故事。

IQ的增长没能使人们摆脱盲目轻信。抽象的分类和分析可以抵御谬论而不能抵御意识。看看有多少人相信神创论（creationism）、飞碟（flying saucers）和占星术（astrology）就知道了。

近代历史见证了另一种趋势。一些能够大幅提高人们重要才智的词汇，已经丰富了受教育民众的语言。每个词汇都代表了一组概念，这些概念绘制了某些应用于社会问题和道德问题的分析方法。

特在此举例如下：市场（market）（1776年开始流行）、百分比（percentage)(1860）、自然选择（natural selection）（1864）、对照组（control group）（1875）、随机取样(random sample)(1877）、自然主义谬论(naturalistic fallacy)(1903)、神力效应(charisma effect)(1922)、安慰剂(placebo)(1938)、弄虚作假(falsification)(1959）。

由于大学的专业分科制度，每个大学毕业生都只能运用这些词汇中的一小部分。IQ的全面增长并未实现，因为在过去百年间，大学本可以更好地教育学生。所以在21世纪，人们的能力是否会进一步提高，我们无从知晓。