中国教育最大的问题:Overfitting

作者: 陈德旺

来源: 中国科学报

发布日期: 2014-06-22 21:03:08

本文通过机器学习中的overfitting现象,类比中国教育中的题海战术,指出过度训练和教育会导致学生的创新能力下降,呼吁家长减少孩子的辅导班。

中国教育最大的问题:Overfitting

最近北京在召开ICML大会,即机器学习国际大会,是该领域最大规模最高水平的大会。据说,美国加州大学伯克利分校的Jordan教授也要亲自来做大会报告。Jordan是该领域的顶级大牛,是美国的三院院士(科学院、工程院和艺术科学院),尤其培养的弟子遍布世界名校,也都各有建树。

我在2009年访问伯克利的时候,每周几乎都参加Jordan组织的Machine Learning Tea的茶会。我的学术水平提高不多,世界各地的茶和茶点倒是品尝了不少。机器学习的一些概念、方法和技术,在Jordan教授及其学生的闲聊和争论中,不知不觉地偷学了一些。至于ICML大会的具体细节就不多做广告了,有兴趣可以去国际会议中心亲身体验。

机器学习现在已经成为计算机科学中的一个重要分支,包括内容甚多。其核心思想之一,是通过大量训练数据学习出一个模型;有了新的输入,通过训练的模型获得新的输出。以前的研究,要求模型在训练集上的误差越小越好,即训练误差最小为优化目标优化模型及其参数。但是,最近这些年的研究发现,不是训练误差越小越好,而是要适可而止。

如果训练误差太小,将会导致模型出现overfitting(过度拟合)现象,使得模型在面对新的输入(训练集中没有的输入)情况下,输出误差很大。由此,发展出了很多相关技术和方法,比如正则化、模型选择、Lasso等,有关技术细节,本文不做深入探讨。在机器学习领域,目前已经是一个理论基石:Overfitting将导致generilization(泛化)能力下降。

泛化能力就是在新的数据出现的情况下,模型获得正确输出的能力,类似于解决新问题的能力,也就是我们今天不停呼唤的创新能力。

Overfitting现象正如中国中小学教育广泛存在的题海现象,通过大量反复的讲解、习题和模拟训练,使得学生获得这些题目(很类似的题目)的解题能力,得分越来越高,类似于训练误差趋于0。

有的学生,尤其是高考状元,通过大量反复训练,甚至可以达到,对于试卷上的所有试题都有一种似曾相识的感觉,凭经验、记忆就可以快速自动求解,而不需要再花费时间去思考。显然,我国教育广泛存在overfitting,导致了我国学生的创新能力(泛化能力)明显下降。

机器学习理论告诉我们,不能过度训练、不能过度教育,不能追求误差最小(考分最高),只有泛化能力(创新能力)最为重要。希望我们广大的家长朋友,不能再让孩子去上各种辅导班。辅导班上得越多,考分越高,表面上看获益了,其实是Overfitting,严重损害了孩子的创新能力。

UUID: 8e34e8a6-2c2b-484d-96ba-edf86f20a254

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中国科学报公众号-pdf2txt/2013-2014/中国科学报_2014-06-22_中国教育最大的问题:Overfitting.txt

是否为广告: 否

处理费用: 0.0026 元