在过去的几年中,Uber无人车,Google阿尔法狗,量化交易,LinkedIn精准的好友推送又或是我们建筑孩子们熟悉的Grasshopper中的Galapagos。机器学习(Machine Leraning)正在切实地改变着我们的生活、学习与工作。
机器学习是一种可以自动生成分析模型的数据分析方法,通过使用一定的算法多次迭代从现有的数据中进行学习,使计算机能够在没有被明确编程的情况下,从数据(Data)中提炼出信息。(SAS)
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。(Langley,1996)
机器学习是对能通过经验自动改进的计算机算法的研究(Tom Mitchell,1997)
尽管机器学习算法已经被提出了很长时间(1950s),但直到近年来,对大数据使用复杂计算进行处理的机器学习方法才进入快速发展期。其原因是互联网的快速发展与自媒体时代的到来,可以被学习的数据以指数级的速度增加,而计算机的运算能力也根据摩尔定律高速发展。
机器学习中常用的学习方法包括监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。大多数的机器学习(大概70%)是监督学习,无监督学习大概占10%-20%。有时也会使用半监督(Semi-supervised)和强化学习(Reinforcement Learning)这两个学习方法。
监督学习算法利用带有分类标签(Label)的实例训练机器学习模型,例如一系列有关肿瘤良性或恶性(分类标签)的病人信息(年龄、性别、人种、体重……)的数据。通过将数据标记为“B”(Benign, 良性)或“M”(Malignant,恶性)。学习算法收到了一系列有着对应正确输出值的输入数据,算法通过对比模型实际输出和正确输出的多次模型修正迭代进行学习,。对模型进行修改以减小误差。
无监督学习使用不带分类数据。系统不会被告知“正确答案”。算法必须自己搞明白这些数据呈现了什么。其目标是探索数据并找到一些内部结构。无监督学习对交易(事务性)数据的处理效果很好。例如,它可以识别有相同特征的顾客群(用于市场营销),或者它可以找到将客户群彼此区分开的特征。
半监督学习应用与监督学习相同。但它同时使用了有标签和无标签数据进行训练——通常情况下,学习的数据为少量的有标签数据与大量的未标记的数据(因为未标记的数据非常容易获得)。这种类型可以使用分类,回归和预测等学习方法。
强化学习经常被用于机器人,游戏和导航。算法通过不断地试错进行强化学习,使回报最大化。这种学习分三个主要组成部分:代理(学习者或决策者),环境(代理所接触到地一切)和行动(什么是代理可以做的)。其目标是在给定的时间内,使代理选择的行动回报最大化。
机器学习的算法与工具包括SAS、Matlab、SPSS Modeler、TableAU、Weka、NanoCubes、R语言、Python语言和Java语言等。
结语:从时间角度看,机器学习是用过去预测未来。从信息流处理的角度看,机器学习是按照某种规则对信息进行压缩和抽提。
从神经元参数角度看,机器学习的过程是建立神经元之间的联系,学习样本里反复出现的pattern会建立权重大的关联,出现少的pattern会有权重小的关联。从学术的角度来说,机器学习是空间搜索和函数的泛化。从应用的角度:机器学习可以大约的解释成数据挖掘+人工智能。从哲学的角度来说,机器学习是“重现人认识世界的过程。