一、导言说起人工智能,大家想到的都是各种科幻电影、漫画中各种像人一样有自我意识、能思考复杂问题的机器人。它们除了没有血肉之躯,不容易感情用事,记忆力和计算能力特别出色之外,简直跟我们人类没有什么区别。有的人认为,我们拥有了人工智能之后,就等于拥有大量不怕苦不怕累的廉价劳动力。它们不但能替人类做体力劳动,还能替人类做脑力劳动,很多时候比人类做的还要好。有了人工智能以后,人类的未来会更加美好。
也有人认为,人工智能看起来很美好,但实际上非常危险,人类必须小心。1993年,著名科幻作家弗诺·文奇提出了“技术奇点”理论。他认为,一旦人工智能出现,它们就会不断学习,不断改进自己,变得越来越聪明,而且变聪明的速度会越来越快,引发“智能技术的爆炸”(即技术奇点)。最后,它们发展出了一种在各方面都碾压人类的超级人工智能,从此,人类的时代将会终结。
科幻小说甚至常常设想人工智能拥有了反抗意识,试图消灭人类。一些有识之士不断发出警告,呼吁我们限制人工智能的研究,警惕人工智能的潜在风险。然而,这些讨论都或多或少脱离了我们的现实。霍金等人虽然很聪明,但他们毕竟没有亲自从事人工智能的研究。也许,他们的设想就像150多年前的科幻作家一样,以为通过一门巨型大炮就可以将人类送往月球。虽然我们最终登上了月球,但我们用的是火箭,而不是大炮。
也许,他们的设想就像人工核聚变一样,长期处于“再过30年就能实现”的乐观中。但实际上过了好几个30年,却仍然没有实现。无论如何,人工智能的应用已经渗透到了我们生活中的方方面面。未来无法阻挡,未来就在我们脚下。与其白日做梦,与其患得患失,我们不如客观地了解一下,现在的人工智能到底是怎么回事。
二、人工智能的发展史机器到底能不能思考?
计算机科学家艾兹赫尔·戴克斯特拉认为,这个问题就相当于问“潜水艇能不能游泳”。如果游泳的定义是“利用四肢、鳍或尾巴在水中前进”,那么潜水艇肯定不会游泳,因为它既没有胳膊也没有腿。但是,这种咬文嚼字的定义显然是荒谬的。潜水艇显然会“游泳”,只不过不是我们所设想的那种游泳。同样的道理,机器也能“思考”,只不过不是我们所设想的那种思考。
我们可以说,机器在通过计算机程序模拟人类的思考,使得自己在某些具体的任务中,像人类一样能看、能听、能想、能说、能动。为了让机器能够通过某种计算机程序学会“思考”,人类科学家尝试了各种各样的方法,付出了几代人的努力,熬过了两次低谷,经历了三次高潮。
三、人工智能的三大驱动要素人工智能之所以能在近年来掀起新一轮高潮,主要是因为三大驱动要素:算法、大数据、运算能力。
概括地说,计算机主要干三件事,一是输入,二是运算,三是输出。不论输入什么,在计算机看来都是一堆数据。不论输出什么,在计算机看来也都是一堆数据。研究人工智能的计算机程序,很多时候是在研究“聪明的算法”,能够适应各种各样的实际情况,让计算机程序通过运算,从输入的数据出发,正确而高效地得出应该输出的结果。在这一轮人工智能的热潮中,机器学习的算法发挥了重要的作用。
当你交给计算机一个任务的时候,不但要告诉它做什么,还要告诉它怎么做。关于“怎么做”的一系列指令就叫做算法。比方说,你输入一个峡谷的等高线地形图,让计算机找到其中海拔最低的地方。你需要告诉计算机,从地形图的左上角开始向右走,一行一行地来回扫描,走遍整张图之后,比较所有经过的地方的海拔高度,最终找到那个最低的地方。这就是一种算法,只不过这种算法效率很低,看起来很“笨”。聪明的人会用聪明的算法。
例如,让计算机把自己想象成一个小球,从图中峡谷的任意一个地方开始往下滚。如果滚到一个地方滚不动了,那个地方就是海拔最低的地方。这种聪明的算法叫做“梯度下降法”。如果将来你要学习人工智能,这可能是你要掌握的第一个算法。很多时候,计算机工程师不可能像诸葛亮一样,把所有可能发生的情况都提前预料到,然后把应对方法写入几个锦囊之中,让计算机遇到问题时就打开其中一个看。
计算机只要按照提前准备好的方法应对,就能渡过难关。为了完成更加复杂的任务,工程师必须让计算机变得再聪明一些,能够自动“学习”,从已有的历史数据和经验中自动分析,总结出规律。随后,计算机就可以利用自己总结出来的规律,对新输入的数据进行预测。这就是机器学习算法。
例如,你把杭州所有房子的价格和它们的面积、学区、建造时间以及周围的交通情况等信息输入计算机,通过机器学习算法,计算机就能学到“大致判定杭州一个房子的价格的规律”。既然要让机器努力学习,就得有东西(“大量数据”)可学。人类每时每刻的每个行为都可以变成数据,但在前互联网时代,这些数据都不可能轻易地记录和保存下来。
随着互联网和物联网的发展,随着网络带宽不断增加,随着存储的硬件成本不断降低,全球人类产生的数据在爆发性增长,为人工智能的发展提供了源源不断的营养。大数据的营养有了,计算机程序还要经过大量运算,才能对这些营养进行“消化”、“吸收”,变成各种各样的“模型”,才能够模拟人类的智能。从前,科学家使用传统的CPU进行模型训练,运算过程少则几天,多则几个星期,效率非常低。
应用了GPU、FPGA和分布式运算等新的运算加速技术以后,模型训练的效率大大提高。有实际应用价值的人工智能程序一个接一个地涌现了出来。
四、人工智能近期可以用在哪里?从理论上讲,人类能够完成的任何一种重复的劳动,甚至人类无法完成的许多重复的劳动,都能用人工智能的算法进行机器学习。一旦模型训练成功,它们就可以在这些学过的具体任务中,像人类一样能看、能听、能想、能说、能动。
实际上,科学界和企业界对人工智能的应用,依赖于每个领域的具体使用场景。下面,我们从与日常生活相关的领域出发,简要地介绍人工智能的几个使用场景。每天都有很多人去医院看门诊,做检查,接受治疗。假设一个专家每天看30个病人,全年无休,经过30年的艰苦训练,也只能看完33万个病人。而且,如果他这样不要命地看病,就没有办法读论文,参加学术会议,学习最新的医学研究成果。
同时,根据IBM的资料,仅仅在上海市卫生信息系统,每天生产的数据就高达1000万条,已建立起的电子健康档案达3000万,信息总量已达20亿条。这些资料靠人力根本不可能看完,只能依靠拥有人工智能的计算机。
例如,根据日本媒体报道,有位66岁的女病人山下女士罹患罕见的「急性骨髄性白血病」,IBM的人工智能系统Watson在她病情突然恶化,意识不清的紧急状况下,只用了10分钟就从2000万份论文中找到了依据,精确判断了她的病症,并找出了最适合的疗法治疗成功。为了侦破案件,公安部门常常要调取公共场所和道路两侧的监控录像。
应用了人工智能技术之后,计算机在破案时可以从视频画面中,识别可疑人员的特征,快速确定可疑人员的身份,并综合解决查人、找人、预警、追踪等的人员管理监控问题。计算机也可以在视频画面中,识别车辆信息,帮助失主追回被盗的汽车。全球的证券市场每天都会产生大量交易数据。著名对冲基金桥水曾经利用人工智能技术,通过这些历史数据和统计概率预测未来。这个程序能随着市场的变化而变化,不断适应新的趋势,而不是一成不变的。
在汽车上安装了摄像头之后,无人驾驶的科学家就可以训练计算机从视频图像中,学习识别周围的物体和环境,检测可行区域的范围,并判断车该往哪里开。据36氪报道,美国有一家叫做叙事科学的公司,在2010年就推出了一款名为Quill的写作软件,能从不同角度将数字转化为有故事情节的叙述文。Quill曾被用来撰写电视及网络上棒球赛事的比赛报告,福布斯网站曾使用该公司的技术自动制作财报和房地产相关报告等。
只要给人工智能软件投喂足够多的语料库,理论上它可以模仿任何一个人的声音。你想让它说什么,它就能按照那个人的声音说什么。甚至还能用奥巴马的声音说带口音的汉语。时间就是金钱,浪费你的时间就是浪费你的钱。垃圾邮件不但浪费你的时间,浪费你的带宽,有时候还给你设下骗局,妄图直接骗走你的钱。应用了人工智能技术之后,许多邮箱的垃圾邮件大大降低了,有些邮件服务商甚至将垃圾邮件比例降到了0.1%。
虽然机器猫八字还没一撇,但是机器狗,机器驴,机器蜘蛛都已经发明出来了。它们能站,能走,能跑,能爬,上山不打颤,下雪不怕滑。欧洲核子中心的大型强子对撞机,每秒钟能够产生几亿次对撞,但这些数据并不是全都能派上用场,科学家只能用快速而粗糙的标准筛选出其中区区1/1000的事件。科学家计划在未来的加速器中安装人工智能程序,将更多可能蕴含着新发现的工作交给它。
当你在网上开心地剁手的时候,你可知道自己也在不知不觉地用到了人工智能技术?利用机器学习、数据挖掘、搜索引擎、自然语言处理等多种技术,各种买买买的网站都能根据用户在网站中的点击、浏览、停留、跳转、关闭等行为,猜出你大概是哪种人,可能会喜欢什么,然后把你可能喜欢的商品推荐到你眼前,让剁手来得更猛烈些。看完这份小资料之后,你有没有人工智能没那么神秘,没那么可怕了呢?
其实,人工智能技术的发展就像人类之前遭遇过的每一项技术突破一样,既会给我们带来好处,也会给我们带来问题。鼓吹人工智能也好,警惕人工智能也好,我们不如先冷静下来,踏踏实实地搞清楚人工智能到底是什么,理性地迎接未来的降临。