横跨数学、经济学和人工智能等诸多领域的博弈论,是一门极富挑战性而又美轮美奂的交叉科学。物理学家朗道曾感叹自己生不逢时,包括他在内的一流科学家,在当时都只能研究二三流的问题。如今耕耘在博弈论领域的学者则幸运许多,这里不仅有一堆一流的问题有待研究,而且还有许多重要问题尚未被发现。
2016年,有那么一只“狗”大闹天宫,这在整个人类社会引起了轩然大波。
它就是阿尔法狗(AlphaGo),是谷歌(Google)旗下公司DeepMind在人工智能与博弈论交叉研究上的一个杰作。这只狗不仅在当年以4:1击败了围棋世界顶级选手李世石,次年又让位列世界第一的柯杰泪洒棋盘。围棋是一个最具挑战性的智慧游戏,而人工智能博弈在围棋上战胜了人类顶级棋手,无疑标志着一个崭新时代的到来。现在就让我们一起了解一下人工智能博弈背后的科学:博弈论(Game theory)。
说到博弈论,我们不禁会联想到那些充满权谋智慧的历史故事。比如战国时期的田忌赛马、孙膑献计,都是以己方相对优势的组合策略去战胜绝对优势的对方。这是博弈理论中最佳对策(best reply)的一个范例。在三国演义中,诸葛亮唱的那出吓退司马懿大军的空城计,更是在不对称信息环境下实践行为博弈的传奇。
现代博弈论的诞生是以四十年代数学大师冯·诺依曼(John von Neumann)和经济学者摩根斯坦(Oskar Morgenstern)的巨著《博弈理论与经济行为》的出版为标志的。冯·诺依曼可谓是一位文艺复兴式的科学“综”师。他不光是二十世纪最伟大的数学家,还是博弈论和计算机之父。他建立了量子力学的公理化体系。博弈论学科的建立也是一个历史的必然。
第二次世界大战等国际政治对抗不仅催生了原子弹,也直接推动了计算机、博弈论、密码学等新兴学科的发展。博弈论这门智慧游戏的科学,从它诞生的一天开始,就玩得有些大。它的学术领域一直十分活跃,群星闪耀,不乏神奇。已先后有十几位科学家因为他们在博弈论及其应用领域上的卓越成就,而拿到了诺贝尔经济学奖。
我们必须要讲到是一位数学奇才:纳什(John Nash)。
他二十几页的博士论文给出了策略博弈中的一个基本解概念,这就是后来以他的名字来命名的纳什均衡理论(Nash equilibrium)。在这里均衡的理念就是,在一个非合作博弈中,一旦所有玩家的行为达到了一个均衡状态,那么其中任何一个理性玩家都不会愿意单独改变他的策略。因为任何单独的改变,都不会给他带来任何的好处。均衡概念是博弈论以及现代经济学理论的一个最基本的思想。
另一位博弈论的宗师沙普利(Lloyd Shapley)更是一位有故事的人。合作博弈论有以他名字命名的价值理论Shapley Value,给出了可转让资源分配的一个必备准则。他提出的随机博弈(stochastic game)问题是博弈理论领域中的顶级难题之一,引一代又一代天才科学家为其折腰。沙普利与罗斯(Alvin Roth)在2012年分享了诺贝尔经济学奖,则是由于他在资源匹配理论方面的伟大工作。
他与合作者盖尔(David Gale)设计了一套算法证明了两维稳定匹配一定存在。他们的“婚配”理论模型建议,无论男女哪方,谁先主动追求,谁最后的结果就会更有利些。
我们的老师奥曼(Robert Aumann)是一个会讲故事的人,风趣幽默,无论多么艰深的理论在他口中都变成了雅俗共赏的艺术。奥曼与纳什、沙普利等是现代博弈论的学术领袖,他与沙普利共同发展了合作博弈论中的价值理论。
他提出的共同知识学说(Common knowledge)是博弈论的一个哲学基础,“我知你知,你知我知你知,我知你知我知你知……”真可谓道可道非常道,玄之再玄。有后人评说,司马懿之所以没敢入诸葛亮的空城,是因为他掉进了与孔明的共识怪圈,就没能出来。奥曼在重复博弈(repeated game)领域作出了奠基性的工作。我们都知道,在囚徒困境博弈中,合作并不是纳什均衡。
但基于奥曼的理论,只要重复博弈的次数足够大,囚徒的合作也可以是均衡点。这就是有名的佚名定理(Folk Theorem)。
简单来说,博弈论是一门研究智慧个体相互作用与决策的科学,是数学、经济学和人工智能等学科交叉的科学。博弈论作为数学的一个分支领域,可以把它与运筹学来类比。运筹学有两个基本任务:优化和分配。我们在中学都学过求极值的问题。
简单地说,博弈论就是多元的优化和分配的推广,是研究在多元相互作用的系统中个体或群体决策的科学。然而与运筹学不尽相同的是,博弈论也关顾博弈参与者的理性、智慧、行为,以及信息环境。也有与行为科学相交叉的进化博弈论分支。博弈论分为非合作博弈(策略博弈)和合作博弈两大领域。让我们通过介绍博弈论在经济学上的发展,来了解它的基本学科框架。
当代博弈论一问世就与经济学联系在一起,冯·诺依曼和莫根斯坦那本开山巨著就以这个题目来命名。如果拿经济学与物理学相比较的话,那博弈论就是经济学理论中的“量子力学”。博弈论和一般均衡理论(general equilibrium)是当今经济学理论的基本语言和范式。从微观的视角来看,在我们的经济体系中存在不同的经济个体,它们不仅具有自我行为,同时也在交互作用着。
无论是个人,还是社区;无论是公司企业,还是政府部门,我们都可以把它们的行为简化成一个模型:为了个体自己的目的,做出自己的行为决策。而这些经济个体的最终利益不仅与自身的行为有关,而且也取决于其他个体的行为。例如华为在手机市场上的营利不仅来自于公司自身的研发、生产和销售上的作为,还要看苹果、三星和国内对手的动作。如果不研究对手,不观大局,我们所谓的“勤劳致富”就形同于盲人摸象。
竞争就是在体系中与其他个体交互作用中为达到最大利益的最优行为。研究经济个体的竞争行为是微观经济学的范畴,也是经济学中的非合作博弈理论。
金融学中有一难题,是套利的极限。套利是利用资本市场中资产价格错配的机会,采取金融交易手段来套取营利的活动。如果有一天,你发现周边有两个农贸市场都在卖同样一种苹果,但价格却不尽相同。
你可向朋友借些钱,买了便宜的苹果去另一市场高价出售,还了朋友的钱后,留在兜中的钱就是你的套利了。市场有效性假说认为,市场上几乎不会存在这种套利机会,因为一旦有套利机会,无数投机者就会蜂拥而至,套利机会也就会随之而消失。但现实并非如此,市场上套利机会还是随处可见。施莱佛(Andrei Shleifer)和威斯尼(Robert Vishny)应用博弈理论模型解释了这个套利极限的问题。
他们认为,专业基金管理人受制于投资人对业绩表现的要求,而不能无条件地在任何市场条件下完成套利操作。
除了竞争,在经济社会中人们也会寻求合作。一个社会收取了各类税项,这些财富资源如何重新分配呢?一个城市建设了一个机场,如何来让航空公司去分摊机场的建设和营运成本?更一般的,什么样的合作形式最有效?社会资源如何分配最合理?这些就是合作博弈论研究的核心问题。
沙普利和奥曼的价值理论为社会资源的分配提供了一个必备的基础准则:一个经济个体可以参与社会中各类不同的团体(coalitional game),而这个个体最后可以获得的资源应该取决于它对所有社团边际贡献(Marginal contributions)的统计平均值。哇,分配决定于贡献,老沙他们挺社会主义的。而沙普利又与盖尔为互补资源配置建立了稳定匹配的理论,那么浪漫的东西,留给你们自己去探究吧。
人类分配资源和决定组织领导的常用手段是选举表决,我们叫它民主。选举表决的民主方式真是完美的吗?法国启蒙运动的领袖孔多塞(Condorcet)指出,当有三个备选对象时,民主方式可能会失效。选举表决也许不能决定出大家公认的领袖。这就是著名的孔多赛悖论。他的思想后来被发展成阿罗不可能原理(Arrow impossible theorem),它是社会选择(Social choice)领域的基石。
我们做金融的最经常接触到的就是金融资产和金融市场。“市场定价”(Mark to market)也常我们被用来作为一个行业信条。那什么样的市场更有效?更能准确地反映资产的价值?这就是博弈论中机制设计(Mechanism design)研究的问题。市场中有公开拍卖(Open auction)和封闭拍卖(Sealed auction)。公开拍卖的方式有多种。
荷兰式拍卖是源自于荷兰鲜花市场由高到低的叫价,买者可一口承接。我们在艺术品拍卖会看到的是所谓英式拍卖,竞拍者由低向高地竞相出价,拍品最后由最高出价者购得。香港政府也常用封闭拍卖方式出让土地。在封闭拍卖中,让出价最高者购得拍品是自然了,但让他付什么样的价钱,却是学问了。直觉上似乎是,赢家出的最高价,就应该支付最高价吧。实则非也。
我们要让最高出价的赢家以第二高出价的价格来购买拍品,这叫第二价拍卖(Second price auction)。你能理解为什么在封闭拍卖中第二价拍卖最有效吗?竞拍者的出价会更会接近他自己对拍品的真实估值,这样的市场设计能让买家说实话。
冯诺依曼与人工智能之父图灵的交集可追溯到他们在美国普林斯顿大学的学术生涯,那时,他们一个是大牌教授,一个是天才学子。他们两位又同是计算机科学的奠基者。
博弈论与人工智能如同是一枚硬币的正反两面。一个要研究智慧个体的相互作用与决策,一个是要使人类智能机器化。当我们想让计算机和机器去像人类一样学习、思考和行为,实际上就是在让机器对其自身、对手和环境进行认知和智慧博弈。如果要把人工智能改称为“人工博弈论”(Artificial game theory),肯定会有人反对。
一个博弈论和机器学习交叉结合的范例是强化学习(Reinforcement learning)。让我们用最前面所提到的那只AlphaGo来演绎强化学习的概念吧。作为人工智能的主体,AlphaGo与人类棋手进行围棋对弈,它的目标就是通过最佳策略来取得胜利。显然,它的最佳策略不仅要依照围棋的规则,还要针对对手的行为和策略。
在强化学习中,AlphaGo首先要建立一个由每个阶段的奖励信号(reward signal)与评价函数(value function)所构成的目标评价体系,通过评估局面的胜率来指导决策。第二部分是建立它的策略函数(Policy function),能够根据对手的行为和棋局的分析产生出合理的对策。在博弈中随着棋局的变化,AlphaGo从它的策略函数中产生使目标评估胜率最大的策略。
AlphaGo是通过学习其自我生成的大量盘局,来形成它的目标评价体系和策略函数的。这就是关于那只AlphaGo强化学习的简约版故事。
尽管博弈论中的一些问题和它的朴素思想或许可以追源到远古,但当今博弈论学科的发展却日新月异、风华正茂。博弈论学科横跨数学、经济学和人工智能等诸多领域,是一门极富挑战性而又美轮美奂的交叉科学。
当年著名物理学家朗道曾感叹自己生不逢时,当时包括他在内的一流科学家,在物理学领域,也只能研究二三流的问题。当今博弈论领域,不仅有一堆一流的问题有待研究,而且还有好些重要问题尚未被发现。这也是为什么,博弈论领域硕果累累、群星璀璨。近年来它也成为诺贝尔经济学奖得主的摇篮。在博弈论的学术领域,我们华人科学家也是人才济济,成就斐然。
比如周林教授因其在博弈理论研究上的卓越工作,于2009年入选世界计量经济学学会会士(Fellow)。博弈论也是一门实用性学科,它的基本原则和策略方法早已成为现代政治生活、经济活动、金融投资、商业决策和组织管理等领域必备的行为规范和实践手段。诺贝尔经济学奖得主罗斯曾倡导,经济学者也是工程师。他本人就在身体力行,是博弈论在社会资源匹配应用实践上的先行者。
今天,随着博弈论与人工智能的交汇,以及算法博弈的长足发展,博弈论正从科学的殿堂大步走出,汇入工程技术的广阔海洋,在各个方面服务于我们的生活。
年轻的朋友们,让我们一起来了解和学习这门研究和实践智慧游戏的学科——博弈论。国际上博弈论的专业教材和杂志文献十分丰富,这里推荐几本国外文献的中译本来作为我们入门学习的教程。
学科科普《纳什均衡与博弈论》汤姆•齐格弗里德 (作者), 洪雷 (译者), 陈玮 (译者), 彭工 (译者);学科应用《策略思维——商界、政界及日常生活中的策略竞争(大师细说博弈论)》阿维纳什·K·迪克西特 (作者), 巴里·J·奈尔伯夫 (作者);《妙趣横生博弈论:事业与人生的成功之道》迪克西特(Dixit A.K.) (作者), 奈尔伯夫(Nalebuff B.J.) (作者);学科专业《博弈论基础 (当代经济学教科书译丛) 》罗伯特·吉本斯 (作者), 高峰 译 (译者), 魏玉根 校 (译者)。