用数学模型预测交通,理性工具还是巨坑?

作者: 聂宇

来源: 知识分子

发布日期: 2022-01-09

本文探讨了出行预测的历史、发展及其在交通规划中的作用,指出出行预测不仅是科学问题,也是政治问题。作者批评了现有模型的局限性,强调数学模型不应成为公共政策制定的唯一考量,并提出了出行预测面临的五大问题,包括无法证伪的尴尬、大胆假设的危机、追求复杂的盲从、过度拟合的陷阱以及政治干预的困局。

城市发展,修桥建路,离不开出行预测这一基本的决策工具。从70年前诞生至今,出行预测的发展见证了客观严谨的科学方法在指导交通规划方面的巨大成功。但本文作者认为,出行预测既是科学问题,也是政治问题。数学模型不应该、也不可能成为公共政策制定的唯一考量。拔高它的科学性不是解决问题的方案,而正是问题所在。

交通运输学界的前辈,David Boyce和Huw Williams都曾站在各自专业领域的巅峰,见证了出行预测的诞生和成长。他们在荣退之后,总结反思,以全球视野,禀史家笔法,伏案十余年写就《城市出行预测:历史现状未来》这本奇书(后文简称《出行史》)。说《出行史》是一本奇书,是因为它兼收并蓄:既可作行业历史泛读,也是交通分析入门的精读教材。

普通读者会从书中学到出行政策制订、规划实践的常识,也能找到满足好奇心的逸闻故实;专业人士则可通过此书整合知识体系,融会贯通,更上层楼。总结起来,《出行史》有三大特点:(一)对欧美出行预测发展史的比较分析;(二)兼顾出行系统分析中供给、需求两大分支;(三)持论公允,无夸张曲解,也不文过饰非。对应这三点,下文也分为三节。

前两节讲历史,为出行预测立传,回顾模型的前世今生;第三节作批判,反思得失,展望未来。

出行预测发源于1950年代的美国。其时战后经济繁荣,大量来自南方农村的人口涌入城市。受新增人口冲击,部分城市居民开始搬离市中心,向郊区转移。郊区化浪潮引发的职住分离,给道路交通系统带来了巨大的升级压力。1956年,埃森豪威尔政府通过联邦公路援助法案,迎接机动化挑战,拉开了州际公路网建设的帷幕,一干就是二十多年。

如此大规模的基础设施投资,很自然地催生了对规划的需求。简言之,需要修多少路,什么样的路,在哪里修,什么时候修?这些问题的提出让联邦和地方政府中的有识之士意识到,要做好公路网络规划的决策,首先要搞清楚居民的出行需求,以保证道路供给与之匹配。因为规划面向未来,所以仅知道现状出行需求还不够,还需根据现状对未来需求进行预测,这就是出行预测的发端。出行预测从那时起到今天,大致经历了三个发展阶段。

奠基阶段:1950s-1970s1953年,Douglas J. Carroll牵头在底特律开展了首次大规模城市出行研究。他把底特律地区分为两百多个交通小区,以家访调查为基础预测未来进出小区的出行总量,并估算总量在各小区对之间的分布,生成通常所说的出行表(或出行矩阵)。出行表最终通过一个简单的步骤加载到路网之上,用于预测和评价不同规划方案对应的交通流量、旅行时间和服务水平。

可以看到,底特律研究已经形成了后来大名鼎鼎的四步交通规划法的雏形,除了方式划分,其他的三步,出行生成、出行分布和交通分配都已正式登场。底特律大功告成之后,Carroll转战芝加哥,领导了出行预测史上最负盛名的地区交通研究。芝加哥研究第一次通过土地利用类型预测人均出行率,并正式考虑了公交在出行中的分担率,由此引入了方式划分的概念。

人类历史上第一次用计算机大规模求解最短路算法大概也是芝加哥研究的创举,当时的芝加哥地区路网有多达2500个路段,对内存的要求逼近最新一代大型机(IBM704)的极限。

转型阶段:1970s-1990s到上世纪70年代中期,随着美国州际公路网基本建成,多数大都市完成了中长期道路交通综合规划方案的制定,并通过都会规划组织的设立制度化,定期根据人口、就业趋势对方案更新。

美国人从政治动荡的60年代走出来,开始发现全民机动出行并非想象中的天堂。首先是路越多越堵。连接郊区和市中心的高速路加速了郊区化进程,结果是修路的速度赶不上通勤人口的增长。其次是汽车排放造成严重污染,雾霾酸雨在大城市成为家常便饭。再次,遍布的高速路侵占城市空间,割裂社区,少数族裔深受其害。最后,中东石油危机造成油价飞涨,开车成本猛增,成为压垮骆驼的最后一根稻草。

1977年,美国颁布《清洁空气法案》修正案,要求出行规划将空气质量目标纳入规划步骤。从那之后,出行规划的目标开始从单纯满足(机动)出行需求,转向如何对出行需求进行管理,包括限制驾车出行,鼓励使用更环保的方式等。而出行规划实践的重心也从编制长期方案转向各类短期交通需求管理项目,如共乘车道设置,拥堵收费,公交改善等。

这一时期,传统四步法仍然是出行预测实践中的绝对主力,但学界迎来了方法论上爆发式的创新,各类成果开始缓慢地向实践渗透转移。这些创新主要围绕对四步法的组合统一,增加模型现实性,以及以行为为核心的建模理念展开,开辟了组合出行模型、动态交通分配、离散选择及活动模型等几个大的领域,其影响绵延至今。

成熟阶段:1990年代至今

随着苏联解体和冷战结束,美国出行界在90年代初迎来两个重要的联邦法案:1990年的《清洁空气法案》和1991年的《冰茶法案》。前者第一次对出行预测的步骤做出了具体要求,包括考虑出行在一天内随时间变化的动态特性,以及四步法不同步骤间的反馈(即一致性)。后者提出了以提高道路设施运行效率为核心的治堵理念,并要求长期规划应满足《空气法案》的交通控制措施,并综合考虑交通投资决策对用地和经济发展的影响。

联邦公路局随后发起了交通模型改进工程,正式启动对传统出行预测方法的系统改进。除去各都会组织对它们手中出行模型的修修补补,这期间大量的尝试都围绕活动模型和动态交通分配两条技术路线展开,目标是通过应用微观仿真技术提升出行预测中的行为和物理现实性,形成支撑短期甚至实时需求管理决策的能力,为打造“智能交通系统”服务。遗憾的是,理想很丰满,现实很骨感。

时至今日,能在出行预测中经常使用活动模型和动态交通分配的都会组织依然寥寥无几,真正唱主角的仍是早就被喷得体无完肤,打着各色补丁的四步法。也许一线规划师和他们的主管一样,习惯了萧规曹随,不自觉地抵抗新生事物。但是,使用这些新技术对数据收集、计算资源和分析能力提出的要求,确非一般都会组织所能满足。而它们在实践中体现出的真正价值,即对决策能力和预测准确度的提升,又跟它们高昂的价格背离。

这个时期出行领域细分趋势明显,本该互通有无、协同共进的技术路线经常处于并行的状态,多数研究者和规划师满足于在自己的一亩三分地里深耕,成为真正的“专家”。某种意义上,这是一个领域范式成熟的表征。但三十年如白驹过隙,而创新在实践中的应用始终乏善可陈,或许是旧范式已成桎梏、新范式的创立当提上日程之征兆。

数学模型是出行预测的灵魂,也是它科学性的基础。什么是数学模型呢?

简言之,模型是真实世界的镜像,它通过合理简化,把研究对象用抽象的数学符号和公式系统来表达,帮助决策者发现基本变量间的相互关系,掌握其演化的基本规律,并以此为据建立决策支撑体系。Carroll的最初工作其实就是把一个复杂的决策问题——即如何规划路网以满足远景出行需求——抽象并转化为数学模型。他的模型有两个基本组件:分割为交通小区的路网(供给),需要出行的居民(需求)。

Carroll的初衷是量化各种道路规划方案在未来对机动车出行服务水平的影响。为此,首先要估算小区内居民在工作日的出行次数,即出行生成。其次,出行总量在各小区对间如何分布,即出行分布。再次,各种方式(驾车、公交等)如何分担各小区之间的出行量,即方式划分。最后,小区出行量加载到道路网上以估算服务水平(旅行时间),即交通分配。

四步法虽然很快就因为简单实用被广泛接受,但作为严谨的数学模型,它有几个很大的漏洞。首先,生成出行的思路非常粗糙:先通过调查把出行量跟解释变量(如用地方案,人口等)或家庭特征(如拥车量,收入,人口结构等)关联,然后以统计关系为基础,把对解释变量的预测转化为出行总量的预测。这里的问题是从调查数据中回归出来的统计关系只代表相关性,且在N年后未必适用。

另外,有些变量(如用地方案)与出行有显著的相互影响,但仍被当作外生变量单独预测。其二,出行分布和方式划分在顺序上位于交通分配之前,但却依赖于交通分配生成的服务水平指标作为输入。因此,顺序四步法存在自相矛盾,即用于确定出行分布和方式划分的服务水平偏离交通分配产生的服务水平。其三,交通分配的基本假设是司机会选择路网中最短(快)的路线。

然而,随着交通量上升,道路会产生拥堵,增加旅行时间,原来的最短路不再最短。Carroll意识到一部分司机会不断换到其他路线以规避拥堵,但是没有讨论这个过程是否存在收敛点(即均衡态),以及如何计算收敛点。其四,完全无视出行的动态特性。出行量瞬间加载到路网上,由提前标定的多项式函数转化为旅行时间。这造成拥堵效应固化到路段,无法复制真实网络里的传播效应。

更重要的是,任何与日程安排(例如出发时间)相关的出行决策都只能抛弃。所谓不满是向上的车轮。这些缺陷成为创新的源泉,其巨大推力在1960年代开始在学术界显现。

既然写书评,批评自是题中应有之义。但这里写的,并不是对《出行史》的批评,而是对出行预测领域本身的批评。《出行史》中对出行预测的批评占了大半章的篇幅,有心的读者请仔细把玩两位老先生的史笔。需要说明的是,本节中的批评虽有些方面与《出行史》重叠,但大多为个人观点。总结起来,我认为出行预测有五大问题,以下逐一辨析。

预测未来出行需求是为了指导现在的行动,即交通或者用地规划。

但现在的行动,包括修高速路、造地铁、收拥堵费等等,又会对需求形成扰动。所以曾任美国交通研究委员会主席的Martin Wachs认为,既然行动和预测互相影响,则以预测做为行动的出发点,逻辑上成了循环论证之困局。譬如为了连接郊区和市区而考虑扩建高速路。假定规划师预计20年后郊区每天去市区的通勤人数新增8000,按现状公交分担率,一半会选择常规公交,另一半选择开车。

如果每条高速车道容纳2000辆车,则新增两条车道正好能够满足需求,不增加拥堵。20年后,发现通勤人数确实增加了8000,但公交分担率降到了25%,高速路堵得一塌糊涂。这能够说明规划师20年前的预测大错特错吗?亦或是扩建高速刺激了更多人购车,并且在习惯开车之后不愿再用公交了?还有一种场景,就是规划师推荐修轻轨,虽然花费多一倍,但可以增加公交分担率,吸收掉新增通勤人口。

结果轻轨也许比高速路的吸引力更大,造成通勤人数增加到12000,轻轨不堪其负,挤不上轻轨的上班族也不甘心使用常规公交,依然驾车出行,高速路还是堵了。循环论证的困境,决定了制定交通规划这样的公共政策无法拥有完全客观的“正确性”标准。在上面这个例子里,修高速或轻轨都与预测严重偏离。前者增加了驾车出行,使高速路更拥堵,而后者让更多的人搬到郊区,恶化了职住分离。哪一个决策错得更厉害呢?什么都不做会更好吗?

政策制订者永远不会知道。现实中真正实施的只有一个方案,它错了,并不能证明它就是备选方案中错得最离谱的。实际上,一个与预测偏离严重的方案甚至也可能是最佳方案,虽然这个命题同样也无法证伪。如果用哲学家Karl Popper的标准,不能证伪的出行预测是不能称为科学的。使用数学模型或许可以为它披上科学的外衣,但改变不了它无法证伪这个基本事实。

新文化运动领袖胡适说做学问应该“大胆假设,小心求证”。

在出行预测上,大胆假设并不难,甚至没有它我们就寸步难行,但求证很多时候不是光靠小心就行的。即使是最简单的预测,例如把某地区出行的历史趋势做外推,也需要先建立出行量和土地使用、拥车率、收入水平、人口等解释变量的统计关系,然后用它把解释变量的趋势转化为出行量的趋势。这里面至少需要四个隐含假设。

首先,出行量和解释变量存在因果关系而非简单相关性;其次,未包含在模型里的因素对出行的影响可以忽略;其三,模型内嵌的因果关系在未来依然成立;最后,对解释变量本身变换趋势的独立预测是正确的。这四个假设里面没一个是好求证的。最后一个与出行本身无关,略过不表。分辨两个变量的关系是因果还是相关虽然理论可行,但技术门槛很高,还需要耐心和运气,实践中操作性并不强。关于那些被模型忽略掉的变量,最出名的是汽油价格。

在出行预测的奠基阶段,油价因为长期维持在低位,且波动幅度不大,被模型直接忽略。到70年代石油危机惊醒梦中人,模型师们才发现原来油价也是会影响出行选择的。至于假定历史趋势会持续下去,只能算是愿景,没有任何理论依据。人们不愿意假设未来会偏离现有趋势可以理解。除了大多数人天生对剧烈变化的排斥(即风险规避),另一个原因是大幅偏离趋势的可能性是无穷多的,而每一个真正能实现的可能性远低于维持趋势的可能性。

因此,大胆假设在出行预测中经常表现为保守主义。

有种观点认为,循环论证和大胆假设的由来,归根结底是简化模型的需要和缺乏第一性原理的驱动。在出行领域中,第一性原理来自物理规律(如交通流理论)或者行为准则(如效用最大化)。统计外推属于单纯从数据中寻找规律的归纳法。普遍的看法是,因为没有第一性原理的加持,它无法获得演绎法那样的解释力和预测力。

如果这是病源,那药方自然是尽量用第一性原理把各种变量间复杂的关系表达出来,消除对外生条件的假设。比如,要解决诱导需求就把供需关系放到模型里;发现土地使用和出行相关,就构造土地使用-出行一体化模型;认识到出行是活动的衍生需求,那就转而预测活动而不是出行;而活动又依赖于家庭结构的长期演化,因此,不如干脆把找工作、买房子甚至结婚生孩子都一起预测了。

反正所有人类活动都涉及某种选择,可以用经济人效用最大化原理轻松搞定。这样层层加码的逻辑终点必然是一个异常复杂,包含无数关系,试图复制真实世界本身的“超级模型”。某种意义上,这类似于物理学家的终极理想,即一个可以完全解释并预测宇宙万物演化的宏大理论。遗憾的是,这类超级模型制造的问题多半比它们解决的更多。

撇开标定、计算复杂度、运行维护的挑战,海量变量之间复杂的相关性已经超出模型师可以控制甚至理解的范围。这是因为在模型中每加入一组新的相关性,它可能会跟已有变量产生二阶,甚至三阶的关联;上面提到供需关系和人口及拥车率的互动即是一例。在大模型里,这些关联可能是无法预见的,也可能根本就在现实世界中不存在。正如Lee所说,“在模型中加入更多的组件给模型师带来一种幻觉,让他们觉得模型更完备,而不确定性降低了。

但在实践中,每个新组件带来的未知因素都比已知的多。”在这样的情况下,如果超级模型输出结果与现实出现偏差,模型师几乎无法判断问题出在什么地方,它变成了真正的超级黑匣子。

过度拟合是预测模型的常见病,但在复杂出行模型中,这个问题尤其难缠。

前面讲到,复杂模型由于内部关系太纠结,在模型输出与观察数据出现偏差的时候,很难从第一性原理出发去解决问题(如识别变量间尚未发现的因果关系,或者调整已知关系的函数形式)。这时候模型师通常会祭出标定这件法宝,即调整模型里某些参数,让输出与观察匹配。这种做法本来无可厚非,但问题是当模型里有成千上万的参数时,能够与观察匹配的参数组合几乎是无限的。

不夸张地说,哪怕观察的数据是在火星上收集的,模型也照样可以跟它凑上。因此数学家John von Newmann警告我们,“给我四个参数,我就可以凑出一头大象,再多给我一个,我还能让它摇鼻子呢。”凑出来的模型,不管跟观察数据吻合得多么完美,用于预测时都难免差之毫厘谬以千里。

虽然机器学习本质上用的也是这套方法,但成功使用机器学习的领域,通常决策变量的维度较小且结构性较强(如识别问题),加上庞大的数据量对变量空间覆盖相对完整,使得它对过度拟合问题有较强的抵抗力。不幸的是,出行预测的输出变量通常维度很高,结构复杂,刻画系统特征的观测数据很难达到应用机器学习的要求。

所以哈佛大学著名心理学家Stephen Pinker在《人性中的良善天使》中开玩笑说,“社会科学家绝不应该试图预测未来;他们有足够的麻烦预测过去。”忠言逆耳利于行,出行领域或可以此为鉴。出行预测的本意是去除主观因素(如长官意志、政治干预)的影响,以科学指导决策。但出行预测的服务对象是公共政策制订,而公共政策牵涉的社会各方,博弈关系错综复杂,它们之间的利益权衡并没有完全客观的评判标准。

而前面提到的三大问题,即无法证伪、大胆假设和过度复杂,又为政治干预留出了巨大的操作空间。因为无法证伪,所以错了无需担责;允许大胆假设,则可用假设操控结果;模型过度复杂,从而解读预测结果必须依赖少数专家的专业能力和操守。但是专业能力未必总是靠得住,因为有的超级模型已经变成了仙侠小说中要反噬其主的法宝。再以通勤问题为例。

修轻轨还是扩建高速远不仅是改善出行、造福民生这么简单,它还涉及经济发展、官员政绩、承包商利益等方方面面。假设城市的管理者出于发展郊区经济的考量,或者响应国家公交导向的倡导,倾向修轻轨。如果模型说明修建轻轨确实比扩建高速好,那自然皆大欢喜,其结果被奉为金科玉律,成为打击“质疑轻轨论”的利器。如果不巧发现建轻轨不是最佳方案呢?这时候决策者大概要怀疑专家们的判断力了。对轻轨的分担率的估计过分保守了?

人口老龄化的问题考虑到了吗?高速路污染排放的成本是不是低估了?由于模型中总有大量假设和可调参数,“调出”决策者想要的结果,绝非难事。觉得这有违职业操守而断然拒绝的人,也许专家这份很有前途的工作就干不成了;灵活性比原则性更强的人可以找出各种理由说服自己:其实原来的结果也未必就更合理,因为到底哪个更“正确”这个问题其实是无解的。

在写这篇读书笔记时,我经常问自己,出行预测这门70年前在二战后百废待兴的特殊社会经济条件下兴起的新学科,在全球经济发展放缓,全球化进程受阻,人口老龄化趋势加速的未来50年,还会继续存在吗?如果会,它该如何适应新的环境呢?我还没找到答案,但有几点体会想写出来,与同道中人相互启发。首先,做模型的目的是为了解决问题,所以一定要先有解决的问题,再去寻找或者打造工具。

有的时候,甚至建模本身就不是解决问题的正途。回到Carroll的时代,他发明四步法的目标很明确:解决如何有计划地扩建公路网的问题。但70年后的今天,很多专家手中的出行模型经过多年开发,代代相传,已不再是解决某个问题的专门工具,而俨然是包治百病的灵丹妙药,或者无锁不开的万能钥匙。

关于这一点,Lee在《大模型的安魂曲》里有句话发人深省,“做一个不是为解决问题量身打造的模型,其有用性大概跟收集一堆不知道给谁用的数据差不多。”其次,出行模型既不是越真实越好,也不是越复杂越好。George Box的名言虽是老生常谈,但还是值得再重复一次:“世界上没有‘正确的’模型,只有有用的模型”。在有用的前提下,模型应该如爱因斯坦所说,“简化到无法再简化为止”。

30多年前,Mahmassani在评价当时风靡一时的活动模型时曾写道,“在浏览(活动模型)领域浩瀚的文献时,你会感叹研究者是否已经迷失在对……种种复杂性的追寻之中,而对简单并可重复的规律视而不见”。其实很多时候,真正解决问题的正是那些简单并可重复的规律。最后,出行预测不全是科学问题,也是个政治问题。这话从一个热爱数学模型、在大学里教工程的学者口中说出来好像有点匪夷所思。

但是,我确实认为,出行预测模型既不应该、也不可能成为公共政策制定的唯一考量。拔高它的科学性不是解决问题的方案,而正是问题所在。由于社会经济系统的复杂性,对几十年后的未来需求给出有用的预测可能压根儿是不可能的。正如van Vuren所说,“我们要丢掉模型可以解决问题,给出正确答案这种不切实际的幻想”。

模型能做的,不过是提高决策过程的透明度和效率,分解问题,对假设进行测试,帮助决策者思考、辩论和取舍罢了。

UUID: 325062e3-4b55-4d4f-899a-a7391864ee31

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/知识分子公众号-pdf2txt/2022年/2022-01-09_用数学模型预测交通,理性工具还是巨坑?.txt

是否为广告: 否

处理费用: 0.0412 元