数学模型为我们的文明发展提供了强劲动力,但也存在局限性。

对神经外科医生来说,在脑内空间进行手术的过程十分艰巨。最大的挑战之一是大脑的柔软度。大脑浸泡在脑脊液中;当外科医生打开颅骨时,压力会释放,大脑部分会向上移动,而重力开始将其他部分往下拉。如果脑瘤导致颅骨过度充盈,则此情况会更加剧。在典型的神经外科手术中,大脑可能移动多达一英寸,而外科医生在精准规划手术路径时可能会遇到困难,因为手术区域不断变化。

在 20 世纪 90 年代,神经外科医生大卫·罗伯茨和工程师基思·保尔森决定通过构建运动中的大脑数学模型来解决这个问题。真实的大脑包含数十亿个角落和缝隙,但他们的模型不需要包含这些细节;它可以是编码为微积分语言的抽象模型。他们可以将大脑建模为一个简单的类似海绵的物体,浸入流动的液体中并分为多个隔室。方程可以预测各个隔室在每次手术操作中如何移动。该模型可以告诉外科医生将第一次切口做在比他们计划开始的位置偏右半英寸处,然后以 43 度而非 47 度的角度继续向内。

罗伯茨和保尔森在达特茅斯学院的黑板上设计了他们的模型。该模型于 1998 年接受了第一次临床测试。一名患有顽固性癫痫的 35 岁男子需要切除一个小肿瘤。他接受了麻醉,颅骨被切开,大脑开始移动。该模型利用术前 MRI 扫描获取的数据,并跟踪手术过程中某些身体标记的移动;通过这种方式,可以比较暴露大脑的实际和预测地形,并且可以预测肿瘤的新位置。“预测和现实之间的一致性令人惊叹,”罗伯茨最近回忆道。

如今,罗伯茨和保尔森模型的后继版本已常规用于规划神经外科手术。总体而言,建模现在已成为常态。我们对所有事物进行建模,从选举到经济,从气候到新冠病毒。与模型汽车、模型飞机和模型火车一样,数学模型并不是真实事物——它们是简化的表示,可以正确地表达关键部分。与时尚模特、模范公民和模范儿童一样,它们也是现实的理想化版本。但理想化和抽象可以成为实力的一种形式。在一个古老的数学建模笑话中,一群专家被聘请来提高一家奶牛场的牛奶产量。其中一位专家是物理学家,他建议“考虑一头球形奶牛”。奶牛并不是球体,大脑也不是晃动的海绵,但建模的重点——在某种程度上也是乐趣所在——是看看我们能通过仅使用翻译成数学的一般科学原理来描述混乱的现实,能走多远。

为了取得成功,模型需要复制已知信息,同时对于未知信息进行概括。这意味着,随着人们了解的越来越多,模型必须得到改进才能保持相关性。有时,数学或计算领域的新发展会推动进步。在其他情况下,建模者必须以一种全新的方式看待现实。几个世纪以来,对完美圆圈的偏爱与一些宗教教条相结合,产生了描述地球中心宇宙中太阳、月亮和行星运动的模型;这些模型在一定程度上起作用,但从不完美。最终,更多的数据与更广阔的思维相结合,迎来了一个更好的模型——一个基于椭圆轨道的日心太阳系。反过来,该模型帮助启动了微积分的发展,揭示了万有引力的定律,并填充了我们的太阳系地图。新知识推动模型向前发展,更好的模型帮助我们学习。

关于宇宙的预测在科学上很有趣。但当模型对世俗事物做出预测时,人们才会真正关注。我们焦急地等待着来自天气预报频道、美联储和 fivethirtyeight.com 的模型输出。股票市场的模型指导着我们的养老金投资方式;消费者需求的模型驱动着生产计划;能源使用模型决定了发电时间和发电位置。保险公司对我们的命运进行建模,并向我们收取相应的费用。广告商(和宣传者)依赖人工智能模型,这些模型根据对我们反应的预测来提供有针对性的信息(或错误信息)。

但是很容易变得自负——过度相信建模的力量和优雅。在 20 世纪 50 年代,早期在短期天气建模方面取得的成功让先锋数学家兼军事顾问约翰·冯·诺伊曼想象了一个未来,在这个未来中,军方可以发动精确的“气候战”。当时,这个想法在数学上似乎是合理的;后来,当“蝴蝶效应”被发现——东京一只蝴蝶扇动翅膀,纽约的天气预报就会改变——后,证明它是不可行的。2008 年,金融分析师认为他们已经对房地产市场进行了建模;他们错了。模型并不总是那么好。有时候,你想建模的现象根本无法建模。所有数学模型都会忽略一些东西;问题在于,所忽略的东西是否重要。是什么造成了差异?模型是如何实际构建的?我们应该在多大程度上信任它们,为什么?

数学建模始于自然:目标是预测潮汐、天气、星星的位置。使用数字来描述世界是一种古老的做法,可以追溯到莎草纸上的划痕代表小麦或牛的头。从计数到坐标,再到对前后关系的编码,并不是一个很大的飞跃。即使是早期的建模者也能欣赏物理学家尤金·维格纳所说的“令人不合理的数学有效性”。1963 年,维格纳因开发了可对量子力学和粒子物理学做出预测的数学框架而获得诺贝尔奖。方程起作用,即使是在一个违背所有直觉的亚原子世界中也是如此。

从某种角度来说,自然模型是纯粹的。它们基于我们认为不可改变的物理定律;这些定律以方程的形式,与历史数据和当今观测相协调,因此可用于进行预测。这种方法具有令人钦佩的简洁性。例如,最早的气候模型基本上是通过基于基本物理学的数据(包括牛顿运动定律)运行的分类帐。后来,在 20 世纪 60 年代,所谓的能量平衡模型描述了太阳和地球之间能量的传递:太阳向地球发送能量,其中大约 70% 被吸收,其余部分被反射回去。即使是这些简单的模型也能很好地预测平均地表温度。

然而,平均值只讲述了很小一部分故事。美国房屋的平均价格约为 50 万美元,但密西西比州的平均价格为 17.1 万美元,而在汉普顿,均价超过 300 万美元。地理位置很重要。在气候建模中,重要的不仅仅是与太阳的距离,而是地面的情况——冰、水(咸的或不咸的)、植被、沙漠。地球吸收的能量会加热地表,然后向上传播并向外辐射,在那里可能会被云层拦截,或与大气不同层中的化学物质(包括温室气体——二氧化碳、甲烷和一氧化二氮)发生相互作用。热差开始形成,风也随之产生。水分被困并积累,有时形成雨、雪花或冰雹。与此同时,太阳继续照耀——一个持续的强迫函数,不断地将能量泵入系统。

地球系统模型,简称 E.S.M.s,是目前结合所有这些因素的最先进建模方法。E.S.M.s 旨在实现高度的空间和时间特异性,不仅预测温度趋势和海平面变化,还预测北极冰川和巴西热带雨林面积的变化。特定区域有自己的一套方程,这些方程涉及到影响海洋和空气组成的化学反应等因素。E.S.M. 中包含数千个方程,它们之间在数百甚至数千年内以复杂的方式相互影响。从理论上讲,由于这些方程是基于物理定律,因此尽管很复杂,模型应该是可靠的。但很难防止小错误潜入并蔓延——这就是蝴蝶效应。应用数学家花了数十年时间来研究如何量化并有时改善蝴蝶效应;遥感和数据收集方面的最新进展现在有助于提高模型的保真度。

我们如何知道一个大型模型是否有效?可以将其输出与历史数据进行比较。政府间气候变化专门委员会的 2022 年评估报告显示,事实和回溯两千年的模型之间存在显着的一致性。政府间气候变化专门委员会使用模型比较了两个世界:一个“自然驱动因素”的世界,其中温室气体和颗粒物来自火山等来源,另一个是“人类和自然”的世界,其中包括我们创造的温室气体。这种划分有助于解读。政府间气候变化专门委员会报告中的许多引人注目的数字之一是,随着时间的推移,全球平均温度的升高曲线叠加了人为驱动因素。在大约 1940 年之前,这两条曲线在零线附近舞动,互相追踪,同时也追踪历史记录。然后,具有人为驱动因素的模型开始稳步上升,并继续与历史记录保持一致。纯粹的自然模型基本上沿着以前的样子继续——一个更冷的星球的备选历史。这些模型可能很复杂,但它们建立在坚实的基于物理的基础上。它们有效。

当然,我们有很多想建模的东西并没有那么物理性。我们都在 2020 年和 2021 年熟悉传染病模型使用了物理学,但只是以类比方式。它们可以追溯到 20 世纪初的医生罗纳德·罗斯。罗斯开发了可以模拟疟疾传播的方程;在 1915 年的一篇论文中,他提出流行病可能会受到“与天文学、物理学和力学中产生如此辉煌成果的谨慎计算原则”相同的影响。罗斯承认,他最初的想法,他称之为“事件理论”,更多地受到直觉而不是现实的激励,但在随后的系列论文中,他和数学家希尔达·哈德森展示了流行病的真实数据如何与他们的方程相协调。

在 20 世纪 20 年代和 30 年代,W.O. Kermack 和 A.G. McKendrick,爱丁堡皇家内科医学院的同事们,将这项工作更进了一步。他们从化学中获得灵感,并根据化学中的质量作用原理分析人类互动,质量作用原理将两种试剂之间的反应速率与其在混合物中的相对密度联系起来。他们用人交换分子,将大流行中一个封闭的人群视为三个群体之间正在展开的反应:易感者(“S”)、感染者(“I”)和康复者(“R”)。在他们简单的“S.I.R. 模型”中,“S”变成“I”的速率与他们相互作用的机会成正比;“I”最终成为“R”的速率与其当前人口成正比;“R”,无论死亡还是免疫,都不会再次生病。最重要的问题是“I”组是增加还是减少成员。如果它增加的速度超过它减少的速度,那是不好的——这就是新冠浪潮开始时发生的情况。

微分方程模拟了数量随时间的变化。从 S.I.R. 模型中产生的方程很简单,相对容易求解。(它们是应用数学课程中的标准例子。)它们产生了曲线,代表着不同人群的增长和减少,这些曲线对于经历过新冠的任何人来说看起来是立即熟悉的。有很多简化假设——其中包括恒定人口和不变的健康反应——但即使在最简单的形式中,S.I.R. 模型也能正确理解很多内容。来自真实流行病的数据显示了基本模型产生的特征性“驼峰”——我们所有人都在 COVID-19 首次出现时努力“拉平”的曲线。S.I.R. 模型中假设的数量和参数少的好处还在于,它为政策制定者提出了可行的应对方法。在模型中,隔离和疫苗为什么有效是显而易见的。

当我们想要变得具体时,挑战就来了,这样我们才能在疫情期间更合理、更迅速地分配资源。因此,我们加大了建模的力度。随着新冠危机的加剧,疾病爆发的同时爆发了建模热;疾病预防控制中心支持的许多针对新冠的特定模型都使用了包含 S.I.R. 模型变体的引擎。许多人将 S.I.R. 的三个组细分为更小的组。例如,德克萨斯大学奥斯汀分校的一个小组的模型将美国划分为 217 个都会区,根据年龄、风险因素和许多其他特征细分其人口。该模型使用手机数据创建了本地、区域和国家预测,以跟踪因大流行而带来的前所未有的行为变化。

S.I.R. 模型是一种可能的方法,它们占据了概念光谱的一端;另一种称为曲线拟合的替代方法位于另一端。曲线拟合的核心思想是,在大多数流行病中,感染曲线的形状具有特定的轮廓——可以通过将几种基本的数学形状粘合在一起来很好地近似,每种形状都是一个众所周知的数学函数的输出。然后,建模者的驱动因素更多的是实用性而不是原则,而这有其自身的危险:使用曲线拟合构建的大流行模型看起来像疾病轨迹的模型,但无法根据它构建的函数在流行病学上是合理的。

在大流行的早期阶段,曲线拟合显示出希望,但随着时间的推移,它被证明不太有效。基于 S.I.R. 的模型,不断更新死亡率和病例数据,当道了一段时间。但也没有持续太久。回到 20 世纪 20 年代,Kermack 和 McKendrick 警告说,他们的模型主要适用于均衡环境——也就是说,在没有变化的情况下。但新冠大流行很少停滞不前。无论是人在行为上,还是病毒在变异上都不按计划行事。SARS-CoV-2 在受疫苗影响的不断变化的景观中迅速变异。这次大流行实际上是几个同时发生的流行病,以复杂的方式与社会反应相互作用。事实上,最近的研究表明,大流行期间的封锁等重大事件可能会挫败对 S.I.R. 模型进行精确的长​​期预测,即使假设数据收集完美。2021 年 12 月,疾病预防控制中心突然关闭了其 COVID-19 病例预测项目,理由是“可靠性低”。他们指出,“报告的病例比预期的要多,并且在较长时间内超出预测区间。”

这些类型的失败,无论是在理论上还是在实践中,至少在一定程度上表明了模型与它们试图模拟的现象之间的距离。“艺术就是让我们认识到真相的谎言,”毕加索曾经说过;数学建模也可以这样说。所有模型都反映了关于包括什么和排除什么的决策。我们经常将爱因斯坦的观点归因于“模型应该尽可能简单,但不要更简单”。但是,优雅也可能是一个陷阱——当它与便利性相结合时,尤其容易陷入其中。COVID 模型讲述了一个相对简单而优雅的故事——一个甚至有用的故事,因为它启发我们拉平了曲线。但是,如果我们需要的具体预测,这些模型可能与我们与新冠本身作战时的实际情况相距甚远。也许真实的故事更大也更小——一个关于政策和行为在基因组和个人层面上相互作用的故事。无论我们多么希望简约,我们的问题可能需要巴洛克式的解法。这并不意味着无法用数学对流行病进行忠实而快速的建模。但我们可能仍在寻找完成它所需的技术和数据源。

形式化的数学选举预测通常被认为始于 1936 年,当时乔治·盖洛普正确预测了总统选举的结果。如今,与当时一样,大多数选举预测分为两个部分:估计人口中的当前情绪,然后用该估计值来预测结果。这就像人们的天气预报——至少在精神上。你想用今天的情况来预测选举日的情况。

这个过程的第一部分通常通过民意调查来完成。理想情况下,你可以通过询问样本人群如果现在举行选举他们会投票给谁,来估计人口中的支持比例。为了让数学计算奏效,民意调查机构需要“随机样本”。这意味着,有资格参加选举的每个人都有平等的机会被选中,而且每个人都被选中后都能如实回答问题,并且会根据他们的反应投票。这些假设构成了基于民意调查的数学模型的基础。显然,存在误差的可能性。如果民意调查机构明确——且在统计上——考虑了误差的可能性,他们就可以说他们的民意调查是“科学的”。但即使是出于最好的意图,真正的随机抽样也很困难。“杜威击败杜鲁门”的惨败通常归因于出于方便而不是出于偶然性进行的民意调查。

民意调查专家仍然不确定是什么导致了 2016 年和 2020 年选举前的如此多的错误预测。(2020 年的预测是四十年来最不准确的。)一种观点是,拜登总统的预测(大)和实际(小)优势之间的差异是由于特朗普的支持者不愿意与民意调查机构合作。这表明,伪造民意调查的呼声可以实现自我实现,因为不信任民意调查的人不太可能参与民意调查。如果过去有任何迹象,共和党人可能仍将继续比非共和党人更抵触民意调查。与此同时,选举前的民意调查显然有局限性。这就像将今天的温度用作几个月后的温度的最佳估计;这对气候建模来说是一种糟糕的做法,对选举预测来说也是一种糟糕的做法。此外,在这两个系统中,都有反馈:在选举中,它来自测量本身,以及来自报告,报告可能会改变(民意调查中的)观点。

尽管存在这些根深蒂固的不精确来源,但许多当今最优秀的选举建模者仍然试图遵循严谨的方法。民意调查机构长期以来一直将“秘密武器”归因于他们的民意调查,但尽职尽责的建模者现在遵守可重复研究的不断发展标准,并允许任何人在引擎盖下查看。安德鲁·盖尔曼(统计学家和政治学家)和 G·艾略特·莫里斯(数据记者)在 2020 年夏天在《经济学人》上创建的总统预测模型特别具有启发性。盖尔曼和莫里斯不仅对他们的方法持开放态度,甚至还提供了他们用于预测的软件和数据。他们采用的基本方法也很复杂。他们引入了经济变量和支持率,并将这些信息与之前在时间和空间上的预测联系起来,有效地创建了政治气候方程。他们还整合了不同民意调查机构的数据,考虑了每个机构历史上对不同选民群体更加或多或少可靠的情况。

但尽管所有这一切听起来都像是科学,但它仍然是无望的混乱:它不是自然系统的模型,而是情感系统的模型。在《基地》系列小说中,作家艾萨克·阿西莫夫想象了“心理史”,一门将因果律的严谨性通过类似牛顿运动定律的方程带给社会动态的学科。但心理史是科幻小说:在现实中,人类的决定是不透明的,并且可能会受到算法永远无法预测的事件和模因的显着影响。此外,有时候,思想与行动并不相连。(“我可以计算出天体的运动,但无法计算出人们的疯狂,”牛顿写道。)因此,尽管选举模型使用数学,但它们实际上并不是数学的,就像行星甚至分子的模型一样具有机械性。它们从根本上是“统计的”——这个词既是形容词,也是警告标签。它们对数字之间的历史关系进行编码,然后使用它们的变化的历史记录作为未来的指导,有效地寻找历史重演。有时它有效——谁没有时不时地“同样喜欢”机器根据你的过去行为提供给你的一些东西?有时,就像 2016 年和 2020 年一样,它并不奏效。

最近,统计建模作为人工智能的引擎,尤其是作为支持大型语言模型(例如 OpenAI 的 G.P.T.)的深度神经网络的形式,具有了新的重要性。这些系统筛选大量的文本语料库,以创建书面表达的统计模型,这些模型体现为给定单词在特定上下文中出现的可能性。它们并不试图编码我们如何产生写作的基本原理理论,它们是曲线拟合的眩晕形式;最大的模型找到了连接数十万个简单的数学神经元的最佳方法,使用了数万亿个参数。它们创造了一个巨大的数据结构,类似于一团圣诞彩灯,它们的开/关模式试图捕捉一段历史的单词用法。神经元源自最初由沃伦·S·麦卡洛克和沃尔特·皮茨在 1943 年的地标性论文《以思想在神经活动中内在的逻辑为基础》中提出的生物神经元的数学模型。麦卡洛克和皮茨认为,脑活动可以简化为简单互连的处理单元的模型,根据相对简单的激活和停用规则在它们之间接收和发送零和一。

麦卡洛克-皮茨模型旨在成为麦卡洛克领导的一个更大项目的基石,以揭示精神病学的生物基础。麦卡洛克和皮茨从未想象过他们的卡通神经元可以通过数据进行训练,以便它们的开/关状态链接到数据中的某些属性上。但其他人看到了这种可能性,早期机器学习研究人员尝试了小型数学神经元网络,有效地创造了简单大脑的神经结构的数学模型,不是为了进行精神病学,而是为了对数据进行分类。结果远没有令人惊讶。直到大量优质数据(如文本)变得容易获取,计算机科学家们才发现,当在庞大规模上实施时,他们的模型可以多么强大。这些模型在许多情况下具有预测和生成能力,这是非常了不起的。不幸的是,它是以牺牲对它们如何做它们最初激励模型的基本现象——思想——的理解为代价的。

问题的一部分在于,在许多情况下,我们实际上希望将模型用作思维的替代品。那是建模的本质——替代。回想一下伊卡洛斯的故事。如果他只在太阳下方飞行就好了。他的翅膀在海平面附近起作用这一事实并不意味着它们是上层大气的良好设计。如果我们不了解模型的工作原理,那么在出现问题之前,我们就不太可能知道它的局限性。那时可能已经太晚了。

注意到数学“不合理的有效性”的物理学家尤金·维格纳,将他的敬畏和惊叹限制在他描述无生命世界的能力上。数学根据其自身的内部逻辑进行,因此它的结论适用于物理宇宙是惊人的;与此同时,它们如何发挥作用随着我们偏离物理学变的更大。数学可以帮助我们在黑暗的世界中照亮,但我们应该批判性地观察,总是询问数学为什么如此有效,承认它在哪里无效,并推动介于两者之间的东西。九十年代,大卫·罗伯茨和基思·保尔森只试图模拟大脑粘稠、蠕动的物理运动。随着我们试图模拟生活在那里的思想世界,我们应该极其谨慎地进行。

本文译自 The New Yorker,由 BALI 编辑发布。

[ 广告 ]
赞一个 (4)

PREV :
NEXT :