为什么生物学家还没有攻克癌症？关键不在数学

这篇文章挑战了人们认为生物学进展缓慢是因为缺乏数学人才的观点。作者认为，生物本身的复杂性才是主要原因。尽管基因组学等领域大量采用了数学方法，但革命性的突破并没有出现。文章还探讨了影响医学进步的反馈回路问题，认为加快生物学实验速度比单纯增加数学人才更重要。

“我们被许诺攻克癌症，但到头来，五年癌症存活率仅仅略有提高。”这句话用来形容过去几十年生物医学领域的进展倒也公允。不过，比起其他疾病领域，癌症已经算是取得了相当不错的成绩了。比如阿尔茨海默病，情况就糟糕得多：直到 2021 年，20 年间都没有新药上市，即使是已经获批的药物，效果也微乎其微。

那么，为什么会出现这种情况呢？一个常见的解释是，生物学本身就太过复杂，难以被人类成功操控。人类发明了很多巧妙的解决方案来应对各种疾病，但尽管我们如此聪明，仍然无法匹敌数百万年进化所塑造出来的结果。另一个解释，用一个网络流行词来说，就是“技术问题”。并不是生物学本身太难，而是我们没有足够聪明的方法去理解和操控它。

还有一种关于人才短缺的理论，我最近越来越常听到。Peter Thiel在一次采访中就提到过这一点：最聪明的人才都去研究“更难”的科学领域了，像如何在未来几十年里大幅延长人类寿命这样重要的问题，就留给了那些数学不太好的人来研究。采访者 Eric Weinstein 则对此稍有异议：毕竟分子生物学本身就很大程度上由物理学家奠基的。但蒂尔接着引用了他之前关于学术界缺乏通才的评论，并辩称如今的各个领域划分得太细，以至于数学家或物理学家很难轻易转行到生物学领域。

乐观主义者认为，只是文化出了问题。我们有很多非常聪明的人才去研究物理学，而只有“稍微”逊色的人才才会去研究生物学。你可以用达尔文主义术语来理解这一点。你可以将生物学视为对数学基因较弱的人进行筛选。优秀的人才去研究数学、物理，或者至少是化学，而生物学则招收了所有那些在数学方面稍微逊色的人才。因此，这也是导致生物学进展缓慢的一种文化解释。

我并不认同这种观点，我更倾向于“生物学非常复杂”的解释。比起其他科学家，生物学家或许在数学方面稍有逊色，但那是因为生物学有很多领域，其中一些产出丰硕的领域根本不需要用到太多数学知识。而且，当确实需要用到这些技能时，受过更定量科学(比如物理学)训练的人也可以很容易地转行到生物学领域。人们对此也颇感兴趣：当我的朋友们想要将他们的技能应用到一个更“原子世界”的领域时，他们不可避免地会倾向于生物学。我并不是说一切都已经完美优化了，让数学家成为生物学家确实应该更容易一些。也不言而喻，任何智力领域都会从其队伍中智力水平的提高中受益。我的观点只是，这不是生物学进步的主要限制因素。

我认为最好的例证方法是回顾特定领域的进展历史，比如基因组学。该领域非常渴望应用数学原理，并且这种渴望也付诸了行动，一些在该领域地位显赫、领导大型项目的科学家也受过数学方面的训练。然而，基因组学一次又一次地遭遇生物学家一直以来都在苦苦解决的问题：生物学实在太复杂也太混乱了。生物系统的复杂性和不可预测性限制了纯粹的智力和复杂预测的有效性。更重要的是，我们能够通过实验迅速地测试和验证我们的假设。通过改进实验方法，可以在基础科学研究中实现更快的反馈循环。在医学领域，加快进度则需要在时间和成本方面简化临床试验流程。

基因组学：一个案例研究

当我漫步于剑桥郊外时，有时会偶然发现“BRCA2 循环路径”。这条道路根据 BRCA2 基因的遗传序列涂成四种颜色的条纹。BRCA2 基因一旦发生突变，就会大大增加患乳腺癌的风险。这是一种对英国科学家们所取得成就的赞颂，尤其彰显了剑桥在基因组革命中所扮演的核心角色。1994 年，确定 BRCA2 是导致乳腺癌易感性增加的责任基因，这是一项具有里程碑意义的成就。这项工作是在人类基因组测序工作发表之前完成的，因此研究人员只能在数十亿个未探索的遗传密码字母中半盲目地搜寻。

快进到 2024 年，你只需花费 250 美元即可完成整个基因组测序。这包括识别 BRCA2 基因和其他数百个自我们发现以来已经发现的癌症易感基因中的潜在有害突变。在过去的 30 年里，我们取得了长足的进步：从使用相对简陋的方法勉强找到一个致病基因的身份，到常规读取和解释由大约 30 亿个碱基对组成的整个基因组。

从某种意义上说，我本可以在这里结束这篇文章：为了定期读取、分析和存储如此大量的数据，显然我们必须将大量的数学和计算原理集成到生物学工作流程中。然而，这些技术成就并没有伴随着生物学理解的同等增长，更不用说医学革命了。显然，仅仅向生物学领域投入我们的技术武器库是不够的：正如我的一位技术朋友喜欢说的那样，处理“混乱、湿润”的生物学世界存在着一些固有的困难。因此，答案应该更接近于“生物学很复杂”，而不是“我们没有在生物学中使用足够的数学”。

在这一点上，一些生物信息学家可能会争辩说，生物学计算方面仍然存在效率低下等问题。当然，这可能是真的。如果从数学到生物学的转化是完美的，也许我们会在 2020 年而不是 2024 年达到目前的知识水平，等等。但即使这样，革命也不会发生。

现在，一位相信人才假设的人仍然可能会争辩说，尽管定量科学家已经进入生物学并将其应用于数学，但他们工作的最终边界仍然由生物学家自己设定。因此，我们并没有真正从雇用这些人的努力中获益，因为他们被降级到支持角色，或者他们对该领域未来的声音不如“经典”生物学家那么重要。正如我稍后将要展示的例子，那些接受过数学训练的科学家后来转行到生物学领域，例如Eric Lander、Aviv Regev、Richard Durbin，他们在生物学领域都发挥了非常重要的作用，其中一些人甚至在学术界之外取得了极具影响力的职位。

数字科学的希望

如果将 90 年代的人带到今天的世界上，他们不会对我们的医学进步感到震惊，而基因学家则会对我们能够处理的数据量感到敬畏。那么，我们是怎么走到这一步的呢？

2000 年 6 月 26 日，国际人类基因组测序联盟宣布完成人类基因组序列的初稿——所谓的“人类的遗传蓝图”。这在当时是一项巨大的成就，也是历时十余年的努力的 culmination。为了纪念这个重要的时刻，时任美国总统比尔·克林顿在白宫举行了一次仪式，宣布这一成就，并向聚集的大使、科学家、公司高管、疾病倡导者和记者发表讲话。人们对医学革命充满希望。

尽管人类基因组可能非常有用，但革命并没有真正实现：14 年前，NBC 刊登了一篇标题为“癌症终结者：人类基因组测序将如何改变我们对抗癌症的斗争”的文章，但今天仍然没有改变。

当然，已经取得了一些进展：我们能够对致命和衰弱性疾病进行产前筛查，尤其是如果它们是单基因疾病的话。许多癌症的五年存活率有所提高，基因组学在其中发挥了作用。它也是所谓的“个性化 mRNA 癌症疫苗”的一部分，这些疫苗在胰腺癌等目前存活率极低的疾病中显示出 promising。基因组学支持的药物靶点在临床试验中获得批准的可能性是两倍。但对于许多人来说，这似乎不像是一场革命。

正如之前所指出的，数学与生物学的融合不足几乎不可能为此负责。如果说有什么的话，基因组学作为一个领域，从一开始就充满了将生物学数字化、将其钉成“代码”，就像软件本身一样。这从该领域使用的术语中就可以看出：总统克林顿身后的横幅上写着“解码生命之书”。以及该领域人士的理念。引用一位我非常尊敬的数学家的话：“我喜欢在基因组学领域工作，因为它不像大多数生物学那样混乱，而是更数字化的。”这也是它名字的由来：基因组学源自遗传学，但在末尾添加了“-omics”，这是生物学中用来表示同时研究大量分子的一种后缀：整个基因组，而不是像经典分子生物学那样一次只研究一个基因。分子生物学是描述性和还原性的，而基因组学是代码和大数据。

这种心态导致了将计算和数学方法整合到基因研究中的快速发展。甚至在人类基因组测序工作发表之前，当实验方法变得足够先进以生成必要的数据时，像理查德·杜宾这样的受过数学训练的生物信息学家就开始设计计算工具，超越经典遗传学，以更系统化/计算化的方式研究基因。这类工作在人类基因组测序工作发表后只会更加激烈，显然也被人类基因组计划本身极大地利用了。这并不意味着数据导向的基因组学家与更“经典”的生物学家之间没有摩擦和争论，尤其是那些研究蛋白质的生物学家，他们几十年来一直在这个生物学领域占据主导地位。然而，必须承认，生物学中最像软件的部分获得了很高的地位和资源，总统亲自宣布了人类基因组测序的完成：这是一种官方的荣誉，很少有其他生物学领域能够获得。

这很复杂

那么，为什么人类基因组的发布，“生命密码”，没有解决所有生物学问题呢？

在某种程度上，人类基因组引发了比它回答的更多问题。例如，它显示人类只有大约 30,000-35,000 个基因，比苍蝇少两倍。然而，我们显然比苍蝇更复杂。这是怎么回事？另一个令人费解的发现是，人类基因组的大部分由所谓的“垃圾 DNA”组成 - 也就是说，不编码任何蛋白质的 DNA。生物学的中心教义是 DNA 编码 RNA，RNA 编码蛋白质，这些蛋白质是执行我们细胞大部分功能的分子。那么，所有那些不编码任何蛋白质的 DNA 是做什么的呢？

许多解释中的一种是：表观遗传学。DNA 只是细胞行为的一部分。你可以这样理解：人体的所有细胞都共享相同的 DNA，但有些是肌肉细胞，有些是皮肤细胞，等等，每个细胞都携带一个非常特异和分化的角色。这是由于 DNA 顶部或 DNA 缠绕的蛋白质上的化学标记，这些标记有助于指定哪些基因在哪些类型的细胞中开启和关闭。我们绘制这些表观遗传标记的能力落后于测序 DNA 的能力。但随着时间的推移，研究人员开发了方法来大规模测序(或读取)这些表观遗传标记，就像他们对 DNA 本身所做的那样。

随着这些方法的出现，人们提出了ENCODE 的想法，这是一种类似于人类基因组计划但针对表观遗传学的项目，该项目于 2012 年结束：如果我们能够以与我们对基因组所做的那样方式绘制不同细胞类型中的所有表观遗传标记，那会怎么样？ENCODE 的主要推动者之一是 Ewan Birney，他现在是欧洲生物信息学研究所的负责人，也是前面提到的 Richard Durbin 的博士生。ENCODE 再次是受软件启发的以数据为导向的心态的结果。与人类基因组计划本身一样，它为研究人员提供了一个有价值的参考数据集。然而，它并没有彻底改变生物学。因为，再说一遍，生物学比这更复杂。

作为起点，事实证明，我们甚至不知道这些表观遗传修饰的大部分作用是什么 - 举个例子，我碰巧研究的 DNA 甲基化。普遍的共识是，DNA 甲基化抑制(或关闭)基因表达，这主要是在大规模相关性研究中推断出来的。如果 DNA 甲基化具有因果抑制作用，那么人们期望人工诱导 DNA 甲基化会导致普遍的基因抑制。然而，当开发出更好的实验方法来在细胞中实现这种扰动并测试这一假设时，事实证明，约一半的启动子被人工甲基化的基因表现出意外的行为：要么根本不改变表达，要么被激活。正如文章的作者自己所说：“我们发现对 DNA 甲基化的转录反应高度依赖于上下文。”再说一遍，生物学很复杂。

自那时以来，许多类似于人类基因组计划和 ENCODE 的倡议都专注于大规模测序，并受到将生物学系统化的相同愿望的启发。例如，像癌症基因组图谱和癌症基因组计划这样的努力，旨在编目和表征人类癌症中的所有突变。前者由受过数学训练的埃里克·兰德 (Eric Lander) 带头，他也是第 11 任科学技术政策办公室主任和总统科学顾问。我们不仅成功绘制了癌症突变：通过应用进化生物学(最终来自数学)的计算方法，我们能够确定哪些突变是致病的，哪些是处于中性选择之下的，乘客突变(passenger mutations)是指对生物体没有显著影响的突变。它们可能是在癌细胞的早期积累的，但与癌症的发生或进展无关。通过确定驱动突变，研究人员可以更有效地开发靶向癌细胞的药物。

然而，即使我们知道哪些突变是重要的，这也不意味着我们能够治愈癌症。正如我们之前提到的，生物学很复杂。即使我们知道所有驱动突变的基因，我们也可能无法找到一种方法来有效地阻断它们，或者即使我们找到了一种方法，它也可能产生严重的副作用。

这让我们回到了循环。为什么生物学的进展如此缓慢？因为生物学很复杂。它不是一个简单的数学问题，等待着像物理学那样被解决。它是一个混乱、湿润、复杂的系统，充满了非线性和相互作用。当然，数学和计算方法在生物学中发挥着越来越重要的作用，而且它们将继续这样做。但它们只是我们用来理解生命这个复杂现象的众多工具之一。

本文译自 writingruxandrabio，由 sein 编辑发布。