研究人员正利用AI将细胞分子数据转化为"虚拟细胞"预测模型,但当前模型只能捕捉静态状态,离真正模拟活细胞还有很远的路。

计算机可以模拟天气、飞机引擎乃至星系的运行,但要模拟一个细胞这个生命的基本单元,却出奇地困难。每一个细胞都是一个复杂的生物分子生态系统,数以万计的大分子在其中相互作用,对外界信号做出精巧的响应,其全貌至今远未被穷尽了解。如今,一批研究者开始尝试用人工智能推动这个领域的前沿。

斯坦福大学的生物工程师Emma Lundberg形容细胞是"高度稳健且有韧性的系统",同时具有精密的结构架构。研究者们已经开始逆向工程这一架构,试图将海量分子数据库转化为"虚拟细胞",模拟细胞在静息状态和外界刺激下的行为。Arc研究所的Yusuf Roohani解释说,目标是加速科学假设的发现,让研究者能在虚拟空间中先筛选最有可能成立的假说,再进行实验验证。但亥姆霍兹慕尼黑中心的Fabian Theis泼了一盆冷水:"我认为不会有人真心声称自己造出了一个虚拟细胞,除非他们需要为初创公司推销。"他坦率地指出,目前的模型大多只能捕捉细胞的静态状态,对动态变化的刻画远远不够。

AI革命为这一领域注入了新的活力,但细胞的计算机建模已有数十年历史。多伦多大学的Bo Wang回忆,二十年前的"虚拟细胞1.0"用的是微分方程体系。Lundberg则指出,这种基于方程的模型有一个AI模型目前不具备的优势:它们提供了真正的"机制性理解"和可解释性。然而数学模型的瓶颈在于,它们的构建完全受限于研究者已有的生物学知识。如今,人类细胞图谱等大型计划正在产生海量的基因表达、蛋白质组学和表观遗传学数据,但从数百万分子相互作用中提取意义,依然极其困难。EPFL的Maria Brbić说,这正是AI的用武之地:"AI非常擅长探索组合空间。"

Roohani的scBaseCount数据库用AI持续收集并统一处理转录组数据,目前包含约5亿个细胞。但光有静态数据不够,模型还需要扰动数据,也就是系统性地让基因失活或让细胞接触各种药物后观察其变化。Xaira Therapeutics的Pisces数据集包含了2560万个带靶向基因破坏的细胞的表达数据。Roohani团队的Stack模型构建了涵盖28种人体组织的"扰动图谱",而Xaira的X-Cell模型则在未受训练的情况下预测了T细胞激活过程中的基因表达变化,帮助科学家找到了可能的新型T细胞失活因子。

不过Bo Wang坦率地说,这些只是早期步骤:"到目前为止,大家只关注细胞系,这是相对简单的生物系统。"细胞系的结果未必能准确推广到真实器官。2025年由Arc研究所主办的虚拟细胞挑战赛吸引了来自100多个国家的5000名参赛者,但引人注目的是,没有任何纯AI模型的表现优于使用传统统计方法的模型。Brbić指出,单细胞RNA测序数据噪声很高,"小而具有生物学意义的变化可能被无关的背景变异淹没",这个领域离真正的突破仍有不小的距离。

本文译自 nature,由 BALI 编辑发布。