科学自然同日发文:谷歌开源AlphaFold2代码,细胞学迎来新时代
majer @ 2021.07.23 , 09:32 上午Science和Nature同日竞相发文:谷歌母公司Alphabet旗下的AI实验室DeepMind宣布公开一款AI的源代码。名为AlphaFold2的AI将降低整个细胞生物学和药物研发领域的从业门槛。
大约50年以来,分子生物学家一直猜测,蛋白质分子长链在空间中的折叠结构,是由链上的氨基酸种类和顺序唯一决定的——由此我们就可以按部就班地拼接氨基酸来得到特定功能的酶,或者仅通过小分子的顺序来预测蛋白质大分子的功能,而无需实验——但这并不是一个容易解决的问题。
实际上,潜在结构的数目是如此之大,以至于研究人员推测,对所有可能的分子排列进行采样所花费的时间将超过宇宙的寿命。之前,按照当时人类掌握的理论机制,在已知蛋白质的一级结构和二级结构的条件下,完全无法用来预测三级结构。
但是,如果我们能够解决这个难题(即蛋白质折叠问题),将极大地加快药物开发和疾病建模的能力,并带来远远超出当前想象的应用。
因此,尽管面临挑战,但数十年来,研究人员一直在努力寻找解决方案。
1990年代开始进行了名为CASP(蛋白质结构预测的关键评估)的严格实验,用于检验科学家们设计出的能够预测蛋白质折叠的理论系统。
去年,DeepMind的AlphaFold提供了准确性前所未有的3D蛋白质结构预测模型。
在实验中,DeepMind为AlphaFold使用了一种新的深度学习架构,该架构能够理解和计算3D蛋白质的“空间图”,从而预测支撑其折叠结构的分子结构。
AI系统被喂了大约170000种蛋白质的结构数据,作为培训,参与到今年的CASP挑战中(CASP14),得分为92.4 GDT。
该数值高于通常的湿实验方法得到的结果——90 GDT阈值,而DeepMind表示,其预测平均仅偏离约1.6埃(约一个原子的宽度)。
欧洲分子生物学实验室的基因组学研究员Ewan Birney说:“当我看到这些结果时,我几乎从椅子上摔了下来。我知道CASP多么严格——它基本上确保了计算模型必须从头开始蛋白质折叠。令人沮丧的是,看到这些模型可以如此精确地做到这一点,而我们有很多方面需要理解,但这确实是科学的巨大进步。”
基本上,AlphaFold背后的团队大概率会拿到一个诺贝尔奖。也就是说计算机和算法科学家会拿到诺贝尔医学和生物学奖。
随后,华盛顿大学蛋白质设计中心的团队受AlphaFold算法的启发,研发了RoseTTFold算法,据说结果精度稍逊于前者,但计算开销更少。
唯一令学界担忧的是,DeepMind若为自己的AI申请专利保护,将带来不必要的信息壁垒。甚至会有科学家把大量时间金钱浪费在AI早已解决的问题之上。
今年,DeepMind再接再厉,又升级优化了算法,推出AlohaFold2——比上一版快16倍,或将给细胞和蛋白质科学领域带来一场革命。同时,他们彻底打消了生物学家的疑虑,上周直接宣布:公开AlohaFold2的源代码。
华盛顿大学蛋白质设计中心则迅速跟进,也开源了RoseTTFold的代码。
本文结合去年的译文和今年Nature的报道而成
但事情还没有完。就在本文发出不久,谷歌DeepMind和欧洲分子生物学实验室(EMBL)的研究人员又完全开放了他们利用AI发现的蛋白质的数据库。这一做法实质上让科学界已知的蛋白质类型数量一夜之间翻了一番。
A protein model in the database. (DeepMind/YouTube)
PREV : 科学家在采自青藏高原的冰芯里发现了15000年前的未知病毒
NEXT : 今日好价:春暁矿泉水