2000年6月,两支相互竞争的团队握手言和,共同达成了生物学里程碑的成就——人类基因组草图。

人类基因组草图从我们染色体的不完整图谱开始,后来发展成为来自全球各个角落的大量个性化序列,并且在许多情况下可以追溯到很久以前。

在DNA海洋中的某处,有一个关于我们共同人性的故事。

不幸的是,阅读它说起来容易做起来难。不仅海量的数据是一个问题,样本的细微差异、不同的格式以及对不同类型错误进行优先排序的分析技术,都对统一诠释造成了障碍。

现在,来自英国牛津大学大数据研究所 (BDI) 的研究人员已经有了一个重要的开端,他们将来自215个种群的3600多个单独序列的森林合并成一棵巨大的树。

这棵树的枝丫包含令人惊叹的 2.31 亿个祖先血统。它的底部是由8个古老的、高度详细的人类基因组序列所代表的根系,其中数千个较小的片段用于确认它们在我们过去的位置。

其中包括三个尼安德特人基因组,一个来自丹尼索瓦人的基因组,以及一个四千多年前生活在西伯利亚的小家庭。

“基本上,我们正在重建我们祖先的基因组,并利用它们形成一系列相互关联的进化树,我们称之为‘树序列’,”遗传学家 Anthony Wilder Wohns 说,他在 BDI 完成博士学位期间领导了这项研究。

“然后我们可以估算祖先生活的时间和地点。”

他们的树序列方法利用了所谓的简洁数据结构——一种旨在以最佳空间量表示数据的计算概念,同时也限制了用问题探索所有数据所需的时间。

在我们自己的计算机上保存文件时,可能会应用类似的想法,在压缩文档和长长的文件夹列表之间找到折衷方案,或干脆将所有内容保存在桌面上。

在这种特定情况下,树序列发现树的不同分支之间的相关性,使大量信息更易于研究。

通过将数据转换为具有代表各种谱系的节点并沿边缘映射突变的图形,大型遗传数据库不仅可以被压缩到相对较小的空间中,而且可以通过旨在搜索有趣统计数据的算法更容易地访问。

“我们方法的强大之处在于它对基础数据的假设很少,并且还可以包括现代和古代 DNA 样本,”Wohns 说。

在序列的地理位置上加入标签使团队能够估计某些共同祖先曾经生活过的地方以及他们如何迁徙。

这不仅揭示了我们已经怀疑的事件,例如人类如何从非洲迁移,还暗示了我们仍在了解的祖先群体中人口密度的变化,例如丹尼索瓦人。

由于这个过程的效率,随着未来更多的基因数据可用,这棵已经令人印象深刻的树有很大的成长空间。

添加数百万个基因组会使进一步的结果更加准确,准确地确定一个新序列在世界各地谱系中的位置。

“这个家谱让我们能够看到每个人的基因序列是如何相互关联的。”BDI 进化遗传学家 Yan Wong 说。

在更大的层面上,没有理由不能将相同的方法应用于其他物种,所以,或许我们可以绘制出地球上所有生命的蓝图。

“虽然人类是这项研究的重点,但该方法对大多数生物都有效;从猩猩到细菌。”Wohns 说,“它在医学遗传学方面可能特别有益,可以将遗传区域和疾病之间的真正关联与我们共同的祖先历史产生的虚假联系分开。”

这项研究发表在Science上。

https://www.sciencealert.com/scientists-create-largest-ever-human-family-tree-using-two-decades-of-genomic-data

[ 广告 ]

支付宝打赏 [x]
您的大名: 打赏金额:

赞一个 (8)

PREV :
NEXT :