人类蛋白质组扩容：”垃圾DNA”里的数万微型蛋白被发现

7264个非经典开放阅读框中约25%能产生可检测的多肽，改写蛋白质组图谱。

刻画蛋白质编码基因组是理解人类健康的核心基础，但一个根本问题始终悬而未决：过去的分析中，我们究竟漏掉了什么？

过去十年，非经典开放阅读框(ncORF)的翻译现象在多种人类细胞类型和疾病状态中被陆续观测到，对生物医学具有深远影响。然而，一个关键的知识空白是：哪些ncORF真正产生了参与人类蛋白质组的微型蛋白或替代蛋白分子？

《自然》杂志近日发表了TransCODE联盟的协作成果，首次绘制出ncORF蛋白水平证据的共识图谱。在对95520项蛋白质组学实验进行大规模分析后，研究团队发现7264个ncORF中约有25%能够产生可检测的多肽——这是一个远超预期的比例。

团队为此开发了一套专门的注释框架，将这些ncORF编码的微型蛋白正式归类为人类蛋白质。他们还提出了一个全新的概念模型"peptidein"(暂译为"拟肽蛋白")，用来描述那些功能潜力尚不确定的微型蛋白。

为了探究拟肽蛋白的生物学意义，团队设计了一种名为"ORF相对分支长度"的进化分析方法，发现进化约束在ncORF中相当普遍，且与ncORF衍生多肽的观测显著相关。他们进一步鉴定了一个来自长链非编码RNA OLMALINC的拟肽蛋白，它具有全必需细胞表型，意味着这个微小蛋白对细胞存活至关重要。

这项研究不仅生成了由GENCODE和PeptideAtlas支持的公共研究工具，更推动了人类蛋白质组中被长期忽视组分的生物医学发现，为理解疾病机制和开发新型治疗策略打开了新的大门。

原文： nature