7264个非经典开放阅读框中约25%能产生可检测的多肽,改写蛋白质组图谱。
刻画蛋白质编码基因组是理解人类健康的核心基础,但一个根本问题始终悬而未决:过去的分析中,我们究竟漏掉了什么?
过去十年,非经典开放阅读框(ncORF)的翻译现象在多种人类细胞类型和疾病状态中被陆续观测到,对生物医学具有深远影响。然而,一个关键的知识空白是:哪些ncORF真正产生了参与人类蛋白质组的微型蛋白或替代蛋白分子?
《自然》杂志近日发表了TransCODE联盟的协作成果,首次绘制出ncORF蛋白水平证据的共识图谱。在对95520项蛋白质组学实验进行大规模分析后,研究团队发现7264个ncORF中约有25%能够产生可检测的多肽——这是一个远超预期的比例。
团队为此开发了一套专门的注释框架,将这些ncORF编码的微型蛋白正式归类为人类蛋白质。他们还提出了一个全新的概念模型"peptidein"(暂译为"拟肽蛋白"),用来描述那些功能潜力尚不确定的微型蛋白。
为了探究拟肽蛋白的生物学意义,团队设计了一种名为"ORF相对分支长度"的进化分析方法,发现进化约束在ncORF中相当普遍,且与ncORF衍生多肽的观测显著相关。他们进一步鉴定了一个来自长链非编码RNA OLMALINC的拟肽蛋白,它具有全必需细胞表型,意味着这个微小蛋白对细胞存活至关重要。
这项研究不仅生成了由GENCODE和PeptideAtlas支持的公共研究工具,更推动了人类蛋白质组中被长期忽视组分的生物医学发现,为理解疾病机制和开发新型治疗策略打开了新的大门。