五分之一的人类基因不是“真正的”
时间:2018-09-04 05:53:56 (次浏览 )
新的研究可以改变生物医学的面貌; 发现人类基因组包含的“真实”或蛋白质编码基因比以前认为的要少得多。
在20世纪90年代早期,科学家开始绘制人类基因组的整个DNA序列。
所谓的人类基因组计划旨在寻找与疾病的遗传联系,并了解基因组各种元素的功能和结构,例如哪些基因编码蛋白质以及哪些因子调节基因表达。
人类基因组计划的初步结果预测,有40,000个基因可以编码蛋白质,这些大分子对身体组织和器官的良好功能至关重要。
然而,随着该项目于2003年接近尾声,对该数字的估计降至约20,000-25,000个蛋白质编码基因。
从那时起,科学家一直在努力想出最终的蛋白质组 - 即基因可以表达的蛋白质总数 - 并且一直致力于了解这些蛋白质的基因表达如何在几种疾病中发生突变。
为此,由西班牙马德里西班牙国家癌症研究中心生物信息学部门的迈克尔·特雷斯领导的一个国际研究团队现已检查了可用的主要蛋白质组数据库中被认为是蛋白质编码的基因。
Tress及其同事在“ 核酸研究 ”杂志上发表了他们的研究成果。位于英国Hinxton的Wellcome Trust Sanger研究所的Federico Abascal是该论文的第一作者。
至少有2,000个基因是'假基因'
研究人员比较了三个蛋白质序列和遗传注释的蛋白质组:GENCODE / Ensembl,RefSeq和UniProtKB。
Tress和团队发现,在列为蛋白质编码的22,210个基因总数中,所有三个系列中只有19,446个。
然后,他们放大了2,764个基因的差异,检查了实验证据和注释中可获得的信息。
有证据表明,这些基因中的大多数是“非编码基因或假基因”。
此外,科学家们发现另外1,470个基因 - 在三个系列中被列为蛋白质编码 - 没有蛋白质编码基因的功能特征或典型进化。
因此,研究人员“相信这三个参考数据库目前高估了至少2000个人类编码基因的数量,使大规模生物医学实验的噪音变得复杂并增加了噪音。”
“确定哪些潜在的非编码基因不编码蛋白质是一项困难但至关重要的任务,因为人类参考蛋白质组是大多数基础研究的基本支柱,并支持几乎所有大规模的生物医学项目。”
未来研究的方向
Tress分享了研究人员如何进一步研究他们的发现。“我们已经能够详细分析这些基因中的许多,”他解释说,“已有300多种基因被重新归类为非编码基因。”
“令人惊讶的是,”研究报告的共同作者大卫·胡安说,“这些不寻常的基因中的一些已经得到了很好的研究,并且根据基因产生蛋白质的假设,有超过100种科学出版物。”
因此,结果可能会改变我们所知的生物医学领域。但是,需要进行更多的研究。
“我们的证据,”Abascal补充说,“表明人类可能只有19,000个编码基因,但我们仍然不知道19,000个基因是哪个。”
新闻评论(共有 0 条评论) |