基因组注释的发展历程：从传统到创新

2024-06-14 12:05:38来源：

【字体：大中小】

近日，中国农业科学院深圳农业基因组研究所（岭南现代农业科学与技术广东省实验室深圳分中心）张兴坦课题组在《生物信息学简报（Briefings in Bioinformatics）》上发表了题为“From Tradition to Innovation: conventional and deep learning frameworks in genome annotation（从传统到创新：基因组注释中的传统和深度学习框架）”的综述论文，介绍了传统的基因组注释方法以及缺点，并概述了基因组注释中深度学习框架的进展，包括原理、模型和方法，对深度学习在基因组注释中的应用提供了一个入门指导。

基因组注释是通过应用生物信息学方法和工具，识别基因组序列上的各种元素，包括编码基因、非编码RNA、转座子等重复序列和调控元件等，并推断它们的生物学功能。传统的基因组注释方法，如基于杂交技术或湿实验方法，严重依赖操作者的经验和技术，成本较高且应用有限。早期的生物信息学算法和软件（如Blast2GO、InterProScan和GeneMark等）主要采用浅层学习技术，处理高通量数据的能力有限。

深度学习，作为机器学习的重要分支，包括输入层、多个隐藏层和输出层。对于基因组序列这样高维且异构的数据，传统的特征提取方法可能会因为数据复杂性而显得力不从心。深度学习模型通过构建多个隐藏层，学习大量样本数据的内在规律和潜在表示，同时保留数据中的关键信息，如图1所示。首先，原始测序数据经过特征编码（如one-hot编码、词嵌入、k-mer计数等方式）转换成深度学习模型的输入表示，深度学习通过逐层处理、特征转换以及增加复杂性三个关键步骤对输入数据进行非线性建模，自适应地发现数据中的复杂模式和关联，无需手动设计，便于后续地预测和分类任务，形成端到端的模型。

图1.基因注释中的深度学习工作流程。深度学习模型的输入数据是原始序列数据，这些数据是通过基因组测序获得的短读取序列，在序列拼接和组装后得到。在输入到深度学习模型之前，它首先进行特征编码，然后输入到由多个隐藏层构建的深度学习网络中。深度学习网络通过多个隐藏层从输入数据中提取潜在特征，用于后续基因组组件的分类和预测。

文章进一步讨论了深度学习在转座子元件（TE）、蛋白质编码基因、功能注释、调控元件和结构变异检测等基因组注释领域的应用，为生物信息学研究和基因组学领域的发展注入了新的活力。

转座子元件是基因组中最常见的重复序列，通过利用卷积神经网络（CNN）等技术，研究人员能够更准确地识别和分类不同类型的转座子，大大提高了注释的准确性和效率。例如，DeepTE工具利用CNN从序列数据中提取特征，实现了对植物、后种动物和真菌TE的准确分类，为基因组注释提供了有力支持。

由于真核基因组的复杂性和多样性，传统的机器学习方法难以完全捕捉到编码区域的特征。然而，深度学习模型能够将基因序列映射到高维特征空间，从而更好地识别外显子和内含子，并准确预测剪接位点。这为我们更深入地理解蛋白质编码的结构和功能提供了新的途径。

功能注释是基因组学研究中的关键环节，传统的基因功能注释方法往往受限于离散的数据和手动处理过程，而深度学习技术则能够从大量生物数据中学习，并推断基因和生物功能之间的相互作用。例如，Gene2vec利用深度学习模型将基因表达数据转换为文本，预测未知基因的功能。这种方法在多个物种的基因注释任务中表现出了良好的效果，为基因功能研究提供了新的思路。

此外，深度学习技术在识别启动子、增强子等调控元件、检测结构变异等方面同样展现出了强大的应用潜力，正在推动基因组学研究迈向新的高度。随着技术的不断发展和数据的不断积累，我们相信深度学习将继续发挥重要作用，为研究人员理解基因组的结构、功能和调控提供更深入的见解。

LEHU乐虎实习生陈兆佳为论文第一作者，LEHU乐虎张兴坦研究员为论文通讯作者。该项目得到国家重点研发计划、深圳市基础研究任务、国家自然科学基因项目资助。

原文链接：https://doi.org/10.1093/bib/bbae138