Bioinformatics | LEHU乐虎张兴坦团队提出一种新颖的构建系统发育树的方法

2024-06-14 12:01:57来源：

【字体：大中小】

近日，中国农业科学院深圳农业基因组研究所（岭南现代农业科学与技术广东省实验室深圳分中心）张兴坦课题组在《生物信息学（Bioinformatics）》上发表了题为“MIKE：一种超快、免组装和免比对的系统发育树构建方法（MIKE: an ultrafast, assembly-, and alignment-free approach for phylogenetic tree construction）”的论文，提出一种无需组装基因组、不需要多序列比对即可快速准确构建系统发育树的方法。

生物进化关系的研究是生命科学领域的核心之一，它揭示了生物界中物种之间的亲缘关系和演化历程。而构建系统发育树则是理解和描述这些进化关系的主要方法之一。然而，随着高通量基因重测序技术的广泛应用，研究人员面临着处理庞大测序数据并从中准确推断物种间关系的挑战。

在这个背景下，一种名为MIKE（MinHash-based k-mer算法）的新算法被引入，旨在快速而准确地构建系统发育树。与传统方法相比，MIKE算法具有更高的速度和更可靠的准确性，为研究人员提供了一种有效的工具来解决大规模基因重测序数据分析的问题。

MIKE算法的核心在于利用了MinHash和k-mer两种技术。MinHash技术用于快速计算两个数据集之间的Jaccard相似度，而k-mer技术则用于提取原始测序数据的特征，从而更好地反映生物学上的相似性，并且创新地将k-mer分为两部分，一部分作为标签值用于分组，一部分作为特征值。通过这两种技术的结合，MIKE算法能够快速而精确地估计物种间的进化距离，并基于这些距离构建系统发育树。

图1 MIKE算法框架。原始测序数据reads被切割成k-mer，随后将每个k-mer均分成两部分，一部分作为标签值，一部分作为特征值。相同标签值的k-mer均分为同一组，通过随机散列函数分别对每一组k-mer进行散列，选择每组中第一个最小的不为0的哈希值作为最小哈希签名。

MIKE算法的性能已在多个物种群体上进行了验证和评估。研究人员利用MIKE算法重建了包括酵母、玉米、榕树、水稻和野生甘蔗等物种在内的系统发育树，并证明了其在不同演化尺度、生殖方式和多倍体水平下的准确性和稳健性。MIKE算法在构建系统发育树方面表现出色，为生物进化研究提供了强大的工具。

图2 MIKE构建的303个玉米的系统发育树

除了在系统发育树构建领域的应用，MIKE算法还具有广泛的应用前景。例如，在物种鉴定、群体遗传学、环境微生物组学等领域，MIKE算法都有着潜在的应用价值。因此，MIKE算法的引入不仅提高了基因重测序数据分析的效率和准确性，还为生命科学领域的研究和应用带来了新的可能性和机遇。

LEHU乐虎与太原理工大学联培硕士王芳为论文第一作者，LEHU乐虎张兴坦研究员、太原理工大学李东喜副教授为论文的共同通讯作者。该项目得到广东省基础与应用基础研究计划、国家重点研发计划、山西省基础研究任务、国家自然科学基因项目资助。

原文链接：https://doi.org/10.1093/bioinformatics/btae154