转座子(TEs)占据了大多数真核生物的重复区域,并已知对基因组进化和种内基因组多样性有显著影响。研究发现,TEs通过中断或调控关键基因在人体疾病和作物育种中发挥重要作用。然而,识别完整的TEs具有挑战性,因为存在多种复杂情况,包括但不限于:(i) TEs的降解速率不同,可能导致结构信号的丧失;(ii) 由于随机的删除、插入和嵌套TE,TE序列呈现复杂模式;(iii) 难以确定高度碎片化TE实例的真实末端;(iv) 丰富的碎片化TE阻碍构建全长TE模型;(v) 无关TE之间的区域同源性对其识别和分类造成干扰;(vi) 误将高拷贝数的片段重复或串联重复识别为潜在TE实例的风险。近年来,基因组组装技术的进步极大改善了对转座元件进行全面注释的前景。然而,现有基于基因组组装的TE注释方法由于缺乏准确性和鲁棒性,仍需要大量的人工编辑。此外,即使是对已广泛研究的物种,目前可用的黄金标准TE数据库也不够全面,迫切需要一种自动化的TE检测方法来补充现有的数据库。 2024年7月2日,中南大学计算机学院王建新教授和北京理工大学医学技术学院胡斌教授等在Nature Communications上在线发表题为“HiTE: a fast and accurate dynamic boundary adjustment approach for full-length transposable elements detection and annotation”的研究论文,基于基因组组装数据,提出了快速准确的转座子识别和注释算法,并开发了相应的软件HiTE。中南大学计算机学院胡康、倪鹏为论文共同第一作者,中南大学为第一署名单位,该研究受国家重点研发计划、国家自然科学基金原创项目、国家自然科学基金重点项目、湘江实验室揭榜挂帅项目等多个项目支持。 文章发表在Nature Communications
Hu, K., Ni, P., Xu, M. et al. HiTE: a fast and accurate dynamic boundary adjustment approach for full-length transposable element detection and annotation. Nat Commun 15, 5573 (2024). https://doi.org/10.1038/s41467-024-49912-8