论文部分内容阅读
水平基因转移(又称为侧向基因转移)是指生物将遗传物质传递给其他细胞而非子代的过程,在物种进化和微生物基因组多样化中发挥着关键的作用。遗传物质的转移可以发生在亲缘和远缘的物种或菌株中,是非常频繁的事件。在单细胞生物体中,它或许是遗传物质交流的主要形式。另外,水平基因转移被认为能导致许多人类疾病的发生,对人类构成许多威胁。随着序列数据越来越多,大量的现象表明水平基因转移的发生。因此水平转移基因的预测对于更好的了解其对基因组进化的的影响和识别新的药物靶标具有巨大的实用意义。迄今为止,大量的识别水平转移基因的计算方法被提出,然而通过分析,可以发现,他们都没有提供可靠的预测。现有的计算方法主要分为系统发育方法和参数方法,然而系统发育方法是耗时且不充分鲁棒的。在现有的参数方法中,仅仅有一个单独的组成特征用于预测实验,或者将由单个特征得到的结果简单地结合。我们知道不同的特征表征不同的信息,因此单个的特征是不能充分的表征序列编码的信息的。另外,以往的使用机器学习的方法也都没有考虑数据集的分类不平衡问题,这个问题对分类结果会产生较大的误差。针对以上不足,我们结合多特征,并使用支持向量机开发了一种有效的分类器(Hgtident),有效地提高了预测精度。Hgtident包括全面且有代表性的特征提取、支持向量机模型的选择、基于遗传算法的特征选择、分类不平衡问题的处理和广泛的系统交叉验证的性能评价。通过特征选择,我们发现特征JS-DN和JS-CB有更高的识别水平转移基因的能力,GC1-GC3和K-mer(1≤K≤7)具有最弱的识别能力。实验表明Hgtident有效地提高了Recall,并大幅降低了Mean error。与现有流行的多阈值方法相比,本文的Recall平均提高了2.81%,Mean error平均大幅降低26.32%,不仅表明大量的假阳性得以校正,也表明了我们观点的有效性和可靠性。本文所使用的方法Hgtident是第一次的基于综合的方法来预测水平转移的基因,它是一种有效的预测水平转移的基因的方法。广泛的实验表明结合多特征对于大范围的水平转移基因的识别是必要的。