论文部分内容阅读
近年来,伴随生物信息技术的迅猛发展,可用生物数据量正呈指数增长。从各公共生物数据库中可以获得大量、准确的生物数据信息,而如何准确、高效地对这些数据进行分析与挖掘,发掘其中蕴含的内在信息也成为研究热点。作为活体细胞所需的最小基因组,“必需基因”在维持生物体进行正常生命活动和繁殖过程中充当重要角色,该类基因的缺失将导致生物体死亡或丧失繁殖能力,后果严重。医学上,必需基因在生物体存活方面发挥着重要基础作用,已成为许多抗生素和抗癌化合物中的潜在靶点,被广泛应用于病原体和癌细胞的消除,在抗生素和疫苗研制中意义重大;合成生物学上,可以有针对性地选择目标细胞的最小基因组,合成活细胞“底盘”;进化生物学上,研究必需基因可以加深对生物进化过程的理解,通过对常见同类必需基因的研究,实现对物种的同源性分析。然而,目前常用的通过生物实验筛选必需基因的方法存在诸如成本高、耗时长、工作量大、适用范围小等缺点,为提高必需基因判定效率,适应生物“大数据”时代的需求,论文从信息科学学角度出发,对基于DNA序列特征的必需基因判定算法进行研究,提出了4种判别基因必需性的有效分类器。首先,对DNA 一级序列进行特征提取,其中包括三类共计10种特征提取方法,即基于核苷酸组成的k-mers与反义互补k-mers算法,基于自相关算法的DAC、DCC、DACC、TAC、TCC、TACC算法和基于伪核苷酸组成的PseDNC与PseKNC算法。然后,使用包括支持向量机(SVM)、决策树(DT)、随机森林(RF)、Adaboost、k-近邻算法(k-NN)、逻辑回归(LR)和朴素贝叶斯(NB)在内的共计7种机器学习算法对所提取的DNA序列特征进行分类,并通过以曲线线下面积(AUC)值为主的共7种分类器性能评价指标,即真正率(TP Rate)、假正率(FP Rate)、查准率(Precision)、F-评价值(F-Measure)、马修斯相关系数(MCC)和ROC曲线线下面积(AUC)对所得结果进行分析评价。通过对取得较优结果的特征提取方法进行集成处理,与效果较好的分类器结合起来,经过参数调节,最终得到4种目标分类器,分别为RF-4-RF、LR-3-LR、KmerDAC-RF与KmerDAC-LR分类器。为了证明论文所提出的分类器的有效性,论文使用了来自PEC通用数据库的大肠杆菌必需基因作为训练数据集,在对其进行的10折交叉验证中,RF-4-RF分类器选择的特征为k-mers、RevcKmer、DAC和PseDNC特征集合,其AUC值达到了0.830;LR-3-LR分类器选择的特征为DCC、DACC和TAC特征集合,其AUC值为0.834;KmerDAC-RF与KmerDAC-LR分类器选择了Ak-mers和DAC特征集合,其AUC值分别为0.827与0.799。与五种通用的参考分类器进行的以AUC值为主的各项综合指标进行比较,结果表明,论文所提出的分类器具有更好的预测性能,其判定必需基因准确、高效且稳定性好。论文提出的4种分类器是判定必需基因的有效分类器,在该领域中具有一定的应用潜力。