基于DNA序列特征的必需基因判定研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:jtls
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随生物信息技术的迅猛发展,可用生物数据量正呈指数增长。从各公共生物数据库中可以获得大量、准确的生物数据信息,而如何准确、高效地对这些数据进行分析与挖掘,发掘其中蕴含的内在信息也成为研究热点。作为活体细胞所需的最小基因组,“必需基因”在维持生物体进行正常生命活动和繁殖过程中充当重要角色,该类基因的缺失将导致生物体死亡或丧失繁殖能力,后果严重。医学上,必需基因在生物体存活方面发挥着重要基础作用,已成为许多抗生素和抗癌化合物中的潜在靶点,被广泛应用于病原体和癌细胞的消除,在抗生素和疫苗研制中意义重大;合成生物学上,可以有针对性地选择目标细胞的最小基因组,合成活细胞“底盘”;进化生物学上,研究必需基因可以加深对生物进化过程的理解,通过对常见同类必需基因的研究,实现对物种的同源性分析。然而,目前常用的通过生物实验筛选必需基因的方法存在诸如成本高、耗时长、工作量大、适用范围小等缺点,为提高必需基因判定效率,适应生物“大数据”时代的需求,论文从信息科学学角度出发,对基于DNA序列特征的必需基因判定算法进行研究,提出了4种判别基因必需性的有效分类器。首先,对DNA 一级序列进行特征提取,其中包括三类共计10种特征提取方法,即基于核苷酸组成的k-mers与反义互补k-mers算法,基于自相关算法的DAC、DCC、DACC、TAC、TCC、TACC算法和基于伪核苷酸组成的PseDNC与PseKNC算法。然后,使用包括支持向量机(SVM)、决策树(DT)、随机森林(RF)、Adaboost、k-近邻算法(k-NN)、逻辑回归(LR)和朴素贝叶斯(NB)在内的共计7种机器学习算法对所提取的DNA序列特征进行分类,并通过以曲线线下面积(AUC)值为主的共7种分类器性能评价指标,即真正率(TP Rate)、假正率(FP Rate)、查准率(Precision)、F-评价值(F-Measure)、马修斯相关系数(MCC)和ROC曲线线下面积(AUC)对所得结果进行分析评价。通过对取得较优结果的特征提取方法进行集成处理,与效果较好的分类器结合起来,经过参数调节,最终得到4种目标分类器,分别为RF-4-RF、LR-3-LR、KmerDAC-RF与KmerDAC-LR分类器。为了证明论文所提出的分类器的有效性,论文使用了来自PEC通用数据库的大肠杆菌必需基因作为训练数据集,在对其进行的10折交叉验证中,RF-4-RF分类器选择的特征为k-mers、RevcKmer、DAC和PseDNC特征集合,其AUC值达到了0.830;LR-3-LR分类器选择的特征为DCC、DACC和TAC特征集合,其AUC值为0.834;KmerDAC-RF与KmerDAC-LR分类器选择了Ak-mers和DAC特征集合,其AUC值分别为0.827与0.799。与五种通用的参考分类器进行的以AUC值为主的各项综合指标进行比较,结果表明,论文所提出的分类器具有更好的预测性能,其判定必需基因准确、高效且稳定性好。论文提出的4种分类器是判定必需基因的有效分类器,在该领域中具有一定的应用潜力。
其他文献
球虫卵囊悬液适当稀释后,用14号注射器针头沾取少许,滴点到放置于载玻片的0.8 cm×0.8 cm大小的透明塑料纸片上,随即置于镜下观察.发现符合条件的单个卵囊后,用镊子夹取
以计算机软件技术为核心的电网调度自动化系统已经成为当前电力系统日常管理工作的重要方式,为电力系统各级调度中心提供更为详实的电网运行实时数据,为电网调度人员提供工作
2018年,货币政策的收紧导致的资金面紧张叠加经济下行压力带来的行业不景气,债券市场迎来了违约数量和违约金额的双高峰。由于债券违约主体的行业分布较为分散,传统Z值模型以财务指标直接进行量化分析的方式可能会受到行业异质性的影响,从而导致模型的偏差,故创造性地使用个体偏离度指标构建修正Z值模型。修正Z值模型中纳入资产负债率个体偏离度、总资产周转率个体偏离度、投资扩张率个体偏离度和资产收益率个体偏离度这
《义务教育语文课程标准(2011年版)》(以下简称《课标》)中提出:“阅读是学生的个性化行为。”[1]根据《课标》要求,学生要在充分地阅读中有所感悟,得出自己独特的认识,而不是按照教师的思路或是教参的答案去被动地阅读,教师不应该用讲解代替学生的阅读和思考。可见,学生亲自阅读、思考、理解、感知和表达在教学中的重要性。个性化阅读教学符合《课标》要求,尊重学生的个性化阅读行为,在古诗词教学中起着积极作用