基于DNA序列特征的必需基因判定研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:jtls
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随生物信息技术的迅猛发展,可用生物数据量正呈指数增长。从各公共生物数据库中可以获得大量、准确的生物数据信息,而如何准确、高效地对这些数据进行分析与挖掘,发掘其中蕴含的内在信息也成为研究热点。作为活体细胞所需的最小基因组,“必需基因”在维持生物体进行正常生命活动和繁殖过程中充当重要角色,该类基因的缺失将导致生物体死亡或丧失繁殖能力,后果严重。医学上,必需基因在生物体存活方面发挥着重要基础作用,已成为许多抗生素和抗癌化合物中的潜在靶点,被广泛应用于病原体和癌细胞的消除,在抗生素和疫苗研制中意义重大;合成生物学上,可以有针对性地选择目标细胞的最小基因组,合成活细胞“底盘”;进化生物学上,研究必需基因可以加深对生物进化过程的理解,通过对常见同类必需基因的研究,实现对物种的同源性分析。然而,目前常用的通过生物实验筛选必需基因的方法存在诸如成本高、耗时长、工作量大、适用范围小等缺点,为提高必需基因判定效率,适应生物“大数据”时代的需求,论文从信息科学学角度出发,对基于DNA序列特征的必需基因判定算法进行研究,提出了4种判别基因必需性的有效分类器。首先,对DNA 一级序列进行特征提取,其中包括三类共计10种特征提取方法,即基于核苷酸组成的k-mers与反义互补k-mers算法,基于自相关算法的DAC、DCC、DACC、TAC、TCC、TACC算法和基于伪核苷酸组成的PseDNC与PseKNC算法。然后,使用包括支持向量机(SVM)、决策树(DT)、随机森林(RF)、Adaboost、k-近邻算法(k-NN)、逻辑回归(LR)和朴素贝叶斯(NB)在内的共计7种机器学习算法对所提取的DNA序列特征进行分类,并通过以曲线线下面积(AUC)值为主的共7种分类器性能评价指标,即真正率(TP Rate)、假正率(FP Rate)、查准率(Precision)、F-评价值(F-Measure)、马修斯相关系数(MCC)和ROC曲线线下面积(AUC)对所得结果进行分析评价。通过对取得较优结果的特征提取方法进行集成处理,与效果较好的分类器结合起来,经过参数调节,最终得到4种目标分类器,分别为RF-4-RF、LR-3-LR、KmerDAC-RF与KmerDAC-LR分类器。为了证明论文所提出的分类器的有效性,论文使用了来自PEC通用数据库的大肠杆菌必需基因作为训练数据集,在对其进行的10折交叉验证中,RF-4-RF分类器选择的特征为k-mers、RevcKmer、DAC和PseDNC特征集合,其AUC值达到了0.830;LR-3-LR分类器选择的特征为DCC、DACC和TAC特征集合,其AUC值为0.834;KmerDAC-RF与KmerDAC-LR分类器选择了Ak-mers和DAC特征集合,其AUC值分别为0.827与0.799。与五种通用的参考分类器进行的以AUC值为主的各项综合指标进行比较,结果表明,论文所提出的分类器具有更好的预测性能,其判定必需基因准确、高效且稳定性好。论文提出的4种分类器是判定必需基因的有效分类器,在该领域中具有一定的应用潜力。
其他文献
通过反向遗传操作技术开发出了防制H5N1亚型高致病力禽流感并能区分疫苗免疫和自然感染个体的重组H5N3 DIVA疫苗;为了建立配套诊断方法,通过杆状病毒表达系统表达了N3亚型禽
球虫卵囊悬液适当稀释后,用14号注射器针头沾取少许,滴点到放置于载玻片的0.8 cm×0.8 cm大小的透明塑料纸片上,随即置于镜下观察.发现符合条件的单个卵囊后,用镊子夹取
《神灸经纶》对热证施灸论述颇多。热证宜灸还是禁灸,自古以来是一个长期争论不休的问题。或言可灸;或言不可灸;或言寒热虚实无不可灸;或明言不可灸,而实际上自觉不自觉地倡导热证
以计算机软件技术为核心的电网调度自动化系统已经成为当前电力系统日常管理工作的重要方式,为电力系统各级调度中心提供更为详实的电网运行实时数据,为电网调度人员提供工作
随着网络技术的日益成熟,以移动支付、社交网络以及大数据等的新技术为基础的互联网金融业务异军突起。互联网金融对传统金融银行的影响不可小觑,文章具体分析了互联网金融的崛
针刺配合穴位注射治疗网球肘30例汪令崇(广西省柳州市中医院545001)图书分类号R246.9关键词网球肘/穴位疗法水针网球肘又名肱骨外上髁炎,笔者采用针刺加穴位注射治疗该病30例,现报道如下。1一般资料
在当代高科技的信息时代,传统的教学思想、观念和体系,受到了严峻的挑战和冲击,人们已逐渐认识到视听媒体教学是高等中医教育中极为重要的现代化教学手段之一。中医药教育的现代
针灸推拿治疗肩关节周围炎182例朱必伟(重庆市机关直属医院630015)图书分类号R246.9关键词关节周围炎,肩/针刺疗法按摩疗法温针疗法笔者在多年的临床工作中,采用针灸、推拿治疗182例肩关节周围炎,并进
2018年,货币政策的收紧导致的资金面紧张叠加经济下行压力带来的行业不景气,债券市场迎来了违约数量和违约金额的双高峰。由于债券违约主体的行业分布较为分散,传统Z值模型以财务指标直接进行量化分析的方式可能会受到行业异质性的影响,从而导致模型的偏差,故创造性地使用个体偏离度指标构建修正Z值模型。修正Z值模型中纳入资产负债率个体偏离度、总资产周转率个体偏离度、投资扩张率个体偏离度和资产收益率个体偏离度这
《义务教育语文课程标准(2011年版)》(以下简称《课标》)中提出:“阅读是学生的个性化行为。”[1]根据《课标》要求,学生要在充分地阅读中有所感悟,得出自己独特的认识,而不是按照教师的思路或是教参的答案去被动地阅读,教师不应该用讲解代替学生的阅读和思考。可见,学生亲自阅读、思考、理解、感知和表达在教学中的重要性。个性化阅读教学符合《课标》要求,尊重学生的个性化阅读行为,在古诗词教学中起着积极作用