基于多特征的水平转移基因的预测研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:qwerasd1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
水平基因转移(又称为侧向基因转移)是指生物将遗传物质传递给其他细胞而非子代的过程,在物种进化和微生物基因组多样化中发挥着关键的作用。遗传物质的转移可以发生在亲缘和远缘的物种或菌株中,是非常频繁的事件。在单细胞生物体中,它或许是遗传物质交流的主要形式。另外,水平基因转移被认为能导致许多人类疾病的发生,对人类构成许多威胁。随着序列数据越来越多,大量的现象表明水平基因转移的发生。因此水平转移基因的预测对于更好的了解其对基因组进化的的影响和识别新的药物靶标具有巨大的实用意义。迄今为止,大量的识别水平转移基因的计算方法被提出,然而通过分析,可以发现,他们都没有提供可靠的预测。现有的计算方法主要分为系统发育方法和参数方法,然而系统发育方法是耗时且不充分鲁棒的。在现有的参数方法中,仅仅有一个单独的组成特征用于预测实验,或者将由单个特征得到的结果简单地结合。我们知道不同的特征表征不同的信息,因此单个的特征是不能充分的表征序列编码的信息的。另外,以往的使用机器学习的方法也都没有考虑数据集的分类不平衡问题,这个问题对分类结果会产生较大的误差。针对以上不足,我们结合多特征,并使用支持向量机开发了一种有效的分类器(Hgtident),有效地提高了预测精度。Hgtident包括全面且有代表性的特征提取、支持向量机模型的选择、基于遗传算法的特征选择、分类不平衡问题的处理和广泛的系统交叉验证的性能评价。通过特征选择,我们发现特征JS-DN和JS-CB有更高的识别水平转移基因的能力,GC1-GC3和K-mer(1≤K≤7)具有最弱的识别能力。实验表明Hgtident有效地提高了Recall,并大幅降低了Mean error。与现有流行的多阈值方法相比,本文的Recall平均提高了2.81%,Mean error平均大幅降低26.32%,不仅表明大量的假阳性得以校正,也表明了我们观点的有效性和可靠性。本文所使用的方法Hgtident是第一次的基于综合的方法来预测水平转移的基因,它是一种有效的预测水平转移的基因的方法。广泛的实验表明结合多特征对于大范围的水平转移基因的识别是必要的。
其他文献
通过园路的特点、布局进行分析研究,指出园路在园林规划设计中的重要地位;园路既是引导人赏景,又可以增加园林空间,丰富园林景观。
<正> 在临证切脉时,对脉象的判断正确与否,关系到对该脉象的主病的认识和最后的辨证是否正确,所以脉象在脉诊的教学中是一个重点。由于脉象的名目繁多,有以单一因素命名的,有
期刊
<正> 我国现行的医疗保险制度主要有两种形式:一是劳保医疗制度,其经费由享受者所在单位负担;二是公费医疗制度.其经费主要来源于国家或地方财政。建立和完善社会保障制度,是
<正>胡锦涛总书记在出席20国集团(G20)第二次金融峰会前夕指出,面对当前复杂多变的国际经济形势,当务之急要尽快稳定国际金融市场,切实发挥金融对实体经济的促进作用,提振民
期刊
目的:探讨门诊青光眼的疾病构成与年龄、性别分布及具变化特点,升与住院青光眼患者调查资料对比,分析其差异原因,为青光眼的防治研究提供新的流行病学资料。方法:对2012年1月至
后金融危机时代,世界各国纷纷寻求新的经济增长点,我国也步入了"调整产业结构,转变经济发展方式"的关键时期。本文从福建省泉州市产业发展特点与金融支持现状入手,分析金融支
2010年以来,国家出台了一系列房地产调控政策,综合运用税收、信贷、限购等手段,对房地产市场进行全方位调控,政策力度不断加大。本文以福建省泉州市为例,全面评估分析房地产
2001年10月,美国能源巨头雪佛龙石油公司收购了美国另一大型石油公司德士古,也一并“继承”了德士古在亚马逊热带雨林运作三十年期间所造成的环境污染责任。然而,在触目惊心
<正> 脉学是祖国医学的重要组成部分。浩瀚的中医文献,蕴藏了十分丰富的脉学内容。据初步统计,脉学专著有220余种之多,其余医籍亦多涉及脉学。但迄今为止,脉学领域中仍有许多
本文结合城市无收益基础设施建设投资现状,阐述创新无收益基础设施投融资模式的必要性,综合分析国家相关融资政策和无收益项目融资的特征,提出用项目负债替代政府负债,以有收