植物抗性基因的数据组织与信息挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:guangmingkoxiuluo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
病虫害对植物的迫害已经成为一个严重的问题,尤其对于农作物来说,不仅会造成大面积的减产或绝收,而且会给某些经济产业带来一定程度的影响。因此,通过研究植物和病虫害间的相互作用来提取已知植物抗性基因的特征,进而挖掘更多未知抗性基因,培育具有抗性功能的植株,这不仅有助于植物基因的改良,而且对生物育种也有重要的价值。植物抗性基因的识别问题可以看作一个二分类问题,本文将结合计算机学和生物学知识,采用机器学习的方法预测植物抗性基因。通常情况下,训练一个分类器需要有正确标记的正例和反例。然而,抗性基因识别中可利用的信息仅有少数人工标记的抗性基因。一般情况下,将不包括正例的基因家族作为训练反例,但其中功能不明确的基因可能具有抗性功能,这样就会严重影响分类器的识别能力。为了消除由于正例太少和错误反例对抗性基因识别造成的影响,本文基于抗性基因和其他基因在蛋白质相互作用网中的距离,提出了一种新的样本选择方法。与一般样本选择的方法相比,本文方法选择的样本所构建的分类器的性能要优于一般方法,说明了该方法的有效性。接着,本文结合基因序列特征及其对应蛋白质理化特性对抗性基因识别的作用程度,在本文方法获取的数据上提取了有关基因序列和蛋白质理化特性等共113维特征,并通过实验分析了各组特征对抗性基因识别贡献的大小。最后,选择支持向量机(Support Vector Machine,SVM)作为抗性基因分类器算法,并通过实验和理论分析从常用的四种核函数中选择了径向基函数作为核函数,使得预测结果的敏感性(SN)和特异性(SP)都有所提高。此外,我们还实现了抗性基因识别系统的Web版本,给对抗性基因感兴趣的研究者提供了方便的交流平台,也促进了我们对抗性基因的探索和研究。
其他文献
随着互联网的快速发展,很多网络用户在面对巨大的网络信息时,很难快速获取到自己想要的需求信息。为了满足用户需求,个性化推荐系统由此产生。在推荐系统中,协同过滤算法得到了广泛地应用。然而,协同过滤算法建立的用户兴趣模型并没有考虑到用户兴趣会随外界因素的影响而发生变化,以及算法中存在的数据稀疏和实时性问题,这些问题将会影响推荐系统的推荐质量。为了有效解决上述问题,本文主要围绕用户兴趣捕捉、降低数据稀疏度
学位
航迹融合问题是利用信息融合技术,将来自不同传感器的航迹进行有效的处理、关联和综合,估计出较融合前更为精确可靠的目标航迹。航迹融合在战术和战略指挥、控制、通信、监视
随着GIS技术的快速发展,空间数据库在各个领域都得到了极大的发挥,其主要的任务是对空间数据实现有效的存储,进而实现高效访问的目的。空间数据具有海量性、内部结构复杂性、
心肌细胞的数学模型是描述整个器官组织的电生理活动的基础模型。在基础科学和临床诊断研究领域,研究人员使用这些模型来创建心脏的数值模拟,并能取得比较理想的效果。心室的
随着网络信息的爆炸式的增长,各种信息充斥着整个网络环境。人们现在已经习惯于去网络上搜寻一些解决问题的方法。当用户并不是十分熟悉一些搜索技巧的时候,他们往往需要花费很
物联网的快速发展,为现代社会提供了以万物互联为基础的巨大信息交互平台,是互联网时代信息获取和共享的更进一步的发展。而无线通信的高速发展,为物联网实现更大规模的信息
H.264视频编解码标准是由国际标准化组织ISO/IEC和国际电信联盟ITU-T联合制定的,又称为MEPG-4part10。与之前的标准相比,它的压缩比更高,网络亲和性更好,然而由于算法的复杂性,使
受物理极限和功耗散热等原因的限制,处理器工作频率的提升遇到了瓶颈。现在人们逐渐转向新的方式来进一步提高处理器的性能,比如在单个芯片上集成多个处理器核,于是同构和异构的
伴随着多媒体技术的快速发展与数码设备的广泛普及,在采集、存储、传递数字信息越来越便捷的今天,数字多媒体内容安全和数字出版物版权保护成为人们关注的焦点。数字水印技术
由于社会信息的日益复杂化,在许多领域,例如运筹学、管理科学、信息科学、工业工程、航天技术以及军事中都存在人为的或者客观的不确定性,表现形式也多种多样,如随机性、模糊