基于邻域系统和粗糙集的植物胁迫基因选择

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:JK0803_sunmingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
植物在生长过程中,常常遭受到各类逆境和病虫害等胁迫的影响,寻找与胁迫响应相关的关键基因,研究植物对胁迫响应的机制,对农业、林业、环保等多方面都具有重要意义。获取基因表达数据的相关技术的发展,在为这类研究提供可能性的同时也为数据处理和分析工作带来了新挑战。基因表达数据具有“高维”、“小样本”和“高冗余”等特点,如何建立数据处理能力较强的粗糙集模型,并设计相应的基因选择方法,是生物信息学和粗糙集应用研究领域的研究热点。为了提高基于邻域的粗糙集模型对基因表达数据的处理能力,讨论了两种能够直接处理数值型数据的邻域构建方式——δ邻域和相交邻域,提出了一种基于正域和基因排序的关键基因选择算法。通过设计对比实验,分析两种邻域构建方式以及基于元素和基本集合两种近似集定义形式的性能。在4个植物胁迫相关数据集上的实验结果表明,提出的算法能够选择出与胁迫关系紧密的关键基因。同时,对比实验结果说明基于基本集合的近似方式更优,而两种邻域构建方式均有各自适合的数据集,但相交邻域定义更灵活。为了进一步说明相交邻域定义的优势,解决邻域阈值优化问题,考虑到基因选择应用中需综合考虑多个评价指标,引入多目标优化方法,提出了一种结合阈值优化的关键基因选择算法,在为相交邻域优化阈值的同时选择关键基因子集。实验结果证实了所提算法一定程度上能够提高所选基因子集的分类准确率或减少基因个数,同时说明了相交邻域中为不同的基因设定不同的阈值的做法增强了其对数据的适应性。由于仅依赖基因表达数据的基因选择方法在结果可解释性方面存在一定的局限性,引入基因本体知识,并创新性的运用邻域系统理论构建能够同时展现两类数据信息的知识表示模型,并以构建的邻域系统为基础,提出了基于邻域系统的粗糙集模型的基因选择新框架和新方法。在2个拟南芥胁迫相关数据集上的实验结果表明,所提方法能够选择出分类准确率较高且生物学解释性较强的关键基因集合。
其他文献
生物医学文本中隐含着不断更新的生物医学知识,从这些知识中可以发现基因同疾病之间的关系、基因同蛋白质之间的关系。因此,准确的进行基因名识别是抽取出这些关系的重要前提
随着数据挖掘技术的快速发展,聚类分析技术的应用越来越受到人们的广泛关注。聚类分析是无监督学习的过程,根据数据对象的相似性聚集成簇,从而发现数据集中数据的分布规律和发展
随着科学技术及信息技术的不断进步,电子商务的应用程度越来越高,Web2.0技术的进步在很大程度上对人们的物质生活和价值观念等都产生了非常大的影响,特别是在电子商务和大数
混沌学是从非线性科学引申出来的一门新科学。针对混沌现象研究出的混沌理论,国内外广大学者在流体的湍流、化学及电力系统、保密通讯等方面取得了非常广泛的应用成果。特别是
图像分割是计算机视觉研究的基础问题。变分水平集方法由于其复杂拓扑结构自适应表达、二维/三维图像分割表达的一致性、多模型集成能力等特点,已被广泛用于图像分割中。本文
数据分类是数据挖掘的研究热点。其目的是根据训练数据集的特点构造一个能够把测试数据集中的待测样本映射到某一类别的分类器。利用该分类器,能够提取描述数据类别的模型或
为夜视图像染色的目的是通过提高夜视或微光条件下图像信息维数,使夜视图像不仅具有直观可辨的场景信息与显著突出的兴趣目标,且具有与日光条件下更相近的颜色效果,符合人眼观察
基于内容的图像检索是根据图像的内容,对图像内容进行分析和量化并提取图像特征,并且使用图像的特征进行图像检索的技术。目前基于内容的图像检索技术已经在图像搜索引擎、医
单体型序列是生物遗传分析中的一类重要信息。由于实验方法获取单体型序列具有价格过高、速度慢等缺点,使用计算手段从易于获取的基因型序列得到单体型序列成为人们的首选,并
随着通信业的快速发展,3G技术给人们带来了前所未有的高速通信体验,WCDMA是最为成熟的移动通信3G标准。在我国,随着WCDMA标准的演进和产业化的发展,其协议特性越来越丰富,协议规模