论文部分内容阅读
植物在生长过程中,常常遭受到各类逆境和病虫害等胁迫的影响,寻找与胁迫响应相关的关键基因,研究植物对胁迫响应的机制,对农业、林业、环保等多方面都具有重要意义。获取基因表达数据的相关技术的发展,在为这类研究提供可能性的同时也为数据处理和分析工作带来了新挑战。基因表达数据具有“高维”、“小样本”和“高冗余”等特点,如何建立数据处理能力较强的粗糙集模型,并设计相应的基因选择方法,是生物信息学和粗糙集应用研究领域的研究热点。为了提高基于邻域的粗糙集模型对基因表达数据的处理能力,讨论了两种能够直接处理数值型数据的邻域构建方式——δ邻域和相交邻域,提出了一种基于正域和基因排序的关键基因选择算法。通过设计对比实验,分析两种邻域构建方式以及基于元素和基本集合两种近似集定义形式的性能。在4个植物胁迫相关数据集上的实验结果表明,提出的算法能够选择出与胁迫关系紧密的关键基因。同时,对比实验结果说明基于基本集合的近似方式更优,而两种邻域构建方式均有各自适合的数据集,但相交邻域定义更灵活。为了进一步说明相交邻域定义的优势,解决邻域阈值优化问题,考虑到基因选择应用中需综合考虑多个评价指标,引入多目标优化方法,提出了一种结合阈值优化的关键基因选择算法,在为相交邻域优化阈值的同时选择关键基因子集。实验结果证实了所提算法一定程度上能够提高所选基因子集的分类准确率或减少基因个数,同时说明了相交邻域中为不同的基因设定不同的阈值的做法增强了其对数据的适应性。由于仅依赖基因表达数据的基因选择方法在结果可解释性方面存在一定的局限性,引入基因本体知识,并创新性的运用邻域系统理论构建能够同时展现两类数据信息的知识表示模型,并以构建的邻域系统为基础,提出了基于邻域系统的粗糙集模型的基因选择新框架和新方法。在2个拟南芥胁迫相关数据集上的实验结果表明,所提方法能够选择出分类准确率较高且生物学解释性较强的关键基因集合。