基于领域粗糙集的特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:sanrenET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内容复杂的特性,这不仅导致特征空间的维数不断增加而降低了学习算法的效率,也使得大量多余数据的出现干扰了实验的结果。基因芯片技术的发展对癌症的研究有很大的影响。微阵列基因表达谱数据已被广泛应用于癌症生物标识或关键基因的识别,有效促进了传统组织病理学的发展,并提高癌症诊断和分类的准确性,对发现新疗法的癌症病因的认识进一步加强。基因表达谱数据具有高维特性,传统的基因分类方式的分类精度很差。因此,特征构建和基因选取被应用于基因表达谱数据,以克服高维问题。  特征选择已被应用于微阵列基因表达谱数据处理,它是选择信息基因的最小子集的过程,这些信息基因的最小子集是最能预测其基因组的分类模型,这使得分类器能够准确地对样本进行分类。特征选择算法的目的是使微阵列数据特征空间最小化,从而选择出最重要的属性,以提高分类的准确性。粗糙集理论及其应用迅速发展,已成为一种处理不确定数据并进行特征选择、规则提取和知识发现的有效工具。本文主要从优化特征选择的角度研究基因表达谱数据,基于邻域粗糙集的相关概念,从提高特征选择算法的分类精度和降低算法的耗时两个方面入手,使之能够有效的处理一些基因表达谱数据。本文的主要研究内容如下:  (1)粗糙集的边界域中的信息是不确定的,这些区域的信息往往很重要,研究这些不确定的信息对属性约简有重要作用。针对邻域粗糙集中的边界域模糊的特点,研究了一种基于依赖度和距离函数的邻域粗糙集特征选择方法。首先,基于邻域粗糙集模型描述了邻域依赖度、属性必要性等概念;然后,在邻域决策系统中给出了上下近似集的均值定义,设计了邻域边界域对象相对于上下近似集均值的距离函数,提出了基于邻域粗糙集的特征选择方法,并将其应用于癌症基因数据的特征选择,构建了一种基于依赖度和距离函数的邻域粗糙集特征选择算法;最后,采用不同的分类器对算法进行测试。实验结果表明,该方法是有效可行的。与现有的特征选择方法相比,它具有更好的分类性能,能够有效地处理邻域粗糙集边界域中的不确定信息。  (2)针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出了一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建了基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出了EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计了一种EK-medoids聚类和邻域距离的特征选择算法,有效降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  (3)针对蚁群聚类算法收敛速度慢、算法耗时长等特点,研究了一种基于蚁群聚类优化的邻域特征选择算法。首先,在传统的蚁群算法每次循环计算的各个样本到其对应的聚类中心的总的偏离误差的基础上,生成一组随机数来检验误差,找出偏离误差最小的最佳路径,并对原始数据集进行预聚类;然后根据每个聚类的邻域距离,进行特征选择;最后,在所选取的特征子集上重新聚类,验证已选取的特征子集的分类精度。实验结果表明,该算法能够选择出了分类精度较高的特征子集。
其他文献
二维-三维图像配准方法作为医学图像配准领域研究的一个分支,是当前研究的热点之一。其最典型的应用实例是介入外科手术导航中。由于二维医学图像缺乏三维空间信息无法为临床
近年来,随着互联网技术的快熟发展,涌现出了一大批在线社交网络,如:国外的Facebook、Twitter、YouTube,国内的人人网、新浪微博等。微博作为一种新兴的在线社交网络,是现实社会的人
随着互联网技术的高速发展,网络上的信息出现了爆炸性的增长。这种增长使得人们可以有机会从更多信息源了解和获知他人的信息、想法、态度和意见。而这些主观性的评论,无法通过
文本聚类是数据挖掘领域的一个重要分支。随着互联网的飞速发展,文本形式的信息不断增多。文本聚类技术已成为对文本信息进行有效地组织、摘要和导航的重要手段,被越来越多的
目前,我国大部分煤矿开采还依靠人工操作,人工矿下开采具有危险性,人为失误和矿下环境异常都会引起矿井重大事故。本文将热点技术RFID技术应用到传统的矿井安全管理上,实现矿
随着互联网的发展,信息量急剧增长,如何高效处理海量数据成为一个非常严峻的问题。传统方式下处理大数据费用昂贵,而在云计算变革中诞生的Hadoop平台能够轻松应对庞大数据量,
功耗评估是功耗优化的基础。近年来,功耗已经成为处理器设计的重要限制因素,更凸显了功耗评估在处理器设计中的作用。单核处理器时代已经过去,片上多核处理器不可阻挡地成为当今
随着网络规模的日益庞大和复杂,网络带宽急剧增加,基于网络的互联网服务呈现多样化的发展,这使得互联网的运行机制和行为特征错综复杂,因此,加强网络管理,对网络QoS进行实时的控制
随着互联网的迅速发展,近几年来社交网络服务越来越流行,成为了很多人生活中的重要组成部分。社交网络的流行在带给人们便利的同时,也给人们带来了信息过载的困扰,推荐系统是解决
云制造是一种网络化制造新模式,它旨在实现基于知识的制造资源共享与按需使用,从而提高资源利用率和企业核心竞争力。服务组合与优选是实现制造资源优化配置的核心技术之一,鉴于