基于邻域粗糙集的特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户：xiaoyanger88

【摘要】

：

基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内

【作者】

：

张新乐

【出处】

：

河南师范大学

【发表日期】

：

2018年期

【关键词】

：

特征选择邻域距离邻域粗糙集聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内容复杂的特性,这不仅导致特征空间的维数不断增加而降低了学习算法的效率,也使得大量多余数据的出现干扰了实验的结果。基因芯片技术的发展对癌症的研究有很大的影响。微阵列基因表达谱数据已被广泛应用于癌症生物标识或关键基因的识别,有效促进了传统组织病理学的发展,并提高癌症诊断和分类的准确性,对发现新疗法的癌症病因的认识进一步加强。基因表达谱数据具有高维特性,传统的基因分类方式的分类精度很差。因此,特征构建和基因选取被应用于基因表达谱数据,以克服高维问题。特征选择已被应用于微阵列基因表达谱数据处理,它是选择信息基因的最小子集的过程,这些信息基因的最小子集是最能预测其基因组的分类模型,这使得分类器能够准确地对样本进行分类。特征选择算法的目的是使微阵列数据特征空间最小化,从而选择出最重要的属性,以提高分类的准确性。粗糙集理论及其应用迅速发展,已成为一种处理不确定数据并进行特征选择、规则提取和知识发现的有效工具。本文主要从优化特征选择的角度研究基因表达谱数据,基于邻域粗糙集的相关概念,从提高特征选择算法的分类精度和降低算法的耗时两个方面入手,使之能够有效的处理一些基因表达谱数据。本文的主要研究内容如下:(1)粗糙集的边界域中的信息是不确定的,这些区域的信息往往很重要,研究这些不确定的信息对属性约简有重要作用。针对邻域粗糙集中的边界域模糊的特点,研究了一种基于依赖度和距离函数的邻域粗糙集特征选择方法。首先,基于邻域粗糙集模型描述了邻域依赖度、属性必要性等概念;然后,在邻域决策系统中给出了上下近似集的均值定义,设计了邻域边界域对象相对于上下近似集均值的距离函数,提出了基于邻域粗糙集的特征选择方法,并将其应用于癌症基因数据的特征选择,构建了一种基于依赖度和距离函数的邻域粗糙集特征选择算法;最后,采用不同的分类器对算法进行测试。实验结果表明,该方法是有效可行的。与现有的特征选择方法相比,它具有更好的分类性能,能够有效地处理邻域粗糙集边界域中的不确定信息。(2)针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出了一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建了基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出了EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计了一种EK-medoids聚类和邻域距离的特征选择算法,有效降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。(3)针对蚁群聚类算法收敛速度慢、算法耗时长等特点,研究了一种基于蚁群聚类优化的邻域特征选择算法。首先,在传统的蚁群算法每次循环计算的各个样本到其对应的聚类中心的总的偏离误差的基础上,生成一组随机数来检验误差,找出偏离误差最小的最佳路径,并对原始数据集进行预聚类;然后根据每个聚类的邻域距离,进行特征选择;最后,在所选取的特征子集上重新聚类,验证已选取的特征子集的分类精度。实验结果表明,该算法能够选择出了分类精度较高的特征子集。

其他文献

基于环境风险分析的海洋自然保护区生态补偿研究

随着海岸带经济开发的推进,海洋自然保护区所面临的环境风险日益加大,建立基于环境风险分析的海洋生态补偿理论和实施机制成为必然趋势。但由于海洋生态资源的复杂性和环境风

期刊

环境风险分析海洋生态补偿海洋自然保护区

谈发散性思维在初中语文阅读教学中的运用

发散性思维是素质教育的重要目标和必要要求,也有助于初中生语文阅读理解的学习。本文从三个方面入手,结合相关案例,探讨了发散性思维在初中语文阅读理解中的应用。

期刊

发散性思维初中语文阅读理解运用切入点

沈阳市部分社区慢性阻塞性肺疾病发病情况调查分析

目的了解沈阳社区慢性阻塞性肺疾病(COPD)的流行病学特点及相关危险因素,为COPD的社区防治提供依据。方法以整群、不等比、随机抽样方法,对2003年3月至10月沈阳市东陵区3个社

期刊

肺疾病阻塞性流行病学危险因素

胡允桓《红字》译本误译错译评析

本文从胡允桓的《红字》译本中找出八个误译错译现象,并加以改正。

期刊

《红字》译本

中国部分城市稳定期慢性阻塞性肺疾病治疗现况断面调查

目的评估中国部分城市中稳定期慢性阻塞性肺疾病(COPD)患者治疗用药状况。方法由中国呼吸病专家咨询小组设计调查方案,采取横断面调查,2006年7月至10月在中国6大城市对258名

期刊

慢性阻塞性肺疾病现况调查β2受体拮抗剂

乳腺增生症的彩色多普勒分型与病理组织类型的比较研究

目的:探讨乳腺增生症的彩色多普勒分型及与病理组织类型的关系。方法:对106例乳腺增生症患者的二维图像及彩色血流表现进行了仔细观察,与病理学组织类型进行对比研究。结果:

期刊

乳腺增生彩色多普勒超声病理学

疫情补偿政策对养殖户防控行为影响研究

近些年来,各种动物疫情在全球范围频频发生,防控形势也愈来愈严峻,尤其是禽流感疫情,我国也未能幸免。疫情暴发后,我国政府迅速采取各项防控措施,对紧急控制疫情发挥了重要作

学位

补偿政策疫苗注射禽舍消毒疫情申报扑杀配合

吴肇钟白鹤派拳术研究

白鹤派拳术于上世纪20年代开始在广东流传,广东三水吴肇钟则是首个在广东推行白鹤派拳术的人物,同时吴肇钟还将白鹤派拳术推广至香港、澳门,并在港澳逐渐壮大,成为粤港澳武术发展史中不可缺少的一部分。40年代白鹤派拳术开始向南洋发展,并一直延续至今,1954年港澳武术团体,在澳门举行比武,也即是轰动一时的吴氏太极拳代表吴公仪、白鹤派代表陈克夫的对决,史称“吴陈比武”,这场擂台赛对粤港澳武术的发展具有重要的

学位

体育史吴肇钟白鹤派武术

新疆肺结核空间聚集性及影响因素探讨

检测新疆地区空间上非独立特定属性值的空间相关性及聚集性,比较疾病发病的地区差异,发现疾病传播相关的生态学因素及暴露来源,为病因学分析提供参考.采用空间统计学方法对20

期刊

肺结核探索性空间分析回归模型相关因素

基于邻域粗糙集的特征选择方法研究

其他学术论文