粗糙数据建模与高效算法

来源 :山西大学 | 被引量 : 0次 | 上传用户:wangzhao0922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论作为基于粒化机理的数据建模中的一个重要模型,在智能信息研究领域中有着广泛的应用,通常可用来进行特征选择和规则提取.复杂数据的信息粒化是粗糙集数据建模的前提,是信息预处理的关键步骤.聚类分析是数据挖掘中一类重要的无监督学习方法,目前已被有效应用于复杂数据的信息粒化中,并已经取得了可观的研究成果.目前,基于聚类分析,针对符号型数据的信息粒化方法也已经成为一个重要的研究热点,引起了众多研究者的关注.但是,如何把现有的高效稳定的数值型聚类分析技术应用到符号型数据中,获取更为有效可行的面向符号型数据的信息粒化方法,仍是聚类分析中一类亟待解决的热点问题.
  粗糙集理论中,概念近似和属性约简是其两个关键问题.随着近年来网络技术、数据库技术及传感器技术的飞速发展,包含多种数据类型的复杂数据从各种信息源上持续不断地产生,这使得数据集规模呈指数级增长,不仅体现在数据集中对象数量的增长,也体现在特征数量的增长上.海量高维的大规模数据给传统的粗糙集理论框架带来了巨大挑战,如大数据中标注的极弱监督性、算法的计算低效性、约简的过度拟合性等.因此,迫切需要发展可适应大数据背景的新的粗糙建模理论与方法.
  本文针对采用传统粗糙集理论框架解决实际任务时遇到的问题进行了详细分析,从信息粒化、特征选择、数据建模等方面进行了深入研究,并提出相应的解决方案.通过在UCI数据集和人工数据集上的大量实验,验证了所提出解决方案的有效性和高效性.本文主要的研究成果如下:
  一、针对复杂数据的信息粒化方法进行了深入研究,揭示了符号型数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础.
  提出了一种基于空间结构的符号数据仿射传播算法(SBAP).现有算法中k-modes型算法虽然能处理符号型数据聚类问题,但是由于这些算法未能利用到符号型数据的空间结构信息,聚类性能方面略有不足.而现有的数值型聚类算法虽然稳定有效,但是应用在符号数据上时聚类效果很不理想.AffinityPropagation(AP)聚类算法就是一种稳定有效的数值数据聚类算法,其聚类结果依赖于任意两个样本之间的初始相似性测度.为了能把经典AP算法迁移到符号型数据聚类问题上来,本文引入了一种新的基于空间结构的符号型数据表示方法,这种方法可以把原始符号型数据映射到一个新维度的欧氏空间上,得到一个包含原始符号型数据集结构特征的数值型数据集.通过在符号型UCI数据集上进行大量实验,结果表明,SBAP算法能够对符号型数据进行高效聚类,其聚类性能相比于k-modes型算法有显著提高.
  二、针对特征选择方法进行深入研究,揭示粗糙集理论中特征选择机理,找出影响特征选择计算性能的关键因素,提出了新的加速框架及算法.
  提出了一种基于正向近似的特征选择加速框架,可用于加速启发式属性约简算法.基于该框架,提出了一种改进的启发式特征选择算法(FSPA).对粗糙集理论中的几种典型启发式属性约简算法进行了改进.传统的启发式属性约简算法是在固定的论域中进行重要属性的选取,而被加速的属性约简算法会随着属性的增加而删除协调的数据部分,不断减少论域,从而降低了计算耗时,提高了计算效率.在UCI数据集上的实验研究表明,改进后的算法明显减少了属性约简的计算时间.理论分析和实验结果进一步表明,基于正向近似的属性约简是一种有效的加速器,可以高效地获得属性约简.并且随着数据集规模的增大,加速算法的高效性更明显.因此,上述加速算法为高效地处理海量高维的大数据提供了可以借鉴的新途径.
  三、针对大数据背景下粗糙集理论框架面临的挑战进行深入研究,探索了采用粗糙集理论框架计算近似及约简时的机理,找出了影响其计算性能的关键因素,提出了新的粗糙集理论框架及算法.
  为了解决基于传统粗糙集理论在处理极弱标注大数据时所面临的挑战,针对如何对符号型极弱标注大数据进行高效处理的问题,发展了一种称为局部粗糙集(LRS)理论框架,针对如何对数值型极弱标注大数据进行高效处理的问题,拓展了一种称为局部邻域粗糙集(LNRS)理论框架,并对两个理论框架中相应的重要性质进行了分析和证明.基于以上两个框架,提出了用于计算目标概念/决策的局部下近似的算法和用于搜索目标概念/决策的局部属性约简的算法,这些算法均为线性的时间复杂度.文中使用UCI数据集和人工数据集对上述算法的性能进行了验证.实验结果表明,提出的局部粗糙集模型及局部邻域粗糙集模型中的算法显著提高了传统粗糙集的计算性能.尤其是在对极弱标注大数据处理时,计算性能的提高变得更为明显.因此,局部粗糙集与局部邻域粗糙集是对符号型及数值型极弱标注大数据进行粗糙数据分析的高效可行的解决方案,可为大数据挖掘提供新的理论分析和支撑.
  综上所述,本文从信息粒化、特征选择、数据建模等方面进行了深入研究,发展了新的理论框架,设计了新的数据模型,并提出了新的算法.大量实验证明,新的解决方案中所有算法的计算性能均明显优于传统粗糙集中的相应算法.尤其对大规模数据集,算法时间复杂度可近似降为线性的.上述研究成果丰富了粗糙集理论中的模型与方法,有望加快相应领域的研究进展.
其他文献
RNAi(RNA interference)是dsRNA介导的一种转录后基因沉默现象,RNAi技术自发现以来已被广泛应用于基因功能的研究,近年来国际上普遍认为基于RNAi的害虫防治技术在植物保护领域具有潜在的应用价值。然而,昆虫RNA干扰效率的差异在很大程度上制约着这一技术在害虫控制中的应用。影响RNAi效率的因素有很多,dsRNA在血淋巴和中肠液中的稳定性是影响RNAi效率最关键的因素。本文重点
学位
目的:核糖体合成调节蛋白1(human regulator of ribosome synthesis 1, RRS1)是参与核糖体生物合成的重要蛋白,其主要功能是招募5SRNP的各组分(RPL11、RPL5及5sRNA)进入初期核糖体,参与Pre-rRNA的加工并调控核糖体的生物合成,与人类疾病的发生、发展密切相关。近年来,RRS1在肿瘤中的作用日益受到关注。乳腺癌是目前全球女性发病率最高的恶性
学位
中心体作为动物细胞一种重要的细胞器及主要的微管组织中心,其在细胞中的数目较稳定:间期一个分裂期两个。中心体在细胞间期和分裂期担负的作用不同:细胞间期中心体对于维持细胞的极性、细胞形态及细胞的运动至关重要;分裂期主要参与分裂极的形成以保证遗传物质准确分配到子代细胞中。中心体畸变尤其中心体数目扩增(中心体扩增)对细胞正常生命活动影响巨大,往往会导致细胞分裂无法正常进行,进而导致染色体无法正常分配到子代
学位
灰胸薮鹛(Liocichlaomeiensis)是我国特有珍稀鸟类,仅偶见于我国四川省中南部和云南省东北部的少数山区森林中,因种群数量稀少、分布区狭窄和生境破碎化严重被IUCN列为全球性易危(Vulnerable)物种。为加深对该物种的认识,本论文自2016年至2017年,在四川老君山国家级自然保护区、四川省峨眉山风景区和四川省瓦屋山自然保护区,对灰胸薮鹛的鸣声和活动区进行了初步研究。主要结果如下
学位
本文以树麻雀(Passermontanus)为对象,通过研究四川盆地内、外种群形态特征差异与遗传结构,探讨四川盆地的陆地岛屿效应。我们测量了分布于四川盆地及周边地区的558只成年树麻雀的7个形态特征并对其与海拔、纬度的相关性进行了分析,结果显示:  (1)按照地理区位划分的四川盆地北部、西部、东南部以及四川盆地内等多个树麻雀种群在体质量(P<0.05)、翅长(P<0.01)有极显著差异,跗跖(P<
学位
花臭蛙(Odorranaschmackeri)隶属蛙科(ranidae)、臭蛙属(Odorrana),是中国臭蛙属中分布最广泛的物种。该物种在皖南与凹耳臭蛙、武夷湍蛙、大绿臭蛙等物种同域分布。为比较分析小尺度地理格局中,不同物种对景观及其变化的响应策略。本实验利用线粒体Cytb基因作为分子标记,对皖南花臭蛙6个局域种群132个样本的遗传变异初步研究,并将研究结果与同域分布的其它蛙类进行比较分析,探
学位
世界屋脊青藏高原是全球生物多样性热点地区之一,对该地区的植物适应性进化和资源可持续利用研究至关重要。而最近发现的模式植物西藏生态型拟南芥(Arabidopsisthaliana(Tibet-0))被证明是一个较为古老和分布海拔最高的拟南芥生态型,作为植物学研究体系最成熟的模式植物,西藏拟南芥的发现将为青藏高原地区的植物表型适应性以及分子进化机制研究提供一个新的模式系统和参照。另外,精油作为植物响应
学位
涡虫是扁形动物门的代表动物,在生物的进化历程中占据着重要的地位,因为其强大的再生能力,已经成为研究发育、进化、再生与免疫的重要模式动物。肌球蛋白是一种多功能的球类蛋白,作为细胞骨架的重要组成成分,主要功能是为细胞的各种生理活动提供所需的力。肌球蛋白调节型轻链(regulativelightchainofmyosin)对肌球蛋白的活性具有调节作用。本文克隆了东亚三角涡虫(Dugesiajaponic
Wolbachia是一种广泛感染节肢动物的胞内共生细菌,其主要分布于昆虫的生殖系统和神经系统。前期研究主要集中在Wolbachia感染对宿主生殖系统的影响,研究发现Wolbachia能够通过多种机制调节宿主的生殖方式,如细胞质不亲和(cytoplasmic incompatibility,CI)、孤雌生殖、雌性化和杀雄等,这些方式能增加其在雌性宿主种群中感染频率,利于自身从宿主母体到子代的传播。然
开发大型、高效、清洁、投资低等性能的超临界和超超临界燃煤机组是解决我国电力短缺、能源利用率低和环境污染严重的最现实、最有效的途径之一。利用数值模拟来研究锅炉燃烧和NOx生成过程,研究低NOx燃烧技术,用来指导实际工程和设计,已经得到了广泛的关注和应用。本文采用商业软件FLUENT对国产首台超临界华能沁北600MW锅炉进行了炉内流动、传热、燃烧和NOx生成过程数值模拟研究,得出了炉内烟气温度场、速度