基于粗糙集的特征选择高效算法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:flscut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指使用一定的机器学习算法从获取到的大规模数据中发现有用信息的过程,是人工智能领域中一个重要的研究方向。目前,随着网络技术与database技术的日渐成熟,各行各业中获得到的信息正呈现着指数级的增长态势,尤其在大数据背景下,数据集的规模和高维度为传统的数据挖掘技术带来了前所未有的挑战,探索高效可行的数据挖掘技术已成为一个亟待解决的关键问题。特征选择是数据挖掘中一种常用的数据预处理技术,探索面向大规模数据集的更为高效的特征选择处理技巧,也已经成为特征选择研究中一个研究热点和难点。为此,本文以粗糙集理论为背景,针对面向大规模数据集的高效特征选择进行了分析和研究,并取得了以下的研究成果:1、通过借鉴粗糙集理论中的部分核心概念,基于信息熵理论,提出了一种面向数据集中数据取值动态更新的特征选择算法,可一次处理一组取值发生变化的数据.该算法中通过分析并证明互补信息熵随数据取值动态更新的变化机理,并借鉴了粗糙集理论中属性约简的求解策略,设计了一种基于互补熵的高效特征选择算法。实验分析和结果进一步验证了该算法的有效性。2、面向数据挖掘中“少量标记问题”,借助于半监督学习的思想,提出了一种基于聚类假设的半监督特征选择算法.算法利用有标记数据作为种子,采用聚类算法对未标记数据进行聚类并赋标签,选取每一类无标签数据中的部分数据作为无标签数据代表与原有标记数据组成新的数据集,以信息熵作为特征重要度的度量,给出了基于聚类假设的半监督粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.本文通过分析大数据背景下,现有特征选择技巧处理大规模高维数据集的局限性,以粗糙集理论为背景,提出了一种面向动态数据集的高效特征选择算法和一种面向少量标记数据集的半监督特征选择算法。相关的理论证明和实验结果分析也都表明了本文中新算法的可行性和高效性。因此,本文的主要研究内容和成果为面向大规模数据集的降维技术提供了可以借鉴的处理技巧和新思路。
其他文献
人们对食品包装要求的不断提高,是包装业不断发展的主要原动力.自从有了食品,也就有了包装.但真正意义上的食品包装,应该从食品的罐贮藏开始.
目的观察小儿豉翘清热颗粒联合雾化吸入治疗门诊小儿急性支气管炎疗效。方法选小儿急性支气管炎门诊患儿64例随机分为两组:其中观察组32例,口服头孢克洛颗粒、小儿豉翘清热颗
1案例1.1简要案情某男,50岁,某日因头晕、恶心到医院就诊。经检查,予以静脉滴注丹参川芎嗪后好转。第二天,患者到个体诊所要求继续治疗,医生先后予以丹参川芎嗪注射液100mL、
美国真人动画电影的发展经历了"二维"和"三维"两个阶段,近年来美国真人动画电影更多地采用CG技术,使真人演员与动画形象的融合程度进一步提升,美国真人动画电影对"虚拟"与"现
我国柠檬酸发酵水平处国际先进水平,而其下游工程仍沿用“钙盐法”工艺,不仅提取收率低,能耗大,而且自动化,连续化程度差,劳动强度大。并产生大量的硫酸钙废渣,污染环境,严重
本文主要通过介绍郁证的概念,郁证的病因病机,增加读者对于郁证的了解,同时通过针药结合治疗郁证及其伴随症状,分析郁证的治疗思路,为临床治疗郁证提供借鉴。
据台湾《经济日报》报道,由于中国大陆转口市场需求转旺及台湾岛内原料供应充足,台湾加工丝1993年的产销几乎都达70万公吨,比上年增长16%以上。成为去年纺织业不景气中的大赢
目的 探讨如何通过进行情感陪护和交流,对患有老年病的患者进行心理护理,使患者拥有一个平和健康的心态,积极配合治疗。方法 根据内科因老年病住院的患者特点,了解患者在治疗
目前区域医疗远程诊治服务模式发展迅速并具有光明的发展前景,它不仅可以有效节约患者的经济花费,缩短患者的治疗时间,提升患者的诊治效果;而且可以有效缓解国内医疗资源分配
目的探讨磁共振扩散加权成像(DWI)与磁共振波谱分析(MRS)联合诊断前列腺癌的价值。方法选取本院收治前列腺癌疑似患者60例作为研究对象,均在确诊前接受DWI与MRS检查。结果 60