【摘 要】
:
信息爆炸时代,数据挖掘过程中常常会因为处理大规模数据而遇到一系列挑战。而数据量大的原因不外乎样本基数大或者数据的属性维数过高两个原因,样本是非常宝贵的数据资源,不
论文部分内容阅读
信息爆炸时代,数据挖掘过程中常常会因为处理大规模数据而遇到一系列挑战。而数据量大的原因不外乎样本基数大或者数据的属性维数过高两个原因,样本是非常宝贵的数据资源,不能轻易丢弃,所以人们往往在不严重影响挖掘结果的前提下,会考虑对属性进行选择与降维,这也是数据挖掘前必要的数据预处理步骤。基于粗糙集的属性约简是一种常用的降维手段,它能高效利用数据自身信息来降维,降维过程不需要人的经验知识,如不用设定阈值,而阈值的设定往往因人而异,这会导致数据挖掘的结果大相径庭。针对大多现有的约简算法在面对高维数据时存在计算复杂度高的问题,本文充分研究了高维数据的特点,从改进计算方法和约简流程两个方面展开研究。具体研究内容包括:1.针对基于正域的约简算法,分别从提高正域计算速度与改变约简流程两个角度对现有算法进行了优化。首先利用多进程技术,提出一种并行计算正域的方案,加快对每个属性可约性的判断。其次根据二分搜索思想,提出了一种二分约简算法,该算法可以先快速得到一个近似约简,然后结合已有的算法可以得到最终的约简结果。最后将粒计算思想引入到对约简流程的修改中,给出了多粒度属性树的定义,基于多粒度属性树设计了前序遍历约简算法。实验结果表明该算法在面对高维数据时能更高效地得到约简结果。2.为了验证本文提出方法的实用性,将前序遍历约简算法与实际结合,开发了新闻分类系统。新闻分类系统包括新闻采集、数据预处理、新闻分类、新闻展示四个流程。其中,因为数据维数高,数据预处理过程缓慢,并且每篇新闻分类的时间较长。因此,本文利用前序遍历约简算法对高维的新闻决策表进行降维,有效减少了后续数据处理的计算代价,提高了系统的工作效率。
其他文献
随着我国经济不断发展,政策性银行在经济发展的大浪潮中,经营活动更加多元化,经营环境更加复杂化,自上而下提出全面风险管理.面对操作风险、市场风险、信用风险,其诱发因素是
【目的】茶尺蠖是茶园中的重要害虫。研究茶尺蠖寄主食物-肠道菌群-茶尺蠖生长发育三者之间的关系对于茶尺蠖的防治具有重要的理论指导价值。【方法】分析不添加茶叶因子的纯
数学游戏是集知识性、趣味性和娱乐性于一体的,承载数学相关知识的一种载体。在数学教学中,将数学游戏灵活运用到课堂教学中,不仅有助于开拓学生的思维,还能够激发学生内心的求知
在现代企业管理中,管理会计已经成为强化内部管理的重要工具,企业要构建起完善的管理会计体系,保障企业战略目标的稳步实现。本文从管理会计体系、管理会计信息和管理会计队
在平时的钢琴伴奏实践中,对于带有中国民族五声调性与风格的歌曲,有相当一部分演奏者仍然机械地套用大小调功能和声理论,从而导致伴奏的效果与歌曲风格大相径庭。如何把握钢
2015年5月10日,由景德镇学院、景德镇市文化广电新闻出版局主办,景德镇美术馆承办,景德镇陶瓷学院、景德镇市文学艺术界联合会、景德镇市美术家协会、景德镇市华艺拍卖有限公
《落花生》是一篇散文名作,因其简单精当的语言、精致的布局及深远的旨趣而受到众多读者的赞美。本文以语言学家维索尔伦所提出的顺应论为理论依据,从语言结构、语境因素、动
目的应用FOCUS-PDCA模式对内镜清洗消毒过程中存在的问题进行查找,同时制定有效的方法提高内镜消毒质量。方法在对软镜内镜进行清洗消毒的过程中应用FOCUS-PDCA模式,找寻导致
第一次见到沈志均的押花葫芦,就为其押花葫芦的艺术魅力所折服,这些造型看似简单的葫芦,大可掌握,小不盈寸,因作者赋予了线条、图案,竞在有机质之外,别具灵动的生命。葫芦器
在大亚湾核电站严重事故计算分析结果的基础上,对全厂断电诱发的典型的严重事故序列及缓解对策进行了分析。结果表明,全厂断电事故发生后,大约1~2h堆芯上部会裸露,压力容器在5