【摘 要】
:
随着大数据时代的到来,企业越来越重视数据的价值,收集数据,建立自己的数据仓库,通过对数据的处理获得有效的决策支持,为企业带来可观的利益。但随着数据量的不断增加,数据的
论文部分内容阅读
随着大数据时代的到来,企业越来越重视数据的价值,收集数据,建立自己的数据仓库,通过对数据的处理获得有效的决策支持,为企业带来可观的利益。但随着数据量的不断增加,数据的处理成本也在不断提高,而且对于数据的处理越来越注重时效性,太长的处理过程会减少数据的价值。因此,怎样能够在海量的数据中快速高效的获取知识成为了当前研究的一个热点。邻域粗糙集作为对传统粗糙集的延伸,弥补了传统粗糙集只能对离散数据进行处理的弊端,直接对连续数据进行处理,减少了因为数据离散化所带来的数据失真。但也因此带来了计算量偏大,处理时间偏长的问题。因此,为了使得信息的处理更有效率,本文将以粗糙集的理论知识为基础,从减少时间开销方面进行改进,并将其应用到分类器中。因此,本文主要做了以下几点:(1)分析现有属性约简算法,针对计算量偏大的不足,提出一种改进的投票式属性重要度定义。然后进一步提出了一种新的基于投票式的属性重要度的快速属性约简算法。该算法重新定义了对于属性重要度的求解,减少求解属性重要度的时间。经过对多个数据集的实验验证,该算法在减少计算时间,提高计算效率方面是有效的。(2)分析现有的分类算法的研究现状,从中选择ID3算法作为改进算法,提出基于投票式属性重要度的决策树算法。通过将投票式属性重要度作为分类节点的选择标准,设置?置信度控制决策树的规模。经过对多个数据集的实验验证,该算法在分类精度的提高以及决策树的规模控制方面均有所提高。(3)最后,对论文所提出的算法进行总结。
其他文献
<正> 目前,我国大多数病毒性肝炎患者集中在全国各级各类传染病医院或综合医院肝炎门诊接受西医和中西医结合治疗。面对病毒性肝炎尚未有准确的中西医病名相对应,面对中西医
将河口坝划分为单一河口坝和叠置河口坝2种类型,建立了不同厚度、不同渗透率、不同夹层频率、不同注采条件等共计18个概念模型,并数值模拟至模型极限含水。通过对数值模拟结
本文介绍了广州东莞地区0.9M分布式屋顶光伏并网发电项目的实例工程设计方案,通过光伏发电原理的介绍,并结合东莞地区的地理和气象条件分析,对屋顶光伏发电系统构成、项目设
本文结合企业举办培训和参加培训的经验教训,从领导重视培训,注重培训的针对性和实效性,将学员层次详细细分采用不同的教学模式,合理安排时间和地点,完善培训机制等方面,探讨
建立了电感耦合等离子体质谱法(ICP-MS)测定铀化合物中的锰、镍、铜、铝和镁等5个杂质元素的方法。将样品和铀化合物标准物质消解后,通过配置一系列不同铀含量的工作曲线,将
埋地钢质管道的腐蚀与防护状态受多种因素的综合影响.文章通过多因子综合分析与评价方法的探讨,借助干以往的管道腐蚀案例,寻找各种因素的权重系数.以确定单个因索对总体性质
在各级政府以及机构面临新的舆论生态的情况下,政务微博应运而生。微博“粉丝”关系政务微博的生存发展,特别是影响力的提升。如何增加“粉丝”量尤其是真实、质优的“粉丝”
传统出版向数字出版的转型升级,是一个系统工程,需要进行顶层系统设计。出版机构在进行转型升级顶层设计时,需要把握的核心问题有:认识数字出版时代出版机构的根本任务,面临的最大
品德学科教师应注重以生为本,让孩子学会合作。让分工合作,各司其职;顺学而导,实践探究;方式多变,呵护兴趣;有效评价,促进发展。四大系统。助学生在合作学习中健康快乐地成长。
随着市场经济的加速发展,保护消费者权益成为越来越受关注的问题之一。由于中国在这方面起步较晚,所以应汲取西方发达国家的经验,进一步完善我国消费者权益保护的政策体系。