基于集成学习的数据流分类算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zj770929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据流在各个应用领域源源不断的产生,如网上购物交易记录、交通流量监测数据和卫星探测数据等。数据流实时到达、连续多变和海量无限等特性使得传统的数据挖掘方法难以保证良好的适用性,因此,如何针对数据流的特性对其进行有效的知识挖掘,已经成为数据挖掘领域的热点和难点之一。集成分类是一种有效的数据流分类方法,该类方法主要思想是建立多个基分类器,然后对基分类器进行集成,同时根据基分类器表现对其进行评价,剔除性能较差的基分类器,实现集成模型的更新,从而提高集成分类模型的性能。基于此,本文主要研究了针对数据流分类中的概念漂移问题和噪音问题的集成分类算法。研究成果如下:首先,介绍了数据流分类的背景和意义、相关工作以及基本理论,对数据流分类中的关键问题和关键技术进行了详尽的分析,对文中用到的集成学习思想进行了理论研究;其次,结合选择性集成思想,提出了一种基于边界最小化测度的数据流选择性集成分类算法,该算法采用边界最小化测度的选择性集成方法,选择准确性及差异性较高的分类器参与集成,实验结果表明,该算法对于概念漂移数据流具有较好的分类性能;最后,提出了一种基于朴素贝叶斯和无监督学习的数据流分类算法。该算法采用集成学习的思想,以朴素贝叶斯作为基分类器进行集成分类,使用谱聚类算法对数据进行聚类,通过对比分类和聚类的结果过滤噪音,同时采用假设检验μ方法检测漂移,动态更新集成分类模型,以适应概念变化。实验结果表明,该算法在时间花销和预测准确率上能够取得较好的效果。
其他文献
记者:今年是“十二五”规划的关键年,又是贵州建设文化旅游发展创新区的起步之年。在您看来,在推进文化旅游发展创新区中,如何解决和协调文化旅游产业相关的传统文化保护、文化
报纸
随着我国经济的迅速发展,非营利组织的数量也有着突飞猛进的增长,社会公众对于非营利组织的财务信息的披露也表现出了急切的了解愿望。然而我国非营利组织的会计核算制度却并
"低碳经济"是以低能耗、低污染为基础的绿色经济,是应对气候变暖的必然选择。畜牧业作为国民经济的基础产业,实施可持续发展的"低碳经济"模式具有重要意义。介绍低碳经济的发展状
一、工艺分析 该零件属带凸缘盒形件,凸缘不在同一平面,带有高度为40.5的斜台阶。 底部R=20,四壁角R=20,相对圆角半径R/B=20/220=0.09,外壳相对高度 First, the process an
多发性骨髓瘤(MM)是骨髓浆细胞恶性疾病。在美国其发病率为3/10万,已超过白血病,仅次于淋巴瘤,居血液恶性疾病的第2位。亚洲的发病率为1/10万,我国尚无完全的统计学资料,估计
随着我国交通事业的不断发展,路桥建设成为经济建设过程中的重要内容,路桥施工企业加强对管理理念和模式的转变,在管理过程中越来越重视员工管理,积极发挥员工的积极性,为路
论述了复杂平面曲线轮廓度评定中需要解决的几个关键问题:理想轮廓曲线数学模型的建立,测头的半径补偿,确定被测轮廓与亏理论轮廓之间的偏差,评定的数学模型的建立,以及评定的方法
建国60年,青年价值观教育的历史发展是一个从"无"到"有"的过程,这一过程是我国经济社会发展的反映,也是教育对社会发展的真实回应和贡献。从新中国成立到改革开放的前30年,是青年
我们运用翻转课堂教学模式,是将学习的决定权从教师那里转移给学生。初中历史教师采用这种教学模式,能够在课堂的宝贵时间里,使学生更专注于学习,让大家共同探究历史问题,从
目的探讨首次脑梗死后患者发生认知功能障碍的相关因素。方法采用CT或MRI确定首次脑梗塞患者282例,所有患者均为右利手。病灶部位:额叶53例,顶叶45例,颞叶50例,枕叶43例,丘脑3