【摘 要】
:
随着大数据时代的到来,在线数据大幅增加,实时挖掘海量数据流已成为机器学习领域面临的一大挑战。在线学习方法通过对数据的逐条处理,并利用增量式更新模型的方法实现了海量数据的实时处理,受到了研究人员的广泛关注。朴素贝叶斯作为一种在线学习方法,简单高效且有坚实的理论基础,被用来解决数据流分类问题,但当数据流中出现概念漂移时,会严重影响其分类性能。同时,其属性条件独立假设要求在现实应用中通常无法满足。基于以
论文部分内容阅读
随着大数据时代的到来,在线数据大幅增加,实时挖掘海量数据流已成为机器学习领域面临的一大挑战。在线学习方法通过对数据的逐条处理,并利用增量式更新模型的方法实现了海量数据的实时处理,受到了研究人员的广泛关注。朴素贝叶斯作为一种在线学习方法,简单高效且有坚实的理论基础,被用来解决数据流分类问题,但当数据流中出现概念漂移时,会严重影响其分类性能。同时,其属性条件独立假设要求在现实应用中通常无法满足。基于以上问题,本文以朴素贝叶斯算法为基础,做改进研究:(1)为解决分类中特征空间维度过高的问题以及朴素贝叶斯算法属性条件独立假设的不足,提出了一种基于信息论的属性选择分类框架。通过分析Jeffreys散度与贝叶斯分类器Ⅰ型和Ⅱ型错误相关性质,针对Jeffreys散度在多元分布下的局限性,引入衡量多分布差异的Multi-Jeffreys-Hypothesis(MJH)度量,提出基于MJH的选择性朴素贝叶斯分类算法。实验结果表明了算法的良好分类效果与收敛性。(2)针对朴素贝叶斯分类器没有检测与处理概念漂移的机制,无法处理非静止情况下的流式数据分类。本文提出一种基于遗忘机制的加权朴素贝叶斯算法。通过遗忘机制对实例加权,随着时间推移实现权重逐渐衰减,使原本的朴素贝叶斯分类器能自动、迅速地适应数据变化,达到解决概念漂移问题的目的。实验结果证明了该算法的有效性。(3)在概念漂移的情况下,基于历史知识和当前知识存在相关性的假设,分析集成学习方法的优越性,提出基于知识迁移的集成学习算法。通过知识迁移的模式,在提取历史.模型中有用知识的同时,去除其中与最新数据分布不同的知识,得到新的历史模型。将迁移后的历史模型与最新数据所得模型进行加权融合。仿真和真实数据上的实验结果表明了基于知识迁移的集成学习算法能够充分发挥集成学习的优势,有效解决数据流分类中的概念漂移问题。
其他文献
作为学校和教师,我们经常接受学生的感谢和祝福,这是沁入我们心底的幸福。但偶尔听闻个别学生,尤其是刚刚走出校门的学生,流露出对学校和教师的不满,我们往往倍感失望或遗憾
<正>英国是较早采用PPP模式开展基础设施建设的国家,从20世纪70年代末开始,英国对电力、电信、自来水和煤气供应等进行了大规模民营化改革,但考虑到民营化改革的影响和冲击,
目的探讨恶性颅咽管瘤的临床病理特征、诊断及鉴别诊断、治疗及预后。方法回顾性分析1例鞍区原发性恶性颅咽管瘤患者的临床资料、病理形态、免疫表型、BRAF V600E基因突变检
针对现有二元、三元针织和平织铂催化剂存在铂耗高、铂用量大和成本高等问题,通过对氨氧化催化剂系统细化分区,科学合理配置贵金属量、合金比例和丝径,综合考虑氨氧化反应影
<正>2013年2月2日,国务院办公厅颁布了《国民旅游休闲纲要(2013—2020年)》(简称《国民旅游休闲纲要》),随后,各省在《国民旅游休闲纲要》的指导意见下,纷纷出台了本省的实施
<正>本刊讯(记者古春晓)2015年1月12日,中国建筑节能协会被动式建筑联盟成立大会暨第一次全体会议在浙江长兴县朗诗绿色建筑研发基地举行。中国建筑节能协会代理秘书长邹燕青
在建筑工程施工中涉及到的工序相对繁多,如果监理工程师不能及时完整的对工程进行检查,将可能导致不合格产品的出现,从而给建设工程留下质量隐患。因此在建筑工程的施工过程
"模块化"是一种新兴产业结构,在实际应用中是现代产品标准化的延伸和发展。本文通过对油库、加油站模块化施工改造的研究,总结出石油系统模块化施工改造的新方法,以助于解决
中国和俄罗斯有着极深的法律渊源,中国的检察制度就来源于前苏联。2003年,俄罗斯完成了包括民事检察制度在内的司法改革。现今中俄两国又同处于社会的转型时期,面临着许许多
近年来电子商务获得了很大的发展,对于推动我国经济的发展有着重要的作用。本文对中小企业电子商务发展中遇到的问题进行了分析,并在此基础上提出了我国中小企业商务发展的路