基于概念漂移流数据分类算法研究及其分布式实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:guaiwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、移动互联网的迅猛发展,数据从各处源源不断产生形成海量数据流。数据流是快速、海量、动态变化的数据序列。数据流动态变化、形式多样。这也增加数据流挖掘算法获取正确结果的难度。单机数据流分类算法无法应对海量数据带来的硬件存储挑战。并且算法效率无法满足数据流挖掘的实时性要求。因此如何快速、可靠地处理海量的动态变化数据流成为学术界与工业界关注的研究热点之一。数据流分类算法在工业界中具有广泛应用,例如网络日志分析、信用卡欺诈检测、网络入侵检测。概念漂移即数据流模式随时间推移而变化的现象。该现象是数据流的重要且普遍现象。若算法不及时识别和处理概念漂移,分类性能将不断恶化。但现有基于概念漂移数据流分类算法仅自适应某一类概念漂移,无法及时检测和处理其他类型概念漂移。因此本文针对面向概念漂移的数据流分类算法进行相关研究与实现。大多数据流分类算法仅依靠优化数据结构与算法结构提升算法性能。但这些算法无法应对海量数据流带来的快速计算、硬件数据存储等挑战。通过并行计算、多机器节点存储方式,分布式数据流分类算法解决上述问题。本文对分布式数据流分类算法进行相关研究与实现。本文研究工作主要分为以下三点:1.本文研究贝叶斯推理相关基础内容,论述数据先验分布对于贝叶斯推理的重要性。本文提出基于共轭Dirichlet先验的贝叶斯参数估计方法与相应数据流分类算法,提高了算法分类性能。2.针对数据流分类算法无法适应多种概念漂移的局限性,本文引用新型概念漂移检测算法LFR(Linear Four Rates),并实现相应分布式算法,使得数据流分类算法及时适应概念漂移。3.最后,研究数据流分类算法分布式实现机制,并基于Flink设计数据流分类算法的分布式实现方案。本文根据待分类数据特性选取适用并行方式,并且设计Redis模型参数的数据结构。在人工合成数据集与真实数据集进行实验。相较于现有自适应数据流分类算法,实验结果表明提出的自适应数据流分类算法ADIB(Adaptive Dirichlet Incremental Bayes)可及时检测和适应概念漂移。分布式算法性能实验结果表明,提出的分布式算法可有效减少算法的执行时间、提高算法吞吐量。这也说明了分布式方案的可行性与有效性。
其他文献
油梨(Persea americana)为原产中美洲的重要热带经济果树。油梨是异花授粉植物,其雌蕊和雄蕊开放的时间不同,为雌雄异熟花。因此需要间种互补花型的品种来促进授粉率。Hass是美
通过分析樟林古港的历史与现状,编制了樟林古港整体保护与利用规划,提出了以樟林古港环境整治为核心的保护策略和以突显樟林古港历史文化价值为导向的旅游开发策略,从而延续古港
本文以木薯淀粉为接枝骨架,醋酸乙烯酯为接枝单体,通过引发体系的选择、制备工艺条件的筛选,制备接枝淀粉共聚物。再添加PVA增塑和交联反应处理,考察了PVA用量、交联剂种类及用量
乌奴耳林业局从实际出发,正确认识和把握局情,在思想观念上真正认识到多种经营工作的重要性和紧迫性.实现森林资源采育的良性循环,搞好林业产业结构调整,大力发展非林非木的
不言之教既是老子教育哲学的根本主张,又是向传统教育进行挑战的宣言书,对后世产生了深远的影响,也给现代教育许多启迪
计算是小学数学教学的重要内容,它贯穿小学数学教学的始终,无论是数学概念的形成、数学结论的获得、还是数学问题的解决等都依赖于计算活动的参与。计算教学的优劣会直接影响
行政诉讼是我国的一项基本行政救济制度,是监督和制约行政主体依据法律的精神做出行政行为的重要手段,是关乎社会稳定的重要因素。然而,实践中却存在社会效果无法与法律效果
<正>科学家的名声(reputation)不等于知名度。科学家的名声可以用公式这样表示:科学家的名声=学问+为人。科学家的名声与他所从事的科学研究事业以及个人长远利益息息相关:同
期刊
推销在保险产品的推广过程中具有特殊的地位,其功能是其他方式所无法替代的.但是当前不少保险推销员的推销效果却不尽如人意.表面上看,这似乎是由于推销人员的技能欠缺所造成
河道是水利工程的重要组成部分,河道边坡侵蚀是水利工程常见的工程实际问题。在大中型城市或人口密集的坡段,河道边坡防护一般是采用浆砌石、干砌石或混凝土护坡等工程措施,这样