海量数据挖掘中的分类方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:gyf2033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是信息获取的重要手段,而分类在数据挖掘领域占有及其重要的地位。尤其近年来随着信息化时代的发展,数据规模不断增大,使得数据分类面临更加严峻的挑战。在海量数据中挖掘出足够有效信息的同时还需要保证较高的准确率,是数据分类研究中亟需解决的重要问题。在这种背景下,本论文针对算法准确率的提升和海量数据集的处理两大问题,以Hadoop平台和贝叶斯原理为基础,对海量数据挖掘中的分类方法展开研究,提出一种面向海量数据处理的改进贝叶斯分类算法。主要内容有:首先,研究了Hadoop平台的结构和分布式系统的构建,采用完全分布式的方式构建了基于Hadoop平台的分布式处理系统,并进行了测试;研究了朴素贝叶斯分类算法的原理和特点,针对本论文要解决的问题,给出了基于朴素贝叶斯算法的改进思想和具体方案。其次,为避免处理海量数据集时特征过多对特征关联计算效率的影响,围绕特征粗聚类,对最近邻优先吸收聚类方法和Canopy聚类算法展开研究,提出了基于最近邻优先吸收的改进特征粗聚类算法,并对其进行Map Reduce并行化实现,采用三组聚类数据集测试了改进算法的聚类效果;为了提高分类的准确率,围绕特征筛选和特征加权,对关联规则算法展开研究,对粗聚类子集进行类频繁项集挖掘,将生成的类频繁项集进行基于分类结果的特征筛选,并对特征筛选后的特征集进行特征加权,带入特征加权的贝叶斯公式进行计算,进而提出一种基于关联规则的类频繁项集挖掘方法,并采用三个数据集对其分类效果进行了测试。再次,针对大数据集的处理问题,实现了改进朴素贝叶斯分类算法的Map Reduce并行化。采用不同规模(不同特征数量和不同大小)的数据集对改进算法进行测试,并与传统的朴素贝叶斯算法和不同类变量下属性聚类的朴素贝叶斯分类算法进行对比。实验结果充分显示了本论文提出的面向海量数据处理的改进贝叶斯分类算法在提高准确率和处理海量数据方面的优势。最后,总结了本文的主要工作和创新,并进行了展望。
其他文献
<正> 法国巴黎罗浮尔宫以收藏艺术品而闻名于世,罗浮尔宫以此也被世人称誉为"金色的监狱"。在这"金色监狱"终生服役的有30万件艺术珍品,其中很多都是传世的精品。在这30万件
以氢氧化镁和草酸为原料,通过控制实验条件制得纳米氧化镁.研究聚乙烯醇(PVA)、聚乙二醇-400,十二烷基硫酸钠和烷基磷酸酯钾盐等分散剂对氧化镁产品粒径的影响,通过X射线衍射(XR
20世纪90年代以后,诸多国家中央银行逐渐由数量型货币政策调控框架转向价格型调控货币政策调控框架并实施了利率走廊调控模式。本文通过对九个样本经济体的利率走廊操作模式
目的:观察复方沙棘黄精颗粒联合抗痨西药治疗耐药肺结核的临床疗效。方法:将45例耐药肺结核患者采用随机数字表法随机分为两组。对照组20例给予抗痨西药口服。治疗组25例在对
为了拓展流畅体验的研究成果,探索流畅体验的现实作用。本文采用文献资料法,对流畅体验概念及特征、模型演变、产生条件、影响因素等进行分析。研究表明:流畅体验的研究可以
目的从中医运气学的角度探讨住院精神分裂症患者先天运气禀赋特征,为揭示精神分裂症的病因病机提供思路,为临床治疗提供参考。方法对首都医科大学附属北京安定医院11996例住
当植物吸收过量光能时会产生光抑制,引起光合器官的破坏,甚至导致植物死亡。叶黄素循环是植物应对过量光能时主要的光保护机制,可以有效清除并阻止有害副产物三线态的叶绿素
再审制度可谓是正义实现的最后一道屏障,其设置的初衷是纠正已生效裁判中的错误。但是一旦对生效判决重新审理,就会损害已经形成的既判力,同时也极有可能侵犯被告人的权益。
高职院校科研管理对科研工作起宏观引导和调控作用。目前高职院校科研管理存在的问题是目标单一且不明确,科研管理政策缺乏特色,科研管理工作注重形式和表面化,可以通过创新
针对洱海富营养化问题,本文在深入分析洱海流域营养物输运转移特征的基础上,应用VENSIM-DSS构建了洱海流域的社会、经济、技术、环境SD耦合模型.模型由7个子系统组成,确定了