【摘 要】
:
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce
【基金项目】
:
国家自然科学基金资助项目(71371077);佛山市科技计划项目(2015AB004241)
论文部分内容阅读
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后,在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了本文方法的准确性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
对中国石化润滑油公司的物流现状及物流管理运营中存在的问题进行了分析,从物流配送差异化管理、属地化生产、运输模式优化、完善存货管理、提高物流服务水平、应用信息化技术
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
本文通过对国外审计机构风险评估做法,包括:评估标准、评估流程、评估方法的梳理,总结国外各审计机构风险评估工作体现出的强调风险容忍度、动态评估、后续审查等特点,为进一
目的比较腹腔镜经腹腹膜前疝修补术(TAPP)与开放无张力疝修补术(OTFH)治疗成人腹股沟斜疝的效果。方法选择2015-01-2017-02间收治的108例成人腹股沟斜疝患者。根据不同术式分
阐述校企共建共享开放型网络动态资源库的目的和当前存在的问题,以《纺织材料检测》课程为例,建设开放型网络动态资源库,主要形式有校企互惠网络学习平台与开放型网络动态资