【摘 要】
:
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce
【基金项目】
:
国家自然科学基金资助项目(71371077);佛山市科技计划项目(2015AB004241)
论文部分内容阅读
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后,在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了本文方法的准确性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
目的:探讨彩色多普勒超声对移植肾及其术后并发症监测的临床意义。方法:应用彩色多普勒超声对250例次在我院移植肾患者进行检查,并进行了规律随访。结果:正常组150例次,排斥组100
对中国石化润滑油公司的物流现状及物流管理运营中存在的问题进行了分析,从物流配送差异化管理、属地化生产、运输模式优化、完善存货管理、提高物流服务水平、应用信息化技术
2005年2月~2007年2月,笔者采用中西医结合的方法治疗椎-基底动脉供血不足性眩晕30例。同时,与相同数量单纯用西药治疗的病例进行比较,发现中西医结合的治疗方法疗效更佳,现总结如
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
本文通过对国外审计机构风险评估做法,包括:评估标准、评估流程、评估方法的梳理,总结国外各审计机构风险评估工作体现出的强调风险容忍度、动态评估、后续审查等特点,为进一
目的:回顾性分析羊水过少的病例,探讨羊水过少对围生期结局的影响。方法:收集1999年1月~2007年3月在我院住院治疗的羊水过少孕妇186例为一组,同期我院分娩的羊水量正常孕妇120例作
目的比较腹腔镜经腹腹膜前疝修补术(TAPP)与开放无张力疝修补术(OTFH)治疗成人腹股沟斜疝的效果。方法选择2015-01-2017-02间收治的108例成人腹股沟斜疝患者。根据不同术式分
阐述校企共建共享开放型网络动态资源库的目的和当前存在的问题,以《纺织材料检测》课程为例,建设开放型网络动态资源库,主要形式有校企互惠网络学习平台与开放型网络动态资
汉语是藏区的第二语言,但由于地域的限制,小学藏区学生的书写能力比较薄弱,藏区的小学生本身对汉语言并不是很熟悉,因此在学习汉语言运用方面会遇到更多的问题,本文将主要探