【摘 要】
:
针对现代大规模文本文档分类在单机计算机上训练和测试过程计算时间长,本文设计和实现了一种基于MapReduce架构的并行贝叶斯文本分类算法。在用普通PC搭建的Hadoop集群上研究
论文部分内容阅读
针对现代大规模文本文档分类在单机计算机上训练和测试过程计算时间长,本文设计和实现了一种基于MapReduce架构的并行贝叶斯文本分类算法。在用普通PC搭建的Hadoop集群上研究实验,结果表明,基于MapReduce架构的贝叶斯文本自动分类算法处理大规模的文档自动分类时,在保证分类效果的情况下,并能获得接近线性的加速比。
其他文献
在信息时代来临前,纸质方式管理公文档案是人们主要采用的信息管理方式,这种人工管理方式存在的管理效率低下、保密性较差、查找困难等诸多缺点,长期以来一直是管理层头痛的
随着科学技术的日益进步和人类生活水平的不断提高,汽车工业得到了快速的发展,汽车控制的电子化、数字化、智能化程度越来越高,空调、音箱等车载电子设备越来越丰富,与其相对
在欧洲有独特形状、色彩丰富的餐巾纸的市场需求是很大的。这些色彩鲜艳、折叠形状独特的餐巾纸不仅可以给餐桌做美丽的装饰,还可以烘托消费者的就餐氛围,给他们留下美好的消
应用电磁驱动配气机构取代常规发动机中的凸轮驱动配气机构,实现发动机进、排气门开启和关闭时刻、升程及其运动规律随发动机工况独立地、连续地实时优化调节,能够显著提升发
在数字集群接收机性能测试中,误码率是必不可少的一个重要测试指标,而计算误码率时同步点的查找是其关键的一步。本文利用了m序列自相关系数良好的二值特性,将其作为输入信号
文章在犹豫模糊集和三角模糊语言集的基础上,定义了犹豫三角模糊语言集的概念。给出犹豫三角模糊语言的运算法则,研究了两种集结算子。由于现实生活中存在着犹豫三角模糊语言
<正>伴随着新中国的成长,《人民教育》已经走过了65年的历程。对我而言,《人民教育》也已陪伴了我近30年,成为我生命中的"重要他人"。从与教育结缘,每拿到一期《人民教育》,
模型驱动体系结构是面向对象管理组织提出的新的软件开发思想体系。本文以复杂问题简单化、抽象问题形象化为基本原则,以软件项目管理过程可视、可控化为基本目标。首次提出
PIC系列单片机,其硬件结构和指令系统采用了与众不同的设计手法。与51或者其他系列的单片机相比,PIC单片机的中断机制有其特殊之处,本文针对PIC16F87X系列单片机中断的特点,