【摘 要】
:
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统
【机 构】
:
内蒙古科技大学信息工程学院,内蒙古科技大学经济与管理学院
【基金项目】
:
国家自然科学基金项目(71363040)
论文部分内容阅读
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。
其他文献
樱桃番茄是广西田阳的主导产业。从品种选择、培育壮苗、精耕细作、重施基肥、定植、田间水肥管理、及时插杆整枝、点花授粉及病虫害防治等几个方面总结了樱桃番茄超高产栽培
汽缸的热应力,对汽轮机的运行安全很重要。本文对此进行了试验研究。在试验中,对一台多机汽轮机的汽缸进行了模拟加热,测量了热应力的变化情况。找出某些部位热应力的理论计算值
作为教师,谁都希望自己的课堂高效而富有活力的。但笔者结合听课和调研发现,第一课时在高年级语文常态教学中被忽视,几乎没人去研究,成了被遗忘的角落,随着新课改的不断推进,课堂教
要想更好、更快地提高学生的学习效率以及对政治的热情,教师在课堂上就要激起初中生的学习热情,而不是一味地让学生处于被动的状态中,被动地去接受相关的政治知识。由于初中政治
目的观察甲氨蝶吟(MTx)联合来氟米特(LEF)治疗类风湿关节炎(RA)的临床疗效和安全性。方法选择活动期RA患者64例,随机均分为MTX+LEF组和单用MTX组各32例。两组给予治疗24周后。对两组
针对复杂地面的红外仿真的需求,对地面的红外特性建模和仿真的效果进行了研究。针对复杂的地面场景,预先设置好材质编号和对应材质红外属性之间的映射关系,通过指定材质编号
根据仿生物力学原理,利用在生物力学研究中得到的运动、速度和压力数据,设计研制仿生物力学成鞋耐磨试验机,通过模拟脚穿上鞋在一个磨损面上实际行走进行的试验,测定鞋底磨耗
插图,作为一种直观的视觉信息和教学媒体,是教材内容的有机组成部分,它传递着与教材内容相关的丰富信息,并提供了相关的背景。新目标英语(GO FOR IT!)教材图文并茂,几乎每个语篇都配
一、前言笔者从事华语教学的历程中,在中高级学习者身上观察到一个极为特殊的现象,也就是语感不足。学习者所使用的华语是合乎语法的,但是使用的适切性则与母语人士有段距离。这
目的分析在流通过程中加工环境来源的食源性李斯特菌耐药性及耐药基因携带情况,探讨加工环境对该菌的影响。方法收集2016~2017年分离自加工环境中的71株单核细胞增生性李斯特