【摘 要】
:
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是
论文部分内容阅读
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是相同的,同时对于大数据集的处理也存在性能低下的缺点。针对如上问题,本文提出了一种基于TFIDFCF特征加权的并行化朴素贝叶斯文本分类算法,该算法通过Map Reduce并行框架实现。利用THUCNews新闻文本数据开展文本分类处理,实验结果表明,并行框架下的TFIDFCF特征加权的朴素贝叶斯算法在训练速度和预测精度上都有提高。
其他文献
核电厂设施是由构筑物、管系、设备和部件(SSCs)等组成的十分复杂的系统,抗震I类设施的抗震设计分析是在安全停堆地震(SSE)设计基准事故下确保核电厂安全的重要措施之一。为了将
随着汉语学习者对专业语言训练的要求,商务汉语教学日益升温,商务汉语教材和教材编写研究得到更加重视。现成的商务汉语教材大多数由中国大陆编写,但使用过程中发现存在一些
随着教育体制的变革,学生的学习负担也越来越重。这在很大程度上降低了学生参与体育锻炼的时间,导致学生身体素质普遍下降。新课程标准提倡的是学生综合素质的发展,而身体素
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
高职院校传统的人才培养模式已经不能满足社会发展需求。本文分析了现代学徒制人才培养模式的特点和司法信息安全专业人才的需求现状,从人才培养方案、实验实训基地建设、师
文章论述了景观色彩设计在传统商业氛围营造中的作用,分析了色彩设计对建筑环境的影响,并结合实例探讨营造传统商业街氛围应充分考虑景观色彩的各个要素,合理地应用色彩,提高建筑
中国政企公有云市场高速增长,云网一体化成为ICT提供云服务的必备能力。企业对ICT的普遍需求是云网一站式的敏捷服务,要求ICT具备云网一站式服务、丰富企业应用服务、线上服
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
管道的原位固化修复,是通过气压或者水压的作用,将浸有树脂的软管翻转或拉入,内衬于管道内侧,采用加热方式固化。在修复施工过程中,由于水压或者气压的作用,软管要承受比较复
在长距输水工程中往往会出现由于突然断电停泵而造成的水锤事故。以某长距离加压输水系统为研究对象,基于特征线法对其分别采用空气阀、空气罐以及将空气阀与空气罐结合的3种