基于Hadoop的文本特征选择算法的研究

被引量 : 4次 | 上传用户:stephenz2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的迅速发展,数据呈现指数幂级增长。虽然数据量庞大,但是数据杂乱无章,海量数据不能很好的被分类造成潜在的信息不能被挖掘从而使我们面对海量数据有种信息发达知识匮乏的感觉。文本分类作为数据挖掘和信息检索领域的基础,能够对杂乱无章的数据进行合理的分类。文本分类面对较小的数据集分类性能良好,但是面对海量的数据集,传统的用串行方式处理文本分类显得力不从心,传统的并行计算框架运用又太复杂并且得了解底层细节。近几年,开源的分布式平台Hadoop发展迅速,提供了简单的并行编程框架MapReduce和分布式存储系统HDFS,使得海量数据的存储和处理效率越来越高。所以面对海量数据的分类问题,Hadoop的出现为科研工作者带来了新的解决方法,即基于Hadoop研究文本分类的并行化。单机环境下进行文本分类的过程中发现文本分类的各个阶段所使用的方法对最后的文本分类性能有着决定性的影响。尤其是特征选择阶段对文本分类性能影响很大,通常情况下是使用一个评估函数对特征项进行统计评估值排序后选择较大评估值的特征项。通过对常用的几种特征选择评估函数分析,综合考虑类内、类间的关系以及各种影响特征值的因素后,提出了一种新颖的特征选择算法类别相关度(Category Correlation Degree, CCD)。为了检验该方法的性能,实验中使用了两个不同大小的数据集,分别用本文提出的特征选择算法与常用的特征选择算法对数据集进行了特征提取,分类结果显示无论在小的数据集还是大的数据集下本文提出的特征选择算法相较于实验中的几种特征选择算法在文本分类性能方面具有一定的优势。虽然本文提出的CCD方法在文本分类性能方面具有一定的优势,但是,面对大的数据集,该方法还是无法解决时间消耗和空间消耗大这个问题。面对大的数据集,不仅特征选择阶段存在上面遇到的两个问题,文本分类过程中分词、特征权重计算这些阶段同样面对计算量庞大,时间复杂度和空间复杂度高的问题。对于这些问题,本文结合了Hadoop在海量数据存储和处理方面的优势,利用MapReduce的并行编程框架和HDFS分布式存储系统对文本分类的各个阶段实现了并行化编程。最后在并行环境下对同样的数据集进行测试,结果显示相同的数据集在并行环境下不影响分类精度的情况下运行时间远远的小于单机环境。
其他文献
大量互联网新业务和新应用的出现,使愈来愈多的人更加倾向使用手机自带的聊天应用APP免费“传达信息”,甚至还有人喜欢通过APP所带的语音传送功能,连以往惯性使用手机自带的
红枣营养丰富,具有较高的食用、药用价值。红枣及其加工制品也深受消费者的喜爱和欢迎。本论文以陕西榆林清涧大红枣(木枣)为原料,研究了红枣浓缩汁加工中软化、浸提、澄清和
目的:探讨"伏九"中药穴位贴敷对慢性阻塞性肺病(COPD)患者的疗效及作用机制。方法:将80例COPD患者随机分为两组,对照组采用盐酸氨溴索片、舒弗美片口服,万托林气雾剂吸入治疗
压电现象与摩擦起电现象都是非常普遍的、常识性的物理现象,而且发现它们的历史也已经非常悠久了。在现代,压电效应已被广泛应用于传感器、探测器等领域;但摩擦起电则更多的是
背景近年来,我国慢性病的发病率和死亡率呈现快速上升的趋势,慢性病已成为我国目前医疗卫生领域的主要疾病负担。慢性病防治已经不是一个简单的健康问题,而是一个影响经济、
工作权是人的基本权利,人人都应享有工作的权利和机会,残疾人也不例外。我国宪法明确规定“国家和社会帮助安置盲聋哑和其他有残疾的公民的劳动、生活和就业。”2007年5月1日
目的:通过本课题的研究率先了解掌握征兵时间调整后首批夏秋季新兵新训期疾病谱现状,进一步完善武警部队新兵疾病谱构成,丰富新训卫勤保障理论体系;初步探索其影响因素,为各
本文针对神木店塔一级公路建设施工活动引发水土流失的特点和造成的危害,对该项目进行了水土保防治持措施设计,保障了工程建设的顺利进行,主要取得了以下成果:1、线路工程防
目的:总结肩周炎在中西医结合治疗的疗法,为肩周炎的治疗提供一个参考借鉴的价值。方法:对照114例患者给予西医治疗,治疗组114例患者给予中西医结合治疗,比较这两组的治疗结
北方既有居住建筑节能改造是实现国建节能减排战略的重要领域之一。但是其有着投资量大,回收期长,并且外部经济性较强的特点。要想大规模推动我国既有居住建筑节能工作的顺利