基于SPARK的中文文本特征提取及分类方法研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:kitwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化中文文本信息的爆发式增长,如何快速有效地挖掘这些数据背后的价值已经成为摆在人们面前的一个挑战。中文文本分类是中文文本处理和分析的关键技术之一,可以帮助人们解决信息杂乱的问题。而当数据规模比较大时,单机版的分类处理会出现存储和计算速度的瓶颈。针对这个问题,可以借助于目前的分布式存储和分布式计算技术来解决。HDFS是Hadoop的核心模块之一,作为一个分布式文件系统可以很好的满足分布式存储的需要。Spark是MapReduce的继承者,最大的特点就是就是利用内存进行计算,因而比MapReduce更快。本文在中文文本特征提取及分类方法的工作主要如下:(1)提出新的文本特征选择方法,并与传统的特征选择方法做对比。该特征选择方法综合考虑词在类内和类间的文档频率分布情况,并运用统计学中的方差思想,刻画词在文本分类中的重要程度从而进行词的筛选。(2)研究了基于文档类别向量分布的文本特征表示方法和基于选举思想的文本分类方法。文本特征表示一般采用向量空间模型,在经典的文本特征表示方法中,文档向量的一个元素对应于该文档中一个词项。而在本文研究的方法中,文档向量的一个元素对应于该文档属于某一类别的概率估计。为了得到其中的概率估计,本文探索了两种方法,一种方法是基于朴素贝叶斯,另一种方法是基于选举的思想。不像朴素贝叶斯方法存在着独立性假设,基于选举思想的文本分类方法仅仅把词视作选民,由它们投票决定文档属于哪个类别及其类别向量分布。对于训练集中的每个词而言,通过统计分析,可以获得它们属于各个类别的概率估计。这种概率估计可以视作是一个词投给各个类别的选票。本文类比朴素贝叶斯的两种文本分类模型BIM和MM,提出了两种选举策略,此外还考虑了每个词具有不同投票权重的情形。最后,利用以上思路改进基于LDA的文本分类方法。在传统的方式中,LDA获取测试集的主题向量分布是通过Gibbs Sampling,存在速度慢的问题。本文探索了基于选举思想的测试集主题向量分布获取,并通过相同的方法重新获取训练集的主题向量分布,最后再用分类器进行分类,在速度和分类效果上都有提升。(3)在HDFS和Spark平台上,利用MLlib算法组件,分别实现了在新闻和微博语料库上分类效果最好的方法。
其他文献
弘扬古丝路文明先进文化,建设丝绸之路经济带现代生态文明,是协调丝路开发与生态环境保护关系的必然选择。本文在分析丝绸之路经济带生态环境格局的基础上,总结了丝绸之路经
随着新课标的颁布与实施,在小学语文课堂中加强写字教学成为热议的主题。文章从小学中年级语文课堂中写字教学的现状与存在问题入手,围绕如何进行10分钟写字教学,以及如何提
深圳证券市场的发展已初具规模,要办成亚太第一流交易所还需不断做出艰苦的努力。其中走出去、展示自己的形象是重要的一步。近来深交所领导亲自带队,分赴全国各地,实地考察
通过分析当前我国节能建筑现状和低碳经济发展战略,论述了我国发展绿色建筑的必要性和迫切性,并从政策和技术方面探讨我国发展绿色建筑的方式和途径。
周公是研究中国古代思想文化及中华文明史上重要的关键的历史人物。上世纪八、九十年代学术界对周公的研究主要围绕周公摄政称王这一热点问题而展开的。进入二十一世纪以来,
纵观三十年改革发展,随着一、二、三产业结构不断调整,大量农村劳动力涌向二三产业。人们普遍认为,农村劳动力适度转移亦应有利于提高农业生产效率。但事实证明,农村劳动力外
目的:通过应用Axsym全自动免疫发光检测仪检测相关铁参数,对早期和中期妊娠妇女的贫血情况进行对比分析。方法:选取2010年6月~2016年12月期间545例妊娠早期和中期妇女铁参数
姓名由'姓'和'名'构成,也称名字,无论是中国人还是外国人都有姓名,姓名是人类区分个体,给每个个体给定的特定名称符号。尽管人们都有姓名,但在姓名的排序上
范梅南是北美现象学教育学的主要代表人物,他的研究成果代表了当今世界现象学教育学研究的最高水平。教育智慧思想构成了范梅南现象学教育学思想的核心内容,是其全部现象学教
鸭绿江下游鸟类资源丰富,总计353种隶属于18目63科,其中冬候鸟69种,夏侯鸟78种,夏侯鸟兼越冬鸟类8种,留鸟49种;43种鸟类兼有2种居留期;II级保护鸟类48种,I级保护鸟类11种;濒