论文部分内容阅读
随着数字化中文文本信息的爆发式增长,如何快速有效地挖掘这些数据背后的价值已经成为摆在人们面前的一个挑战。中文文本分类是中文文本处理和分析的关键技术之一,可以帮助人们解决信息杂乱的问题。而当数据规模比较大时,单机版的分类处理会出现存储和计算速度的瓶颈。针对这个问题,可以借助于目前的分布式存储和分布式计算技术来解决。HDFS是Hadoop的核心模块之一,作为一个分布式文件系统可以很好的满足分布式存储的需要。Spark是MapReduce的继承者,最大的特点就是就是利用内存进行计算,因而比MapReduce更快。本文在中文文本特征提取及分类方法的工作主要如下:(1)提出新的文本特征选择方法,并与传统的特征选择方法做对比。该特征选择方法综合考虑词在类内和类间的文档频率分布情况,并运用统计学中的方差思想,刻画词在文本分类中的重要程度从而进行词的筛选。(2)研究了基于文档类别向量分布的文本特征表示方法和基于选举思想的文本分类方法。文本特征表示一般采用向量空间模型,在经典的文本特征表示方法中,文档向量的一个元素对应于该文档中一个词项。而在本文研究的方法中,文档向量的一个元素对应于该文档属于某一类别的概率估计。为了得到其中的概率估计,本文探索了两种方法,一种方法是基于朴素贝叶斯,另一种方法是基于选举的思想。不像朴素贝叶斯方法存在着独立性假设,基于选举思想的文本分类方法仅仅把词视作选民,由它们投票决定文档属于哪个类别及其类别向量分布。对于训练集中的每个词而言,通过统计分析,可以获得它们属于各个类别的概率估计。这种概率估计可以视作是一个词投给各个类别的选票。本文类比朴素贝叶斯的两种文本分类模型BIM和MM,提出了两种选举策略,此外还考虑了每个词具有不同投票权重的情形。最后,利用以上思路改进基于LDA的文本分类方法。在传统的方式中,LDA获取测试集的主题向量分布是通过Gibbs Sampling,存在速度慢的问题。本文探索了基于选举思想的测试集主题向量分布获取,并通过相同的方法重新获取训练集的主题向量分布,最后再用分类器进行分类,在速度和分类效果上都有提升。(3)在HDFS和Spark平台上,利用MLlib算法组件,分别实现了在新闻和微博语料库上分类效果最好的方法。