论文部分内容阅读
文本分类是文本挖掘领域的一个主要分支。提高文本分类的速度和准确度-直是研究人员追求的目标。本文主要工作:1.分析研究文本分类技术的研究现状。基于LDA主题模型的文本分类方法仅用文本主题分布信息作为文本特征,没能有效利用文本中的词性信息。为了提高文本分类速度和准确度,本文设计了在LDA模型中加入词性标注信息的技术线路。提出了一种基于词性标注的LDA (part of speech tagging LDA, PST_LDA)模型的文本分类方法。首先对文本中的名词、动词和其他词进行词性标注,按照词性分离成名词集、动词集和其他词集;然后分别对名词集、动词集和其他词集进行LDA建模;最后根据不同词性的词对文本的贡献不同,确定各模型在综合模型的权重比例,利用PST_LDA模型做文本特征提取;计算文本间的相似度,采用K近邻(k-Nearest Neighbor, KNN)方法对文本进行分类识别。2.本文提出了一种基于PST_LDA模型文本分类方法并行化处理实现方案。为了减少小文本在并行存储环境下多次访问时间,用Sequence File将多个小文本以<文件名,文件内容>的格式序列化组合成大文件,提高每次访问文件的效率。在建模过程中,将不同词集的LDA建模工作进行并行化处理,减少建模的时间消耗。用PST_LDA模型进行文本特征提取;利用“数据并行”的思想实现KNN分类方法的并行化,并使用该方法对文本分类。3.在单机环境中,分别用LDA方法和PST_LDA方法对测试文本进行特征提取,然后使用KNN方法进行分类。实验结果表明,PST_LDA方法在分类速度和分类准确度方面均有一定的提高,分类结果宏F(1)值提高了2.3%,模型学习时间降低了27.5%。4.在Hadoop集群环境中,进行了基于PST LDA模型的文本分类方法并行化实验。实验结果表明,在分类结果相似的情况下,并行环境建模耗时仅为单机上的44.2%,文本分类耗时仅为单机上的54.1%。