一种词性标注LDA模型的文本分类方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhmwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘领域的一个主要分支。提高文本分类的速度和准确度-直是研究人员追求的目标。本文主要工作:1.分析研究文本分类技术的研究现状。基于LDA主题模型的文本分类方法仅用文本主题分布信息作为文本特征,没能有效利用文本中的词性信息。为了提高文本分类速度和准确度,本文设计了在LDA模型中加入词性标注信息的技术线路。提出了一种基于词性标注的LDA (part of speech tagging LDA, PST_LDA)模型的文本分类方法。首先对文本中的名词、动词和其他词进行词性标注,按照词性分离成名词集、动词集和其他词集;然后分别对名词集、动词集和其他词集进行LDA建模;最后根据不同词性的词对文本的贡献不同,确定各模型在综合模型的权重比例,利用PST_LDA模型做文本特征提取;计算文本间的相似度,采用K近邻(k-Nearest Neighbor, KNN)方法对文本进行分类识别。2.本文提出了一种基于PST_LDA模型文本分类方法并行化处理实现方案。为了减少小文本在并行存储环境下多次访问时间,用Sequence File将多个小文本以<文件名,文件内容>的格式序列化组合成大文件,提高每次访问文件的效率。在建模过程中,将不同词集的LDA建模工作进行并行化处理,减少建模的时间消耗。用PST_LDA模型进行文本特征提取;利用“数据并行”的思想实现KNN分类方法的并行化,并使用该方法对文本分类。3.在单机环境中,分别用LDA方法和PST_LDA方法对测试文本进行特征提取,然后使用KNN方法进行分类。实验结果表明,PST_LDA方法在分类速度和分类准确度方面均有一定的提高,分类结果宏F(1)值提高了2.3%,模型学习时间降低了27.5%。4.在Hadoop集群环境中,进行了基于PST LDA模型的文本分类方法并行化实验。实验结果表明,在分类结果相似的情况下,并行环境建模耗时仅为单机上的44.2%,文本分类耗时仅为单机上的54.1%。
其他文献
硬件性能的提高和价格的降低带来了嵌入式技术的高速发展。现在,智能家电已经进入千家万户。需要一个总控设备来完成各智能家电的控制、数据的存储、家庭内部网络和Internet
针对当前的入侵检测系统判断过于单一、无法协助系统保证关键服务正常工作的问题,本文将李德毅院士提出的云理论(Cloud Theory)与入侵检测系统(Intrusion Detection System)
学位
随着信息技术与网络技术的飞速发展,人类社会对计算机数据的依赖越来越强。使用数据备份系统对重要数据进行备份与恢复,是人们保护数据安全性与完整性的常用手段。备份系统的
当前,web应用因为其易于部署等优点而倍受青睐,很多企业都使用它来构建自己的信息管理平台。随着web应用的越来越广泛,对技术也提出了新的要求,基于web的可视化建模技术就是
OAI协议(OAI-PMH)作为一种新兴的元数据互操作协议,为实现元数据的传播、共享和分发提供了解决办法。由于它的简单、低门槛、跨平台等优点,在众多领域中得到了应用。随着OAI
目标跟踪技术是计算机视觉领域研究中的核心问题之一,该技术在安防、智能交通、人机交互等各方面都有着广泛的应用,具有极大的研究价值和意义。目标跟踪是指通过计算机自动获
随着微电子技术、计算机技术和无线通信技术的飞速发展和日益成熟,无线传感器网络(WSNs)逐渐被应用于军事、环境监测等多个领域。但是信息传播媒介的开放性和恶劣的部署环境,给
随着网络技术的高速发展,网络安全问题已成为木桶效应的最短板。论文以造成安全威胁的漏洞为研究对象,从安全威胁的本质中找出检测方法,并研究出相应的漏洞扫描平台,论文还提
海浪的模拟是计算机图形学中的重要研究领域之一,它不仅在虚拟现实应用、军事仿真、三维游戏动画等领域上有重要意义,而且对于气象预报、现代水力学、流体力学等都具有重要的