基于Word2vec的文本建模及分类研究

来源 :深圳大学 | 被引量 : 13次 | 上传用户:mqzt521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息的分类问题是文本挖掘的一个重要研究方向,是自然语言处理和机器学习的关键技术之一。随着互联网上文本信息的急剧增加,对文档的自动分类需求越来越高。近些年来,机器学习在文本分类领域的应用越来越广泛,相对于传统的文档分类模型,机器学习在分类结果和效率上都有所进步。文本建模是文本分类的基石,目前主要的文本建模方法包括向量空间模型和主题模型。其中使用最广泛的是向量空间模型,但是向量空间模型存在维度大、稀疏性高以及同义词和多义词等语义问题;相对于向量空间模型,主题模型可以实现有效的降维,发现文档的潜在主题,但是主题模型需要大量的样本进行学习,训练难度大并且非常耗时,影响了分类的效率。本文仔细研究了文本分类的有关技术,提出了一种文本建模方法word2vec_k-means,与传统的文本建模方法相比,该方法在分类的准确率和效率上都有所提升,并且通过实验验证了该方法的有效性。本文主要在以下三个方面进行了研究:(1)深入的研究了文本分类的流程和相关技术,针对一些常见的文本表示模型,分析了这些文本表示模型的优缺点。(2)提出了一种文本建模方法word2vec_k-means,该方法以word2vec训练得到的词向量为基础,首先对这些词向量进行聚类处理,从而生成不同的类别数目即主题数,然后再对文档进行特征项的权重选取,最终可以得到每篇文档在词向量聚类类别下的分布结果,从而完成文本的建模过程。通过这种文本表示方法不仅能够有效的降低文本的向量维度,同时还解决了同义词之间的语义问题,并且大幅度的减少了模型的训练时间。(3)用本文所提出的文本建模方法来进行文本的向量化表示,完成文本建模,在此基础上应用SVM分类算法,将这种文本表示模型优秀的语义表示能力和SVM强大的分类能力结合起来。实验结果表明,与传统的文本建模方法相比,word2vec_k-means文本建模方法在分类准确率以及F1值的微平均和宏平均上均有所改善。
其他文献
综述了我国食用菌双翅目害虫的研究概况。为害食用菌的双翅目害虫有长角亚目、短角亚门和芒角亚目3个亚目202科超过100种。概述了该类害虫的农业防治、诱杀或阻隔、生物防治
在现代社会,要想把小农生产与现代市场经济有机结合起来,就需要将个体化的农民组成经济型农会。经济型农会在性质上是经济性结社自由,具有经济和教育功能,其可行性在于域外的农会
在卫生服务市场中 ,乡镇卫生院是独立的经济利益主体 ,其在市场中的行为模式 ,是以追求自身利益为动机的。这种行为因为补偿不足而放大 ,其不良表现是“以医养防、重医轻防、
所谓随机教育是指教师在组织活动中,通过认真观察,发现教育点并有意识地引导儿童向正确的方向发展的教育。在校幼师生由于缺乏教学经验,对幼儿园中出现的教育点不能很好地把
作为辽宁省优势油料作物和经济作物的花生,近年来得益于政策倾向和科研支撑,其产量显著上升。然而自2013年起,价格开始持续下降。本文分别从省内供给和需求两个角度开展调查分析
针对网络信息检索的现状,介绍搜索引擎的使用与技巧,使用户更好的利用网上资源.
我国农产品走出去是一件大事,我国农业远未实现现代化,在农业工程技术方面也很落后,应学习西方国家农产品走出去的经验,打造我国农产品的国际知名品牌,振兴我国经济。
我国农村长期以来都存在土地废弃或闲置的现象,这些现象导致我国大量土地无法合理利用,加剧了土地的紧张化程度。尤其是平原地区,村落零散分布于耕地中,导致农业生产无法机械化和