基于深度学习的多标签短文本分类方法研究

来源 :桂林电子科技大学 | 被引量 : 5次 | 上传用户:hhj9290
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络平台的蓬勃发展使得短文本数据大量涌现,由于该类数据具有多标签、多角度的特征,用户在浏览短文本时无法快速获取目标信息,因此针对短文本进行有效的多标签分类是现在研究的热门问题之一。短文本数据具有内容短、数据量大、表述不规范等特点,这些特点导致其分类时面临噪声多、特征不密集、上下文不独立等问题。由于短文本中标签数的增长,传统的分类方法无法满足现有的需求。针对目前短文本分类方法存在的数据分布不均匀,建模矩阵特征稀疏等问题,本文做了如下贡献:(1)针对传统特征提取算法无法对稀疏的短文本特征进行有效提取的问题,本文提出了基于Word2vec模型的短文本特征提取方法。首先对短文本进行向量化表示,并对其进行两方面的处理,一方面是利用优化的Word2vec模型对向量进行降维,然后利用词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法进行加权,另一方面是直接利用TF-IDF进行向量处理。然后将这两种方法处理过的向量进行合并和特征提取,最后使用支持向量机(Support Vector Machine,SVM)进行分类。通过实验证明,该方法可以对短文本进行有效的特征特取,在分类效果上明显优于其他算法。(2)针对传统的多标签文本分类方法不能对数据分布不均匀的样本进行很好的处理,并且传统的神经网络方法会产生梯度消失和梯度爆炸的问题,提出了基于LGMC模型的多标签短文本分类方法,该模型使用长短期记忆模型(Long-Short Term Memory,LSTM)对文本向量进行提取特征,然后使用门循环单元模型(Gate Recurrent Unit,GRU)对特征向量进行进一步提取,并利用构建的标签树,对特征向量进行分类。通过实验验证该模型的性能要优于传统的多标签分类算法和传统的神经网络算法,可以有效的对短文本进行多标签分类。
其他文献
<正>改革开放使中国注入活力,经济的高速发展使中国大步跨进世界经济巨人的俱乐部。正当人们在享受经济发展带来的生活水平的不断提高之际,一个幽灵在徘徊。人们发现癌症已经
会议
在表面张力作用下的平行平板下填充流动中,通常采用Washburn模型预测下填充流动特性.但由于Washburn模型是建立在牛顿流体假设的基础上,无法反映具有非牛顿流体特性的流动特
伴随着经济的发展,我国诸多行业的发展对于电能资源有着极高的需求量,要求政府、水利部门大力进行水电站建设,满足用户生活与生产用电的需要。但是由于很多地方不具备建设大
高速公路对国家区域经济的发展具有很强的促进作用。本文主要以湖南省为例,分析了湖南省高速公路的建设对促进社会经济发展的主要影响,同时还分析了高速公路对周边沿线区域产
<正>戛纳国际电影节(以下简称戛纳电影节)的含金量是毋庸置疑的。主竞赛单元无一不是国际著名大导,即便是最年轻的欧洲导演凯内尔·穆德卢佐(1975年出生,匈牙利)也是27岁就已
市委书记王阳在中共阜新市委十一届三次全会暨经济工作会议上,总结2012年市委工作时,充分肯定了市委深入开展基层组织建设年活动,创造性地实施系统化党建工程这一党建创新工程,并
报纸
安徽铜陵地区位于长江中、下游铜、铁成矿带中段,区内富集了以铜为代表的金属硫化物矿床(点),并有硫铁矿、金、银、铅、锌等多种伴生矿产和可综合利用的伴生元素。铁帽型金
设备是小型水电站生产经营中的重要部分,是实现稳定、不间断的正常发电,降低运行成本、保证水电站安全生产的重要因素之一。设备的安全关乎水电站的安全生产活动,所以保证小
为提升预防我国未成年人犯罪的成效,通过梳理犯罪的情境预防理论的主要依据和策略手段,并结合我国未成年人犯罪的特征与预防现状,对我国未成年人犯罪预防的意义、适用性及路
目的分析比较电针、中药两种不同疗法对围绝经期抑郁症的临床治疗效应。方法将确诊为围绝经期抑郁症的患者随机分为电针组(n=40)和中药组(n=40),电针组采用电针治疗,中药组采