基于混合神经网络的中文短文本分类方法研究

来源 :浙江理工大学 | 被引量 : 9次 | 上传用户:yiwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模普及和上网人数的急剧增加,网络上每天产生的各种短文本数量呈指数式增长。这种半结构或无结构化互联网文本信息具有稀疏性、不规范性、流行语不断出现等特征。互联网短文本分类作为信息处理的关键技术之一,在信息检索和知识挖掘领域已经取得很大进展。为提高中文短文本分类精度和解决文本表示稀疏问题,提出了一种基于混合神经网络的中文短文本分类方法(Chinese Short Text Classification Method Based on Hybrid Neural Network)。该方法首先通过一种自定义特征词筛选机制将文档以短语和字符两个层面进行特征词筛选。运用卷积神经网络(CNN)和循环神经网络(RNN)相结合提取文档的高阶向量特征,引入注意力机制优化高阶向量特征,最后接一层分类器分类表示。实验结果表明,在二分类以及多分类数据集上,该模型不仅能够提取出文档的短语层和字符层特征,在分类精度上比单模型取得的效果更好,而且也可以解决文本表示稀疏问题。本文的主要工作和创新点具体如下:(1)针对中文分词后突出词不明确问题,提出一种自定义特征词筛选机制。该方法通过将某一类别下的整个数据集经过人工筛选和结合网络信息构造出一个高质量的全局字典D_j,这个字典包含了该类别下所有经过筛选后的高质量短语,筛选的标准是人工判断和结合网络信息提供的与该类别相关度高的短语,最后将该类别下的每一篇文本用这个全局字典进行线性表示。(2)鉴于传统的特征表示方法不能真正表示出文本的语义特征,提出一种卷积神经网络(CNN)和循环神经网络(RNN)相结合的高阶特征提取网络,为了进一步突出提取到的高阶特征向量,提出一种优化高阶特征向量的注意力机制方法。得到优化后的短语层和字符层向量进行合并,作为文档最终的向量表示。(3)论文中选择了三个神经网络模型作为对比实验的基线模型,包括CNN、LSTM和CLSTM。实验结果表明,本文提出的混合神经网络中文短文本分类方法在二分类和多分类数据集上都取得了比对比模型更好的结果。
其他文献
甜玉米是重要的果、蔬食品.我国甜玉米保鲜研究结果表明,甜玉米的适摘期与授粉后的有效积温显著相关,不同品种的适摘期,有效积温不同;贮藏温度是影响甜玉米品质的第一影响因
<正>针对关联交易,商业银行一方面应建立关联贷款控制委员会,实行关联贷款及交易审批回避制度,另一方面应设立关联交易制度防火墙,完善相关制度规章,确保商业银行在资金用途
由于臭氧层的吸收,波长为200 nm-280 nm的光到达不了地球表面,该波段称为日盲区。对于日盲区的深紫外探测因不受太阳光背景的影响,具有信噪比高、误报率低、可全天候工作等优
郑去非,一位热爱音乐的哈雷摩托车车主,一位现场演出经验丰富的扩声调音师,现就职于北京锦瑞天成文化发展有限公司。现场调音师需要全面掌握各种音口向设备的正确使用和调试技巧
广东烤烟年种植面积2万hm2,其中韶关1.33万hm2,梅州0.67万hm2。80年代以来,广东省烟草公司狠抓各项生产技术推广,烟叶产量和质量有了突飞猛进的提高。烤烟大田移栽期一般在2月份,
选用经9个连续回交核置换含有普通野生稻不同细胞质源的雄性不育株系,与优质为主、兼抗病虫和经济性状优良的栽培稻品种进行回交转育,培育出一批优异新质源不育材料。这些新质