基于深度神经网络的长文本分类算法的设计与实现

来源 :南京邮电大学 | 被引量 : 6次 | 上传用户:xiaozhu222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中的基本技术之一,许多研究都与文本分类有关,例如新闻主题分类、问答系统分类和电影评论分类等。如果依靠人工进行文本分类,不仅耗时长,而且效率低下,所以利用现有的计算机技术进行自动文本分类是非常重要的研究方向。本文主要研究了两大类文本分类的方法,一类是利用传统的机器学习方法进行文本分类,另一类是使用深度学习方法进行文本分类。首先本文基于传统的机器学习方法设计了两种分类器,一种是朴素贝叶斯分类器,另一种是支持向量机分类器。计算机不能处理文本,因此需要把文本表示成向量后才可以进行分类。这两种分类器采用的是基于词袋的词频映射方法和词频-逆文档频率特征表示的方法。在搜狗数据集和搜狐数据集上进行了实验验证,最终发现使用SVM分类器与TF-IDF特征相结合的文本分类器效果最好,在两个数据集上都达到了89%的准确率。接下来使用深度神经网络设计了两种文本分类模型,一种是使用标准的双向长短时记忆网络进行文本分类,另一种是将其与attention机制相结合进行文本分类。文本表示方法采用的是one-hot表示方法和基于skip-gram的词嵌入方法。最终在两个数据集上进行实验发现,Bi LSTM与attention相结合的文本分类模型与词嵌入文本表示方法相结合的效果最好,在搜狗数据集上可以达到96%的准确率,在搜狐数据集上准确率可以达到90%。最后本文使用了卷积神经网络进行文本分类。文本表示方法采用了三种,分别是one-hot表示方法、词嵌入方法以及使用双向编码器表示预训练好的词向量方法,本文将这三种表示方法分别与CNN相结合分别在两个数据集上进行实验。最终实验数据表明,在搜狗数据集上,CNN与词嵌入以及BERT相结合的效果最好,准确率可以达到97%;在搜狐数据集上,CNN与one-hot表示相结合的效果反而更好,达到了97%的准确率。这是由于搜狐数据集规模比较小,在小数据集下分布式词向量的效果并不好。而搜狗数据集规模比较大,因此采用分布式向量效果会更好。所以在小数据集上,应尽量避免使用分布式词向量。
其他文献
"互动式"英语教学模式是经实践证明的适应素质教育要求的英语教学模式。而近年来飞速发展的计算机技术,又开辟了计算机辅助教学的新领域。文章选取《大学英语精读》的一个单
本文立足于近年来发展起来的新型沙氏大气激光雷达技术,重点开展了大气回波信号的多项数字信号处理工作。沙氏大气激光雷达系统是基于沙姆定律成像的原理,使用图像传感器接收连续激光的后向散射信号,并利用像素序列获取不同距离上的大气回波信号。相比于传统脉冲激光雷达,由于发射和接收系统的差异,节省了大量经济成本,具有良好的适用性和推广性。本论文目的在于解决沙氏激光雷达系统中的信号噪声问题,提高系统的信噪比,为下
碳纳米管(CNTs)具有独特的结构以及优异的性能,被认为是理想的复合材料增强体之一。CNTs增强铜基复合材料能获得强度的显著提升,但往往伴随着塑性和导电率的降低,不能充分发挥
埃斯库罗斯的<奥瑞斯忒斯>三部曲向来被国内外学者们看作是表现了父权制与母权制之争,最后以父权制的胜利而结束的悲剧.这种判定多含主观臆断、牵强附会的成分.而事实上,宙斯
随着高速铁路技术的快速发展,其快速、准时、舒适的特点为人们出行带来了极大的方便,中国高铁已成为国家外交合作的靓丽名片。为保证高速铁路高效、安全运营,必须对钢轨健康状况进行快速、实时、自动检测。针对传统人工目测、无损检测等技术效率低、精度差以及存在安全隐患等问题,本文通过机器视觉检测方式,设计了一套高铁轨道表面缺陷检测系统,以机器代替人眼,实现了轨道表面缺陷的在线实时智能检测。论文首先介绍了高铁轨道
苯并异噻唑酮是一种重要的结构单元,具有抗菌、抗精神病、抗病毒等多种生物活性,广泛应用于医药、农业和食品工业中。苯并咪唑骨架也广泛存在于各种药物分子中。本论文合成了