基于深度学习的文本分类算法研究

来源 :河南理工大学 | 被引量 : 0次 | 上传用户:qiuqiuls
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信技术的飞速发展,互联网承载的文本信息呈现出爆炸式增长的趋势,面对这些数据量庞大且杂乱无章的文本信息,如何有效的分类和筛选,进而提取其中有价值的信息是当前文本挖掘领域研究的热点问题。近年来,深度学习技术在文本分类领域的优势愈显突出。相比于传统机器学习方法,基于深度学习的文本分类方式在处理海量数据时省去了复杂的特征提取过程,能够高效地解决问题,展现出广泛的应用前景与价值。本文以深度学习为基础,对基于文本大数据的分类算法进行研究,主要工作如下:(1)针对卷积神经网络(Convolutional Neural Network,CNN)在获取文本中上下文依赖关系方面的不足,提出一种结合卷积神经网络和长短时记忆网络(Long Short-Term Memory,LSTM)的文本分类模型MLCNN(Merge-LSTM-CNN)。将LSTM在长文本序列中有效控制历史信息特征的优势与CNN通过卷积操作提取局部特征相结合,利用LSTM和CNN分别对文本进行处理,在提取局部特征同时兼顾上下文语义。考虑到网络层数的增加虽然有助于提高分类效果却带来特征丢失的问题,将嵌入层输出与多个卷积层输出进行融合,减少了原始特征的损失。最后,使用文本数据集对模型进行评估,通过实验结果证明了MLCNN模型具有良好的分类性能。(2)针对关键信息特征往往在文本中分布稀疏不均的问题,提出一种基于自注意力机制(Self-Attention)的文本分类模型BLSA-C(BLSTM-Self-Attention-CNN)。将文本分别用两种词向量进行表示,作为模型的双通道输入;使用双向长短时记忆网络(Bi-directional LSTM,BLSTM)同时获取文本的正向和反向特征,以提供完整的过去及未来上下文信息;采用自注意力机制学习单词的位置信息并赋予不同权重,以得到重要特征的概率分布;利用CNN进一步提取更精确的语义特征。通过对比实验的结果表明,BLSA-C模型具有更高的分类准确率。
其他文献
随着互联网技术的迅猛发展,网络浏览的用户数量和网络平台的资源与日俱增,因此出现了日益严重的信息过载问题。为了让用户在面对多元化的信息时能够快速地做出正确的选择,个性化推荐系统应运而生。协同过滤算法是个性化推荐技术中运用最广泛的一种算法,该算法通过用户和项目之间的交互信息进行建模,然后来衡量用户对项目的喜爱程度。在真实的个性化推荐系统中,普遍存在着数据稀疏和扩展性差等问题,严重影响了推荐系统的性能。
学位
传统的协同过滤算法面对稀疏数据时计算相似度精确度偏低,导致评分预测结果计算不准确,推荐效果也随之下降。针对传统协同过滤算法的不足之处,利用聚类算法对数据及进行聚类,降低用户邻居的搜索时间,同时引入用户兴趣相似度优化对用户兴趣偏好的计算,引入标准差作为惩罚因子优化Pearson相关系数的计算。在此研究基础上,提出了一种将用户兴趣和改进的Pearson相似性相结合的协同过滤算。本文主要创新如下:(1)
学位
水声数据种类繁多,其中包含大量信息。研究人员需要对接收到的声呐信号通过一系列的手段进行处理,才能提炼出有用信息。水下环境复杂,并且海面与海底会对声波进行反射,使得接收到的声呐信号存在噪声,因此需要对信号进行降噪处理。另外,水下声源将向水平360度方向发射声波,如果从垂直剖面观察的话,声波通过类简谐波的方式传播,了解水声场中声波的传播方式将有助于多种水下探测活动,因此水声场的可视化呈现具有重大意义。
学位
复杂网络自诞生以来就引起了各领域学者的广泛关注。社区发现是复杂网络分析领域的一项重要研究内容,是一个颇受业界欢迎且具有广泛应用的研究课题。研究复杂网络中的社区对理解整个网络的结构和功能起到至关重要的作用,并且可分析及预测整个复杂网络的特点。社区发现研究是最具有挑战性的多学科交叉研究领域之一,其研究不仅具有重要的理论意义,而且具有广泛的应用前景。现存文献有关非重叠社区发现算法居多,随着研究的不断深入
学位
局部特征检测通常作为计算机视觉中许多任务的先决条件,例如图像分类、图像匹配、目标检测、图像检索等,检测到的特征的优劣会直接影响到此项任务的最终性能,一直是计算机视觉领域中的一个研究热点。近年来,随着数据量的爆炸式增长和计算机硬件的发展以及各种基于机器学习的算法相继提出,局部特征检测的研究已从手工设计方法转变为基于机器学习的方法,尤其是基于深度学习的方法。目前最先进的基于深度学习的特征检测器基本上是
学位
图像匹配是计算机视觉中的一个重要研究方向,现有的数字图像匹配方法大致可以分为两种:第一种是基于灰度信息的匹配方法,第二种是基于特征的匹配方法。基于特征的匹配方法一直是计算机视觉领域中很多应用的关键技术,包含点匹配、线匹配等。在基于特征的图像匹配中,线特征比点特征包含更多的结构信息,并且在人造对象和环境(例如城市建筑物和道路)中,线特征大量存在。但由于提取的直线经常出现断裂、不完整等情况,与点特征描
学位
使用计算机仿真技术进行经济仿真是现代经济学研究的常用手段,其中基于系统工程的系统动力学方法是经济研究尤其是区域经济仿真和社会经济系统仿真的重要方法。传统的系统动力学方法将研究区域作为一个整体,对其进行系统建模并仿真,这种方法忽略了区域内部实体之间的联系和交流,而区域内部实体之间的关系,也就是区域经济的空间关系对于区域经济的发展有着重要影响,因此基于对系统动力学的空间仿真功能的拓展,本文设计实现了一
学位
大数据蕴含大量信息,具有极高的潜在使用价值。人们在享受大数据带来便利的同时,也受到大数据隐私泄露的安全威胁。大数据隐私泄露本质上是数据安全保护的问题。目前,在大数据的整个生命周期内,数据安全保护的关键是如何安全计算和安全检索。同态加密可以在不需要解密的条件下对密文进行运算,运算结果与直接对明文运算等同,为大数据隐私保护提供了一种理想的解决方案。论文基于同态加密,针对大数据实际应用中安全多方计算和安
学位
随着输油管道工业化的发展,焊接水平的提高,X射线无损检测技术被广泛的应用于管道焊缝缺陷检测中。目前缺陷检测主要是评片专家通过肉眼观察识别出管道X射线底片中的焊缝缺陷,这种方法一定程度上制约了缺陷的检定效率和识别准确率。随着计算机技术水平的不断提高,使计算机对焊缝缺陷进行识别成为可能。本文在输油管道焊缝缺陷X射线图像的基础上,对焊缝缺陷的检测与识别方法进行研究,设计出一个可以对焊缝缺陷进行自动化识别
学位
近年来,随着全球信息化的高速发展,云计算技术和云存储应用已经成为人们生活中重要的组成部分,人们越来越喜欢将自己的一些数据存储在云服务器上,但是往往这些数据中会包含许多用户的电话,身份证号,工作单位等隐私信息。在如今的互联网环境下,用户很难去和云服务器建立一个稳固的信任关系,这个时候使用一些加密技术就可以很好的来解决这个问题。基于属性的加密是将用户的身份使用一组属性集合来代替,如果密文或用户私钥的访
学位