【摘 要】
:
随着移动互联网的蓬勃发展,繁杂的信息以各种形式出现在了人们的生活当中。文字作为信息的主要载体之一,在生活中承担着信息传播桥梁的作用。如今,面对海量的数据,依靠计算机对文本进行处理就成为了极佳的,也是必要的选择。文本分类(Text Classification)作为自然语言处理(Natural Language Processing,NLP)领域最基础的任务之一,作用巨大,影响深远。从初期基于情感词
论文部分内容阅读
随着移动互联网的蓬勃发展,繁杂的信息以各种形式出现在了人们的生活当中。文字作为信息的主要载体之一,在生活中承担着信息传播桥梁的作用。如今,面对海量的数据,依靠计算机对文本进行处理就成为了极佳的,也是必要的选择。文本分类(Text Classification)作为自然语言处理(Natural Language Processing,NLP)领域最基础的任务之一,作用巨大,影响深远。从初期基于情感词典的文本分类算法,发展至基于机器学习、深度学习的算法,文本分类任务经历了迅速且深刻的发展。文本分类任务拥有广泛的应用范围与巨大的使用价值,因此,构建科学可靠的文本分类模型尤为必要。本文主要通过深度学习的方法,重点围绕提升文本分类准确率与F1值,对当前文本分类模型进行了一定的融合与改进,以期得到性能良好的模型,并通过实验应用于多个数据集验证其分类效果。本文主要工作及创新点如下:1.首先介绍了本文使用的相关数据集,同时以网络影评数据集为例阐述了文本预处理的过程,并给出了相关步骤的处理结果。之后介绍文本分类任务最主要的四个评价指标:准确率、精确率、召回率与F1值。而后,针对此前文本分类、情感分析算法的准确率、F1值等评价指标存在一定提升空间的问题,本文融合卷积神经网络(CNN)与双向门控循环单元(BiGRU),结合卷积神经网络卷积层对局部特征的提取,以及双向门控循环单元同时关注文本前后两个输入方向提取特征的优点,并总结他人使用BiGRU层数少,导致特征提取不全面,使用BiGRU层数过多,导致训练速度较慢的问题,通过实验得到合适的多层BiGRU,既可以在文本分类准确率、F1值等方面获得提升,同时通过适当的多层BiGRU确保整体模型训练时间适中,在连接全连接层以后通过sigmoid函数输出情感极性,设计出基于Word2vec词向量的CMBG模型,在网络影评数据集和酒店评论数据集上的实验表明,本文提出的模型较之前模型取得了一定的进步。2.情感分析是对文本情感进行积极与消极的二分类,但是存在如新闻类别等多分类任务,本章提出了基于改进Adam优化器并融合Transformer机制的TCNNn(Transformer+CNN+n Adam)模型,通过注意力机制学习和计算输入数据的贡献大小,建立文本中每个词的自相关性,结合CNN对局部特征的提取的特性,在新闻文本数据集上进行了分类实验。另外,为了更进一步验证该模型的有效性,本文最后还开展了消融实验,对比实验与消融实验的结果均证实该模型在文本分类评价指标上较基线模型确有提升,验证了该模型的有效性。
其他文献
随着现代制造业的不断发展,我国工业生产领域逐渐地趋于自动化,电网是工业生产领域发展依靠的基础,而变压器的稳定运行是维护电网安全的关键。因此,加强变压器运行状态的检测,及时发现其潜伏性故障,并制定具有前瞻性、预见性的故障诊断策略,对于提升电网的安全可靠运行具有重要的意义。通过对变压器故障诊断方法的深入研究,为解决传统比值法易出现比值边界模糊、编码缺失等问题,弥补智能算法在小样本上易过拟合的不足,论文
纹理是不同的计算机视觉任务和应用程序的重要特征,是人类感知世界的重要视觉线索,和我们的生活息息相关。因为纹理分类在理解纹理识别过程中发挥着重要作用,所以纹理分析的主要问题之一就是纹理分类。在纹理分类任务中,局部二值模式(Local Binary Pattern,LBP)是应用最广泛的一种分类方法。局部二值模式是一种用于提取局部纹理信息的简便且鲁棒的纹理描述符,而且局部二值模式具有光照不变性和旋转不
随着智能电网的快速发展,电网在运行过程中积累了各种类型的巨量数据,运用数据分析技术对这些巨量数据进行分析可以获得很多平时所注意不到的信息,将这些信息用于指导电网运行中的日常工作可以极大的提高电网运行的质量。而电网负荷预测作为电网运行过程中重要的管理手段,预测的精准度直接影响了电网运行的成本、电网运行方式以及电网设备的检修维护计划等。但因为不同地区的电网负荷变化规律是受多种外在因素共同影响的,比如当
语义分割作为图像处理的一个重要基础任务。其基本思想是以像素为单位,将图像中所包含的各类物体逐一进行分类,并把同属一类别的像素标记为相同的颜色。图像语义分割的出现,可以帮助计算机更好的理解图像中所表达的内容。近几年,相继提出了许多基于卷积神经网络改进的语义分割方法,语义分割精度也不断提高。但是大多数的语义分割模型都存在计算复杂、参数过多等缺点。基于以上研究现状,本文以实现分割精度和推断速度的平衡为目
红外目标跟踪作为计算机视觉的一项基本任务,在智能监控、辅助驾驶和红外制导等领域发挥着重要的作用。在实际应用中,红外目标易受到形变、背景干扰以及遮挡等因素的影响,使得红外目标的稳定跟踪成为一项极具挑战的任务。为了增强红外目标跟踪的鲁棒性,本文以孪生网络为基本跟踪框架,从模型训练、特征融合以及遮挡预测三个方面进行研究,具体内容如下:(1)在有限的训练资源下,使用CIOU(Complete Inters
微博的快速发展使得信息的传播更加快速和便捷,但是虚假信息的传播可能会对广大网民产生负面影响,造成平台管理困难,社会动荡,严重情况下甚至会对国家的发展造成冲击,因此对微博中的内容进行可信度评估具有重要意义。在充满数据的时代,深度学习技术中的循环神经网络、卷积神经网络等模型具有出色的数据挖掘能力,通过对已有数据进行特征挖掘,预测新数据的可信情况,但是微博中蕴含大量不同类型的数据,在特征挖掘时还存在一系
纹理作为一种重要的视觉线索,广泛存在于自然界各种物体的表面,在图像中表现为特征值强度的某种局部重复模式的宏观表现。纹理图像分类研究有超过50多年的历史,期间提出了许多理论和算法,主要包括基于传统手工描述符的算法与基于深度学习的方法。传统手工描述符方法通常是基于对纹理的一些假设而手工制作的特征,由于不同的纹理数据集包含不同类型的纹理,因此,手工描述符的表现通常是因数据集而异。与此同时部分纹理数据集的
随着互联网的快速发展,网络中的用户量和信息量激增,信息过载成为互联网用户面临的重要问题。推荐系统能够分析用户在网络中的历史行为,进行用户建模,以实现个性化的推荐。作为解决信息过载的重要工具,推荐系统已广泛应用于电子商务、个性化广告推送、多媒体内容推荐等众多场景。在个性化推荐的帮助下,用户可以方便快捷地获得感兴趣的信息和产品。根据用户历史记录和辅助信息等信息对用户建模,挖掘用户的偏好,对用户进行推荐
视频目标跟踪作为新兴技术被广泛应用于智能视频监控、自动驾驶和精确制导等民用和军用领域中,是一个重要且极具挑战性的研究热点。随着深度学习技术的崛起,孪生网络目标跟踪算法在视频目标跟踪领域中崭露头角。然而这种基于模板匹配的跟踪方法性能会受到模板质量的制约,在外观变化、相似目标干扰和遮挡等复杂情况下典型孪生网络结构不足以满足对整个视频序列的持续稳定跟踪,所以如何在这些复杂情况下稳定完成跟踪任务成为了孪生
近几年,计算机视觉在人工智能领域迅速发展,如何实现计算机更好的理解人类情感,进一步改变人与计算机的关系受到越来越多研究者的关注。表情识别是一个横跨人工智能、神经学、计算机科学等领域的交叉学科,在计算机视觉、临床医学、虚拟现实以及车辆等领域有很大的应用价值,极大的推动了科学的发展和社会的进步,其广泛地应用在社会生活中,具体应用实际场景有人机交互、在线教育、医疗服务等。在人脸表情识别的流程中人脸检测是