基于自注意力机制的文本分类研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:wyj132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学以及人工智能的子领域,是人工智能领域的核心问题之一,它旨在研究如何让计算机分析及处理大量人类的自然语言数据。文本分类是自然语言处理领域的基本问题之一,它是把某个类型标签分配给特定的文本单元。文本分类的应用范围十分广泛,其中包括推荐、问答、情感分析、垃圾邮件检测、新闻分类、用户意图分类等。由谷歌团队于2018年发布的,基于自注意力机制的BERT预训练模型,一经面世就打破了多项自然语言处理任务的记录。以该预训练模型为蓝本作迁移学习的研究近年来如火如荼地展开。而理解BERT预训练模型较为复杂,要理解它的原理需要很多前期的学习和研究,其中包括传统的循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)、包含注意力机制(attention)的序列到序列神经网络(Sequence to Sequence,Seq2Seq)、包含自注意力机制(self-attention)的Transformer模型等等,这样才能理解和把握BERT的精髓。本文回顾了解决文本分类问题的传统方法和深度学习方法,梳理了文本分类问题的基本流程,重点阐述了自注意力机制和Transformer模型的编码模块的工作原理,以及BERT模型与Transformer的异同,在此基础上提出了用BERT解决文本分类的两种尝试。本文的主要研究工作如下:(1)深入研究了自注意力机制和Transformer模型编码模块的工作原理;(2)自注意力机制和Transformer模型的编码模块是理解BERT预训练模型的重要基石,只有理解了自注意力机制才能理解BERT作为文本特征提取器优于其他之前各种自然语言处理模型的优势的原因,才能明白它所采取的预训练任务为什么能够实现。而由于BERT是Transformer的编码模块堆叠而成,所以对Transformer的整体架构以及编码模块进行了分析;(3)依据训练集的特点有针对性地地做好数据预处理工作;数据的质量决定了机器学习模型性能的上限。只有认真做好数据预处理工作。才能更好地发挥BERT预训练模型的优势。(4)利用BERT预训练模型结合预处理好的数据做迁移学习。本文采用了两种方式做迁移学习,第一种是利用数据集对BERT进行微调来进行文本分类;第二种是把BERT的最后一层的序列向量输出做mean-max-pooling,目的是抽取每一个序列的均值和最大值特征,然后把新的序列特征向量通过前馈神经网络做线性变换后进行文本分类。最后,将两种方法做对比分析,发现第二种方法得到的模型性能优于第一种方法,分类准确率提升了约1.6%。因此,在现有数据集下,第二种方法更具有借鉴意义。
其他文献
余光中是中国文坛的重要人物,是当代著名的诗人、散文家,在他的一生中,笔耕不辍,从事诗歌、散文、评论、翻译事业,称为自己写作的“四度空间”。作为中国文坛的重要人物,国内外研究和评价他的文章数不胜数,不胜枚举。他的作品也多次被选入中学语文教材。在教学中,人们逐渐认识到现代诗歌的教育价值和意义,其对促进学生全面发展有十分重要的作用,另外也进一步拓宽了新的教学发展路径——借助诗歌来丰富学生的文化涵养、提高
本文共完成了两方面的研究:一是不可约特征标维数和对群结构的影响:二是单群的ONC-刻画.一.不可约特征标维数和对群结构的影响:设G为有限群,好为G的非平凡子群,T为G的所有不可约特征标之和,且T(G)=T(1).对任意的ф∈Irr(H),令a(ф)=[TH,ф].因此T(G)=T(1)=Σ/ф∈Irr(H)a(ф)(ф)和(1).令δ(G,H)=T(G)-T(H)=Σ/ф∈Irr(H)(a(ф)-
从2014年开始,我国正式将金融体制改革纳入政府重要管理工作中,并在接下来的四年时间里反复提及金融体制改革并要求尽快落地执行。与此同时,国内金融市场的发达程度较高,市场开放性和包容性的能力增强,涌现出了许多农村商业银行和民营银行。在对公业务和同业业务市场逐渐趋于饱和的情况下,个人业务市场将成为银行类金融机构新一轮业务竞争的增长点和关键点。正是基于上述宏观环境和发展背景,LZ银行应运而生,作为典型的
为满足我国日益增长的交通需求,促进社会经济的快速发展,越来越多的近海桥梁在我国范围内兴建起来。由于所处地理位置的特殊性,近海桥梁在服役期内不免受到海洋环境侵蚀和地
随着社会不断发展,船舶现代化、信息化程度不断提高,舰船内的电磁辐射越来越严重,电磁环境越来越恶化,已经影响到了船舶电推系统和雷达等通信系统的正常运行。所以对船舶电推系统进行电磁兼容测试提出了新的要求。而且各类大型设备因为体积原因不能进入传统测试平台进行电磁兼容测试。数字电波暗室技术提供了解决这个问题的有效途径。信号处理算法研究是构建数字电波暗室的核心,针对船舶综合电力推进系统电磁辐射信号的多通道、
一直以来,利用子群和商群来刻画有限群的结构是一个热门课题.其中研究正规子群的性质来讨论有限群的结构是群论研究中一个非常重要的方面,在这方面已经取得了许多丰富和重要的结果.这里我们讨论其对偶问题,也就是非正规子群的性质对有限群结构的影响.基于非正规子群的共轭类类数为4,5的有限群的结构,运用局部分析的方法,给出恰含10个非正规子群的有限群的完全分类.为恰有2p个非正规子群的有限群的研究开拓了思路.全
孩童时期,我们便知道人类的性别划分为男性与女性。依据性别的这种分类,我们受到严谨的教导:如何装扮、如何谈吐以及如何行事。然而,在现阶段越来越多的舞蹈作品中对性别的描绘似乎有悖我们日常的认知,大多数人对于性别的理解远远超出身份证上所显示的对于男性或女性的认知,但同时又如此模糊。在牛顿发现万有引力之前,苹果也是从树上落下,只是当时还不存在一种可以解释这一现象的机制。同样,在性别操演理论出现之前,性别曾
近年来,随着互联网和信息技术的发展,云计算受到了工业界和学术界的广泛关注。云平台规模的扩大,一方面,给用户带来了计算能力更强的云服务,另一方面,加剧了云平台日益突出的
现代科学技术的发展为海量数据的收集及存储提供了技术支持,函数型数据分析(Functional data analysis,FDA)方法则作为一种专门基于高维数据的函数特性进行分析的方法,已经在
本文选取现代汉语方式词“亲自”“独自”“暗自”“径自”“私自”“擅自”六个词为研究对象,基于语言事实,从历时与共时角度出发,采取描写与解释相结合、定性与定量相结合的研究方法,对其进行详细研究。全文共分为五章,具体内容如下:第一章为绪论部分,主要介绍了文章的研究对象、研究意义、研究方法、基于的理论以及采用的语料来源。同时对方式词的研究现状、“X自”个案的研究现状做了概述,包括学界对于方式词的词类归属