基于word2vec和自注意力机制的文本分类研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:cdtst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术在自然语言处理方向的研究越来越深入,文本分类作为自然语言处理的基础任务之一,已广泛地应用于情感分析、新闻分类等领域。文本表示和特征提取是影响文本分类性能的两个重要因素,决定着文本分类效果的上限。现在的文本表示一般是基于外部大型语料库训练获得的,难以解决未登录词(Out of Vocabulary,OOV)问题,并且特征提取部分一般选择基于卷积神经网络(CNN)或循环神经网络(RNN)的模型,进行文本特征的自动提取,其模型结构在训练过程中可能会损失部分文本信息。因此,得到包含更多语义信息的文本表示,构造能充分提取文本特征的模型成为了目前了文本分类研究的难点和热点。本文针对上述两个问题,进行的研究工作如下:首先,针对word2vec模型,提出了一种改进的词向量初始化方法CP_word2vec,该方法可以有效地解决训练集中未登录词的问题。防止因随机初始化向量过多而导致词向量空间被破坏,弱化了因分词错误、拼写错误等外部干扰等问题对词向量质量的影响,为后续特征提取阶段提供更丰富的语义信息。其次,本文基于Transformer模型结构提出一种层次化的神经网络模型HTN。Transformer通过自注意力机制,能够考虑文档中每个词之间的关系,相对CNN,RNN有更好的特征提取能力,本文充分考虑文档结构具有的层次性,分别在句子层面和文档层面进行建模,使模型能够从词语层面到句子层面,再到文档层面全面提取文本信息。之后,结合CP_word2vec方法和HTN模型,本文提出一个新的模型CPW_HTN,集合两个方法的优点,更进一步提高文本分类的效果。最后,本文首先通过两个情感分析数据集来对CP_word2vec方法进行实验分析,结果表明相同条件下,CP_word2vec相较于word2vec文本表示模型在两个数据集上的准确率均有一定的提升。然后通过两个新闻数据集对CPW_HTN模型进行实验分析,并选择7个深度学习模型作为对比,结果表明,与其他深度学习模型相比,本文提出的CPW_HTN模型在分类准确率上都取得了最佳效果。综上所述,本文通过对初始化词向量的改进以及构建一个层次化的深度学习模型,充分地保留和提取文本的有效信息,进一步提升文本分类的精度。
其他文献
实践教学是《土木工程施工》课程教学的重要组成部分,是实现其教学目标的有力保证。我们针对传统教学重理论轻实践,重知识轻能力,实践环节少,工程训练不全面,学生工程实践能
目的:探讨对心血管内科患者实施护理风险管理的临床价值。方法:选取2015年1-12月南通市第六人民医院心血管内科患者180例为作为对照病例(常规护理组),患者接受常规的护理管理
目的:我国是遭受慢性乙型病毒型肝炎(CHB)危害最为严重的国家,鉴于目前临床上干扰素药物在治疗该病过程中的副作用明显,故联合中医药以提高其应用的疗效及安全性是目前CHB防
国家与社会的互动是区域社会史重要的研究方向,而士绅在国家与社会互动的过程中扮演了重要角色,考察士绅在国家与地方社会中扮演的角色便是论文所要研究的目的所在,故选取陕
在我国电影史的百年发展历程中,主旋律影片始终占据着不可或缺的一部分,随着时代的发展,主旋律影片在几代电影人的努力下,不断推陈出新,题材、风格日益丰富多彩,同作为国庆献
本文通过保险业在营改增后面临的销项端、进项端、纳税申报等方面的具体业务,探讨其面临的合规性税务风险,并提出税务风险识别、评估和应对的策略。
目的:探析中西医结合治疗反流性食管炎的近远期疗效及安全性。方法:选取本院消化内科收治的80例反流性食管炎,前瞻性双盲法将其分为两组,对照组采用常规西药治疗,治疗组加用
副猪嗜血杆菌(Haemophilus parasuis,Hps)常引起猪的多发性浆膜炎、关节炎和脑膜炎,是猪格氏病(Glasser’s disease)的病原菌,随着我国规模化养猪业的发展,该病已成为猪场保
随着丝绸之路经济带建设的不断推进,中国对中亚国家的直接投资实现快速增长,但同时依然存在投资波动大、比重下滑、流向失衡、风险增加等问题.通过对中亚各国宏观经济环境、
自主学习能力在学生中参差不齐,但大部分学生自主学习能力都相对较弱,教师在教学活动中要重视对学生这方面的培养。学生在学习过程中通过自主学习,对提升学习成绩尤为重要,对