【摘 要】
:
文本的特征提取及表示是文本挖掘领域的一个首要问题,它是文本分类、摘要提取等自然语言处理任务的前提。随着人工智能技术的快速发展,文本特征表示方法结合深度学习网络成为自然语言处理领域的主流方法。针对不同粒度的自然语言处理任务,单模型的文本特征表示方法无法为不同粒度的下游任务提供更准确的文本特征信息。例如针对句子级别文本特征表示方法,单模型的文本特征表示方法往往只关注局部文本特征,从而丢失重要的全局信息
论文部分内容阅读
文本的特征提取及表示是文本挖掘领域的一个首要问题,它是文本分类、摘要提取等自然语言处理任务的前提。随着人工智能技术的快速发展,文本特征表示方法结合深度学习网络成为自然语言处理领域的主流方法。针对不同粒度的自然语言处理任务,单模型的文本特征表示方法无法为不同粒度的下游任务提供更准确的文本特征信息。例如针对句子级别文本特征表示方法,单模型的文本特征表示方法往往只关注局部文本特征,从而丢失重要的全局信息。针对文档级别文本特征表示方法,需要考虑单词、句子与文档三者之间的关系,力求得到更具体的文档级别特征信息。本文对于不同粒度的自然语言处理任务,提出有针对性的文本特征表示方法,本文研究内容如下:(1)本文提出一种利用BiReGU和胶囊网络的句子级别文本特征表示新方法,即BiReGU-Capsule模型。该模型中BiReGU是全局特征提取模块,全局特征提取模块采用基于注意力机制的双层BiReGU模型,捕获到的全局信息更加全面具体。Capsule是局部特征提取模块,采用基于注意力机制的胶囊网络模型,首先进行多头注意力计算,减少噪声胶囊的影响,并且在得到全局特征信息后,加入基于注意力机制的交互融合,在提取局部特征信息的同时关注到全局信息。BiReGU-Capsule模型在文本分类任务中进行实验,分类结果优于基线模型,尤其在多类数据集上本文提出的BiReGU-Capsule模型表现出色,Macro-F1值相比于传统Capsule模型提升了2.6%。(2)本文提出一种基于BigBird的文档级别文本特征表示方法,即BigBird Sum模型。该模型采用层次化的特征表示方法,捕获到文档数据中不同粒度信息之间的关系,使用句子编码层和文档编码层两部分,句子编码层采用稀疏注意力的BigBird模型,降低了模型时间和空间复杂度,同时增加了输入文本序列长度,充分关注更长的文本上下文,文档编码层采用Transformer模型,针对句子编码层的句子特征输出,提取句子与文档之间的关系,从而整个模型可以同时关注单词、句子和文档之间的关系,BigBird Sum模型在摘要提取任务中进行实验,与基线的摘要提取模型相比效果更好,尤其在NYK50数据集上,本文提出的BigBird Sum模型表现出色,在ROUGE-L评价分数上分别比Transformer和Bert基线模型高3.47%和2.50%。
其他文献
中国戏曲随着淘金热在十九世纪五十年传入澳大利亚,并于20世纪初期达到鼎盛,随着时代的发展,戏曲几经起伏,延绵不绝。本文以西悉尼大学澳中文化艺术研究院网络研讨会第二期第四次研讨会为素材进行模拟交替传译实践并撰写翻译实践报告。此次研讨会由韩静院长主持,迈克·威廉姆斯教授和尼古拉斯·安教授讲解,该系列研讨会未设置现场翻译。翻译实践报告涵盖整个口译过程,包括译前准备,翻译过程,译后分析,总结报告等。本文以
自赛事节目垄断权被放开,中央陆续出台一系列促进赛事节目发展的政策以来,体育赛事产业呈现欣欣向荣之态。体育赛事直播节目依托互联网平台,增加了市场体量,也面临了前所未有的被盗播风险。许多网站未经许可同步播放赛事节目,这种使用互联网技术进行的侵权成本低廉、隐蔽性强、侵权方式多样化,给权利人带来巨大损失,且对体育产业长远发展带来危害,如何在2020年《著作权法》修改的背景下找到体育赛事直播节目在其中的定位
观察式纪录片主张不干预、不控制,以观察为基本拍摄手法,纪录片创作者多采用长镜头和同期声,通过跟踪拍摄和等候拍摄等手段,在影片中客观、真实地重现社会现实。观察式纪录片创作手法在弗拉哈迪、伊文思、维尔托夫等早期纪录片大师的作品就有所体现,随着科学技术的发展,摄影设备轻小且便携,还实现摄录同步,作为20世纪最为重要的纪录片流派之一的“直接电影”充分应用观察式创作手法进行纪录片创作,将观察式纪录片发展为一
《夷坚志》保存了大量民众遭遇疾病的故事,既有研究已注意到了这些故事,但因着眼于其医学方面的价值,多采用社会医疗史的研究方法。研究对这些故事进行了全面系统的整理和分析,挖掘其在文学和文化层面的价值和意义。第一章为绪论。对研究对象进行界定并阐明研究现状与思路。第二章,宋前疾病故事的发展历程。先秦两汉是疾病故事的雏形孕育期,各种文学体裁中均有关于疾病的简单描写。在叙事性较强的史传文学中,一些记叙可视作完
《诗论》在朱光潜前期美学中占据着十分重要的地位。从《诗论》讲义(1935),到“抗战版”(1943),再到“增订版”(1948)这十三年间,朱光潜前期美学思想经历了展开、变动以及发展成熟的阶段。本论文主要以《诗论》讲义、“抗战版”、“增订版”三个版本为研究对象,结合具体历史语境与相关史料记载,深入考察并梳理出朱光潜前期美学思想的嬗变轨迹,同时较为完整地揭示朱光潜在这期间的矛盾犹疑,藉此重新认识与把
乔治·奥威尔(1903-1950)是英国著名的小说家、记者和社会评论家。他本人及其作品在西方世界家喻户晓,已经成为一种独特的文化现象。奥威尔在他短暂的一生里创作了多部重要作品,包括小说、诗歌、文学评论集等,其中以小说《动物庄园》和《一九八四》最富盛名。《动物庄园》自1945年出版后,即引起轰动,在思想界和文学界产生的影响至今不衰。小说借助动物视角讲述了一场“动物主义”革命的酝酿、发起和最终的失败。
本翻译实践原文选自《欧盟牙科团队》(The Dental Team in the European Union)第二章“职业化的第一阶段:教育”(“The First Stage of Professionalization:Education”)。本书的作者是桑德拉·科夫(Sondra Z.Koff)。本书介绍了欧盟牙科从业人员的学习和工作阶段、欧洲化背景下的欧盟政策产出和活动及其对口腔保健的影
本翻译实践材料选自安娜·阿斯兰扬所著的《绳索上的舞蹈》(Dancing on Ropes)一书。该书从译员的切身经历出发,通过一个个有趣的故事,以全新的视角来审视翻译者如何改变了世界上的大事,如何直接影响了历史事件,从侧面反映出作者对译员这个职业的肯定。本翻译实践报告以黄忠廉教授的“变译理论”作为理论指导,主要探讨“增、减、编、述、并”五种变译策略对此次翻译实践的指导意义。报告共分为四部分:第一部
抗日战争时期,国民政府出于战略需要而迁都重庆,由此重庆成为全国的政治、经济、文化和艺术中心。当时的重庆聚集了一大批考古学家、书法家、画家等文化艺术人士,他们在以重庆为中心的抗战大后方积极开展考古发掘以及文物整理工作,形成了较为丰富的考古研究成果。我们发现,在这些成果中,尤其是与书法资料相关的文物,对重庆书法艺术的发展产生了颇为重要的影响。作为抗战时期的首都重庆,的确具有非常特殊的历史意义,对此阶段
1920—1937年间,蹇先艾在众多刊物上发表了大量都市题材的作品,这些作品与他的北京体验密切相关。可以说,北京作为蹇先艾文学生涯的重要起点,既为他提供了“文学青年”身份,给予他参与文化实践活动的可能,也塑造了他的文学观。随着北京对蹇先艾精神生活“参与”的日益深入,蹇先艾在“城与人”的互动中创作出的“北京世界”构成了他文学世界的重要部分。从文化实践来看,蹇先艾最初置身北京文化场域时,通过创作、结社