基于知识表示学习和跨语言迁移增强的文本蕴含识别研究

来源 :广东外语外贸大学 | 被引量 : 0次 | 上传用户:liaonianyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本蕴含识别,也称为自然语言推断,是自然语言处理中的一项具有挑战性的关键任务。目前,文本蕴含识别已经被广泛应用到了自然语言处理中的各项应用之中,包括自动问答、信息检索以及机器翻译等。同时,文本蕴含识别同时也是评估自然语言理解的重要任务之一。近年来,随着大规模文本蕴含基准数据集的发布,可用于文本蕴含识别训练的数据大量增加,为深度学习方法在文本蕴含识别任务上的应用提供了数据基础。目前,深度学习方法已经被广泛使用在文本蕴含识别任务中,并取得了优异的性能效果。然而,目前基于深度学习的文本蕴含识别方法仍存两方面的不足。一方面,现有的深度学习模型未能充分利用外部知识资源。已有的深度神经网络绝大多数建立在词向量基础上,然而,判断两个文本之间的蕴含关系往往需要的一些词向量以外的知识。例如,单词之间的反义关系对文本蕴含识别中的矛盾标签识别具有重要作用。如果神经网络缺少这些外部知识,往往难以对两个文本之间的蕴含关系进行准确的判断,使得文本蕴含识别的性能下降。虽然已有一些方法使用外部知识对文本蕴含识别进行增强,并将外部知识转化为一些可用于神经网络的数值特征或者通过一种流水线策略将外部知识表示为实值向量,并集成到神经网络模型中,但是这些方法忽视了知识表示与文本蕴含识别模型之间的交互,使得神经网络未能充分运用这些外部知识来辅助文本蕴含识别判断。另一方面,现有的文本蕴含识别方法大多数聚焦于英文数据,要使文本蕴含识别扩展至其他语言,必须对文本蕴含识别进行跨语言拓展。已有一些方法利用双语对齐语料对齐源语言和目标语言的句子嵌入,但这些方法严重依赖于双语对齐语料。也有一些方法使用跨语言预训练语言模型,在源语言上进行微调,并应用于目标语言,但这些方法难以在两种语言上迁移知识。因此,为了解决现有方法存在的这些不足之处,本文从两个方面对文本蕴含识别进行增强:1.使用知识表示学习方法对WordNet知识图谱进行嵌入,提出了一种联合训练知识表示学习模型和文本蕴含识别模型的框架。在三个常用的文本蕴含识别基准数据集SNLI、MultiNLI和SciTail上进行了大量对比实验,验证了该联合训练框架的有效性;2.对文本蕴含识别方法进行了跨语言扩展,提出了一个基于对抗训练的跨语言文本蕴含识别增强框架。该框架可以应用在经典的神经网络文本蕴含识别模型和跨语言预训练模型上。在包含15种语言的跨语言文本蕴含数据集XNLI上验证了框架的有效性。
其他文献
<正>韩国创业风险投资从20世纪70年代开始萌芽,受宏观经济和政策刺激的影响,加上韩国政府的努力推动,韩国风险投资业在较短的时间内得到了迅速发展。
在城市轨道交通中采用敞开式TBM,不可避免的要遇到下穿建(构)筑物等问题.以重庆轨道交通六号线敞开式TBM下穿盘溪河过水涵洞为工程依托,根据TBM施工原理,结合线路埋深、地质
《草叶集》是19世纪美国著名作家惠特曼的浪漫主义诗集,在我国广为诗歌爱好者喜爱和传颂。惠特曼的《草叶集》不仅文字优美,而且包含非常多元化的主题。本文从惠特曼《草叶集
目的:观察不育伴精索静脉曲张(VC)患者的精液质量和精子形态学变化。方法:98例不育伴VC患者精液按WHO标准常规分析并对精子形态学进行评价。130例正常供精者精液检测结果作为
以核磁共振技术测定标准物质磺胺对甲氧嘧啶的含量为例,建立了磺胺类标准物质期间核查NMR定量分析方法.结果得到磺胺对甲氧嘧啶在1.00~20.00mg/mL浓度范围内具有良好线性关系
应对全球气候变暖的低碳排放技术除了大力发展绿色能源和开展现有工业过程节能减排,还应该开发新的低碳排放工业路线。二氧化碳在化石燃料的使用中被大量排放,捕集和固定二氧化碳都会提高成本和额外损失能量,因此我们提出了将化石燃料的能量和物质同时高效利用的科技开发路线,不仅减少二氧化碳的排放,创造经济价值,还可以提高各类工业生产中化石燃料的利用率。化石燃料在利用过程中通过优化工艺合成的1,3,5—均三嗪三醇(
针对淮河流域河系特点,建立具有行蓄洪区河系水动力学预报模型。干流河道洪水演进采用一维水动力学模型,钐岗分流量利用分流曲线法推求,利用虚拟线性水库法解决大洪水时支流
"十二五"时期是我国经济社会发展的重要战略机遇期,也是我国加快经济结构调整、转变经济发展方式的关键时期。2011年9月9日,财政部发布了《会计改革与发展"十二五"规划纲要》
为了提高自动化仓库固定货架拣选作业的工作效率,引入较为简单、高效的人工鱼群算法来优化拣选路径.根据所建立的拣选路径优化问题的数学模型进行程序设计,并在Matlab环境下
传统的校园信息服务平台在很大程度上不能满足在校师生的信息需求。例如,信息查询必须通过电脑,限制了访问时间和地点;教学资源的查看也必须依赖于电脑,不方便学生的学习等等