面向属性抽取的语境特征识别与表示学习方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:caipeng1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性抽取是自然语言处理领域的一项重要任务,旨在从文本中自动抽取属性的表述语言,其在情感分析、观点挖掘方面有着重要的应用价值。目前,基于神经网络的属性抽取已经取得了一定研究进展。然而,该任务仍存在三个方面的不足,包括低频属性识别困难,属性词易与普通词混淆,以及可观测样本不充足。为解决上述问题,本文提出以下三个研究内容:首先,根据属性的分布频率,本文将属性划分为高频属性和低频属性。高频属性具有较高的领域表征能力,易被监督学习模型感知。相对地,低频属性出现频率低,可供训练的样本总量较少,使得神经网络模型难以充分学习相应的语境特征,其导致识别难度较高。本文发现低频属性往往与高频属性同时出现,即两者存在共现于局部文字片段的现象。在这一共现情况下,高频属性能够作为表征低频属性语义的关键线索。因此,本文提出一种融合高频属性信息的属性抽取方法。该方法利用统计信息挖掘句子中的高频属性,将其作为重要的语境特征纳入表示学习过程当中,以此增强其它词项的分布式语义表示,借以辅助相似语境下低频属性的识别。其次,虽然现有基于神经网络的属性抽取模型,能够对属性词及其语境进行深度的语义表示和感知。但是,现有技术仍然面临高可辨性语境特征识别困难的问题,这一问题导致此类模型易于混淆属性词与其它普通词,使得属性的误判和漏判率较高。因此,本文提出一种结合数据自增强与对比学习的属性抽取方法。该方法利用正则化Dropout(简称R-Drop)实现数据自增强,并扩充可学习的正负例样本。在此基础上,本文借助对比学习优化正负例样本的特征表示,使两者具备更易感知的差异化表示模式。本文通过上述方法,引导模型自动识别高可辨性的语境特征,从而提升模型对属性词和普通词的分辨能力。最后,属性抽取任务具有较强的领域性,不同领域的文本存在语用及表达上的差异。因此,单一领域下训练所得的神经属性抽取模型,往往在其它领域的数据处理上难以获得较优的性能。在实际应用中,为每个领域标注大量可观测数据并用于监督学习的时空损耗过大。因此,本文提出一种基于“目标范式”(即Prompt)的属性抽取方法。该方法为原始文本构造含有掩码的目标提示句,且该提示句是一种表征特定属性存在与否的范式。在此基础上,本文借助掩码语言模型的解码器,根据上下文语境信息的特征表示,预测目标提示句的掩码信息,从而间接辅助属性存在与否的判别。本文针对低频属性识别困难,属性词易与普通词混淆,以及可观测样本不充足三个问题,开展了融合高频属性信息的属性抽取、结合数据自增强与对比学习的属性抽取、基于目标范式掩码预测的属性抽取三种方法的研究。本文在国际语义评测大会提供的四个属性抽取数据集上进行实验。实验结果显示,本文方法在2014年的笔记本电脑领域数据集上取得了 83.94%的F1值,在2014至2016年的餐馆领域数据集上分别取得了 88.72%、73.61%和 78.10%的 F1 值。
其他文献
软件测试是软件工程不可或缺的重要环节之一,而众包测试是软件测试的一个重要分支。在众包测试中,工人执行测试任务并提交测试报告,开发者需要对提交的测试报告进行审查和评估。由于测试报告数量众多且往往质量参差不齐,开发者在人工审查过程中将花费大量时间,直接影响了众包测试效率。近年来,出现了许多自动化技术,如聚类、分类和排序技术,以减少审查数量并提高审查效率。然而面对移动应用众测报告的文本和图像信息时,已有
学位
目前动漫图片风格的电子游戏拥有越来越大的市场和受众。在该类游戏开发中,存在高质量的背景绘制需要耗费资源巨大的问题,该类游戏在制作过程中通常需要绘制不同时间条件下的差分图,并要求电子游戏的背景图片比一般动漫图片纹理及色彩更丰富,边缘更清晰,而现有的动漫风格图像迁移方法仅支持照片域图像向动漫图像单一时间节点域的映射,并不能很好胜任这项任务。本文在基于生成对抗网络的从照片生成动漫风格电子游戏背景图片算法
学位
属性级情感分类任务旨在判断句子中针对某一个属性所对应的情感倾向,近年来,引起了自然语言处理领域学者的广泛关注。由于现有的相关研究大部分都是基于英文语料的,情感资源在不同语言上的分布并不均衡,跨语言的方法应运而生。跨语言属性级情感分类旨在使用源语言中的资源帮助目标语言进行属性级情感检测和分类,其核心问题在于如何实现跨语言知识的有效共享。本文针对这一问题对跨语言属性级情感分类展开研究,具体研究内容如下
学位
基础设施的拆除和改扩建产生了巨量的建筑垃圾,建筑垃圾主要再利用方式为制作再生骨料,但是再生骨料内部存在微裂缝和孔隙,这导致其物理力学性质较天然骨料更差,产品性能更低。本文主要研究微生物矿化改性反应的主要影响因素,探讨利用该技术改性建筑垃圾的方法和改性后再生骨料的物理力学性质变化,并探索改性再生骨料在路基填料中的应用。本文主要得到以下结论:(1)通过微生物化学实验,研究各参数对脲酶活性和矿化反应过程
学位
篇章关系识别是自然语言处理研究中的一项基础性任务,其批量处理两个相邻的论元(如子句、句子或段落,统称为论元对),并自动判别每个论元对之间的语义关系。篇章关系识别给下游任务提供了重要支撑,如阅读理解和文本摘要等。隐式篇章关系识别作为篇章分析的子任务,由于其缺少连接词,难以利用诸如“因此”这类显式且无歧义的词级线索直接判定关系类型,导致隐式篇章关系识别率难以提高。本文研究集中在隐式关系分类问题,并着力
学位
实时操作系统以其良好的实时性和可靠性在嵌入式系统开发中得到普遍应用。但实时操作系统专业性较强,与软硬件平台高度相关,不同系统软件难以移植和复用,应用开发门槛高;同时复杂的系统内核实现导致用户工程可读性弱、编译速度低,直接影响开发效率。为此,本文以通用嵌入式计算机架构为依托,对实时操作系统的驻留进行研究,将系统内核与用户程序有效分割,提高用户工程编译速度和程序清晰度,降低应用软件开发难度。主要研究内
学位
面向对话文本的逻辑语义关系检测研究1是自然语言处理领域的一项关键任务,准确的检测对话文本的逻辑语义关系能提高对于对话文本的整体理解,对于对话机器阅读理解[1,2]、对话自动摘要[3]、对话回应选择[4]等下游的自然语言处理任务有着极为重要的支撑作用。近年来,随着深度学习的兴起和发展,自然语言处理领域发生了极大的变化。作为自然语言处理中的一个重要的研究课题,对话逻辑语义关系检测不可避免地受到这股浪潮
学位
工业产品加工过程中的部分生产工艺如收缩、凝固,会导致产品表面出现划痕、磨损等缺陷。传统生产工序中通常采用人工质检的方式对产品质量进行判断,这种检测方式不仅耗费人力成本,而且无法准确检测产品质量。随着制造业智能化水平的提升,基于深度学习算法的缺陷检测系统逐渐代替人工质检,提高了缺陷检测效率及劳动生产率。但这些复杂的深度学习算法大都需要部署在云端服务器进行训练,无法满足工厂离线执行的需求且难以部署至嵌
学位
目前光伏组件应用的EVA和常规POE胶膜材料均存在封装缺陷,在此背景下市场推出新型共挤POE胶膜,但需验证可靠性。文章为评估新型共挤POE材料的可靠性,首先选取A和B两个生产厂家的共挤POE胶膜与常规POE胶膜进行关键性能对比,得出共挤POE主要在抗水气渗透和体积电阻率相比常规POE弱;其次通过老化环境测试验证了共挤POE应用在主流双面透明背板组件上的最大风险为抗湿热能力差。研究结果对共挤POE产
期刊
机器翻译技术在近年来的迅速发展和普及使得越来越多的人享受到便利的跨语言沟通,在一些常用语言以及通用翻译场景下,机器翻译已经能够满足绝大部分翻译需求。目前主流的机器翻译系统采用神经网络模型,需要大量的标注数据,如平行语料、双语词典等,然而对于大多数语言之间的翻译建模而言,高质量的双语语料匮乏,翻译系统质量难以提升。为了高效地利用已有的资源,提升翻译系统的性能,本文提出了两种低资源条件下的数据增强方法
学位