基于半监督学习的远程监督细粒度实体分类技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:chueri1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度实体分类是信息抽取的一项关键基础任务,该技术为信息抽取、知识图谱构建、问答系统等下游应用提供了重要的技术支撑。由于细粒度实体分类的人工标注数据较难获取,工业界与学术界通常采用远程监督的方法去获取构建细粒度实体分类系统所需的训练语料。远程监督方法给细粒度实体分类带来了噪声标签的问题。如何利用带噪声标签的数据去构建细粒度实体分类系统称为远程监督细粒度实体分类,也是目前细粒度实体分类技术的核心问题。现有方法对噪声数据的利用存在丢失训练语料、易受到确认偏差影响等问题。半监督学习是监督学习与无监督学习相结合的一种学习方法,希望借助大量的未标记数据来提高模型的性能,通常依赖于数据的全局和局部一致性来利用未标记数据。针对目前对噪声数据利用方面的问题,本文从半监督学习角度出发,同样依赖于数据的全局和局部一致性以利用带噪声标签数据,提出了两种方法对该技术进行研究:(1)基于压缩隐空间簇的远程监督细粒度实体分类方法:为了绕开确认偏差问题,同时有效的利用带噪声标签的数据,该方法构造了一个基于标签传播的正则化损失对模型的特征抽取器进行约束,从而建模了局部和全局一致性假设。该约束使得同一个类簇的样本聚拢在一起。在数据间的标签相似度计算上,该方法提出在样本表示空间上通过标签传播方法得到每个样本的标签分布,然后利用这个分布去计算相似度。通过压缩隐空间簇方法,该方法在绕开确认偏误问题的同时,有效利用了噪声数据,不仅在两个基准数据集上都超过发表时国内外同类算法报告的结果(该方法发表在NAACL 2019中),而且在高噪声情况下,显著优于同等条件下基于部分标记损失的方法,在公开数据集BBN上仅仅利用27.9%的数据就达到了与之前最好的方法相当的结果。(2)基于虚拟对抗训练的远程监督细粒度实体分类方法:从局部分布式平滑度角度出发,通过虚拟对抗训练构造了一个可以增大局部分布式平滑度的损失,从而建模了局部一致性。首先,该方法构造了使局部分布式平滑度最小的扰动。然后该方法基于分类器的预测在扰动下应保持平滑的假设,去构造针对分类器的正则化损失。由于该方法存在确认偏差问题,因此在高噪声情况下,本文提出了一种启发式的样本选择函数以缓解该问题。在高噪声情况下,该样本选择函数带来了很大的性能提升。此外本文也探索了词性标注辅助任务训练与该方法结合的效果,希望模型学到词性方面的信息来帮助其分类。借助以上这些技术,该方法在两个基准数据集上显著提高了基础模型的效果,并超过了当前最先进水平。本文所提出的两种方法为远程监督细粒度实体分类提供了一种崭新的思路,相比较过去的方法更好的利用了噪声数据去训练模型,在两个公开数据集上实现了当前最好效果。此外,本文提出的方法在2019年TAC KBP大赛的实体识别与实体发现赛道上,取得了综合成绩国内第一名的优异成绩。方法本身也被应用在了中国工程科技知识中心建设项目中的知识计算引擎中。
其他文献
近年来,随着我国汽车工业的快速发展,汽车尾气造成的环境污染日益严重。在我国车用汽油质量标准不断提高的过程中,烷基化油在商品汽油中的添加比例不断增大,但其传统生产工艺
CO2是温室气体的主要成分,也是一种储量丰富、廉价易得的碳资源,借助可再生能源的CO2的资源化利用是实现可持续发展战略的有效途径之一,将CO2化为高附加值的化学品有望缓解人
作为一个汉语高频词汇,“有”字有多种用法,如“有+NP”、“有NP呢”、“有+NP+VP”、“有X无Y”和“有X无X”等。其中,“有+NP”因结构和意义复杂,不仅是众多汉语学者深入研究的对象,也是二语学习者的难点。然而,现有汉英词典对二语学习者关于该结构的需求关注甚少。作为汉语学习的重要参考工具,汉英词典应考虑到外国汉语学习者对该结构的学习需求,并在此基础上合理地对其加以呈现。因此,本文立足于构式
微纳米管具有独特的中空结构,其密度低,比表面积大,负载能力强,在光学、电、磁、传感器,生物医学等领域具有广泛的应用。微纳米管可由多种材料制备而成,包括碳材料、氧化物玻
学生体育主要包括学校体育和课外体育,学校体育主要是通过体育课、课间操以及社团等方面向学生传达相应的理论知识和一定的运动技能,并在这些活动中增强学生的自身素质和增强
新闻特写作为一种传递信息的,且被公众认可的媒介,是人们看世界的一种途径,其运用生动的细节描写和鲜活的人物对话来再现新闻现场,为读者营造现场感。本报告是一篇英汉翻译实践报告,材料内容为“通俄门”相关报道,是三篇政治类文章,其中两篇来自《纽约客》,一篇来自《时代周刊》,均属于新闻特写。在翻译目的论的指导下,作者对此次翻译实践进行了回顾,在翻译过程中,作者把目的原则,连贯原则和忠实原则作为指导原则。在三
市政污泥被认为是一种固体废弃物,产生于污水处理的各个阶段,巨大的污水处理量导致了巨大的污泥产量。不加处理的市政污泥将严重危害环境,同时污泥本身也具备利用价值,因此开
契约农业(Contractual farming)是在我国运行山久,并目前仍普遍存在的一种农产品经营模式。农产品渠道中的收购商与农户构成了契约型渠道关系。农户的规模相对较小、各方面的实力远远弱于收购商,且不同农户之间的同质化程度较高、组织化程度又相对较低等诸多特点,它们使渠道权力结构严重失衡,农户在这种关系中处于一种十分弱势的地位。有关订单农业的研究显示,契约型渠道关系的稳定性较低,尤其是渠道关系
自然光是室内外沟通交流的必要条件,建筑立面设计与光环境质量有着重要的关系。良好的室内自然光环境有利于学生身体和心理的健康。遮阳设计对教室内部光环境有着重要的调节
海量的用户群体使得以微博为代表的在线社交网络拥有日益庞大的社会影响力,在众多社会热点信息、重大舆情事件的传播上都发挥了重要作用。然而目前由于在线社交网络较为复杂,影响传播的因素比较丰富,社会对在线社交网络上信息传播的核心规律的认识仍有不足,对信息传播规律深入研究进而预测传播行为和趋势,已成为亟待解决的热点问题。本文的主要工作是针对微博平台中以转发为主要机制的传播预测,目的是研究微博信息在网络中传播