【摘 要】
:
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。目前实体间语义关系抽取研究的最大挑战是训练数据
论文部分内容阅读
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。目前实体间语义关系抽取研究的最大挑战是训练数据不足的问题。同时,各语义关系的分布很不均衡,这个问题对于语义关系小类更为突出,严重影响到它们的性能。语义关系抽取目前主要使用指导性学习方法,但是指导性语义关系抽取对标注语料库的依赖性比较高,因此人们开始探索弱指导机器学习方法,通过自举产生大规模较高质量的标注语料库,减轻对大规模手工标注语料库的依赖。针对以上问题,本文探索了一种基于自举的弱指导语义关系抽取方法,对弱指导语义关系抽取的三个关键环节:初始训练集的选择,训练集的扩展以及迭代终止条件进行了深入的研究。在初始训练集的选择阶段,为了能够抽取到具有较高代表性和分布均衡性的实例,本文引入了分层选择策略,首先将未标注数据集按照一定的标准划分成若干层,然后按照比例从每一层的实例集中抽取实例组成初始训练集。初始训练集的选择对于基于自举的弱指导语义关系抽取至关重要。在训练集的扩展阶段,由于新加入实例会引入很多噪音,而且新加入实例在各个类别上分布不均衡,严重影响抽取性能。本文首先挑选具有较高可信度的实例,然后再使用分层抽取方法选择实例添加到训练集中,这种方法可以一定程度上降低噪音,同时避免新加入的实例过度集中于几个关系类别上。最后,为了避免出现过度拟合的情况,我们通过实验寻找了一种迭代终止条件,使得弱指导学习方法局部收敛。我们在ACE RDC语料库上的实验表明,分层选择策略要优于其它策略,可以抽取到具有较高代表性的实例,同时能保证训练集在各个语义关系类别上分布比较均衡,有效地提高了基于弱指导学习的语义关系抽取性能。
其他文献
本文通过比较国内外电力系统故障诊断方法和故障判断原则,提出了以专家系统为主,辅以模糊理论的方法,应用于变电站故障诊断仿真——对故障诊断结果可以确定的故障以专家系统为主;用模糊推理来处理故障诊断中不确定的信息。并详细介绍了知识库的建立过程。该变电站故障诊断仿真系统利用实际监控系统得到的开关和保护动作信息来诊断故障,根据保护和保护范围的对应关系,确定故障发生的位置。并提示运行人员应如何处理。本文提出所
随着多媒体技术的快速发展和图像信息的爆发性增长,图像数据库规模变得非常庞大,而这些图像中,包含人脸的图像更是引起了人们的加倍关注。如何有效的管理这些海量的人脸图像,
在多媒体技术日益广泛的今天,图像的通信和存储占有重要的位置,数字图像包含信息量巨大的特殊性使得压缩技术成为其关键,因而探索高效图像压缩编码算法无疑将成为当前通信和信号
近年来,随着通信网骨干网和局域网的巨大变化,“最后一公里”的接入网部分成了高速局域网和主干网之间的瓶颈。具有传输频带宽、容量大、抗干扰能力强等优点的无源光网络PON,
随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语
无线移动自组网(Ad Hoc networks)是一种新兴的网络技术,具有单独组网能力和自组织的特点,在军事、民用、灾害营救等领域具有广泛的应用前景,已成为当前无线通信领域研究的一
当前,精细农业、精准农业思想的提出为农业的发展开辟了新的空间。高新技术应用于农业生产对于降低农作物生产成本、增加农作物产量、提高农产品质量并在生产中减少对环境的
随着Internet的快速发展,因特网上信息数据量与日俱增,当人们利用搜索引擎检索关键词,面对其返回的一个庞大的相关网页链接列表时,常常还是难以寻找到自己真正所需的资源。解决该
本课题由上海市高校科技发展基金项目“储罐远程监控单元(RTU)”、上海师范大学科研成果产业化(中试)项目和上海师大青年基金项目“新型SCADA系统的研制和应用”立项和资助。
随着全球信息化脚步的不断加快,人们对信息的需求越来越具有高效性、灵活性、广泛性和综合化的特点。但随着IT技术发展的阶段性的特点,网络上存在大量的异构数据库如对数据属性