基于交互式图模型的关系抽取模型研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhochg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网经济迅速发展,网络上由用户产生的数据越来越多,且大部分是文本数据。巨量的数据中蕴含众多有价值的信息,如何从复杂的文本数据中挖掘有价值的信息是一个重要的挑战。在众多文本挖掘任务中,关系提取是当前研究热点,不仅有重要的理论价值,而且在生物信息学、电子商务、社交网络、信息检索等场景中有着广泛应用。当前研究中,基于深度学习的判别式模型取得了良好的性能,该类模型需要大量的标签数据,然而获取高质量标签的代价很大。众包和半监督学习的方法可以减少标注工作量,但在训练过程中,受限于标签质量和数量的不足,判别结果不够精确。为解决该问题,本文考虑利用领域和任务相关的数据依赖关系,来减轻标签质量和数量不足的影响。为实现此目的,如何通过定性和定量相结合的方式挖掘和描述多种数据间的依赖关系,并利用依赖关系发现模型问题,通过进一步调试取得更好的性能,是本文面对的主要挑战。针对上述挑战,为帮助用户定义和调试数据依赖关系,本文提出一种交互式的图模型构建方法。首先,面向关系提取任务,充分挖掘文本数据间多种依赖关系,并映射为MentionGraph图模型的结构特性。本文通过交互调试的方式选择合适的依赖关系,逐步构建图模型,有效缓解标签噪声和标签不足的问题。为支持调试过程中良好的用户交互性,本文提出了有效的交互原则,并设计了调试语义和运算符。其次,基于上述方法和原则,本文设计并实现了一个交互式模型构建与调试系统,通过良好的人机交互接口帮助用户观察模型运行情况、探索图模型空间。最后,为解决图模型计算量大而导致调试效率不高的问题,提出了三种加速优化方法,有效提高了图模型的收敛速度,优化了用户体验。在关系提取任务上的实验表明,本文所提系统构建的交互式图模型可以从小型训练集泛化到另一领域的较大语料库中,因此,体现出对跨领域语料库依赖关系的学习能力。实验结果还表明,在众包任务和半监督学习任务中,本文的交互式图模型优于对比方法。
其他文献
随着我国创新驱动战略的提出,技术创新成为企业在竞争激烈的市场上得以长久发展的动力来源,然而,由于企业技术创新存在高风险和信息不对称等问题,导致企业在技术创新过程中往往面临着外部融资难的困境,而组织冗余作为企业内部的重要资源,在企业面临资源困境时可以提供有力的资源支持,从而有效缓解企业在技术创新过程中的资源短缺问题。因此,研究企业的技术创新对组织内部冗余资源的持有量影响具有重要的现实意义。基于此,本
社区是复杂网络研究中一个重要的结构,而在社交网络中社区结构也吸引了非常多的学者对其进行研究。近年来针对动态社区的研究逐渐增多,主要是为了量化的分析社区结构随着时间
本文以美术史为切入点,从多个层面、多个维度对笔触在中国绘画中的发展历程、具体作用进行论述,剖析了在特定人物中运用不同笔触形式的原因、发展特点,深入、全面的探析了中国当代艺术家的绘画人物中对笔触的理解及表现,思考它们形成绘画风格的外因和内因及其对大学生的影响。经过分析极具代表性画家作品中人物的笔触发展特点、具体作用,解释出艺术家的发展规律以及主要艺术表现形式,从而反思与领悟艺术家作品中是采取何种形式
同步定位与建图(Simultaneous Localization and Mapping,SLAM)算法是机器人和无人驾驶领域的核心算法,近几年收获了许多关注。这其中视觉SLAM算法凭借着其相机传感器小巧灵
近年来,网络化系统的控制问题成为研究的热门领域。相比于传统的依赖中心的集中式算法,分布式算法具有无需中心节点,数据分散在网络各个节点的特点,以其分布性、可扩展性、自主性、鲁棒性等性质广泛应用于智能电网、机器学习、云计算、传感器网络以及无人机等领域。在实际情况中,智能体往往会受到多种条件的制约,如何在约束条件内寻求整个网络的最优决策具有重要的现实意义。因此,研究约束条件下的多智能体系统的分布式优化具
近年来,课堂导入在思想政治课教学领域引起了众多教师的关注,广大一线教师积极适应新课程改革的要求,以生动形象的教学促进学生素质的全面发展。课堂导入是课堂教学的基本环节之一,不同课程的课堂导入有共性也有个性,虽然课堂导入在整堂课的教学环节中所占比重不多,且要服务于后续的教学任务,但课堂导入对教学质量的影响不容忽视。若能恰当地进行课堂导入,就能够有效地集中学生的注意力,激发参与学习的热情,营造良好的课堂
随着人工智能、云计算、大数据移动互联网的快速发展,文本、图形、图像、视频等各类数据文件急剧增多,人们的用户终端也从单一的PC发展为手机、PDA等多种电子设备的融合共生,带来即时通讯、社交网络、内容分享、自媒体等各类用户应用的蓬勃发展,今天用户之间的协同协作更加紧密,终端之间的数据共享更加频繁,因此高效、可靠、灵活的文件与数据同步技术成为大数据时代至关重要的用户需求。现有的文件同步系统多采用客户-云
作为一名在医药类高职院校工作的教师,笔者深刻感受到福建医药类高等职业教育发展面临的压力逐年扩大。一方面,近年来,福建省政府虽然接连下发各类文件支持高职教育,特别是医
在线性回归问题中,L2损失函数y-Xβ‖22取得了巨大的成功。但是它受异常值的影响比较大。L1损失函数‖ y-Xβ‖1比较稳健,近年来关于它的算法也取得了突破性进展。但是它对比
近些年来,随着战场环境越来越复杂,传统的有源雷达在工作时会发射大功率电磁波,时时刻刻都有被敌方发现的威胁,因此传统雷达的应用也受到了限制,国内外越来越多研究人员对本身不发射电磁波的外辐射源雷达提高了关注。基于外辐射源雷达独有的体制,使其具有成本低、体积相对小、功耗低、不易被发现且不易被干扰等优势,可以预见外辐射源雷达的应用前景相当广泛,同时也是当前国内外雷达领域研究的热点。本文基于北斗卫星为辐射源