基于文本的实体—关系抽取技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:h4628241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取(Information Extraction)技术可以从非结构化数据中抽取人们感兴趣的实体、关系、事件等,形成结构化存储以供查询检索。命名实体识别和实体间关系抽取是信息抽取中两个非常重要的子任务,也是研究的热点问题。随着文本数据的爆炸式增长,如何使用丰富的未标注语料来提高信息抽取的性能成为一个迫切的问题,在这方面,以有监督为代表的传统方法表现不佳,采用弱监督和无监督方法进行处理成为当前的趋势。本文在深入研究总结前人研究成果的基础上,对弱监督的命名实体识别和关系抽取进行了改进,并取得了良好的效果。在命名实体识别方面,本文提出了SACRF(Self-training with Active learning based on CRF)方法,依据少量的初始训练语料和大量未标注数据,采用条件随机场作为基础分类器,使用自学习方法自动扩展未标注语料,并使用主动学习标注置信度低的样本。实验表明,该方法在自动扩展训练集、提高实体识别的准确率和召回率的同时,能够显著降低人工标注的工作量。在关系抽取方面,基于传统弱监督方法存在的噪声引入以及准确率不高问题,本文改进了Tri-Training算法的投票策略,并引入主动学习思想来进一步提高准确率。在关系抽取实验中,改进方法的识别准确率与传统Tri-Training算法相比具有很大的提升。最后,本文基于所提出方法,实现了一个基于文本数据的信息抽取与关联分析可视化原型系统。该系统可以将文本数据进行实体、关系抽取并布局展示,同时具备初步的关联分析和人机交互功能,以辅助用户分析决策。
其他文献
医疗设备在医疗行业中重要性不言而喻,正确分析医疗设备常见故障和正确做出维修保养,保证其发挥最大效能,提高设备使用率.本文主要是针对当前医疗设备使用、维护、保养情况,
截肢的目的是蒋已没有生理功能,失去生存能力、危害生命安全的肢体截除,以挽救患者的生命[1].但是,截肢也给患者造成了生活上的诸多不便和精神上的打击,并且给家庭也带来了巨
在高速无线移动IP通信系统中,多点接入控制协议是支持多个终端设备共享无线信道通信所不可缺少的.在目前的移动通信中,由于传输速率低,提供的业务少(主要是话音业务),对无线
该设计实现了在Windows98操作系统下PC机与单片机的串行通信及位图文件作为被传输的文件得到的有效传输.该设计中在Windows98操作平台上利用Visual C++6.0编写程序实现从位图
目的:通过对血液透析患者实施健康教育、使患者能坦然面对并规范的进行血液透析,提高生活质量,并延长生命.方法:采用责任护士单个针对性的宣教方式来了解患者健康教育前后的
目的:探究急诊换药护理沟通技巧的应用价值与效果.方法:选取2015年7月至2016年7月来我院门诊换药的200例患者,随机分为两组,对照组(100例)采用常规护理,实验组(100例)在常规
目的:探讨泌尿系结石术后留置D-J管患者拔尿管防止D-J管带出的方法.方法:回顾性分析我科2015年5月-2016年5月泌尿系结石术后留置D-J管的421例病人拔尿管及D-J管带出情况.结果
目的:探讨护理干预对老年高血压患者治疗效果的影响.方法:选取2015年1月至2016年6月在我院接受治疗的老年高血压患者共116例.观察老年高血压患者护理干预前后自我管理行为能
文中首先讨论了目标跟踪中的滤波估计方法,并结合实际应用的需要针对广泛使用的卡尔曼滤波方法提出了对非均匀间隔采样的数据进行卡尔曼滤波的处理方法,对卡尔曼滤波方程做了
WCDMA是第三代移动通信系统空中接口的主流技术之一.它能提供真正全球性的无缝覆盖和漫游,具有支持速率最高达2Mbps的高速多媒体业务的能力,还能提供较高的服务质量和频谱利