【摘 要】
:
随着互联网技术的快速发展,我们身边无处不充斥着文本信息,人们迫切地需要从海量文本数据中得到有价值的信息,信息抽取技术应运而生。实体关系抽取已经成为信息抽取的重要分
论文部分内容阅读
随着互联网技术的快速发展,我们身边无处不充斥着文本信息,人们迫切地需要从海量文本数据中得到有价值的信息,信息抽取技术应运而生。实体关系抽取已经成为信息抽取的重要分支之一,它能够从文本中抽取出实体和属性值及其之间的关系,从而将非结构化文本数据转化为结构化文本数据,因此实体关系抽取技术得到了研究人员的空前关注。当前,实体关系抽取技术主要是与机器学习技术结合共同来完成关系抽取任务,本文将重点研究半监督机器学习进行实体关系抽取的算法。在半监督机器学习算法——Bootstrapping算法中,如何抑制语义漂移是其面对的主要挑战之一。本文针对这个问题,基于一种动态的权重值分配原理优化了传统触发词提取方法。实验结果表明本文提出的方法选择出的触发词使得模式的语义约束能力更强,召回率得到了大幅度地提升;另外在Bootstrapping算法中需要源源不断地将新的关系模式加入到初始种子集中,这就需要定义一种可靠的模式相似性度量方法以选择出可靠的关系模式来扩充种子集,对此本文对最短依存树核函数进行了优化,在传统核函数基础上加入了长度参数和特征权重,实验结果表明利用本文方法得到的准确率随着种子集的扩充而稳步提升;最后,为了让新加入的关系模式更加可靠,本文优化了传统的分类模型,在传统模型的基础上提出一种由多种机器学习算法共同预测的关系抽取模型,使新加入关系模式的置信度提高,实验结果表明该模型可以得到更加稳定有效的预测效果。
其他文献
基于国内外音乐史学理论成果批评、个人学术经验回顾与现当代音乐口述音乐史的相关成果的总结以及大史学理论的借鉴,提出中国现当代口述史学研究的三个路向,亦即三种研究模式
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
在我国供电企业管理体系中,基层供电所作为供电企业的"触手",存在有着重要的意义和价值。供电所优质服务不仅代表着供电企业经营理念的变革,同时也体现了供电企业服务效率的
分析36例硝苯啶治疗后降压满意的Ⅱ、Ⅲ期老年高血压病人(HPE)的动态血压(ABP),结果显示:(1)治疗后两组ABP参数除最低血压外均较治疗前显著下降(P〈0.05 ̄0.01),组间比较Ⅲ期组舒张压、血压负荷值明显高于Ⅱ期组
中华医学会是中国医学科学技术工作者自愿组成并依法登记成立的学术性、公益性、非营利性法人社团,是党和国家联系医学科技工作者的桥梁和纽带,是发展中国医学科学技术事业的重
对灵芝酸培养基组成和发酵条件进行研究,通过设计正交试验得出提高灵芝酸产量的培养基和发酵条件的最佳组合,分别在A2、B3、C3、D1、E2、F2、G2下灵芝酸产量最高,提高灵芝酸
探讨了漆酶和淀粉酶混合脱墨的最佳配比及碱抽提对混合酶脱墨的影响,比较了生物法脱墨与化学法脱墨的效果。研究结果表明,漆酶与淀粉酶混合脱墨的最佳配比为40:60;混合酶脱墨后再
鲁迅作为中国新文学的奠基人、伟大的思想家,体现其伟大思想家地位和特点的是他以"立人"为思想革命的目标,以改造国民性为途径,达到改良人生、改造社会的目的的启蒙理想和实