基于机器学习的企业实体间关系的抽取技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:huanyingchangmaoshou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业实体间关系的抽取是实体关系抽取的一种,是一种典型的信息抽取问题。在MUC和ACE评测的推动下,近年来国内外的实体关系抽取的研究工作取得了巨大进步,研究者提出了众多有效的解决方法。其中基于机器学习的方法,在定义好关系类型的前提下,将关系抽取问题转换为分类问题,显示了非常好的性能。基于平面特征向量的方法就是全监督学习的一种,它针对实体对在句子中的上下文中的词语、词性、实体类型等构建特征向量,建立向量空间模型,进而使用分类器进行关系类型识别。本文使用了这一种方法。另一种全监督学习的方法使用了核特征,它是在实体对出现的上下文片段中进行浅层句法分析,通过构造核函数计算两个结构对象(如语法树结构)的的相似性,也取得非常不错的效果。我们首先针对企业关系的特点,定义出了六种典型的关系类型,并为每一种关系定义相应的关键词列表,然后从web上爬取得到一个较大规模的数据集。数据集经过预处理之后,人工标注出一个小规模的实例集合,并随机生成一个测试集。本文首先将我们的标注集合作为训练数据,使用了平面特征向量的全监督学习的方法构建了一个企业实体关系抽取系统。系统使用的平面特征包括实体前后的一定窗口大小内的四种词,使用了SVM和kNN两种分类器。现存的多数方法是基于大规模标注语料,进行全监督学习从而获得抽取结果。然而在现实中大多数情况下,我们缺乏标注语料,同时又易获得大量的未标注语料。为此本文构建了一种基于模板的半监督学习的企业实体关系抽取系统。这个系统将标注数据作为种子,运用了一套有效的模板学习和评价机制,以及实例匹配和评价机制,进而扩大可信实例集合。经过多次bootstrapping迭代,得到质量较高的模板集,进而对测试实例集进行关系抽取。实验证明,我们的方法具有较高的准确率。
其他文献
基于IP的网络实体地理位置定位技术(简称IP定位)的目的是根据联网设备的IP地址,获取其地理位置。IP定位技术无论是在安全领域,还是在商业领域,都具有十分广阔的应用前景。然而,现有
三维地形及瀑布绘制技术是虚拟现实、地理信息系统、仿真系统等领域中关键技术之一。本文研究了虚拟现实技术和三维场景绘制技术的发展史以及现状,同时详细介绍了实时绘制三
中文输入法是中文信息处理的重要组成部分,也是中国计算机用户人机交互的关键环节。拼音输入法是现今广大计算机用户最为普遍使用的输入法。我们从中文拼音输入法的性能评测、
随着信息技术的迅速发展,基于J2EE架构的Web系统广泛应用于企业、机构等各领域中,尤其是在安全性要求非常高的电子商务等系统中的大量应用,使得人们对Web应用系统的安全性越
随着互联网的快速发展,恶意代码的种类和数量在不断增多,其编写、传播和利用呈现出趋利化、商业化和组织化的态势,对互联网安全构成重大威胁。在恶意代码分析领域主要存在静态分
随着网络和信息技术的飞速发展,信息系统在工矿企业中的应用越来越广泛,系统所具有的开放性和资源的共享性,极大的方便了使用者,大大提高了工矿企业的工作效率和工作质量,但
本文在深入研究了决策支持理论的基础上,结合数据仓库、数据挖掘和联机分析处理技术,设计并实现了电力营销决策支持系统。电力营销决策属于半结构化的决策范畴,缺乏程序化的
拒绝服务攻击是网络安全的一大威胁,在拒绝服务攻击的各种防御技术中,源追踪问题的研究一直是近年来的一个研究热点。若能够快速准确找到攻击者的位置,在适当位置部署防御措
近些年来,随着网络环境的不断改善,流媒体应用得到了飞速发展。从基于代理服务器的流媒体组播方案到现在比较流行的基于P2P网络的流媒体组播方案,其发展速度十分迅猛。关于流
随着基于构件的软件开发方法的不断发展,构件组装技术与方法研究日益受到重视。如何将特定领域中的构件组装成为更大粒度的构件或应用程序,成为研究的一个热点问题。本文针对