【摘 要】
:
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。作为实体关系抽取的重要分支,人物关系抽取问题受到许
论文部分内容阅读
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。作为实体关系抽取的重要分支,人物关系抽取问题受到许多专家学者的关注。本文提出了一种基于最长公共子串(LCS)问题加权处理的抽取二元人物关系的方法,并在此基础上构造了模板自动生成的人物关系抽取系统。 本文的研究内容主要包括以下几个方面: 一、使用模板自动生成方法进行人物关系抽取,并对原始的LCS算法进行了改进,主要是进行了加权处理; 二、为了提高系统的泛化性能,系统增加了《同义词词林》语义扩充功能,对关系描述词的范围进行了扩充; 三、在提高模板的泛化性能的同时,为了使模板具有细致的区分度,系统将模板中的某种关系描述词进行小类的统一标记; 四、为了提高模板的匹配效率,系统增加了模板的评测与排序模块; 五、用基于CRF算法的分类器作为对比实验,对基于模板自动生成的人物关系抽取系统的效率和有效性进行了验证。 实验使用从2007年人民日报网页版提取的1500个含有两个人名的句子作为实验数据,人工标记句子关系种类,并随机选取其中的2/3作为训练数据、1/3作为测试数据。分别用基于模板自动生成方法和基于条件随机场(CRF)算法进行二元人物关系抽取。基于模板自动生成方法的分类器加权平均后的准确率、召回率和F值分别为:0.8881、0.8907和0.8806,基于CRF算法的分类器加权平均后的准确率、召回率和F值分别为:0.8400、0.8628和0.8287。基于模板自动生成方法的分类器在二元人物关系抽取上取得了更好的识别结果。
其他文献
随着互联网的不断发展,在线数据库的数量不断增多,DeepWeb模式集成的重要科学研究意义和显著的工程应用价值就凸现出来,但是由于这些数据库在地理上分布、管理上自治、模式上
随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚
自动图像标注是基于内容图像检索中重要而具有挑战性的工作,它可以在一定程度上解决基于内容图像检索中存在的语义鸿沟问题。如果能实现自动图像标注,那么现有的图像检索问题
近些年来,数据挖掘技术获得了人们越来越多的重视,因而成为一门新兴的学科,人们利用数据挖掘技术从海量的数据中寻找有用的信息,同时为了使数据挖掘系统发现知识的过程和结果
随着互联网的飞速发展,网上购物也变的越来越普及,给用户推荐合适商品的推荐算法也变的日益重要。频繁模式是指频繁地出现在数据集中的模式,可以作为推荐系统推荐依据的一部
随着信息技术的迅猛发展,参与到社交网络的人越来越多,人们乐于在网络中去分享信息,拓展自己的人脉,企业也能通过社交平台去直接影响客户。在线社交网络已经成了人们生活中密
相比于现有的诊断技术,无损非侵入式的声音诊断技术,近年来受到学术界的持续关注。但目前各种声音诊断研究中采集设备多种多样,采集流程各有差别,然而关于采样流程中的因素和
在软件开发中,客户的需求总是变化的,无法在设计时给出一个完美的设计方案,这就要求设计出来的软件具有很高的可维护性和可扩充性,以应对变化。重构技术是解决这一难题的重要
随着计算机和网络技术的不断发展,电子商务行为越来越普遍。在电子商务交易中,为了节省买卖双方为谈判完成交易所花费的大量工作和时间,提高交易效率,有效降低交易成本,有必
图形用户界面(Graphical User Interface)是计算机系统中的一种人机交互技术,该技术的重要内容包括:丰富的图形图像信息、直观的表达方式和用户交互。随着嵌入式设备在人们日