融合句义特征的人名消歧及人物关系抽取技术研究

被引量 : 0次 | 上传用户:ivyqbw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名歧义是一种身份不确定的现象,指的是文本中相同的人名指向现实世界中的不同实体人物。人名消歧具有很大的实际应用价值,是搜索引擎、社交网络和人名知识库构建等领域的基础性研究,在个性化搜索、自动问答、多文本摘要、热点人物跟踪与发现等领域都有着广泛的应用。通过人名消歧获得了感兴趣人物的相关文本后,人们往往还关心与其具有特定关系的人物,仅仅识别出文本中的人物往往无法满足实际应用需求,这些人物之间存在着何种关系更为关键。因为文本中的人物关系是分散的,所以更需要从文本中快速准确地自动抽取人物关系。跨文本人名消歧是区分多文本中同名的不同人物实体的过程,是人名检索技术的重要组成部分,近年来成为自然语言处理中的一个重点问题。本文针对文本分析不够深入、表示不够精细造成的信息丢失和噪声干扰的问题,提出了一种融合句义特征的三阶段人名消歧方法。该方法首先针对查询词常作为普通词出现的特点,在文本预处理后采用启发式规则的后处理方法判断其是否是人名;然后根据特征模板提取局部名实体特征及职业,通过句义结构模型进行句义分析,提取句义特征,引入重叠系数计算句义特征相似度,利用词袋模型统计词频,构成三层特征空间;最后使用基于规则的分类和两阶段层次聚类算法实现人名消歧。在CLP2012中文人名消歧语料上进行实验,结果表明该方法的F值达到88.79%,跨文本人名消歧方法中引入句义特征可进一步提升其处理效果。人物关系常常不以结构化的形式表达,人们对自动高效的人物关系抽取方法的需求是迫切的,本文针对三元组特征分析不够深入,种子词需要人工设定等问题,在抽取并分析关系特征词所承担的句义任务的基础上,提出了一种自动的人物关系抽取方法。该方法首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典;然后通过元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间;最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。在BFS热门人物检索语料上进行实验,结果表明该方法的F值达到83.8%,实验效果良好。
其他文献
随着时代一步步的稳定,世界的日益和平稳定发展,项目管理从管理学中脱颖而出,成为了一个被各行各业,各类经营者管理者所需要的知识领域。而本文也从第三方认证实验室的项目管
由于历史的原因,商业银行累积的大量不良资产如何处置一直都是困扰整个行业的问题,严重影响了金融安全和金融秩序。为深化金融改革,防范和化解金融风险,促进经济持续、健康、
中华巴洛克建筑是中西文化交融的一种特殊建筑形式,是哈尔滨市一道亮丽的建筑景观,具有珍贵的地域文化价值和史料价值。该文对哈尔滨道外区靖宇街内的中华巴洛克建筑群落做了
作为我国重要的民族地区之一,党和国家历来重视藏族地区社会主义核心价值观的培育和践行。但由于近年来信息全球化和文化多元化等内外因素的影响,藏族地区的社会发展进入加速
文学作品作为一国对外文化传播的重要途径,肩负着跨文化交流传播的重要使命。近年来,国家间交往日趋密切,海外中国文化热持续升温,中国当代优秀作家作品“走出去”的也越来越多,而
房地产业作为区域经济的主要支柱产业之一,和区域经济之间有着紧密的关系。房地产业的发展,可以拉动地区经济的发展;改善地区的居住环境,优化产业结构,丰富产业形态;改善投资环境,促
以云烟87为试验品种,通过对不同基追肥比例、施氮水平、不同肥料施肥时期及施肥方法试验,探讨了烤烟优质适产平衡施肥技术。结果表明:基追肥(以氮素计算)比例以60%∶40%较适宜;
冀东油田的浅层油藏储层胶结疏松,边底水活跃,随着采液速度的提高边水沿高渗透带突进,油井含水上升速度快。油藏的复杂性给调剖调驱工艺带来一定难度,本项目针对冀东油田地质
智能完井技术是近年来国际石油开采技术中最值得关注的一项高新技术,具有巨大的经济潜力和运用价值。文章介绍了智能完井系统的组成,国际上成功开发并应用的智能完井系统,以
陆游所撰《老学庵笔记》是宋代笔记作品中的杰出之作,书中所记多是作者亲历亲见亲闻之事,具有较高的文献价值和文学价值。作为一部笔记体散文,既有散文真实自然的特点,又有笔