基于本体的中文人名消歧

被引量 : 0次 | 上传用户:jeep_lee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,不同的人物共享同一个人名或是同一个人物拥有多个名字已经成为很普遍的现象,这也导致了“人名歧义”问题的出现。同时,人名歧义给人名查询、人物关系挖掘、敏感人物的信息过滤等应用带来了众多不利的影响,因此,近年来国内外开始逐步关注于人名消歧任务的研究。目前现有的方法大都是利用文档中的特征信息对出现人名的文档进行聚类,即将指向同一个人的文档集聚成一个个单独的类。然而,如何确定文档中出现的歧义人名所指向的现实生活当中的特定的人,仍然是一个亟待解决的问题。本文提出了一种基于人物本体的中文人名消歧方法,主要工作包括以下几个方面:第一,构建出一个人物本体来建模人物的各种属性。采取斯坦福大学开发的本体构建“七步法”,以及人物的各种属性名称(如国籍、职业等),对人物本体中的概念及其层次结构等方面进行定义。第二,提出面向半结构和非结构文本的人物属性抽取算法。针对人名词条在百度百科中的百科名片(半结构)和人物简介(非结构)这两类信息,分别研究出基于HTML结构特征、基于自然语言理解和规则相结合这两类方式来对人物属性信息进行抽取。第三,提出基于Jena和网络数据源的本体实例化算法,自动构建人物本体实例库。第四,设计了一种新颖的自顶向下的人物本体实例树匹配算法。本文首先提出从人物本体的概念层级和属性值层级上来研究人物本体实例之间的相似性。然后,结合人物实例的总体相似度衡量方法,提出了一种人物本体实例树匹配算法框架来解决人物本体实例匹配问题。本文依次采用CLP2012评测会议中的人名文本集和网络中的中文网页文档集进行实验,人名消歧的总体F值分别达到76.27%和75.01%。结果表明,本文所提的方法可以有效地解决中文人名的实体链接问题。同时据调查统计,目前百科中已收录的人名词条已达47万之多,因此,对于当前网页中出现的歧义人名,我们的方法是适用而且有效可行的。
其他文献
CO2水合固化反应热的确定是实现煤体CO2水合固化防突的关键。依据ClausiusClapeyron方程和三参数对应态原理,建立CO2水合固化反应热计算模型;利用CO2水合分离实验装置,结合定
桥梁结构检测中动载试验是一项关键内容,结构动力特性如固有频率、阻尼系数和振型的分析直接关系到对桥梁结构工作性能的判断,探讨了动力特性的分析方法,进而得到合理的桥梁
小学高年级语文教学中古典名著的知识融入,是构建小学知识体系成长的重要环节,因此,在小学高年级语文阅读以及课文传授之中融合古典名著的鉴赏等多方面的技能培养,对于提升小
<正>在世界经济一体化和信息传播全球化的大背景下,中央电视台作为党和政府的舆论喉舌,建设国际一流媒体,提高全球传播能力,讲好中国故事,传播好中国声音,既是战略任务,也是
"笔迹是心灵的流露",写字的过程,其实就是育人和塑人的过程。练字对提高学生文化素质,促进学生身心健康具有直接功能,对学生注意力的培养也会产生潜移默化的作用,我们应该充
<正> 导语俗话说:“会看戏的看门道,不会看戏的看热闹。”鲁迅先生以其深厚的感情,优美的笔调,诗一般的语言,钻到一个只会看热闹的小孩“我”的心里,真实地再现了一群孩子看
综合课是对外汉语教学中最重要的课型,承担着系统进行语言教学的任务。课文是综合课中最重要的教学内容,一本教材是否能受到学生的喜爱,课文的话题起着举足轻重的作用,课文话
港口在沿海城市经济社会发展中的地位十分重要,既是支撑经济发展的重要基础设施、连接水陆的重要纽带和临港产业布局的重要依托,也是沿海城市主要的物流平台和外贸经济的重要
园林的色彩在园林构图中起着重要的作用。通过人为控制园林色彩,来提升游人的色彩感受,从而提升对园林的感受,是园林设计需要考虑的、必不可少的因素。文章探讨了植物色彩对
目的:通过云南省包虫病流行的地区进行现场调查,进一步查清云南省包虫病流行范围、程度、动物宿主感染情况及流行影响因素,为开展云南省包虫病防治提供科学依据。方法:根据云南