中文人名消歧算法研究

被引量 : 0次 | 上传用户:anglecap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名歧义是指现实生活中多个人物实体共用同一个人名而造成身份不确定的现象,这在国内外文本中普遍存在。在信息爆炸的互联网时代,人作为社会活动的主体,是构成巨大信息网络的主要元素,因此人物检索在信息检索中占据相当重要的地位。目前,主流的搜索引擎对人物检索的返回结果是包含检索人名字串的庞大网页集合,不利于用户查找与筛选信息。人名消歧的任务是解决网络传播、信息检索等中出现的人名歧义问题,主要研究如何把重名人以及不相关的网页按照现实生活中的人物个体进行划分,使用户能够快速、方便地找到需要的信息。人名消歧在热点人物跟踪与发现、个性化搜索、自动问答等领域都有广泛的应用,已经成为近几年发展起来的自然语言处理技术的一个研究热点。中文人名消歧研究起步较晚,加上中文信息处理的特殊性,目前仍然存在诸多急需解决的问题。本文研究来自网络语料的中文人名消歧问题,针对不同方面存在的问题,在文本相似度和聚类方法上提出相应的改进,目的是提高人名消歧的总体性能。以下概括了本文的主要工作:1.本文在对人名消歧进行了充分地调研上,归纳并总结了人名消歧的基础知识,包括了人名消歧的基本任务、处理步骤、目前面临的难题、用到的相关技术等。2.针对向量空间模型忽略特征项语义和语序的问题,结合最长公共子序列算法对文本表示模型进行研究,提出一种基于改进最长公共子序列的人名消歧方法。该方法首先将文本转化为有序的特征序列,然后结合词语相似度计算最长公共特征子序列,再利用特征项权重来构建文本相似度矩阵,最后进行自底向上的层次聚类。实验结果表明,相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,平均F值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也有3.7%的提高。3.为了缓解人名消歧中聚类算法带来的大类现象,提出一种结合职务或职称信息与主题信息的聚类方法。该方法首先识别人物的职务或职称属性,根据人物身份的不同进行初步划分,并对合并的簇建立主题集。然后,按照改进的文本相似度计算方法进行基于主题信息的层次聚类。实验结果表明,该方法有效地缓解了大类现象,并在P-IP评价指标的F值上比传统的聚类结果提高了将近13%。
其他文献
我国战略资源安全形势及对策陶坚世纪之交,我国亟待解决的重大改革和发展难题层出,业已存在的重要自然资源短缺问题也浮出水面,掣肘经济腾飞、束缚国力壮大,迫使我们投入更多力量
<正> 在中国共产党领导的中国革命的历史上,党在农村所实行的阶级路线和有关政策,历来对中农都是巩固地团结和保护的。中农是革命的重要力量,其经济的发展对于改变我国农业的
华文移动学习作为一种新的学习模式,满足了学习者随时随地的学习需求,在汉语推广中发挥着重要的作用。在国家鼓励充分运用现代信息技术促进华文教育的政策支持下,结合新一代
热敏灸感是经气激发与传导的标志,可以指导临床灸疗准确取穴与科学定量及提高灸疗疗效。因此,研制热敏灸感量表是量化热敏灸感的必由之路,为评价热敏灸疗效提供客观依据。本
视听说教学是大学英语教学中的薄弱环节。从信息传递的角度看,大学英语视听说教学也是一种传播活动。从传播学视角分析大学英语视听说教学,能够全面考量教学过程中涉及到的主
<正>白文冠,女,回族,河北献县人.她是抗日战争时期威震敌胆的冀中回民支队队长马本斋的母亲,1941年8月,被敌人抓捕后,临难不苟,气节凛然,最后,英勇殉国,令冀中军民齐仰.
研究背景和目的:慢性腰痛是最常见的临床症状之一,越来越多的研究证实腰椎小关节骨性关节炎是慢性腰痛的重要致病因素,据统计,腰椎小关节骨性关节炎源性腰痛占整个腰痛患者的
慢性肾炎是以蛋白尿、血尿、高血压、水肿为基本临床表现的一组肾小球病。其起病方式各有不同,临床所见症状也比较复杂。本文根据中医辨证论治与标本缓急的特点,综合多年临床
公共服务事业直接关系到社会公共利益和社会公众的生活质量。目前,我国正处于转型时期,公共服务市场化中政府监管面临诸多挑战。随着经济社会的不断发展,社会公众不断提出更