结合共指消解的跨文档中文人名消歧研究

被引量 : 0次 | 上传用户:tsao8883
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,如何从爆炸式增长的信息中高效地找到自己所需信息成为信息检索研究的重要目标。其中,面向人名的检索有着非常广泛的应用。但是在中文互联网环境中,人名重名的现象非常严重,这给面向人名的检索带来了巨大困难。为此,人名消歧的研究近年来成为信息检索领域的重要课题。分析显示,人名带来的歧义性既可能来自于文档内代词导致的共指歧义,也可能来自于多个文档之间对应于不同实际个体的重名歧义。因此,中文人名消歧包括文档内人名共指消解和跨文档人名重名消歧。共指消解的典型方法中,基于规则的方法可移植性比较差;而基于统计方法能够获得准确率和召回率的平衡,但对训练数据依赖很大。在跨文档重名消歧研究中,基于人名上下文词语特征的方法因缺乏消歧需要的知识而遇到消歧性能的瓶颈;而利用社会网络等外部知识的方法则受到所使用外部知识的限制而很难进一步提升消歧性能。为此,本文进行了以下研究。第一、本文研究了通过结合人名构成规则和人名出现的特点改善人名识别结果的方法。第二、针对文档内的共指消解问题,设计实现了一种结合汉语语言规则和统计学习的方法,对候选名词短语对是否存在共指关系进行判定,实现文档内共指消解。该方法在CoNLL2012共指消解中文数据集上达到评价指标0.651的成绩。第三、在应用共指消解方法确定人名准确上下文的基础上,提出了一种结合百科知识和利用互联网检索验证的跨文档人名消歧方法。该方法在CIPS-SIGHAN2012中文人名消歧数据集上达到准确率82.4%,召回率83.4%的性能。本文的贡献主要包括:第一,本文设计实现了一种有效地结合规则和统计的共指消解方法,该方法在2012年的CoNLL中文共指消解国际评测中获得国际第四和国内第二的成绩;第二,本文提出的利用百科知识的方法可以缓解实体信息不完整的问题,能够更加精确地衡量实体相似度,提高人名消歧的准确率,而利用互联网验证的方法则缓解了知识短缺问题,提高了人名消歧的召回率;第三、本文提出的结合共指消解的跨文档人名消歧方法能够更好地消除人名歧义。
其他文献
世界音乐与音乐人类学发展的紧密关系,它所涉及的学术问题也就是音乐人类学学科研究的内容。世界音乐研究大致分为两大层面,一是介绍和了解的层面,以信息和知识为特征,以简要
体验式经济来临,文化旅游成为了体验经济下旅游业发展的重要组成部分。研究的汾酒集团是中国最早进行传统民族文化型旅游开发的工业企业之一,是国内白酒业清香的鼻祖。其旅游
目的:探讨针对性护理对消化性渍疡患者治疗效果的影响。方法:将126例消化性渍疡患者随机分为试验组和对照组各62例,均给予抑酸剂、胃黏膜保护、质子泵抑制剂等药物治疗,对照
以"绍兴市网上轻纺城网商聚集区"为例,分析其在发展过程中存在的问题,并以电子商务产业集群为视角,提出园区发展的建议和对策,使得入驻园区的传统企业获得更加专业的电子商务服
体育产业独特的产业特点决定在体育产业进行反垄断时应当区别于市场其它产业。体育产业生产结构模型说明无论是单一价格策略,还是多种价格策略,促进消费者福利最大化的生产规
<正>为适应国际化的激烈挑战,提高竞争力,我国各大企业集团纷纷建立自己的财务公司,进行资金集中管理。我国自1987年第一家东风汽车财务公司建立以来取得了丰硕的成果,根据20
<正>一、知识、知识经济与知识溢出(一)知识所谓知识,从教育学角度考虑是指"个体通过与环境相互作用后获得的信息及其组织",在牛津高级英语词典中,知识被定义为"人们通过教育
滚动轴承是常用且易发生损坏的机械部件,轴承工作状态直接影响到整个设备组的正常运行和生产安全。在轴承故障诊断过程中,特别是初期故障,其特征信息很微弱且往往被强噪声所淹没
在构建社会主义和谐社会的进程中,村民自治制度实施中的自制规章及其与国家法的关系问题是一项重要内容。目前在广大农村,表现的最为突出的问题就是村民自治章程和村规民约在
网络经济的快速发展,在营销策略和手段方面产生了巨大的改变,出现了与此相适应的网络营销,而且随着社会的发展变化,网络营销在不断发生着变化,寻找着创新,其对经济的促进起了