基于层次聚类和网页关系的人名消歧

来源 :山东大学 | 被引量 : 0次 | 上传用户:A58400794
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的不断加快,从海量信息中快速获取所需要的信息变得越来越重要。人物检索是最常见的检索之一,而通用搜索引擎的返回结果往往是同名的不同人物实体相关网页的混合,而且网页的数量可能高达数十亿。从这个庞大的网页集合中寻找某个特定人物实体的信息是一项非常困难的工作。通常的解决办法是对搜索引擎人名检索的返回结果进行再处理。将网页的集合变成实体的集合,而实体的数量要远远小于网页的数量。实现的方式是将搜索引擎返回的网页聚类到若干个集合中,相关同一人物实体的网页都在同一集合中,不同集合中的网页相关不同的人物实体。由于在聚类时不知道所有网页中包含的不同人物实体的数目,一般采用层次聚类的方法对搜索引擎返回的网页进行再次聚类。层次聚类过程中,每次合并相似度最大的两个网页或子聚类以形成更大的聚类。子聚类相似度的计算最终仍依赖于两个子聚类中包含网页的相似度的计算。网页相似度通常采用重叠系数来衡量,即先将网页采用特征向量的形式表示,再计算两个特征向量相同分量数相对于总分量数的比例。从某个网页中抽取出的特征往往是该网页相关的人物实体全部特征的一部分。这会导致相关同一人物实体的两个网页特征向量的重叠系数可能为零。在早期的重名消解研究中,从每个网页中抽取出的特征一般是强特征,即能较好区分不同人物实体的特征。而从每个网页中抽取出的强特征数量有限,这会使相关同一人物实体的两个网页特征向量重叠系数为零的可能性增大,导致网页聚类结果的召回率不够高。从每个网页中抽取出的弱特征的数量往往比较多,利用这些弱特征,可以降低相关同一人物实体两个网页特征向量相似度为零的可能性,但弱特征的引入会明显降低网页聚类结果的精确率。两阶段重名消解算法在第一阶段使用强特征进行聚类,第二阶段使用弱特征对第一阶段的聚类结果进行再次聚类,较好地利用了强特征和弱特征各自的特性。本文针对上面提出的问题,结合两阶段重名消解算法的思想,在重名消解研究工作上,有以下两个方面的贡献首先,对于每个网页,提取多种类型的强特征,增加相关同一人物实体两网页特征向量具有相同分量的可能性。在第一阶段采用多种强特征的组合进行聚类,在第二阶段使用弱特征对第一阶段的聚类结果进行再次聚类。实验结果表明,多种强特征的组合在不明显降低聚类结果精确率的前提下提高了聚类结果的召回率。其次,网页中的人名根据在网页中的共现关系形成一个人名关系网络,该人名关系网络中存在若干社区,我们以每个网页中抽取出的人名作为种子人名,基于Bootstrapping算法使用Google搜索引擎发现该网页中人名相关社区的其它人名。用发现的人名扩展原有的人名集合,并应用到两阶段重名消解算法中,实验结果表明,进行相关社区发现的两阶段重名消解算法在第一阶段和第二阶段取得的效果都要高于原有的两阶段重名消解算法。
其他文献
移动Ad Hoc网络的研究已成为网络领域中的重要研究方向,相关路由协议的设计和性能研究工作逐渐成为热点,一个能够对Ad Hoc网络路由协议进行全面性分析的性能评估方法显得越来
由于现代计算机硬件技术、互联网技术以及多媒体信息技术的高速发展,人们所拥有的数据量已经达到了前所未有的规模,而数据挖掘技术的出现使得对大量的库存数据进行有针对性地处
Internet的用户行为分析主要是基于Web数据挖掘,Web数据挖掘是使用数据挖掘或机器学习的方法从Web文档中抽取出用户感兴趣的潜在有用模式和信息。Web数据挖掘分为Web内容挖掘
无线传感器网络(Wireless Sensor Networks, WSNs)起源于军事领域,随着因特网技术、嵌入式计算技术、传感器技术、微机电技术、现代网络及分布式信息处理技术、无线通信技术
XML (eXtensible Markup Language,可扩展标记语言)自1998年出现以来,已经成为互联网数据交换格式的标准。大量与之相关的应用,如消息通知系统、个人个性化信息等都需要对信
对于处理多目标优化问题,本文着重对不同的多目标优化算法进行研究,例如传统多目标优化算法、 MOGA(Mulit-Objective Genetic Algorithm)、NSGA(Non-Dominated Sorting Genetic
近年来,互联网和软件应用技术的普及和迅猛发展,使得软件的发展逐步趋向网络化、平台化和服务化。SaaS (Software as a Service)具有按需租用、无需用户维护、便于扩展等特征
学术论文的剽窃现象屡见不鲜,如何通过有效的手段预防并遏制学术剽窃行为,已经成为各科研机构单位所关注的问题。作者所在课题组自2005起,在学术论文的剽窃检查与识别方面进
随着互联网的迅速发展,文件共享、视频直播、远程教育等大量的多用户大规模网络应用应运而生,在给用户带来丰富应用的同时也产生了庞大的数据传输问题。P2P技术通过采用分布
立体匹配是移动机器人视觉导航领域的关键技术之一,是由二维图像获取三维物体结构信息的主要技术手段。近几年来,立体匹配取得了重大进展,每年都有新的算法提出,并且一些性能