论文部分内容阅读
随着社会信息化的不断加快,从海量信息中快速获取所需要的信息变得越来越重要。人物检索是最常见的检索之一,而通用搜索引擎的返回结果往往是同名的不同人物实体相关网页的混合,而且网页的数量可能高达数十亿。从这个庞大的网页集合中寻找某个特定人物实体的信息是一项非常困难的工作。通常的解决办法是对搜索引擎人名检索的返回结果进行再处理。将网页的集合变成实体的集合,而实体的数量要远远小于网页的数量。实现的方式是将搜索引擎返回的网页聚类到若干个集合中,相关同一人物实体的网页都在同一集合中,不同集合中的网页相关不同的人物实体。由于在聚类时不知道所有网页中包含的不同人物实体的数目,一般采用层次聚类的方法对搜索引擎返回的网页进行再次聚类。层次聚类过程中,每次合并相似度最大的两个网页或子聚类以形成更大的聚类。子聚类相似度的计算最终仍依赖于两个子聚类中包含网页的相似度的计算。网页相似度通常采用重叠系数来衡量,即先将网页采用特征向量的形式表示,再计算两个特征向量相同分量数相对于总分量数的比例。从某个网页中抽取出的特征往往是该网页相关的人物实体全部特征的一部分。这会导致相关同一人物实体的两个网页特征向量的重叠系数可能为零。在早期的重名消解研究中,从每个网页中抽取出的特征一般是强特征,即能较好区分不同人物实体的特征。而从每个网页中抽取出的强特征数量有限,这会使相关同一人物实体的两个网页特征向量重叠系数为零的可能性增大,导致网页聚类结果的召回率不够高。从每个网页中抽取出的弱特征的数量往往比较多,利用这些弱特征,可以降低相关同一人物实体两个网页特征向量相似度为零的可能性,但弱特征的引入会明显降低网页聚类结果的精确率。两阶段重名消解算法在第一阶段使用强特征进行聚类,第二阶段使用弱特征对第一阶段的聚类结果进行再次聚类,较好地利用了强特征和弱特征各自的特性。本文针对上面提出的问题,结合两阶段重名消解算法的思想,在重名消解研究工作上,有以下两个方面的贡献首先,对于每个网页,提取多种类型的强特征,增加相关同一人物实体两网页特征向量具有相同分量的可能性。在第一阶段采用多种强特征的组合进行聚类,在第二阶段使用弱特征对第一阶段的聚类结果进行再次聚类。实验结果表明,多种强特征的组合在不明显降低聚类结果精确率的前提下提高了聚类结果的召回率。其次,网页中的人名根据在网页中的共现关系形成一个人名关系网络,该人名关系网络中存在若干社区,我们以每个网页中抽取出的人名作为种子人名,基于Bootstrapping算法使用Google搜索引擎发现该网页中人名相关社区的其它人名。用发现的人名扩展原有的人名集合,并应用到两阶段重名消解算法中,实验结果表明,进行相关社区发现的两阶段重名消解算法在第一阶段和第二阶段取得的效果都要高于原有的两阶段重名消解算法。