论文部分内容阅读
随着数据万维网的逐步成形,大规模自动实体匹配成为一个急需完成的重大任务。该任务旨在将万维网上来自不同数据集,却有着同样意义的实体进行匹配,从而使网络程序在探索、查询、筛选、汇总多个来源的数据时能够得到更为完整和正确的操作结果。它关系到大量网络应用的性能和用户体验,这些应用包括搜索、浏览和各种采用混合技术搭建的网络程序(Mashup)。然而,在进行这种数据整合的工作过程中我们将会遇到几大挑战。首先,我们需要一个可扩展的解决方案,它既能在合理的时间内处理海量的万维网数据,又能保证足够的整合效果(如准确率和召回率)。其次,现在还很难对这类解决方案进行评测,因为目前还没有一个实体匹配评测标准能够反映出万维网数据的多样性。本文针对以上这些挑战深入研究数据万维网实体匹配这一课题,并提出一个二阶段的实体匹配方案,即首先对所有实体进行分块,将有可能具有相同意义的实体分到同一个块中;再在每一个分块内部根据实体的局部结构特性对同义的个体进行聚类。实验证明,该方案具有良好的扩展性,并能达到足够好的匹配效果(即准确率和召回率)。