数据万维网自动实体匹配

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:aylylxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据万维网的逐步成形,大规模自动实体匹配成为一个急需完成的重大任务。该任务旨在将万维网上来自不同数据集,却有着同样意义的实体进行匹配,从而使网络程序在探索、查询、筛选、汇总多个来源的数据时能够得到更为完整和正确的操作结果。它关系到大量网络应用的性能和用户体验,这些应用包括搜索、浏览和各种采用混合技术搭建的网络程序(Mashup)。然而,在进行这种数据整合的工作过程中我们将会遇到几大挑战。首先,我们需要一个可扩展的解决方案,它既能在合理的时间内处理海量的万维网数据,又能保证足够的整合效果(如准确率和召回率)。其次,现在还很难对这类解决方案进行评测,因为目前还没有一个实体匹配评测标准能够反映出万维网数据的多样性。本文针对以上这些挑战深入研究数据万维网实体匹配这一课题,并提出一个二阶段的实体匹配方案,即首先对所有实体进行分块,将有可能具有相同意义的实体分到同一个块中;再在每一个分块内部根据实体的局部结构特性对同义的个体进行聚类。实验证明,该方案具有良好的扩展性,并能达到足够好的匹配效果(即准确率和召回率)。
其他文献
随着计算机技术及因特网技术在中国的发展,中国游戏产业逐渐形成规模。尤其是这几年,国家提倡电脑游戏软件的自主研发,因此各种游戏引擎软件中的技术和算法成为了人们研发的热点
科技的快速发展使得社会分工越来越细致,基于互联网的软件协同开发是一种全球范围内的协同工作。近年因基于网络环境的软件开发活动日益增多,出现了各种形式的软件构件库,在不同
学位
随着交友网站的发展,有目的地针对特定的交友用户进行广告投放具有明显的商业盈利价值。为了提高网站的知名度,降低运营成本,汇聚更多的用户,交友网站需要根据站点访问记录,
协同设计能够节省时间,提高工作效率,是目前许多工作量大和复杂性高的企业采用的工作方式。其中实现各个协作单位间产品相关的数据和过程集成化管理,建立数据集成服务器的技