数据万维网自动实体匹配

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：aylylxs

【摘要】

：

随着数据万维网的逐步成形,大规模自动实体匹配成为一个急需完成的重大任务。该任务旨在将万维网上来自不同数据集,却有着同样意义的实体进行匹配,从而使网络程序在探索、查

【作者】

：

傅临云

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2010年期

【关键词】

：

数据万维网实体匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据万维网的逐步成形,大规模自动实体匹配成为一个急需完成的重大任务。该任务旨在将万维网上来自不同数据集,却有着同样意义的实体进行匹配,从而使网络程序在探索、查询、筛选、汇总多个来源的数据时能够得到更为完整和正确的操作结果。它关系到大量网络应用的性能和用户体验,这些应用包括搜索、浏览和各种采用混合技术搭建的网络程序(Mashup)。然而,在进行这种数据整合的工作过程中我们将会遇到几大挑战。首先,我们需要一个可扩展的解决方案,它既能在合理的时间内处理海量的万维网数据,又能保证足够的整合效果(如准确率和召回率)。其次,现在还很难对这类解决方案进行评测,因为目前还没有一个实体匹配评测标准能够反映出万维网数据的多样性。本文针对以上这些挑战深入研究数据万维网实体匹配这一课题,并提出一个二阶段的实体匹配方案,即首先对所有实体进行分块,将有可能具有相同意义的实体分到同一个块中;再在每一个分块内部根据实体的局部结构特性对同义的个体进行聚类。实验证明,该方案具有良好的扩展性,并能达到足够好的匹配效果(即准确率和召回率)。

其他文献

基于启发式搜索算法的地图寻径的研究

随着计算机技术及因特网技术在中国的发展，中国游戏产业逐渐形成规模。尤其是这几年，国家提倡电脑游戏软件的自主研发，因此各种游戏引擎软件中的技术和算法成为了人们研发的热点

学位

启发式搜索地图寻径A*算法游戏引擎

基于Web服务的软件协同开发系统的设计与实现

科技的快速发展使得社会分工越来越细致，基于互联网的软件协同开发是一种全球范围内的协同工作。近年因基于网络环境的软件开发活动日益增多，出现了各种形式的软件构件库，在不同

学位

介绍几个早粳良种

一、“卫国”“卫国”是1958年从辽宁省引入我区的。各县试种结果,一般亩产600—800斤,高者达1,000斤以上.比同期成熟的早籼“珍珠早”增产23.16—113.07%。 First, “Pat

期刊

早籼珍珠糙米率刁斗秧龄速效肥句容县粳稻品种瘟病延吴

食盐增效球肥的肥效显著

在毛主席无产阶级革命路线指引下,我组教师和学员坚持《五·七》方向,深入农村,开门办学,认真学习和总结贫下中农施用食盐的历史经验,探索氮肥增效剂能够提高肥效的原理,在

期刊

食盐球肥氮肥增效剂增产效果深层施肥田间试验氮回收开门办学稻土毛主席

良种小麦产量高

我县水鸣公社龙利大队第七生产队,去年冬种植小麦“晋麦2148”优良品种11.2亩,亩产达587.2斤,比种本地小麦12.3亩每亩产量高得多。在栽培过程中,他们主要抓了以下几点:1.适

期刊

适时早播每亩产量季节性花结优良品种抗白粉病小麦丰产小麦抽穗土杂肥行距

关键是平时积累资料——写《卷土重来未可知》的体会

我写的《卷土重来未可知》(载1987年10月6日《洛阳日报》)被评为河南省好新闻,粗浅体会是: “养兵千日,用兵一时”,即平时积累大量资料,关键时敢于分析推断。据有关部门统计

期刊

体育新闻积累资料洛阳日报时事政治粗浅体会评述性新闻国际要闻部门统计中国足球队张俊秀

报道出错了就要勇于改

党报通讯员的神圣职责,是如实地、准确地向党报反映情况和撰写稿件。全省绝大多数通讯员同志正是这样做的,他们以战斗的姿态,扎扎实实、一丝不苟的工作作风,出色地完成了党

期刊

采访作风新闻报道报道失实现场调查研究工作作风报道思想新闻工作思想水平新闻道德全愈

黑河九号大豆综合高产农艺措施数学模型分析

本试验应用二次回归正交旋转试验设计方法研究了黑河九号大豆主要栽培因子(密度、氮肥、磷肥和钾肥)与大豆产量的关系,建立了黑河九号大豆在本省第四积温带黑河地区土壤中等

期刊

农艺措施黑河地区第四积温带产量效应规范化栽培产量分析数学模型分析肥力条件高产栽培试验设计方法

面向交友网站的Web日志关联规则挖掘及系统实现

随着交友网站的发展,有目的地针对特定的交友用户进行广告投放具有明显的商业盈利价值。为了提高网站的知名度,降低运营成本,汇聚更多的用户,交友网站需要根据站点访问记录,

学位

交友网站Web日志关联规则数据挖掘

协同设计环境下的数据安全系统的设计与实现

协同设计能够节省时间,提高工作效率,是目前许多工作量大和复杂性高的企业采用的工作方式。其中实现各个协作单位间产品相关的数据和过程集成化管理,建立数据集成服务器的技

学位

数据安全透明加密文件驱动程序保护

数据万维网自动实体匹配

其他学术论文