【摘 要】
:
随着信息时代的迅速发展,互联网已经逐渐成为人们获取数据的主要方式。乃至当今很多的数据管理应用已经扩展到利用网络数据源来集成数据。那么对于现实世界中的同一个实体,不同
论文部分内容阅读
随着信息时代的迅速发展,互联网已经逐渐成为人们获取数据的主要方式。乃至当今很多的数据管理应用已经扩展到利用网络数据源来集成数据。那么对于现实世界中的同一个实体,不同的数据源可能对其提供冲突的描述,那么如何从这些冲突的描述中找出所有真实的信息就是冲突消解问题,我们主要研究语义上的冲突消解,也称之为真值发现过程。当原始数据中混乱实体集的比例越来越大,现有的方法准确率也逐渐降低。针对这一问题,本文提出了一种基于信息熵的数据划分方法,将原始数据划分成常规数据集和混乱数据集。通过基于概率模型的方法对常规数据集进行消解,采用多维属性对数据源进行评估,并且充分考虑数据源之间存在的依赖关系,消除数据拷贝所带来的影响。由于混乱实体集中的实体描述集过于混乱,现有的方法并不能有效的计算出真值。于是提出一种基于网络模式的消解方法,通过搜索引擎获取相应实体信息构造该实体的候选描述集,通过一种高效的候选集评估模型从候选集中找出真值,同时,候选集规模采用动态确定方式降低了计算量。除了考虑结构化数据的冲突消解,我们把背景扩大至社交网络中的话题讨论,由于数据的提供者不再是传统的数据源,而是人。通过网络获取话题相关描述,结合网络数据并通过给定的五个特性从用户提供的描述构建候选集。结合人应该具备的特性,对用户进行领域划分并通过划分结果对候选集中元素进行验证,选取最真实的描述。最后本文在真实数据集上的实验充分证明了我们各个方法的准确性和高效性。
其他文献
当前,旅游业蓬勃发展,旅游景区处于旅游产业中的核心地位,为游客提供的服务质量却不尽如人意,游客投诉屡屡发生。采用QFD(质量功能展开)这一技术,构建"质量屋",充分了解并满
金川铜镍矿集区是我国最大的Ni、Cu以及PGE金属资源的生产基地,同时也是世界第三大铜镍矿集区。随着金川铜镍矿的开发,需要对矿床的地质背景及深部矿体延展情况深入勘查,国家科
期待可能性在德、日刑法理论中被认为是阻却、减轻责任事由 ,起源和完成于德国 ,随后流传至日本并得到发展。这一问题在犯罪论体系中从来被认为属于责任论的领域 ,但在责任论
这里讨论的是古代汉语中比较常用的时间、范围、程度副词,并且只限于表示“全部”意义的范围副词,表示“终了”意义的时间副词,表示“极端”意义的程度副词.所以把这些副词
开关磁阻电机(SRM)结构简单坚固、调速性能优异,系统可靠性高。因其在现代电气传动中异军突起,而备受关注。但是其特有的双凸极结构和工作方式,导致这种新型电机具有较强的非线性
<正>下尿路症状位居影响老年人生活质量因素的前列,在社区"健康"老年人群中,尿频、尿急、夜尿增加等发生率极高,中、重度症状者甚至可达47%。膀胱功能障碍有着复杂的病理、生
本文结合广州市出租车实际运营情况,在调研和数据分析的基础上,对几种出租车定价方法及福利影响进行对比和分析,根据测算结果对定价机制及定价方法的合理性、社会福利分配的
人事档案所记录的是事业单位员工的基本信息,是事业单位管理选拔人才的重要参考。人力资源管理是事业单位管理员工关系的重要方法,其对增强事业单位员工的凝聚力具有极为重要
复杂超高层建筑已广泛采用大截面矩形钢管混凝土柱(LRCFT柱),它对整个结构的安全至关重要。共同工作是LRCFT柱应用的基本问题,对构件及结构的工作性能有着重要的影响。针对LRCFT
根据国内多家知名大型变压器生产企业工厂新建、改建、扩建等项目的设计与实施,以大型变压器生产厂房为例,介绍大型变压器工厂工艺设计的关键点。主要包括工艺设计的优化、工