【摘 要】
:
数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算
【基金项目】
:
国家自然科学基金项目(61370060);江苏省自然科学基金项目(BK2011454)
论文部分内容阅读
数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法.
其他文献
制备了掺量为0.2%的纳米SiO2(NS)和纳米CaCO3(NC)混凝土,之后采用Ф100 mm分离式霍普金森压杆(SHPB)试验装置测试了养护龄期为28 d的两种混凝土在不同应变率等级下的动力特性
基于问题的学习(Problem Based Learning,简称PBL)近年来受到了广泛的重视,它强调把学习设置到复杂的、有意义的问题情境中,通过让学生采用多种学习方式,来学习隐含于问题背
集中式的自动服务组合和非平凡服务发现能够根据给定的、具有特定输入输出的请求搜索出一系列满足要求的服务组合,是当前服务计算领域的研究热点.针对集中式结构带来的性能瓶
阐述了重介浅槽分选机的工作原理和工艺特性,分析了浅槽分选的分选效果,并对中国国内重介浅槽分选机的应用现状及应用前景进行了探讨。
目的研究氢气对大鼠脑缺血/再灌注(I/R)损伤脑皮质区线粒体功能的影响机制。方法雄性SD大鼠48只,用线栓法建立大鼠局灶性脑I/R损伤模型。随机将大鼠分为假手术组(Sham组)、脑I/R
福建长乐东部海岸沙丘带是我国海岸发育面积较大、类型典型的海岸沙丘分布区之一,风力、波浪、潮汐等作用对海岸沙丘的发育具有重要影响,因此海岸沙丘是记录海岸环境演变的良
本文是关于针叶树木材弹性特性研究的理论分析.设定针叶树木材细胞主要由管胞和射线组成,根据管胞和射线细胞的解剖构造特征,建立了两端劈尖、矩形截面、中空的管胞模型与长
目的探索专科护士主导的糖尿病健康管理对糖尿病患者的影响。方法将1 353例2型糖尿病住院患者按时间顺序分为干预组695例、对照组658例,对照组按常规糖尿病进行健康教育及随
自被推出以来,新三板就备受中小企业的欢迎,因为它极大的推动了我国中小企业的发展,这对我国的资本市场带来了重大的影响。在我国,不断兴起的中小企业极大的减轻了社会的就业