相似性连接相关论文
针对相似性连接问题,提出了动态双重前缀的模糊相似性连接算法.与之前的算法不同的是,本文采用双重前缀,即在查找候选以及构建索引......
集合相似性连接从两个集合合集中找出相似度大于给定阈值的集合对,是大数据分析的重要操作,有着广泛的应用,如发现抄袭的文章、检......
按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实......
会议
相似性连接技术在众多应用中是一项基础且重要的操作,即在字符串集合中找出所有符合给定条件的相似对。通常情况下,通过一个相似性......
时间序列是指按照时间顺序排列的一系列观测值,具有数据规模庞大,高维度和数据实时更新的特点,时间序列广泛存在于现实生活中的各......
学位
如今信息广泛流通,大数据已成为不可或缺的时代产物,借助大数据技术展现出的优势愈发显著。这也促使人们需要不断探索更高效的新技......
近年来科学信息技术的飞速发展大大提高了数据生产的速度,大量的数据在带来巨大的存储压力同时,也带来了巨大的研究价值与商业价值......
相似性连接是一种重要的数据库操作,也是数据挖掘中的基本操作.不同对象的相似性连接有不同的算法.在计算机研究领域中,很多特征被......
按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基......
相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性......
相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存......
目前,已有许多高效的字符串相似性连接算法被提出,但是这些算法在过滤的过程中利用的往往是字符串本身的局部信息,而忽略了字符串......
相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻......
相比于确定图上的相似性连接,不确定图上的相似性连接通常具有更大的实际应用价值以及计算复杂性。文中研究了基于MapReduce分布式......
相似性连接技术是实体识别和数据集成的关键技术之一,是挖掘数据中有价值信息的重要手段。随着大数据发展,传统的集中式相似性连接已......
提出了样本分布无关,模型简单,单控制参数的模糊近邻标签传递算法.该算法依据样本与其k个近邻的模糊相似性连接,使类别标签从标签数据......
在传统的相似性连接算法中,精确计算和分区阶段互相独立,精确计算时需要对每个分区中的所有数据进行两两比较,计算量较大。针对该......
相似性连接是很多研究问题的基础,不少实际问题也都可以归结为相似性连接。针对两个输入集合相同的相似性连接问题,以R*树作为索引......
随着信息技术的发展,产生了海量的数据,从而产生大量的冗余数据,降低了数据质量。实体识别技术是数据质量管理的重要研究方向。在......
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用。另一方面,MapReduce编......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
高维数据相似性连接(HDSJ)是指在给定的空间数据库中,频繁执行连接和距离计算操作找出向量空间满足给定条件的数据对。但是随着数据量......
相似性连接操作在网页副本检测、实体识别、数据清洗和图像检索等领域都有很广泛的应用,随着数据规模的不断增大,利用分布式并行框......
近年来,随着共享视频、社交网络等新兴产品的崛起,网络中的数据规模也呈爆炸式增长。这些数据具有结构复杂、数量巨大等特点,因此......
提出一种利用关系数据库系统在一般图结构的半结构化数据上进行近似查询的途径.根据嵌套结构和文本值的相似性来度量路径的相似性;......
在时间序列分类问题中,以Shapelets特征为基础的分类算法具有很高的分类准确率和良好的可解释性,因此,高辨别能力Shapelets的提取......
序列数据是一种重要而特殊的数据类型,广泛存在于文本、Web访问序列、交易数据库中的用户购买序列以及生物数据库中的DNA和蛋白质......
相似性连接是很多研究问题的基础,不少实际问题也都可以归结为相似性连接。尽管近年来,越来越多的学者将注意力集中到网络数据和图......
随着社会网络、移动应用及在线服务等信息技术的广泛应用和不断发展,数据呈爆炸式增长,海量数据的分析需要强大的计算能力。相似性连......
随着互联网的发展,诸如文本、图片、视频、音频的非结构化数据越来越多,为了存储管理这些海量的非结构化数据,出现了各种非结构化......
随着互联网的快速发展,信息的传递日益频繁,海量的信息使得个人的接受能力严重超载。如何能够从这些海量信息中准确、快速获取所需......
在确定图上进行的相似性连接已经有了许多研究成果.然而在实际应用中会有许多因素使得图结构数据变得不确定.本文研究了不确定图数......
近年来,随着信息生产能力的提高和信息采集技术的进步,不一致、不完备、过时、错误、冗余、不精确的劣质数据普遍存在,严重影响了数据......
随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性......