【摘 要】
:
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用。相似度的度量方法有多种,包括Jaccard相似度,Cosine相似度,Dice相似度和Hamming距离等。本文中主要
论文部分内容阅读
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用。相似度的度量方法有多种,包括Jaccard相似度,Cosine相似度,Dice相似度和Hamming距离等。本文中主要集中于字符串Jaccard相似度和Cosine相似度连接算法的研究。目前的相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接。基于阈值的相似连接就是给定阈值θ,求出字符串集合中不小于θ的字符串对;Top-k相似连接就是阈值未知,需要求出字符串集合中最相似的前k个字符串对。Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-join。但该算法存在问题主要包括:为了减少重复计算,算法执行过程中生成的每一个候选记录对都需要查找哈希表,从而导致哈希查找代价过大;每次前缀事件只处理记录的一个Token,使得临时结果集逼近真实结果的速度较慢,同时造成前缀事件和临时结果堆的维护代价过大。针对上述问题,本文提出了一种基于Token批处理的Top-k相似连接算法Opt-join。新算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过提高后缀过滤的maxdepth深度优化算法性能,并对maxdepth的选取给出了定性的分析;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论证明了该置换的正确性;实验结果表明,与Topk-join算法相比Opt-join取得了1.28-3.09倍的性能提升。实验数据还显示随着数据长度增加或k值增长,Opt-join的性能优势有不断增加的趋势。
其他文献
随着信息社会的发展,互联网上的信息飞速的增长并开始呈现出复杂性和多样性。这时传统的基于关键字的信息检索技术再也不能满足人们的信息查询需求。其问题主要表现在,传统的
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web使用挖掘就是其中一个重要的分支。Web使用挖掘通过对Web日志的分析,获取Web上隐藏的用户感兴趣的
图像分割在图像处理领域中是一种基本且重要的技术,也是进行目标识别和图像分析的前提和关键,其结果的好坏对后续的识别和分析过程有很大的影响。图像分割被广泛应用在人脸识
为了让CPU更快,人们设计的CPU变得越来越复杂且不规整,如增加乱序执行单元、超流水线、分支预测和投机等等技术;不幸的是,这些技术已经基本没有潜力可挖掘,而且也无法很好的控
大规模的人群仿真在电影特效、电脑游戏等有大量的应用,但是人群规模达到一定数量后很难实现其实时性,单纯依靠串行算法进行大规模人群仿真已经无法满足当前各种应用的需求,
随着通信业的发展,人们已经逐渐习惯了随时联上网络了解最新资讯,分享工作成果,购买心仪产品的生活。从以单个计算机为主的远程通信系统,到多个主计算机通过通信线路互连起来
人体跟踪是运动人体视觉分析中非常活跃的一个课题,其在智能监控领域中广泛的应用前景和潜在的经济价值激发了广大科研工作者的浓厚兴趣,也使它成为研究的热点问题之一。本文
主元分析作为一种多元统计分析方法,广泛应用于数据处理和简化中。这种方法试图通过对数据协方差矩阵进行对角化,从而找到数据中最主要的元素和结构,去除噪音和冗余,对原数据进行
由于受成本的制约,传感器节点的能量、处理能力、存储能力都十分受限。因此,无线传感网路由算法的首要目标是节能,算法也不能有太高的运算复杂度和空间复杂度,运行在传感网上
或许在未来的20年里,WebService将会成为软件开发领域最热门的话题,随着WEB2.0的迅速普及,如何利用好WebService这一新技术就成为一个非常重要的课题。
尽管SOA(ServiceOri