论文部分内容阅读
随着Web技术的发展及其广泛应用,Web上涌现了海量的、格式繁多的数据。对这些数据的查询和管理成为Web应用的重要步骤。其中,相似性查询作为人们获取信息的重要手段,是Web数据管理的重要应用之一。Web数据和应用的多样性使得Web数据相似性计算也是多样化的。同时,Web数据的高维性给其相似性查询带来了新的挑战。为了平衡查询效率和查询效果,人们提出了相似性近似计算方案。位置敏感哈希(Locality Sensitive Hashing, LSH)作为相似性近似计算的最新技术,获得了广泛的研究并使用于诸多相似性查询的应用中。本文首先根据类型对Web数据进行了分类,综述了位置敏感哈希(Locality Sensitive Hashing, LSH)技术的研究现状,针对Web数据的特点和Web数据管理的挑战,本文使用位置敏感哈希技术对Web上的数据在以下三个方面进行了研究:在Hadoop平台上研究了大规模XML数据结构相似性查询:对于字符串数据,研究了基于Hash的字符串相似性连接;对文本数据相似性查询,提出了基于学习的相似性查询框架和算法。本文的主要贡献总结如下:1.在Hadoop平台上研究了大规模XML数据结构近似相似性查询。首先我们研究了XML树结构相似性计算、Hadoop集群的编程模式,接着研究了XML树结构信息提取技术pq-gram,并使用pq-gram对XML提取结构信息,我们在Hadoop集群上使用MapReduce实现了LSH索引,该索引可以支持大规模XML结构近似相似性查询。最后在真实数据集上,验证了我们的方法对XML结构相似性查询具有良好的查询性能和可扩展性。2.使用Min-hashing LSH技术提出了基于Hash的字符串近似相似性连接算法。我们首先研究了字符串相似性连接问题,分析了Trie-join相似性连接技术和真实数据集上相似性连接的特点,利用基于Min-Hashing的LSH提出了Hashed-Join,用于近似处理在编辑距离约束下字符串近似相似性连接。Hashed-Join首先把字符串数据使用LSH进行分组聚类,进而在各个组内使用Trie-Join技术进行相似性连接。该算法可以方便地扩展到分布式平台处理大规模的字符串相似性连接。最后本文通过在真实数据集上的实验分析和对比,证实了本文提出方法具有更好的连接性能和可扩展性。3.提出了基于学习的相似性查询算法。本文在研究分析LSH的随机投影(Random Projection)技术的基础上,证明了高维数据随机投影之后的二进制编码满足语义哈希的要求。把二元编码用作数据的类标号,提出了基于学习的高维数据相似性查询框架和算法。在该框架下,研究了近似k-最近邻查询和c-近似最近邻查询。通过实验验证和分析,证实了本文的方法与现有方法相比,不仅减少了编码长度、降低了数据预处理的时间和空间代价,而且提高了查询效率综上所述,本文结合Web数据的特点,使用位置敏感哈希技术解决Web数据相似性查询问题,主要的工作包括:使用MapReduce实现了大规模XML数据结构相似性查询;提出了基于Hash的字符串相似性连接算法;提出了基于学习的相似性查询架构和算法。本文对以上提出的算法在真实数据集上进行了实验,验证了效率、效果和可扩展性。