论文部分内容阅读
随着信息化时代的来临,利用搜索引擎、办公自动化系统、基于地理位置的服务(LBS)等系统来处理日常工作变得越来越普及化,而这些系统所解决的最根本问题就是如何处理数据,特别是数据搜索问题。在大规模数据集中,存在着拼写错误、类型多样化等问题,因此如何高效的找出与查询相匹配的结果是当下最重要的研究挑战。针对这一挑战,本文研究了面向文本和空间的相似性搜索问题,并提出了相应的搜索算法,具体包括:1.基于硬盘的大规模文本数据相似性搜索算法:针对大规模文本数据集上的相似性搜索问题,本文提出了基于硬盘的搜索算法。在该算法中,首先设计了一个基于文本长度的二分搜索树索引结构,并利用该结构设计了基于阈值和top-k的文本相似性搜索算法。基于上述方法,本文进一步扩展并提出了基于硬盘的搜索算法以处理大规模数据集。实验表明,上述算法均能有效的处理文本数据的过滤、校验工作,并较现有算法比其搜索性能得到了提高。2.基于Rt-树的空间文本相似性搜索算法:针对基于地理位置的发布/订阅问题,本文提出了基于Rt-树的过滤算法。算法通过将文本整合到R-树中构建了索引结构。同时为了进一步提高文本部分的过滤效率,算法对各节点中的文本内容进一步优化缩减,选取代表关键字代表各订阅存储于R-树节点中。除此之外,算法还进一步扩展,从而支持语义相似性的搜索问题。实验证明,利用上述索引结构能够有效的根据消息中的文本描述和空间信息进行过滤,并且能够快速的推送消息。3.自适应的空间文本相似性搜索算法:为了能够在发布/订阅系统中对各类消息都能够进行快速的推送,本文提出了基于计算成本的相似性搜索算法从而能自适应于不同的消息类型。该算法首先提出了将空间信息整合到词典树中和将文本信息整合到四分树中的两个索引结构,并针对两个索引分别设计了不同的基于地理位置的发布/订阅算法。由于在现实生活中需要处理数据的种类多样化,因此提出了基于计算成本的算法。该算法基于上述两种算法的复杂度,自适应的选择效率更高的策略来处理消息的过滤和检验。实验证明,该算法由于总是选取最合适的过滤校验算法来处理不同类型的数据,与现有算法相比较时总能取得最优的性能。