论文部分内容阅读
随着智能移动终端的快速发展和应用,越来越多的文本数据具有地理位置属性和时间属性。这种具有时空属性的数据带来了新的数据分析问题。例如,在社交媒体中用户想知道指定区域内最近热门的话题,那么查询的目的是返回该时空区域内所有帖子中热度最高的若干个关键词。针对特定时空区域,查询该区域内热度最高的k个关键词,论文称之为Top-k时空热度关键词查询(Top-k Heat Spatial-Temporal Words,kHSW)。
当前kHSW的研究,是返回一个近似准确的关键词结果集,不够精确,并且不能给出关键词的具体频率值。论文从空间索引技术和Top-k查询算法的优化两个方面进行了研究,实现了准确高效的kHSW查询。介绍了研究背景,对当前研究现状进行了综述和对比分析,总结出了论文的研究内容。利用空间填充曲线对时空数据降维,实现R-tree的填充和构造。通过对关键词建立倒排索引列表(Revert Index List, RIL),提前聚合节点中关键词的频率,研究了适合kHSW的索引结构。利用优先队列和更改排序规则,对传统Top-k算法进行了改进和优化,叙述了算法在上述索引上的计算过程。对索引和算法进行了实验评价,证明了其有效性,并将其成功运用到了实际项目中。具体来讲,论文包括以下的主要工作。
(1)研究了基于空间填充曲线构造R-tree的方法。运用Z-曲线将多维空间数据降维到二维空间,利用已有的线性索引结构来存储数据,从而保证了窗口查询在最坏情况下有渐进最优时间复杂度。
(2)结合倒排索引列表(RIL)和传统的R-tree,提出了适合kHSW的索引结构。倒排索引列表能够提前聚合关键词,从而提高查询效率。通过聚合叶子节点的关键词,提出了叶子节点的倒排索引列表RIL-L(RIL-Leaf)。查询区域有时仅仅包含上层节点,只有叶子节点的RIL-L查询效率低,为此,提出了针对叶子节点和内部节点关键词的倒排索引列表RIL-LI(RIL-Leaf Inner)。为进一步减小倒排索引列表的空间占用,提出了对内部节点只保存部分长度列表的倒排索引RIL-Li(RIL-Leaf inner),并给出了计算RIL长度λ的模型。
(3)结合上述的索引结构,对两种经典的Top-k查询算法进行了改进和优化。对于支持随机读的TA算法,通过引入优先队列,减少随机访问次数,提高了查询效率;对无需随机读的NRA算法,采用关键词最坏得分排序规则,缩小排序规模,提高了查询效率。详细分析了优化后的算法在三种倒排索引列表上的Top-k计算过程。
(4)对论文的提出的索引结构与优化后的算法,从索引的空间占用、RIL长度的选择、不同查询区域的查询效率、不同结果集大小k、时空查询效率、不同数据集大小等方面,与传统的方法进行了实验评价和对比分析,验证了论文研究工作的有效性。结合某医疗项目,进一步阐述了论文提出的索引结构和算法,在实际项目中的应用。
当前kHSW的研究,是返回一个近似准确的关键词结果集,不够精确,并且不能给出关键词的具体频率值。论文从空间索引技术和Top-k查询算法的优化两个方面进行了研究,实现了准确高效的kHSW查询。介绍了研究背景,对当前研究现状进行了综述和对比分析,总结出了论文的研究内容。利用空间填充曲线对时空数据降维,实现R-tree的填充和构造。通过对关键词建立倒排索引列表(Revert Index List, RIL),提前聚合节点中关键词的频率,研究了适合kHSW的索引结构。利用优先队列和更改排序规则,对传统Top-k算法进行了改进和优化,叙述了算法在上述索引上的计算过程。对索引和算法进行了实验评价,证明了其有效性,并将其成功运用到了实际项目中。具体来讲,论文包括以下的主要工作。
(1)研究了基于空间填充曲线构造R-tree的方法。运用Z-曲线将多维空间数据降维到二维空间,利用已有的线性索引结构来存储数据,从而保证了窗口查询在最坏情况下有渐进最优时间复杂度。
(2)结合倒排索引列表(RIL)和传统的R-tree,提出了适合kHSW的索引结构。倒排索引列表能够提前聚合关键词,从而提高查询效率。通过聚合叶子节点的关键词,提出了叶子节点的倒排索引列表RIL-L(RIL-Leaf)。查询区域有时仅仅包含上层节点,只有叶子节点的RIL-L查询效率低,为此,提出了针对叶子节点和内部节点关键词的倒排索引列表RIL-LI(RIL-Leaf Inner)。为进一步减小倒排索引列表的空间占用,提出了对内部节点只保存部分长度列表的倒排索引RIL-Li(RIL-Leaf inner),并给出了计算RIL长度λ的模型。
(3)结合上述的索引结构,对两种经典的Top-k查询算法进行了改进和优化。对于支持随机读的TA算法,通过引入优先队列,减少随机访问次数,提高了查询效率;对无需随机读的NRA算法,采用关键词最坏得分排序规则,缩小排序规模,提高了查询效率。详细分析了优化后的算法在三种倒排索引列表上的Top-k计算过程。
(4)对论文的提出的索引结构与优化后的算法,从索引的空间占用、RIL长度的选择、不同查询区域的查询效率、不同结果集大小k、时空查询效率、不同数据集大小等方面,与传统的方法进行了实验评价和对比分析,验证了论文研究工作的有效性。结合某医疗项目,进一步阐述了论文提出的索引结构和算法,在实际项目中的应用。