论文部分内容阅读
随着智能手机等移动设备的普及以及移动互联网络的快速发展,基于地理位置的服务得到了广泛的关注与应用。这些服务产生了大量空间文本数据,既包含空间地理位置,同时又具有相关的文本信息。能否更好地利用这些数据方便我们的日常生活,有两个方面的因素尤其值得考虑:第一,数据质量,高质量的数据能够提升用户体验;第二,用户获得信息的途径,用户需要高效便捷的获得感兴趣数据的方式。本文主要针对这两方面展开研究:一方面对空间文本数据进行质量优化,包括提高数据准确性,降低数据冗余;另一方面研究如何应对不同用户的需求,将空间文本数据信息高效地推送给用户。本文的研究内容与贡献具体包括:(1)基于众包的空间文本数据提纯:为保证数据正确性,用众包的方法帮助筛选数据中的正确关键词。本文提出了基于众包的任务执行框架。一方面,将空间文本数据作为任务发布在众包平台上并收集工人答案。为能够根据工人答案筛选正确关键词,结合工人质量等因素构造了一个有效的推断模型。另一方面,为进一步提高推断准确率,研究了能够最大化推断准确率提升的众包任务分配算法。(2)空间文本数据的top-k融合:为降低数据冗余,对数据进行top-k融合。传统方法不考虑空间文本数据的结合,为解决该问题,本文提出了一种基于空间文本签名的过滤验证算法框架,通过签名过滤不相关的数据对。接着发现签名的访问顺序对算法效率有着巨大的影响,于是提出了一种最佳优先算法,以签名上界从大到小的顺序逐一访问签名。这种方式能够快速地找到top-k结果。此外论文优化了空间文本签名,提出了扩展的空间文本签名进一步加强了算法的过滤能力。(3)空间文本数据的推送:为满足用户不同的推送需求,本文提出并研究了参数化的空间文本信息推送问题。为解决该问题,论文提出了一种空间前缀以及对应的过滤验证算法。又结合经典的空间层次索引结构提出了区域前缀,区域前缀能有效减少前缀大小并支持区域过滤。在此基础上结合多关键词过滤技术提出了空间文本前缀,进一步提升了算法的过滤能力。