特定时空区域的Top-k热度关键词查询技术研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:wait689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能移动终端的快速发展和应用,越来越多的文本数据具有地理位置属性和时间属性。这种具有时空属性的数据带来了新的数据分析问题。例如,在社交媒体中用户想知道指定区域内最近热门的话题,那么查询的目的是返回该时空区域内所有帖子中热度最高的若干个关键词。针对特定时空区域,查询该区域内热度最高的k个关键词,论文称之为Top-k时空热度关键词查询(Top-k Heat Spatial-Temporal Words,kHSW)。
  当前kHSW的研究,是返回一个近似准确的关键词结果集,不够精确,并且不能给出关键词的具体频率值。论文从空间索引技术和Top-k查询算法的优化两个方面进行了研究,实现了准确高效的kHSW查询。介绍了研究背景,对当前研究现状进行了综述和对比分析,总结出了论文的研究内容。利用空间填充曲线对时空数据降维,实现R-tree的填充和构造。通过对关键词建立倒排索引列表(Revert Index List, RIL),提前聚合节点中关键词的频率,研究了适合kHSW的索引结构。利用优先队列和更改排序规则,对传统Top-k算法进行了改进和优化,叙述了算法在上述索引上的计算过程。对索引和算法进行了实验评价,证明了其有效性,并将其成功运用到了实际项目中。具体来讲,论文包括以下的主要工作。
  (1)研究了基于空间填充曲线构造R-tree的方法。运用Z-曲线将多维空间数据降维到二维空间,利用已有的线性索引结构来存储数据,从而保证了窗口查询在最坏情况下有渐进最优时间复杂度。
  (2)结合倒排索引列表(RIL)和传统的R-tree,提出了适合kHSW的索引结构。倒排索引列表能够提前聚合关键词,从而提高查询效率。通过聚合叶子节点的关键词,提出了叶子节点的倒排索引列表RIL-L(RIL-Leaf)。查询区域有时仅仅包含上层节点,只有叶子节点的RIL-L查询效率低,为此,提出了针对叶子节点和内部节点关键词的倒排索引列表RIL-LI(RIL-Leaf Inner)。为进一步减小倒排索引列表的空间占用,提出了对内部节点只保存部分长度列表的倒排索引RIL-Li(RIL-Leaf inner),并给出了计算RIL长度λ的模型。
  (3)结合上述的索引结构,对两种经典的Top-k查询算法进行了改进和优化。对于支持随机读的TA算法,通过引入优先队列,减少随机访问次数,提高了查询效率;对无需随机读的NRA算法,采用关键词最坏得分排序规则,缩小排序规模,提高了查询效率。详细分析了优化后的算法在三种倒排索引列表上的Top-k计算过程。
  (4)对论文的提出的索引结构与优化后的算法,从索引的空间占用、RIL长度的选择、不同查询区域的查询效率、不同结果集大小k、时空查询效率、不同数据集大小等方面,与传统的方法进行了实验评价和对比分析,验证了论文研究工作的有效性。结合某医疗项目,进一步阐述了论文提出的索引结构和算法,在实际项目中的应用。
其他文献
该文以Ba(MgTa)O(BMT)系微波介质陶瓷为主要研究对象,研究了Ma/Ta比的微量变化对BMT系陶瓷的结构和介电性能的影响.针对BMT烧结性能差,烧结温度偏高,介电常数的温度特性不好的热点问题,采用两种不同的烧结工艺制备BMT微波陶瓷.为了降低BMT系材料的烧结温度、改善温度特性,分别添加Ba(CoNb)O和NaF进行掺杂改性研究.在采用传统一步煅烧法制备的三组不同Mg/Ta比的BMT试样中
学位
MIMO 技术通过在接收端和发送端配置多根天线,可在不增加带宽和发射功率的前提下,成倍地提高系统的容量,显示出明显的优势,是未来无线通信的关键技术之一。然而,MIMO 系统中多个用户同时与基站交互数据,用户之间相互干扰,影响了通信质量,因此如何消减干扰是MIMO系统面临的关键问题之一。  本文研究了不同场景下已有的干扰消减方法,针对目前其设计方案存在的问题,提出了相应的改进方法。本文的主要工作如下
学位
第五代移动通信即将来临,要求数据速率提高100~1000倍,设备连接数提高10~100倍,对频谱效率和能量效率提出了更高的要求。由于非正交多址技术(Non-Orthogonal Multiple Access, NOMA)可以极大提高频谱效率,因此成为了下一代移动通信候选方案之一。但是数据量的急剧增长,也导致了极大的能量消耗。因此,绿色通信也是未来研究的重要趋势之一。基于以上研究背景,针对功率域N
频谱资源不受限制、设备成本低以及与现有无线电磁波通信互不干扰等特点使可见光通信成为扩充无线通信系统容量、提升通信覆盖率的一种重要候选技术。多输入多输出(Multiple-Input Multiple-Output, MIMO)技术对无线电磁波通信系统通信容量的大幅度提升为室内可见光通信系统传输方案的设计提供了重要的参考和借鉴,室内多光源布局的天然条件更加便利了MIMO技术在室内可见光通信系统中的应
近年来,我国逐步建成了防守型的海洋防御体系,海防雷达正发挥着越来越重要的作用。海防雷达的海表面目标检测(特别是海表面的小目标检测)技术,在军用和民用均有着重要的地位,它广泛地应用于海洋安全、海事救生、监控非法走私等领域。在各种检测方法中,对目标所在背景环境中的噪声及海杂波进行有效的处理十分重要,这直接影响目标检测的性能。而海面情况极其复杂,天气、浪涌等因素给目标检测带来了极大地困难和挑战,在复杂的
学位
序列-序列模型是人工智能领域(特别是自然语言处理领域)普遍使用的模型之一。这个模型能够使用一个统一的框架,直接将输入序列转化为输出序列。许多问题都能够转化为这种形式的问题,进而能够使用序列-序列模型进行求解。无论是机器翻译、句法分析还是语音识别,通过对问题的输入和输出的形式进行合理的变换,我们可以对众多问题得到一个统一的解法。另一方面,句法信息是计算语言学的一个重要的组成部分。许多研究已经证明了句
学位
无人机(Unmanned Aerial Vehicle,UAV)由于其灵活性、易部署、低成本和可扩展性等特点已经被广泛地应用于不同的场景中,但是单架UAV系统受到功能简单、覆盖范围有限的限制使它们不能扩展到更多的应用中。为了克服单架UAV系统的不足,利用不同UAV之间的协作建立ad hoc模式的网络,称为飞行器自组织网络(Flying Ad Hoc Networks,FANETs),来扩展应用范围
学位
随着信息化时代的到来,各行各业每天都会产生大量的文本数据。仅靠人工的方式进行整理,将消耗大量的人力和物力。如果能从海量的文本数据中提取出简短的主题信息,将大大提高用户的处理效率。  主题陈述短句的提取旨在对大量以自然语言形式存在的中文文本进行主题的提取概括,最终形成精简的,以自然语言方式呈现的主题信息。主题陈述短句保留了原句中关键词间的语义关联信息,便于后续的文本统计分析。由于不同领域的中文文本通
学位
随着计算机科学与医疗大数据的不断发展,越来越多的医疗机构开始尝试使用药物不良反应(Adverse Drug Reactions, ADR)主动发现系统代替原始人工方法对不良反应进行筛选和记录。当前,医疗机构要求医院管理系统(Hospital Information System,HIS)中包含的药物不良反应主动发现系统能够对非结构化电子病历文本中涵盖的药物不良反应进行挖掘。但大多数药物不良反应主动
随着国内电子政务的高速发展,城市网格管理系统作为智慧城市的一部分,每天收集了大量由网格员和市民上报的城市管理案事件数据。从这些海量数据中获取有价值的潜在信息应用于城市管理过程中,可以帮助管理者解决公共安全、公共卫生、资源分配等城市问题,提高城市管理效率和服务水平。  本文面向城市管理案事件数据管理和智能分析的需求,建立数据仓库模型,实现智能分析与应用业务的快速集成。在此基础上,进一步实现了案事件时