云平台下时空数据存储与索引机制的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:guicailea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大量的GPS设备产生了大规模的具有时间和空间位置的数据,我们称之为海量时空数据。目前主流的时空数据存储方法大多基于单机空间数据库,由于单机性能有限,扩展性不高,渐渐不能适用于处理大规模时空数据。随着分布式云计算的高速发展,众多高性能的云平台层出不穷,为处理海量时空数据提供了契机,但是这些云平台在机器成本、能耗、实验场地等方面造价高,对普通用户收取的费用也是昂贵的。当前,时空索引的研究大多是单机下的串行索引,分布式时空索引很少研究。存储在分布式云平台上的海量时空数据,不但数据存放无序,而且需要遍历每条记录,才能检索到用户所需的内容,检索效率低下。所以,时空数据在云平台上的存储策略以及索引构建上面临巨大压力。如何利用云平台的高性能计算能力,有效的存储与检索时空数据,是必须解决的关键技术问题之一。基于以上问题,通过大量的准备工作,本文提出以下解决方案。首先,采用低成本低能耗的Cubieboard2 ARM开发板搭建Hadoop分布式云平台,分析云平台性能与能耗,验证其实用性。然后,在HDFS层次上,设计了两种全局-局部索引,即TGrid索引和QDtree索引。TGrid索引采用改进的网格划分算法将时空数据均匀的划分到HDFS数据块中,每个数据块构造一维时间的局部索引;QDtree索引采用改进的四叉树划分算法划分时空数据,构建多维R-tree的局部索引管理数据块中的数据。最后,设计存储优化策略,采用列存储与数据压缩的方法,减小磁盘存储空间,提高数据检索和网络传输效率。实验表明,该云平台虽然单机性能有限,但能够充分发挥Hadoop可扩展性,发挥并行计算的优势,弥补单节点的不足,而且成本低廉,有很好的借鉴意义。通过本文提出的两种时空索引机制和存储优化策略,不但合理的存储海量时空数据,节省存储的开销,而且索引对时间和空间属性的有效剪枝,大大提高了数据检索效率。
其他文献
情绪是一种复杂的心理现象,情绪易感性反映着人们在情绪加工过程中与认知活动的关联。综合前人的研究,本文主要从情绪st r oop范式和oddbal l范式两个方面概括对于情绪易感性
工程教育专业认证是对当前国内工程类专业教学的重要指导,它是以产出为导向、以学生为中心、持续改进的核心理念构建我国高校工程教育的质量监控体系。本文结合黑龙江大学软
诚信是社会主义核心价值观的重要组成部分,严抓考风是高职院校教学管理的重要内容和提高教育质量的重要保证,优良考风的形成迫在眉睫。通过古今考风的对比,分析当前考风的现
全域旅游在吉林省逐渐深入开展,在供给侧改革背景下,吉林省的旅游产业处于升级创新的关键时期,而旅游人才质量则是改革升级的关键因素。旅游高等教育承担培养高素质高能力旅
“导游业务”是中职导游服务与管理专业的一门核心课程,具有很强的实践性,但现场实践教学存在成本高、安全保障等实际问题,不能过度依赖。项目教学法能够有针对性地培养学生
“毛泽东思想和中国特色社会主义理论体系概论”(以下简称“概论”)课程是高职院校思想政治理论课的核心课程之一,传统的教学模式使得这门课程的教学效果不太理想,难以呈现课
信息系统项目委外成败取决于项目管理是否确实及承包软件建置厂商(乙方)对软件开发管理是否重视,造成软件委外失败原因,主要在未做好软件项目管理及相关品质测试工作上,仅要
目的总结重症病人护理技巧培训方法,为低年资护士开展重症病人护理工作提供指导。方法回顾总结2019年6月~2019年9月期间开展重症监护护理技术培训方法,对培训效果进行观察。