论文部分内容阅读
近年来,随着信息获取技术的迅猛发展,各种应用所产生的数据呈指数级增长,同时伴随着新数据源的不断涌现,数据内容也越来越丰富,预示着我们已经进入大数据时代。面对如此庞大的数据量、繁多的数据类型和复杂的数据结构,如何高效、统一地管理数据、获取有价值的信息显得迫在眉睫。为了解决这一难题,各类数据管理系统应运而生,大数据中心系统就是其中之一,提供了对于现有数据资源的综合检索和管理能力。本文结合大数据中心系统的应用需求,从空间数据和非空间数据两个方面出发,系统地研究了数据检索的实现方法,旨在实现目标数据的快速、准确获取,进而为用户的决策分析提供参考和依据。(1)空间数据检索部分。论文在分析空间数据基本特征和Oracle Spatial技术的基础上,选取空间数据的空间特征、属性特征和空间关系特征等作为空间数据检索的基本方向,研究了基于Oracle Spatial的空间数据检索功能的工作原理和实现方法;同时提出了基于九交模型的拓扑关系查询方法,实现了对所有拓扑关系的唯一表达;阐述了空间对象缓冲区的建立方法,实现了典型的距离关系查询——缓冲区查询;最后对空间数据的描述信息进行有效组织,进而实现海量空间数据的高效检索。(2)非空间数据检索部分。论文以文本数据作为主要研究对象,提出了基于摘要实现数据检索的方法。其中,涉及的重点内容包括:自动分词中,利用分词词典的分层设计架构优化了正向最大匹配分词算法,进一步提高了自动分词的效率;自动文摘中,在分析现有文摘方法的基础上,提出了基于结构和统计相结合的自动文摘方法,弥补了现有方法在适用范围和文摘可读性方面的缺陷与不足;最后阐述了基于词表的全文检索技术,打破了以往关键词检索的局限性。这种通过附加摘要提高数据检索效率的思想为海量非空间数据的检索奠定了基础。(3)将论文研究内容应用于实践,设计并开发了面向大数据中心系统的数据检索功能,证实了论文研究成果的准确性和实用性。