论文部分内容阅读
近年来,由于计算机、通信技术的飞速发展,空间信息技术得到了极大的提高。日常生活中人们对空间信息的需求日益增长,空间信息具有非结构化、多比例尺、关系复杂、随时间变化及数据量呈海量级别等特点,采用何种方法和技术手段把空间信息更方便的服务于大众变得迫在眉睫。C/S模式和B/S模式的网络服务模式在处理海量的空间信息时均会遇到瓶颈问题,在这种背景下,G/S模式应运而生。G/S模式作为一种新型的、面向大众的空间信息网络服务模式,为海量、异构、多元的空间信息的描述、组织、管理和展示提供了新的解决途径。G/S模式通过“请求—聚合—服务”的工作机制,以数据为中心,在空间信息服务云进行信息汇聚,在客户端进行服务的动态聚合,从而把空间信息的各种服务提供给大众使用,如应急救灾、数字旅游等。G/S模式中存在着大量用于地学浏览器展示空间信息的HGML文件,由于HGML文件属于半结构化数据,描述地理特征要素的目标信息以标签对的形式存储在HGML文件中。使用传统处理结构化数据的方法,无法完成HGML文件中描述地理特征要素信息的检索。对于这种情况,本文通过对HGML的作用和特点以及信息检索理论的研究,解决了G/S模式下基于HGML的检索问题,同时取得了以下成果:(1)设计并实现了一种针对HGML文件的索引构建方法。描述地理特征要素的目标信息以标签对的形式存储在HGML文件中,同一类型的目标信息分散存储在G/S模式下的空间信息服务云中的不同分布式服务器上。通过该方法构建索引,可避免检索时对分散存储在空间信息服务云中的HGML文件进行逐一遍历,实现基于HGML的目标信息地理位置的快速检索。(2)设计并实现了一种针对HGML文件的索引查询方法。地学浏览器的目标信息检索请求具有多样性,且查询目标信息可能存在于多索引库中,为此设计了规范查询格式。通过规范查询格式即可以统一的处理地学浏览器的多样性查询请求,也可执行多线程并行索引查询。同时,设计了规范返回结果格式,规范返回结果格式即满足了地学浏览器对目标信息的解析,也方便了执行并行索引查询的结果合并处理。(3)实现了提供索引查询服务的服务器程序。服务器程序用于接收地学浏览器的查询请求,并把查询请求信息转换成规范查询格式,通过解析规范查询格式构建具体的查询。当索引库有多个时,并行构建每个索引库对应的具体查询,并根据规范结果返回格式合并查询结果。服务器程序为地学浏览器提供基于HGML的目标信息地理位置检索服务。本文的创新点如下:(1)提出了一种针对HGML文件的分词方法。在构建全文索引时,需要通过对索引内容进行分词,来确定满足查询条件的关键词。在HGML中,有意义的“词”是用来表示地理特征要素的标签对,采用通常的分词方式无法满足这种要求,为此设计并实现了基于自定义词典的方法来完成针对HGML文件的分词。(2)提出了一种G/S模式下客户端聚合检索服务的机制。根据HGML的自身特点,以及基于HGML的目标信息地理位置的检索需求,通过采用对HGML文件的分词方法确定检索关键词,设计检索内容进而构建基于HGML文件的索引库。客户端地学浏览器通过向服务器程序发送检索请求,服务器程序处理请求信息后根据规范查询格式构建具体查询,最终处理成规范返回结果格式的结果信息返回地学浏览器,地学浏览器通过解析完成目标信息地理位置的检索。