论文部分内容阅读
万维网(WWW)已经逐步成为一种人们获取信息的重要来源,信息检索则是帮助人们快速准确的获取所需信息的技术。信息检索相关技术的研究对于国民经济的发展有着非常重要的现实意义,无论学术界与工业界都投入了越来越多的力量与资金来促进信息检索的研究与应用。另一方面,近年来地理信息系统技术的飞速发展以及基于地理位置的移动信息服务的普及,使得人们对地理相关信息的关注逐渐升温。因此,对于地理位置的信息检索技术的研究有着迫切的需求和现实意义。地理信息检索(GIR)就是关注地理信息的一种检索技术。多数文档都含有某种地理信息,如何对这些地理信息进行检索是一个非常值得研究的问题。目前对地理信息检索的研究内容主要包括地理信息抽取,针对地理信息的排序模型与算法,结合地理信息的索引结构,地理信息可视化以及地理信息挖掘等等。长远来看,基于地理位置的信息检索以及相关的服务,有着广阔的科研和应用前景。本研究分别在如下方面对地理信息检索的相关技术进行了研究:1.一种基于LDA模型的地理信息检索模型。目前大部分的检索模型都是基于关键词匹配的算法,但是检索的发展趋势是语义检索。LDA(LatentDirichlet Allocation)是近年发展起来的有效的文本概率图模型,它可以自动发现文本的潜在主题。本研究拟提出把LDA概率图模型和传统的文档检索模型相结合,利用LDA发现词之间潜在相关性的能力,提高文本信息检索的准确度。而地理信息检索是该算法的应用对象,因为表示地理位置的词互相之间有着很强的相关性,很多相关的地理位置不便在查询词中描述,所以通过该方法,能帮助减少查询词和文档之间的语义鸿沟,并提高检索结果的准确率。2.一种基于语言模型的地理信息检索模型。区别于传统的信息检索,地理信息检索通过一个查询范围词(query spatial scope)来限制用户的兴趣区域。目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果中。但是,词在地理空间的词频分布并不是均匀的,那么词在排序结果中的重要性也应该随着查询范围的变化而有所改变。因此,我们提出了一种新的基于语言模型(Language Model)的地理信息检索模型,把查询范围引入到传统的语言模型中。在该模型中,我们引入了一个本地语言模型(Local Model)来描述查询词的地理分布特性。实验结果表明新的检索模型优于TF-IDF与传统的语言模型。3.基于隐含地名的地理信息索引结构。目前的地理信息索引结构都没有考虑隐含的地理信息,例如,对于查询“snowstorms in North America”,传统的方法就是简单地返回所有包含“North America”的网页。实际上,假如一个网页包含“Canada”,“United States of America”,或者“Mexico”,也是跟这个查询相关的。“North America”可以看作是“Canada”的隐含地名。在这个研究中,我们把在文档中显式提到的地名的祖先称之为隐含地名,并提出了一种基于隐含地名的地理信息索引结构,并把它和不同的索引结构相比较。实验结果表明我们的结果好于之前的方法。4.IR-tree:一种高效的地理信息索引结构。目前的地理信息检索系统采取的索引结构都是简单的反向索引结构与空间索引结构相结合的方式,该方式是顺序执行查询,需要遍历所有的相关文档,导致查询效率低下。实际上,用户通常只会关心top-k的结果,所以没必要对所有相关文档处理。所以本人提出一种把反向索引结构和空间索引结构R-tree有机结合的高效索引结构IR-Tree,通过R-tree对文档相关联的地理位置进行索引,并在R-tree中的每个节点保存辅助统计信息。该统计信息包含对文档进行排序所必需的统计量。同时我们提出一种新的Rank-based文档查询算法。该算法利用优先队列来保存IR-tree的树节点,这些节点按照tf-idf的值进行排序,每次只有一个节点将会被处理,那么只有最可能包括top-k文档的节点需要被检索,每当处于队列首的元素是文档时就可以把它放到结果队列中。当结果队列的文档数达到用户需要的k时,算法将会停止。IR-tree结合Rank-Based查询算法,将有效的减少文档搜索空间,只需要对top-k文档进行检索,从而减少了I/O的消耗,提高了查询效率。5.一种新的地理信息查询词分类框架与算法。黄页在线查询是口前地理信息检索的主要应用之一。如何针对用户的查询词来提供有效的广告内容是工业界非常关注的课题,而对查询词分类后就可以根据查询词类别来提供合适的在线广告。黄页查询词和传统的查询词有很大的区别,一方面黄页查询词有地理位置的限制,另一方面,黄页查询词的类别体系是层次化的并且类别数目很大,而黄页也有层次化体系结构划分。本研究提出一种基于类别结构匹配的黄页查询词分类技术,该技术利用相似性公式找到黄页分类体系和目标分类体系的匹配关系,然后利用搜索结果对应的目标分类综合情况来进行查询词分类。为了得当更高的分类准确率,本研究提出了多种结果过滤算法。初步结果表明该技术的分类效果比简单的关键词匹配法和传统的SVM分类效果更好,而且无需人工标注训练数据,鲁棒性强,可以适用于任意大规模的目标类别体系。