论文部分内容阅读
搜索引擎已日渐成为人们获取信息的最主要方式之一。在用户提交的查询中,位置相关的查询占有相当的比重。而且,作为信息空间的一个重要维度,大部分网页包含有地理位置信息。但是目前大多数搜索引擎在查询时把地理位置仅仅看成是文本关键词,没有考虑到地理位置的特殊性(例如“安徽”和“合肥”两个地理位置的空间包含关系),因此对此类查询常常不能返回给用户满意的搜索结果。因此,位置相关的Web信息检索技术——即如何充分地利用网页中的位置信息来回答基于地理位置的用户查询请求——成为目前的研究热点。
本文围绕位置相关的Web信息检索技术,着重探讨了其中的两个关键问题:首要地理位置抽取和基于首要地理位置的网页排序。首要地理位置是指与整个网页内容最相关的,最能代表网页中位置信息的地理位置。抽取这类信息不仅可以提高搜索引擎的检索效率,还可以方便新闻等网页的地图显示及用于最终排序结果的聚类等。首要地理位置抽取所要解决的难点问题就是去除地名的歧义,只有设计一种良好的去除歧义的方法才能为后面的首要地理位置抽取乃至排序奠定良好的基础。本文的主要贡献可以归结为以下三点:
(1)提出了解决GEO/GEO歧义的GeoRank算法,和一种解决GEO/NON-GEO歧义的启发式方法。所谓的GEO/GEO歧义指的是很多地理位置共享一个地名;而GEO/NON-GEO歧义指一个地名还可以代表其他类型的名字,如人名等。GeoRank算法采用了一种类似于PageRank的算法,但主要关注一个地名候选者在一个特定的网页中所代表的确切地理位置。实验结果显示GeoRank比之前提出的一些算法效果要好;
(2)设计了一种选取网页首要地理位置的有效算法,当计算其他地理位置对一个给定的地理位置的贡献时,该算法采用动态参数。跟先前被提出来的一些用静态参数的方法相比,我们的算法更合理,而且实验结果表明我们取得了更好的效果。
(3)通过分析网页中关键词和首要地理位置的联系,提出了一种基于<关键词,首要地理位置>映射对的MapRank排序算法,实验结果优于传统的排序算法和其他考虑地理位置特殊性的对比算法,明显提高了搜索的用户体验。