论文部分内容阅读
万维网是一个包含丰富资源的数据库,如何有效地从其中获取所需信息是网络数据挖掘的一个关键问题。从1990年开始,搜索引擎逐渐发展称为人们在互联网上搜索资源的主要方式。传统搜索引擎的工作机制基于关键字匹配,它们通常利用网页文本的内容和网络链接结构来判断网页与搜索串的相似程度。但随着越来越多的地方性资源和服务出现在因特网上,传统搜索引擎无法合理地处理包含位置信息的搜索串和返回令人满意的结果,其原因在于以下三点: (1)将地理位置当作普通关键字进行处理; (2)考虑的是网页在全球范围的受欢迎程度而不是在地方的流行度; (3)没有考虑网络资源的地理范围。因此,建立专门处理包含地理位置信息的搜索引擎是必需的。
本文在分析了基于位置的搜索引擎发展现状和相关关键技术的基础上,对基于位置的排序技术进行了研究。本文的主要研究内容和贡献有以下几个方面:
1.提出了一种基于地方流行度的排序思想和相应的排序模型LPRM。该排序模型使用了Geo-Weight来计算网页中地理位置的权重,它的特点在于综合考虑了地理位置出现的次数、频率和区域;同时本文改进了Power和Spread公式,以突出入链在排序中的重要性。
2.根据提出的排序模型,本文给出了三种排序算法CGR、BGR和HGR。CGR仅仅考虑了网页内容中出现的地理位置,BGR仅仅考虑了入链网页中出现的地理位置,HGR综合考虑了内容和入链中出现的地理位置。通过它们之间的对比可以看出入链的地理位置和质量能反映网页的地方流行度。
3.设计和实现了一个基于位置的排序系统GRS,通过实验对提出的三种算法进行了评估,并详细地分析了实验结果。GRS有两个特点:(1)与大多数相关研究采用某一特定领域的网页作为数据集不同的是,GRS并没有对网页的内容做出任何限制;(2)大多数相关研究都需要部分手动参与,而GRS会自动地将地理位置与网页和超链接相关联,计算出一个网页的地理范围。实验主要评估和分析了以下几个方面:地理标注结果、排序结果的精确度、根集合大小对排序的影响、搜索串扩展效果。