基于位置的网络搜索引擎排序技术研究

来源 :河海大学 | 被引量 : 0次 | 上传用户:xiuxiumumu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网是一个包含丰富资源的数据库,如何有效地从其中获取所需信息是网络数据挖掘的一个关键问题。从1990年开始,搜索引擎逐渐发展称为人们在互联网上搜索资源的主要方式。传统搜索引擎的工作机制基于关键字匹配,它们通常利用网页文本的内容和网络链接结构来判断网页与搜索串的相似程度。但随着越来越多的地方性资源和服务出现在因特网上,传统搜索引擎无法合理地处理包含位置信息的搜索串和返回令人满意的结果,其原因在于以下三点: (1)将地理位置当作普通关键字进行处理; (2)考虑的是网页在全球范围的受欢迎程度而不是在地方的流行度; (3)没有考虑网络资源的地理范围。因此,建立专门处理包含地理位置信息的搜索引擎是必需的。 本文在分析了基于位置的搜索引擎发展现状和相关关键技术的基础上,对基于位置的排序技术进行了研究。本文的主要研究内容和贡献有以下几个方面: 1.提出了一种基于地方流行度的排序思想和相应的排序模型LPRM。该排序模型使用了Geo-Weight来计算网页中地理位置的权重,它的特点在于综合考虑了地理位置出现的次数、频率和区域;同时本文改进了Power和Spread公式,以突出入链在排序中的重要性。 2.根据提出的排序模型,本文给出了三种排序算法CGR、BGR和HGR。CGR仅仅考虑了网页内容中出现的地理位置,BGR仅仅考虑了入链网页中出现的地理位置,HGR综合考虑了内容和入链中出现的地理位置。通过它们之间的对比可以看出入链的地理位置和质量能反映网页的地方流行度。 3.设计和实现了一个基于位置的排序系统GRS,通过实验对提出的三种算法进行了评估,并详细地分析了实验结果。GRS有两个特点:(1)与大多数相关研究采用某一特定领域的网页作为数据集不同的是,GRS并没有对网页的内容做出任何限制;(2)大多数相关研究都需要部分手动参与,而GRS会自动地将地理位置与网页和超链接相关联,计算出一个网页的地理范围。实验主要评估和分析了以下几个方面:地理标注结果、排序结果的精确度、根集合大小对排序的影响、搜索串扩展效果。
其他文献
近年来,随着现代通信技术的飞速发展和计算机互联网技术的迅速普及,信息的共享、传播变得尤为重要。它给人们带来种种便利的同时也带来了一系列的信息安全问题,比如信息窃取
近年来,无线移动通信发展迅猛,无线移动用户数目急剧增长,并且在将来的无线移动通信系统中必须为用户提供更多的数据、图像和视频等多媒体业务信息,这些均将导致更多的无线资
随着信息技术的发展,物联网越来越多的应用到像智能交通、智能家居、智能医疗等的智能应用行业中,以传感设备为基础的各类流式数据的实时接收和处理成为物联网智能应用的关键。
随着网络的日益普及,网上业务尤其多媒体业务日益增多,不断增长的需求会对网络的拓扑结构和负荷能力提出挑战。拥塞控制也因对网络带宽要求的增长及网络应用的集中而显的十分
由于无线传感器网络节点在部署时通常随机播撒,大部分位置不能事先确定,而传感器网络很多应用都需要节点位置信息才能确定数据来源。节点位置信息还可以用来提高路由效率,帮助实
智能规划是人工智能研究领域近年来发展起来的一个热门分支,由于其广泛的实用性,受到研究者的高度重视。尤其是具有不完全信息和不确定信息的规划问题已经成为智能规划研究中
无线传感器网络由大量相互协作的微小节点组成,每个节点具有有限的感知、传输和计算能力。节点以适当的方式组成网络,并将它们的感应数据有机地关联和融合时,整个网络提供的能力
软件测试是软件开发过程中一个既重要又很难实施的环节,同时它也是软件质量保证的关键步骤,是软件工程研究领域的重要内容。回归测试是软件修改后为确认修改的正确性而进行的测
可扩展标记语言(XML)是由W3C设计并推荐的新一代标记语言。XML因其优良的可扩展性、互操作性、可靠性和简便性,已在电子商务领域得到了日益广泛的应用,逐渐代替传统的HTML,促
无线信道有着不同于有线信道的特性,因此需要特别设计专门的无线介质访问控制(MAC)协议以避免无线网络中的信号冲突,并为无线网络用户提供高质量的数据传输服务。无线MAC协议的