位置相关的Web信息检索关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tysystem
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎已日渐成为人们获取信息的最主要方式之一。在用户提交的查询中,位置相关的查询占有相当的比重。而且,作为信息空间的一个重要维度,大部分网页包含有地理位置信息。但是目前大多数搜索引擎在查询时把地理位置仅仅看成是文本关键词,没有考虑到地理位置的特殊性(例如“安徽”和“合肥”两个地理位置的空间包含关系),因此对此类查询常常不能返回给用户满意的搜索结果。因此,位置相关的Web信息检索技术——即如何充分地利用网页中的位置信息来回答基于地理位置的用户查询请求——成为目前的研究热点。   本文围绕位置相关的Web信息检索技术,着重探讨了其中的两个关键问题:首要地理位置抽取和基于首要地理位置的网页排序。首要地理位置是指与整个网页内容最相关的,最能代表网页中位置信息的地理位置。抽取这类信息不仅可以提高搜索引擎的检索效率,还可以方便新闻等网页的地图显示及用于最终排序结果的聚类等。首要地理位置抽取所要解决的难点问题就是去除地名的歧义,只有设计一种良好的去除歧义的方法才能为后面的首要地理位置抽取乃至排序奠定良好的基础。本文的主要贡献可以归结为以下三点:   (1)提出了解决GEO/GEO歧义的GeoRank算法,和一种解决GEO/NON-GEO歧义的启发式方法。所谓的GEO/GEO歧义指的是很多地理位置共享一个地名;而GEO/NON-GEO歧义指一个地名还可以代表其他类型的名字,如人名等。GeoRank算法采用了一种类似于PageRank的算法,但主要关注一个地名候选者在一个特定的网页中所代表的确切地理位置。实验结果显示GeoRank比之前提出的一些算法效果要好;   (2)设计了一种选取网页首要地理位置的有效算法,当计算其他地理位置对一个给定的地理位置的贡献时,该算法采用动态参数。跟先前被提出来的一些用静态参数的方法相比,我们的算法更合理,而且实验结果表明我们取得了更好的效果。   (3)通过分析网页中关键词和首要地理位置的联系,提出了一种基于<关键词,首要地理位置>映射对的MapRank排序算法,实验结果优于传统的排序算法和其他考虑地理位置特殊性的对比算法,明显提高了搜索的用户体验。
其他文献
人们对高性能计算的需求从来没有停止。然而已经非常完善的指令并行技术受线延迟和功率墙的制约,很难进一步带来性能提升,相反存储墙问题使得访存行为对性能的决定性越来越明显
信息时代高效率快节奏的工作使人们忽视那些看似与正常系统运行关系不大其实贯彻全局的安全工作,终于使得安全工作的匮乏到达了引爆点。近年来的有线网安全事件呈指数级上升,使
信息隐藏是信息安全研究的重要方面之一,而隐写术作为信息隐藏的一个主要分支,越来越受到国内外科研人员的关注。隐写术利用载体中的冗余信息嵌入秘密对象,以此实现秘密信息
随着社会信息化和数字化的发展,特别是数字家庭概念的发展,家庭中各种电器设备、多媒体设备网络化和信息化的加速发展,这些促使多种不同业务在家庭网络中同时呈现,而不同业务对带
基于达尔文进化论的进化算法在求解问题时,可将问题描述成自然界中种群的进化过程,遵循适者生存的机制,通过种群的不断进化,求得最优解或满意解。进化计算的研究较早,发展较
无线传感器网络(简称传感网)很多应用都依赖于节点的位置信息,所以节点定位技术是传感器网络领域中一种非常重要的基础技术。然而传感网一般部署在恶劣的环境中,节点易受到各
如今,数据采集和存储技术的发展使得许多数据库的数据量极其庞大,要从中分析有价值的信息、知识变得越来越困难,而这种分析需求却与同俱增。数据挖掘就是从海量数据中发现那些隐
云计算、大数据、数据中心等新型数据业务对网络服务提出了更多要求:低时延、更高的可用性与保证服务质量的端到端业务调度,其爆炸式增长趋势给光网络的智能化发展带来强大的
科技发展日新月异,越来越多的科学问题涉及到大量数据的处理,对这些数据的处理速度直接影响到科学问题的求解进程。甚至有些科学问题必须要有足够快的数据处理速度才能真实反映
贝叶斯网(BN)起源于人工智能领域的研究,是一种将概率统计运用于复杂领域进行不确定性推理和数据分析的工具。近年来,贝叶斯网络在很多领域得到广泛运用。在数据挖掘中,也获