基于Web搜索日志的查询推荐研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:a4936543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索系统中由于查询过短和存在歧义等原因,单纯依靠用户自己构造查询往往不能准确地表达搜索意图,导致搜索效果不佳,查询推荐是解决这一问题的关键技术之一。查询推荐技术的最直接应用就是搜索引擎中提供的“相关搜索”,除此之外推荐技术还被广泛应用在计算广告和电子商务等领域中,具有很高的研究价值。本文研究如何利用Web搜索日志这一资源来解决目前查询推荐的一些问题。   查询推荐的核心问题在于如何度量两个查询之间的相似度。本文通过分析相关工作发现前人方法通常利用各种特征(公有子串、共同点击次数等)直接对两个查询的相似度建模,当特征不足时,有些相似度难以计算出来,导致结果不准确(甚至无结果)。针对此问题,本文先根据查询间的转移关系构造查询关系图,其中节点表示查询,边表示查询的某种直接联系,然后引入一种基于图结构的相似度计算方法—SimRank来挖掘查询间更多的隐含关系。SimRank算法能够利用邻接节点相似信息来迭代计算图节点间的相似度,这样难以直接计算相似度的查询经过图中其他查询的间接联结而具有一定相似性。   然而,原始的SimRank算法应用在查询推荐中存在缺陷:所有查询关系被等同看待,没有考虑到关系强弱,导致结果不准确;不能计算直接相邻节点的相似度;时间复杂度和空间复杂度偏高,不适合大规模应用。   针对原始SimRank算法的不足,本文提出了一种改进的SimRank算法WeightedSimRank。与原始SimRank算法相比,它在保持收敛性的同时,具有如下优点:   1.增加边权重信息,使得相似度计算结果更为准确;   2.增设查询初始相似度为相连边权重,避免相邻节点无法计算问题。   针对原始SimRank和Weighted SimRank在大规模数据环境下的计算复杂度偏高问题,我们分别从四方面进行优化:   1.采用图搜索算法减少查询对数目;   2.应用动态规划思想保存中间结果减少重复计算;   3.变换公式减少无效计算;   4.采用剪枝策略提高速度并过滤噪声。   在大规模的真实Web搜索日志语料上,我们实现了几种常见的查询推荐方法并将它们进行了对比。实验结果表明,本文提出的Weighted SimRank方法优于其他的方法,其MAP指标接近0.9。   此外,我们利用包含约107次查询的真实搜索日志实现了一个基于Weighted SimRank算法的查询推荐原型系统,该系统在实时推荐中能够迅速响应,且能挖掘出许多语义相关查询。
其他文献
随着互联网络的飞速发展,以基于可信任网络和静态网络设计的TCP/IP协议为主的Internet网络面临着巨大的挑战。进入90年代,TCP/IP逐渐成为因特网上主机间的共同协议,但协议设计上
学位
超并行体系结构HPP是中国科学院计算技术研究所提出的一种同时面向千万亿次高性能计算和效用计算的高性能计算机体系结构。支持节点内统一地址空间和单一操作系统映像的超节
现代计算机在体系结构和应用场景复杂性的增长使得程序性能的增长、保持程序性能的可移植性以及程序开发效率的提升越来越困难,程序自动调优(auto-tuning)是解决此问题的一个
网格技术将地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源等连成一个逻辑整体,并为用户提供一体化的资源信息应用服务。网格记账系统是在网格环境下解析
物联网是射频识别技术与互联网结合而成的新型网络,其具有与互联网类同的资源寻址需求,以确保其中联网物品的相关信息能够被高效、准确和安全的寻址、定位以及查询。其上的发现
学位
互联网的出现使到信息的交换和共享变得简单,人们如今可以通过Internet发布自己的作品、重要信息和进行网上贸易,但随之而来的问题也十分严重,例如作品侵权更加容易,盗取及篡改也
颜色量化是计算机彩色图像处理的关键技术之一,即在尽可能完美地再现原始图像色彩效果的前提下,减少图像中的冗余信息,从而减少图像数据对存储空间和信道容量的要求。颜色量化算
2007年,我国在南海神狐海域成功钻获天然气水合物实物样品,这为研究天然气水合物提供了理想的场所。但是随着天然气水合物勘探技术的发展,水合物数据日益增长,数据量大、数据
学位
多词表达是一个影响着自然语言处理领域中许多其他应用问题的“基础问题”,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。自动识别和应
多媒体技术和计算机互联网的飞速发展使得人们可以更好地享受各类视频信息,如:有线电视、交互式网络电视、视频监控、视频电话等。为了节约这些视频信息的存储空间及网络传输带
学位