元搜索中基于日志和语料的查询推荐模型的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yanshileia001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自人类进入二十一世纪以来,互联网产生了规模巨大的各类数据,且数据量仍在不断激增。搜索引擎可以帮助人们高效地从错综复杂的海量数据中获取到需要的信息。但是,单个搜索引擎往往查全率不高,不能完全满足用户的检索需求,而元搜索引擎通过整合各个成员搜索引擎返回的搜索结果,从而为用户提供覆盖率更高的检索结果。然而,在元搜索引擎中,用户输入的初始查询有时并不能准确表达其查询意图,从而影响检索结果的准确率。因此亟需研究面向元搜索引擎的查询推荐技术,以提高元搜索引擎的用户体验。查询推荐技术通过将相关的查询词推荐给用户,以帮助用户构造更有效的查询。传统的查询推荐模型可以分为两大类,分别是基于日志的查询推荐模型和基于语料的查询推荐模型。本文对比分析了这两类模型的优缺点,在“智搜”元搜索引擎系统的基础上,提出并实现了一个基于日志和语料的查询推荐模型。本文的工作内容及结论如下:(1)本文首先使用查询日志数据构建查询-链接二部图,在该图上使用两步随机游走策略来找到候选查询推荐词集。为了进一步扩充候选词集的范围,发挥元搜索引擎的优势,利用多个搜索引擎的查询推荐结果来丰富候选查询推荐词集。接下来,使用主题概念提取的方法,从元搜索引擎检索结果中提取查询词相关的主题概念,筛选出与主题概念相关的候选查询推荐词集。(2)为了进一步提高候选查询词的准确性,本文使用基于语料数据的查询项图相似性计算方法筛选得到最终的候选查询推荐词集。除此以外,本文还提出了一个查询词合理性的计算方法,对候选查询词集进行最终的排序。(3)本文提出的基于日志和语料的查询推荐模型已在“智搜”元搜索引擎中实现并应用,实验结果表明该推荐模型可以更加准确的为用户提供查询推荐词,且该模型的各个步骤均可以有效提高查询推荐的性能。
其他文献
<正>人行天桥作为城市的公共构筑物,不仅要满足基本的交通功能需要,更要与整个城市的环境相辅相成,成为城市靓丽的风景线,更应该成为城市文化的一部分而存在,体现城市文明。
本期继续刊登李祖德教授的《粉末冶金论著中术语和用词辨析二十一题》。
网络的虚拟性、超国界性等特点给涉网的民商事纠纷的管辖权确定带来挑战,传统的以地域为连结因素的管辖权确定方法在网络案件中遇到了困难.被告所在地、合同履行地、侵权行为地
确立公正的程序所应达到的标准,是实现程序公正的前提。本文在评介刑事程序公正几种理论的基础之上,提出了评价刑事程序公正的主体性原则、普遍性原则和科学化原则。
有机/无机复合定形相变材料能够有效的储存、释放热能,克服相变材料易泄漏、热导低等缺陷。讲述了有机/无机复合定形相变材料的制备方法,包括浸渍法、吸附法、溶胶-凝胶法、
波兰导演基耶洛夫斯基的“三色”对主观色彩的运用已远远超出了描绘事物的状态,而成为重要的意义表现手段。在其作品《蓝》中赋予色彩以灵魂,把对主观色彩的构思运用与环境气氛
碳基复合材料由于其高导电性、高稳定性和高吸附性等优势,已被广泛应用于锂离子电池和重金属吸附等能源和环境领域。但是,目前的与碳载体材料的复合方式有限,且存在诸多问题
跟踪了用铝箔袋、铜版纸袋和罐包装的黄瓜种子存放在不同条件下种子发芽率的变化情况。结果表明:随着贮藏时间的延长,贮藏在北方的3种包装材料包装的黄瓜种子,其发芽率变化差异
我国中小城市在城市中所占比例最大,全国31省区有2483个属中小城市。全国第六次体育场地普查数据统计中小城市规模体育场馆达到10302个。通过文献研究发现我国对体育场馆的研
<正>人类通过自己创造的符号认识自我和世界,通过联想把符号和所指的对象联系起来,创造了称为语言或思想的符号系统,也创造了称为工具或产品的符号系统。符号经过浓缩和指代