搜索日志中查询分类与优化

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:youluxihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,越来越多网络用户通过搜索引擎从互联网上获取信息。用户提交的查询串体现着用户的查询需求,是用户与搜索引擎的重要沟通桥梁。因此,对于搜索引擎来说,准确理解用户提交的查询串,返回令用户更加满意的结果,是提高搜索引擎质量的必要条件。  搜索日志记录了用户从互联网获取信息的全部过程,能真实地反映用户检索行为,是挖掘用户需求的一种有效资源。所以,通过分析用户搜索日志,更好地理解用户的查询需求是当前的一个研究热点。本文通过对搜索日志进行研究,提出了三种方法,分别对用户查询串进行意图分类和主题分类,并结合句法分析,对用户查询串进行查询优化,以此来提高搜索引擎质量,提高用户满意度。  1)提出一种基于用户行为分析的查询意图识别方法。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;同时,导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出“不同页面点击数”、“点击分布值”和“异源页面点击数”三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。  2)提出一种基于伪相关反馈的查询主题分类方法。利用搜索引擎伪相关反馈技术,得到查询串扩展文本,通过分析抽取的扩展文本特征,定义部分匹配规则对其量化,形成空间向量;结合文本向量特征,给予抽取的特征相应的影响因子,提出一种向量空间压缩算法,对特征进行融合,形成压缩后的空间向量,并分别利用向量余弦夹角和SVM模型对其进行分类,以验证所提方法的有效性。实验结果中准确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。  3)提出一种结合句法分析的查询优化策略。利用哈工大LTP句法分析器,对查询串进行句法分析,统计查询串词性规则,找出查询串焦点,并利用搜索引擎高级检索功能对查询串进行改写。实验结果表明,经过优化后导航类P@5达到0.45,MAP值由0.38提高到0.45,MRR值从0.62提升到0.67,信息事务类查询串信息事务类的P@10达到0.4,MRR值从0.23增加到0.32。证实了利用该方法的有效性。
其他文献
P2P技术是目前网络计算研究领域的热点问题之一,其中基于P2P的分布式计算也日益受到人们的关注。JXTA技术是一套开放、通用的P2P协议,独立于编程语言和系统平台,可以作为P2P
  本文在描述办公自动化发展历史及我国发展的现状基础上,结合某税务局的办公自动化现状,针对其办公特点及前期业务需求与工作流程,在充分了解WFMC参考模型及相关基本概念、群
目的 探讨观察在急诊中对有机磷中毒患者应用急救护理流程和自我防护措施的临床效果评价.方法 整理我院于2018年1月至2019年8月收治的有机磷中毒急诊患者100例的临床资料,根
目的 观察分析饮食依从性与护理干预对慢性肾功能衰竭患者的影响.方法 将我院2018年5月至2019年5月收治的慢性肾功能衰竭患者90例以随机数字表法分组,观察组与对照组各45例,
知识图谱与知识库在很多类型的应用中被广泛使用,例如语义网络,机器翻译,查询扩展,文本分类等。此外,分类知识库也在数据清理,实体解析,信息集成领域扮演着重要的角色。随着
目的 对小儿哮喘应用孟鲁司特钠联合布地奈德治疗的临床效果进行分析.方法 采集2017年2月至2019年2月于我院儿科接受治疗的哮喘患儿85例,通过随机法分为40例对照组(布地奈德)
随着电子商务、电子政务的发展,信任与授权管理已成为信息安全中的关键性问题。公开密钥基础设施(PKI)和授权管理基础设施(PMI)是目前解决信任和授权管理比较成熟、完善的信息
目的 探究创伤骨科患者围手术期疼痛控制中实施个体化疼痛管理的效果.方法 选取2019年4月至2019年11月我院收治的创伤骨科患者60例,按照随机数字法分为接受个体化疼痛管理的3