论文部分内容阅读
随着互联网技术的飞速发展,越来越多网络用户通过搜索引擎从互联网上获取信息。用户提交的查询串体现着用户的查询需求,是用户与搜索引擎的重要沟通桥梁。因此,对于搜索引擎来说,准确理解用户提交的查询串,返回令用户更加满意的结果,是提高搜索引擎质量的必要条件。 搜索日志记录了用户从互联网获取信息的全部过程,能真实地反映用户检索行为,是挖掘用户需求的一种有效资源。所以,通过分析用户搜索日志,更好地理解用户的查询需求是当前的一个研究热点。本文通过对搜索日志进行研究,提出了三种方法,分别对用户查询串进行意图分类和主题分类,并结合句法分析,对用户查询串进行查询优化,以此来提高搜索引擎质量,提高用户满意度。 1)提出一种基于用户行为分析的查询意图识别方法。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;同时,导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出“不同页面点击数”、“点击分布值”和“异源页面点击数”三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。 2)提出一种基于伪相关反馈的查询主题分类方法。利用搜索引擎伪相关反馈技术,得到查询串扩展文本,通过分析抽取的扩展文本特征,定义部分匹配规则对其量化,形成空间向量;结合文本向量特征,给予抽取的特征相应的影响因子,提出一种向量空间压缩算法,对特征进行融合,形成压缩后的空间向量,并分别利用向量余弦夹角和SVM模型对其进行分类,以验证所提方法的有效性。实验结果中准确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。 3)提出一种结合句法分析的查询优化策略。利用哈工大LTP句法分析器,对查询串进行句法分析,统计查询串词性规则,找出查询串焦点,并利用搜索引擎高级检索功能对查询串进行改写。实验结果表明,经过优化后导航类P@5达到0.45,MAP值由0.38提高到0.45,MRR值从0.62提升到0.67,信息事务类查询串信息事务类的P@10达到0.4,MRR值从0.23增加到0.32。证实了利用该方法的有效性。