基于统计模型的搜索引擎查询纠错系统

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yiyong6698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是人们日常生活中最常用的工具之一,用户使用搜索引擎进行检索的过程当中,难免会输入不明确或者错误的查询词。分析搜索引擎用户查询日志可以发现用户输入的查询错误类型多样,出错查询占总查询的比例超过10%。查询纠错是对用户输入查询进行处理,给出用户想要的正确查询词,进而检索出正确的相关结果。因此好的查询纠错方法可以有效提升用户体验,提高搜索引擎自身的容错性和易用性。为了处理搜索引擎常见的各类查询错误,有效提高纠错的准确率,本文首先研究了基于隐马尔科夫模型和N-gram模型的纠错方法,详细说明了对N-gram语言模型进行建立和训练的过程,在N-gram语言统计模型中加入大量由日志数据得到的词频以及字频信息。区别于使用简单的语言模型,本文拼音纠错模块通过将候选集合过滤问题转化为隐马尔科夫模型求隐藏状态序列的问题,利用维特比算法求出最优候选,再与原查询和其他查询结果对比确定最终纠错结果。其次利用大量搜索引擎网络日志中提取的查询数据作为方法的纠错数据集、模型训练集以及实验测试集,日志数据容易更新和维护,对于不同领域的搜索引擎查询纠错,采用日志作为训练数据集的方法也更容易移植。最后,本文分析用户查询日志,总结查询出错类型,并且充分分析了传统的字典集匹配法和编辑距离纠错方法的特点,结合统计模型纠错,按照合适的方式将设计的各个模块组合,形成一套完整的搜索引擎查询纠错方法,并实现了对应的查询纠错系统。实验验证了本文实现的查询纠错系统具有良好的纠错效果,设计的纠错方法能够处理搜索引擎下常见类型的查询错误并且具有较高的准确率和召回率。
其他文献
意大利蝗生物学特性研究张泉,乔璋,熊玲,巴哈提亚尔·达吾提(新疆蝗虫鼠害测报防治中心站,乌鲁木齐,830001)赵勇,党惠才,张新生,肖宏伟(木垒县蝗虫鼠害测报防治站)(玛纳斯县蝗虫鼠害测报防治站)意
近日,一篇标题为《一年卖出7.5亿的洗脑“神药”,请放过中国老人》的文章引起热议。该文将矛头直指因电视广告而为人耳熟能详的“莎普爱思滴眼液”(通用名:苄达赖氨酸滴眼液),称其
报纸
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
野外条件下,对意大利蝗(Calliptamus italicus)的取食特性、食量进行了研究;同时用笼罩和模拟方法测定了意大利蝗对田间产草量造成的损失。研究结果表明:意大利蝗若虫喜食冷
《唱论》是我国现存最早的一部论述宋元时期的戏曲声乐论著。这部著作在总结前人歌唱经验的基础上,对宋元时期的戏曲声乐艺术提出很多方法和技巧。《唱论》涉及戏曲声乐内容
本文以日本长野市为例,简要介绍日本垃圾分类及丢弃方法,并探讨个中缘由,以期为推进中国垃圾分类进程提供参考。
“安全”是人们最常见而常用的词汇之一。“安”字指不受威胁、没有危险、太平、安全、安适、安逸、安稳、安康、安乐、安心、稳定等含意,可谓无危则安;“全”字指圆满、完整、
<正>莎普爱思滴眼液获得批文的适应症是"早期老年性白内障",然而公司在宣传中却模糊掉"早期"二字,且颇有用症状代替疾病之嫌,由此也引来更多的质疑。"白内障看不清,莎普爱思
阅览汤显祖晚期创作的《南柯记》和《邯郸记》,总感觉到汤翁在消极的表象中,寄寓着某种不为人知的情怀。拙作《论汤显祖[邯郸记]曲牌唱腔音乐意义》(发表于2000年《抚州师专