基于网络挖掘与机器学习技术的相关反馈研究

被引量 : 10次 | 上传用户:h565739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上各种信息的爆炸式增长,人们可获取和利用的信息越来越多的同时,也往往使得人们淹没在信息的海洋中,时常很难找到所需要的信息,这就是人们常说的信息过载(Information Overload)现象。在此背景下,信息检索技术得到迅速的发展,其中互联网搜索引擎是信息检索技术最重要和常见的应用之一。大量的实验表明相关反馈技术是提高信息检索系统性能的有效手段。本文在前人的研究基础上,主要研究了如何挖掘网络资源和使用机器学习技术进一步提高基于查询扩展的相关反馈技术的性能。基于这两方面,本文所做的主要研究工作包括:(1)针对当前大多数相关反馈算法,候选扩展词权重的计算都是使用扩展词在文档级别的统计信息。然而,一篇反馈文档,即使是人工判定为相关的,都可能包含多个主题(topic),显然并不是每个主题都有益于相关反馈算法。本文认为在较小的粒度上使用相关反馈算法更为合理,研究了如何应用主题模型(topic model)从反馈文档中推导出查询相关主题,并应用于相关反馈算法中。(2)传统相关反馈模型中,对不同的反馈文档都是同等的对待,而实际上,不同的反馈文档的质量各不相同,对相关反馈算法的作用也不一样。针对以上问题,本文重新讨论和修改了Rocchio相关反馈模型,并将其应用于概率检索模型中,提出了一个新的相关反馈机制,即质量偏重反馈模型。(3)研究了通过对高质量网络资源的挖掘来加强相关反馈算法的性能。针对伪相关反馈文档集质量难以得到保证这一问题,本文尝试了使用外部资源(相对于检索文档集)来解决该问题,并提出不同算法利用外部资源。具体,本文提出了一种生成式模型,从社会化标注标签(social annotation tags)中选取高质量的扩展词进行查询扩展,以弥补首次检索中获取的反馈文档质量较低的问题。(4)研究了在相关反馈扩展词选择的过程中,如何考虑不同上下文信息对候选扩展词权重的影响。传统相关反馈模型中,候选扩展词的选择通常是基于其在反馈文档集中的统计信息得到,查询的上下文信息在传统相关反馈模型中通常被忽略。因此,相关反馈过程中可能选用偏离查询主题的扩展词,这就导致检索性能下降。本文中,提出了基于贝叶斯网络的相关反馈方法,该模型可以考虑多种不同的上下文信息。
其他文献
目前外资越来越快地在我国日化市场扩张,由最初的合资模式发展成并购。一些已经进入我国日化市场的企业,采取并购方式扩大了规模、节省了成本;一些政策限制后进入我国日化市场
由刘麟编剧、关峡作曲创作的大型情景歌剧《木兰诗篇》是一部讴歌中华民族爱国主义和民族精神的经典史诗,其音乐揭示了呼唤和平正义的主题思想,其音乐创作是在坚持戏剧本质和
厄瓜多尔辛科雷水电站(简称CCS水电站)地下厂房装有8台进水球阀,分别由哈电和安德里茨公司设计制造,型号为QF678.7-WY2200,本文将详细介绍该电站进水管节焊接、球阀安装流程
隐喻作为一种语言现象,自20世纪80年代以来在语言学界备受学者的关注,成为认知语言学领域一个火热的研究的焦点。莱考夫(Lakoff)和约翰逊(Johnson)在1980年合著的《我们赖以
目的:通过对早发型及晚发型子痫前期重度患者、正常妊娠足月妇女凝血因子、抗凝血酶、纤溶降解产物、肝功能指标及乳酸脱氢酶进行检测分析,并对各个指标做相关性分析,探讨子痫
在2013年《致股东的公开信》中,谷歌创始人拉里·佩奇表示:'随着时间的推移,很多公司都习惯重复自己一贯的做法,只做出很少的渐进式的改变。假以时日,这样的渐进主义
随着电离辐射在医学、军事及核能开发等领域中的应用越来越广泛,人们对电离辐射危害的研究也不断增加。机体接受一定剂量的辐射可出现放射性损伤,包括氧化应激、造血系统功能
新世纪以来,世界经济都在飞速发展,我国经济也在突飞猛进,制造业作为国家经济支柱行业,它的发展更是不容忽视。科技的发展是制造业发展的核心力量,但是在依靠科技提升经济实
本论文详细介绍了波长检测型表面等离子体共振传感器的原理、仪器构造、特点及应用,介绍了纳米材料的特征及常见的纳米粒子的应用。概述了纳米材料在SPR传感器中的研究进展及
随着无线通信技术、嵌入式计算机技术与微机电(MEMS)技术的发展,无线传感器网络(WSNs)已经越来越深入到人类生活的方方面面。无线传感器网络是一种无基础设施的新型自组织网