正负相关反馈与查询扩展技术的研究

来源 :内蒙古大学 | 被引量 : 8次 | 上传用户：liandakj2005

【摘要】

：

信息获取在人们的工作、生活等各种活动中占有重要的地位,获取信息的渠道和方法是多种多样的。随着计算机网络、移动通信和全球信息化的快速发展,通过Web网络和搜索引擎获得

【作者】

：

王俊义

【出处】

：

内蒙古大学

【发表日期】

：

2012年01期

【关键词】

：

信息检索相关反馈负反馈查询扩展聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息获取在人们的工作、生活等各种活动中占有重要的地位,获取信息的渠道和方法是多种多样的。随着计算机网络、移动通信和全球信息化的快速发展,通过Web网络和搜索引擎获得信息已成为人们的生活和工作习惯,是获取信息的重要方法之一。信息分布广泛、形态多样、组织开放、管理松散、更新快、变化快、传输快等多种因素致使信息检索难度加大。人们对信息检索从结果、效率和方式都提出了更高、更多样化的要求,这些特性和需求对信息检索提出了更大的挑战。搜索引擎必须有强大的、先进的信息检索技术支撑,才能更好的满足用户的要求。通常用户对信息需求的表达不够准确和清晰,往往只是几个单词,经常得不到满意的检索结果。通过反馈扩展查询模型是一种常用的和有效的提高检索性能的策略,因此扩展查询和反馈技术一直是信息检索领域中研究的重点之一。大量的有关这方面的研究工作主要集中在相关反馈和伪相关反馈方面,近几年开始关注负反馈的研究。但在语言模型框架下的正反馈与负反馈相结合的模型的研究在SIGIR中还不曾见到。本文以正负反馈模型为研究核心,围绕该核心对其模型框架、正负反馈的自动识别、模型参数动态调整、多主题反馈等展开研究工作,并取得了以下主要成果。(1)正负反馈模型框架：基于已有的相关反馈、伪相关反馈和负反馈的研究基础,提出了一种基于语言模型的正负反馈相结合的检索模型框架,相关反馈、伪相关反馈和负反馈等模型均是该模型的特例。正反馈增强放大查询信息,负反馈有效地抑制查询噪音与正反馈内含噪音,有效地提高了检索性能。在平均查准率和前10个文档的查准率方面都超过了伪相关反馈模型和相关反馈模型,和伪相关反馈模型相比大幅地减少了受损的查询数量,提高了鲁棒性。正负反馈模型参数的动态调整：正负反馈模型是由查询、正反馈和负反馈三种成分通过线性插入法混合而成,任何一种混合成分的检索模型其检索结果对各成分比例系数是比较敏感的。针对正负反馈模型提出了两种简单、可行而有效的动态调整参数的算法,一种是依据不相关文档的比例计算法,一种通过训练集学习参数值发,从而进一步提高了正负反馈模型的检索性能。(2)聚类区分相关和不相关文档：在分析top k文档中相关与不相关文档的分布特点的基础上,通过理论分析和实验发现密度聚类算法能够很好地识别孤立的不相关文档,对密度聚类算法DBSCAN进行改进,以72%以上的准确率和32%的查全率发现top k中的不相关文档,以54%以上的准确率和87%以上的查全率发现top k中的相关文档。将top k分为两个集合,连通集合和孤立点集合,把它们分别做为正负反馈模型中的正、负反馈,检索性能远超于伪相关反馈。(3)用多主题域改进伪相关反馈模型：提出了一种新的应用多主题域信息改进伪相关反馈的模型,重构查询是由原查询、top k和多主题域中的top s组成,能够有效地改进伪相关反馈的检索性能。该方法能够应用于个性化检索中。

其他文献

人民币汇率变动对我国进出口贸易的影响

在进行国际进出口贸易的过程中,人民币汇率的变动有着非常重要的影响。在人民币升值的背景下,我国进出口商品的结构得到了有效地改善,促进了产业结构升级,使我国对外贸易条件

期刊

汇率对外贸易进出口

重视奥运场馆赛后综合利用

2008北京奥运会即将召开,为了避免耗资巨大的奥运会场馆和相关设施在后奥运时期成为北京的沉重负担,有效利用和经营赛后的奥运场馆,成为了我们目前必须面临和解决的一个重要

期刊

后奥运北京体育场馆利用

基于网络治理的科技企业孵化器网络与单创投合作研究

科技孵化器网络以其在服务效率、资源共享等方面的优势,得到了越来越广泛的关注。作为一种新的合作方式,网络组织下的科技企业孵化器与单创投的合作也遇到了新问题。以公司治

期刊

科技企业孵化器网络创投治理机制网络治理

国外化学毒剂红外遥测系统的状态及发展方向

针对各国对化学毒剂遥测系统的实际需求,对其进行了分类.叙述了被动系统的工作原理.介绍了美军已列装的M21化学毒剂遥测报警系统以及正在发展中的适应动平台运动中监测化学毒

期刊

被动红外化学毒剂遥测

综合性护理在上消化道出血护理中的应用

目的探讨综合性护理方案在上消化道出血护理中的应用疗效。方法将80例上消化道出血患者随机分为观察组和对照组各40例,对照组采用常规护理,观察组采用综合性性护理;比较两

期刊

综合性护理上消化道出血治愈率满意度

时间序列分析在对国家工业总产值预测分析中的运用

通过引入Box-jenkins的随机时间序列ARMA(p,q)和ARIMA(p,q)模型分析法,运用SAS软件系统对1980-2003年的国家工业总产值建立了ARIMA模型,作了预测分析,得到了较高的预测精度。

期刊

工业总产值时间序列ARIMA模型

上市公司智力资本对财务绩效的影响研究——基于Pulic模型的实证分析

通过分析我国1 177家上市公司2003~2005年的相关数据,对企业智力资本与财务绩效的关系进行了实证研究,得出企业的人力资本效率和有形资产效率与财务绩效具有正的相关性的结论

期刊

智力资本人力资本结构资本财务绩效

浅议新会计准则下企业盈余管理的变化

文章对企业盈余管理产生的原因及表现形式,新会计准则对盈余管理的制约,以及如何治理企业在新会计准则下的盈余管理等问题进行了研究与探讨。

期刊

新会计准则企业盈余盈余管理

“建构”与“营造”观念之再思——兼论对梁思成、林徽因建筑思想的研究和评价

本文试图在一个跨文化视野中思考"建构"与"营造"的关系,辨析它们的同异,以及对于当代建筑学的意义。

期刊

建构营造构造建造建筑学

论会计信息失真的法律责任——以《会计法》为分析视角

会计信息失真的严峻现实对相关法律的完善提出了要求,尤其是法律责任规定上的完善。准确界定法律责任主体及其承担的责任,进一步完善各种法律责任承担方式,破除法律责任适用

期刊

会计信息失真法律责任会计法

正负相关反馈与查询扩展技术的研究

其他学术论文