基于聚类与局部共现的相关反馈方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qsczsr15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展导致了互联网上的信息量与日俱增。如何从互联网上获取用户所需要的信息已经成为了一个热门问题。在这个背景下,信息检索技术发展起来了。针对信息检索中,文档和查询之间的词不匹配问题,大量的研究显示基于查询扩展的相关反馈是这个问题的一个很好的解决方案,并且能够很好的提高信息检索系统的性能。大部分传统的查询扩展算法都假设初始检索结果集中排序靠前的N篇文档是相关的,然后利用这些文档作为反馈文档集来进行查询扩展获取扩展词。然而,这些反馈文档中包含着大量的噪音,很有可能使生成的新查询偏离查询主题,导致查询漂移。文档聚类可以将初始检索结果集中相关的文档聚集在一起,从而可以从中找到相关的文档,去掉不相关的文档,获取更好的反馈文档集。同时大部分传统的查询扩展算法是基于反馈文档集中索引词的权重来选取扩展词。这种做法并没有很好的考虑反馈文档集中索引词和查询之间的关联性,很有可能获取到与查询主题不相关的扩展词,影响到扩展词的质量,进而对信息检索的效果产生负面影响。局部共现技术通过计算反馈文档集中的索引词和查询的共现率来获取扩展词,可以更好的考虑扩展词和初始查询的关联性。将聚类和局部共现技术进行结合,能够从两个环节对查询扩展进行了改进和优化,更好的提高了信息检索系统的性能。在测试数据集上的实验结果表明,检索结果的相关性都得到了显著的改善。这一结果表明,聚类和局部共现技术对于信息检索性能的提高是有效的。
其他文献
随着计算机网络的发展,网络应用软件为人们提供了各式各样的服务,但软件中存在的脆弱性给人们带来了安全隐患,由于网络应用软件的使用率飞速上升,使得网络应用程序脆弱性检测和修
事务技术用于保障并发事务能够高效、正确地执行。Web服务技术使得互联网上的应用无须借助专门的第三方软件或硬件,就能实现数据交互及功能集成。Web应用所具有的分布性、自治
普通高等院校开设的Visual FoxPro (VFP)程序设计作为非计算机专业学生必修的公共基础课程,参加考试的学生数量大、专业范围广。考试结束后的试卷评阅和成绩统计分析工作使用
颜色作为计算机视觉一个重要且有效的特征,已经被应用到计算机视觉的许多领域中。但是颜色特征很不鲁棒,容易受到场景光照的影响。颜色恒常性计算的目的就是要消除场景中光照
众多实际的问题可以抽象为图的模型,如网络拓扑、社交网络、网页超链接等。针对这些应用需求,业界和学术界开发了很多基于图的算法、计算框架、开源软件、函数库,这在一段时间内
一个自主的数据库管理系统是指该系统能进行自我调整,自我优化,自我修复,自我保护的数据库管理系统(DBMS)。由于专家型的数据库管理员是非常紧缺的,所以需要引入一个能进行自
腹部CT图像是进行肝脏肿瘤检查最常见的成像技术。作为一种计算机辅助技术,它有助于医生获得肿瘤的大小、多少、位置等信息。基于腹部CT图像的肝脏肿瘤分割,主要是指将肝脏肿
语义物联网环境下的前端传感器设备具有感知和标识能力,其数据特点是庞杂繁多且较为分散,受限于前端感知设备储存和处理数据的能力,需要依赖云计算技术强劲的运算能力以降低
在工业检测流水中应用机器视觉系统,对样本进行检测,以提高制造业、印刷业等工厂的机械自动化能力,提升工业生产效率,已经成为生产中的迫切需求。本文提出了一种高速特征检测
事务内存做为一种在并行程序设计中对共享数据的访问控制机制,在最近几年得到了广泛的研究,其提供的简易的编程模型能有效地简化并行编程模型。当事务内存这种先进的并发控制机