基于伪反馈的XML信息检索技术研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:spiderkiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术高速发展的时代,各种数据充斥在网络上,数据的信息量繁杂,人们对信息数据的质量提出了更高的要求。如何有效获取用户所需要的高质量相关文档,是信息检索中一个非常重要的课题。但是,由于用户难以提出准确描述搜索意图的查询,而且查询表达式过于短小,在这种情况下,有些学者提出了利用查询扩展来扩充查询表示式用来完善用户的查询意图,进而提高信息检索系统的检索性能。在这些提出的反馈技术查询扩展方法中,只有伪反馈不需要用户的参与,所以具有很大的普适性。论文主要针对伪反馈中的两个问题展开研究,包括相关文档的确定和查询词项的扩展。主要研究内容包括:(1)研究了基于伪反馈模型的XML检索结果聚类。在XML文档检索中结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于“频率因子”和“长度因子”的新权重计算方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。针对IEEE无类别信息数据集进行了实验,实验表明与同类相似度计算方法和聚类方法相比,本文的方法在聚类速度和效果上都有所提高和改善。(2)研究了伪相关文档查找和XML查询扩展。在XML检索结果聚类的基础上,进行了高质量伪相关文档的查找和高质量查询词的扩展,提出了一个簇标签和簇内文档两个阶段的排序模型,通过该模型得到了N个伪相关文档并用于查询扩展。然后,在这些伪相关文档中挑选合适的词项作为查询扩展词,并将它们和初始查询一并返回提交到信息检索系统。一系列的实验证明本文提出的方法总体性能比未进行查询扩展的方法和传统伪反馈查询词扩展方法都要高。
其他文献
随着计算机网络和存储技术的飞速发展,视频等多媒体数据呈几何级数增长,如何从浩如烟海的数据资源中实现视频数据的检索成为人们关注的问题。现有的视频检索系统技术多是基于
林业信息文本分类是根据建立好的分类器,让计算机对给定的林业信息文本集进行分类的过程具有理论和实用双重价值。本文详细介绍了林业信息文本特征提取的过程,利用构造的特征
图像工程是近几年发展起来的一门学科,它的研究内容非常丰富,根据抽象程度和研究方法的不同可分为三个层次:图像处理、图像分析和图像理解。图像处理的目的之一是图像识别,而图像
城市交通系统自身的异构性、分布性、动态性、信息的海量性等决定了系统中可能出现突发事件的多样性,而当前的技术不能保证交通系统在面临各种事故、故障甚至人为破坏的情况
网络教育业务系统的开发主要包括后台数据库的建立和维护以及前端应用程序的开发两个方面。对于前者要求建立起数据一致性和完整性强、数据安全性好的库,而对于后者则要求应
IEEE 802.15.4标准是由国际电信联盟制定的,适用于短距离,低功耗无线设备之间进行数据传输和通信的协议,具有低速率、低功耗、传输距离短、架构简单、体积小的特点,适应无线传感
增强现实是一个新的研究领域,它是在虚拟现实的基础上发展起来的一种通过将计算机产生的图形、文字注释等虚拟信息融合到使用者所看到的真实世界景象中,对人的视觉系统进行景
Internet的快速普及和Web技术的发展,使传统的制造业发生了深刻的变革,出现了协同制造、异地制造等一系列新的业务需求。这些业务需求极大地推动了分布式计算技术的发展。Web Services技术和智能Agent是当前分布式计算研究的主流。经过近几年的发展,Web Services技术已经逐步完善和规范,并且为许多商业组织所采用。而另一分支智能Agent技术的研究也取得了巨大的进展。将Web S
图的标号问题起始于1966年A.Rosa的著名优美树猜想。一个图的顶点标号是图的顶点集到整数集的映射,边标号是图的边集到整数集的映射。根据对映射的不同要求产生了各种类型的标
随着计算机技术、信息处理技术和网络通信技术的迅速发展,信息安全技术也在不断地更新和完善。信息隐藏技术作为信息安全的一项重要技术,它利用人类感觉器官对数字信号的感觉