基于聚类文档词位置的查询扩展的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:ntfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,搜索引擎已经成为用户获取网络信息的主要途径。然而,用户在搜索引擎上进行信息查询时,往往并不关心查询出多少结果,更加关心的是查询的网页是否与自己的需求相关,而且用户的搜索关键词往往比较短,返回了大量无关的结果。查询扩展正是解决信息查询时出现信息过载、信息迷向和词不匹配等问题的关键技术之一,本文研究的基于聚类文档词位置的查询扩展,具有重要的理论意义和实际价值。本文在介绍了课题的研究背景,包括信息检索的概念、性能评价标准、检索模型等,概述了查询扩展技术的相关知识的基础上,针对伪相关反馈技术存在严重依赖初次检索文档的问题,本文提出了利用改进的特征提取方法和改进的KNN聚类算法,采用基于距离的文档频率特征提取法算法,提取特征项;采用改进的TF-IDF-Dis权重计算方法,来计算特征项的特征权重。将反馈文档尽量的构造为与查询相关的向量。通过改进的KNN算法过滤掉噪音文档,找出与查询相关的主导性文档。在提取主导性反馈文档的基础上,基于离查询词更近的词与查询词更加相关的假设,本文分析查询词和反馈文档词之间的位置关系,将提取扩展词的概率公式分解为与文档位置有关的概率模型,构造高斯核函数作为词与词之间的距离函数,将离查询关键词近的词赋予更高的权重,从中挑选出权重高的词语作为查询词的扩展词。实验结果表明,本文提出的基于聚类文档词位置的伪相关反馈查询扩展的准确率高于传统的伪相关反馈查询扩展,达到了比较满意的效果,提高检索系统的平均准确率。
其他文献
随着展馆管理的信息化、自动化及安全级别等的不断提高,传统管理方式中使用人工监控及采集数据的方式已越来越无法满足需求。传统的展馆管理方式无法实现对参观者及展馆情况
视频运动目标检测与跟踪技术是随着数字视频技术的发展而产生的一个新的研究课题,在国防安全、民用事业等领域有着广泛应用。粒子滤波算法本身适用于非线性非高斯动态模型,更
CRM (Customer Relationship Management客户管理),是在企业电子商务中流行起来的概念。通过构建CRM系统,企业基于对客户详细资料的深入分析,来提高客户满意度与销售业绩,从
Internet作为一个典型的复杂网络实例,对其宏观拓扑结构的特征分析是目前研究的主要内容和热点问题,受到了学术界的广泛关注。近年来人们在该领域的研究取得了长足的进展,但
云计算是一种全新的IT服务模式,向大量用户透明地提供按需、弹性、高效用的多租户服务。云计算凭借其超大规模存储能力、超大规模分布式并行计算能力、较高的可靠性和可用性
随着全球能源的日益短缺和温室效应的不断加剧,国际社会对节能的要求已经深入到人们生活的各个领域。近年来,由于网络技术不断进步,各类应用需求迅速增长,网络设备的规模和复
本文主要描述了基于关系-XML双引擎数据库管理系统CoSQLRX的XML数据索引的研究与实现。双引擎数据库系统是指能同时处理关系型数据和XML类型数据的数据库系统。随着XML相关技
机器学习是一类从已知数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,广泛应用到了各个领域。当前很多机器学习的应用场景中数据是“高速”、“动态”、“无穷”
字幕是视频中的重要内容信息,它不仅包含了丰富的高层语义,而且经常用来对视频进行标注,是辅助理解视频内容的重要线索。所以对视频中字幕的提取和检索无疑是视频分析中的关
当今互联网正在以惊人的速度扩张,传统的IPv4地址资源面临着匮乏的危机。为了适应未来网络的发展,IPv6协议作为下一代互联网协议被提出并得到越来越广泛的应用。其中,DHCPv6