基于用户兴趣及术语关系的查询扩展方法

来源 :河北大学 | 被引量 : 0次 | 上传用户:shengyu0128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统信息检索方法没有考虑用户的兴趣因素,当不同用户在输入相同查询时得到的检索结果是相同的,不能根据用户的真实检索意图给出个性化的结果。本文提出一种基于用户兴趣和术语关系的查询扩展方法,利用该方法可以得到更符合用户兴趣的查询扩展词,提高检索的个性化水平。本文所做工作主要包括以下几个方面:1.用户兴趣术语的挖掘:对用户浏览的网页文档内容和对应网页日志中的信息进行挖掘,将网页文档通过分词和统计词频等操作得到代表网页的术语集合;对网页日志中记录的用户的浏览页面时间和点击等操作记录进行挖掘并计算网页中术语的权重,得到代表用户兴趣的术语集合。2.对初始查询进行扩展:根据用户兴趣术语中包含的初始查询词的同义词对初始查询词权重进行相应的调整;分析领域本体中包含的用户兴趣术语与初始查询词之间的术语关系,将用户兴趣术语中与初始查询词之间存在本体关联关系的术语作为初始查询的扩展词,组合成新的查询。3.实验验证:设计了对比实验,将本文所提出的查询扩展方法和未进行查询扩展的检索方法进行比较。实验结果表明,使用本文方法可以检索出更多的相关文档,检索结果更加符合用户的个性化需求。
其他文献
在数据挖掘中,很多工作都集中在发现能够高效地对大数据库进行聚类分析的方法上。在现有的大量聚类算法中,尤其以K-means算法应用比较广泛。K-means算法以点为原型,能够实现
随着社会信息化的日益增强,互联网越来越成为人们日常生活中的一部分,人们越来越强烈地渴望用自然语言同计算机进行交流。但这有个前提就是计算机能够理解人类的自然语言,这
随着网络的普及和通讯技术的不断发展,数据信息被窃取、非法复制和传播的频率越来越高。图像作为信息的主要载体,其面临的安全问题也变得日益严重。近年来,由于光学信息处理
Web日志分析是收集用户浏览网页时产生的所有日志信息,并对这些日志进行数据转化、数据清洗、数据挖掘的过程。通过Web日志分析可发现用户的访问行为与规律,并据此优化网站结
随着4G网络的普及和移动终端技术的发展,各式网络接入终端设备层出不穷。由于移动端设备与生俱来的便携性和网络接入的方便性,使其一经推出便得到了人们的广泛关注,正逐渐超
随着电子纸技术,无线网络,以及嵌入式等技术的快速发展,移动阅读已悄然兴起。而以电子纸为显示媒介的电子阅读器则备受青睐,市场上相关的嵌入式产品也越来越多。作为其核心系统之
当今社会伴随计算机技术的飞速发展与互联网技术的广泛应用,越来越多的计算技术依托于网络平台上来实现。目前在互联网中,计算机资源成爆炸式增长。为了满足大规模计算能力和
人类科技日新月异,计算机模式识别和计算机视觉领域的各项技术也得到不断深入的研究与发展,同时也得到了广泛的实际应用。其中,人脸检测跟踪以及姿态估计技术就是引起了长期
数量型关联规则用于发现数量属性之间的关联关系,因其广泛的应用背景而成为了一种重要的关联规则类型。因为目前布尔型关联规则的研究相对较成熟,所以经典的方法是通过数量属性
机会主义路由的出现,打破了传统单路径路由对于转发节点的限制,并为Ad Hoc网络路由协议的设计提供了新思路。机会主义路由利用了无线信道的广播特性,允许机会性侦听到报文的节点