基于用户兴趣模型的个性化搜索引擎研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:fullsfulls
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现和普及,满足了用户对信息的需求。但随着网络的迅速发展,信息量大幅增长,使得用户在面对大量信息时,无法快速有效的从中获得对自己有用的信息,从而导致信息的使用效率降低,信息超载。其中,搜索引擎已成为网络信息检索必不可少的工具,但现有的搜索引擎,如百度等,当果农和程序员同时输入“苹果”作为关键词,由于没有加入用户个性化需求的考量,他们会得到相同的查询结果。搜索引擎的未来是个性化,个性化服务的搜索引擎已成为用户的迫切需要。  个性化搜索引擎系统中通常会采用向量空间模型表示用户兴趣模型,它利用兴趣特征和权重表示用户兴趣信息。用户兴趣模型的表示决定了模型描述用户兴趣偏好的准确度和可计算的能力,也在一定程度上限制了用户兴趣模型的建模方法。在用户兴趣建模的过程中,目前最普遍的方法是使用TF-IDF算法提取用户兴趣特征,但这种方法忽略了关键词在文档中出现的位置,没有结合用户浏览和点击行为进行分析,模型的建立过程中偏向于基于内容的分析方式,忽略了用户之间的联系,“冷启动”现象严重,需要花较长的时间去收集足够的用户信息。针对以上问题,本文提出一种基于协同过滤的用户兴趣模型(CFUIM)。1、用户兴趣特征提取。利用改进的TF-IDF算法提取用户兴趣特征,充分考虑了词条在文档不同位置出现时应占有不同的权重,以及用户的浏览和点击行为等因素。2、用户聚类。传统的用户聚类算法由于计算复杂度太高,并不适合亿级数据的处理。针对此问题,本文提出了基于Hash变换的快速聚类算法进行用户聚类。3、模型生成。在用户兴趣特征提取和用户聚类的基础上,利用协同过滤算法推测用户还可能感兴趣的关键词及其权重,选择权值最高的关键词表示用户兴趣模型。  常见的个性化页面排序算法由于用户兴趣相关度等因素所占比重太小或用户兴趣模型的缺陷,导致个性化服务效果不明显。本文在基于协同过滤的用户兴趣模型的基础上结合Lucene页面排序算法、PageRank的算法和余弦相似度算法,提出一种基于CFUIM的个性化页面排序算法。  为了证明基于协同过滤的用户兴趣模型和基于CFUIM个性化页面排序算法的有效性,本文在开源搜索引擎框架Solr的基础上开发了个性化搜索引擎原型系统。实验证明,与已有的工作相比,基于协同过滤的用户兴趣模型和基于CFUIM个性化页面排序算法能够有效地提高用户对个性化搜索服务的满意度,在一定程度上缓解了个性化搜索引擎中的“冷启动”问题。
其他文献
学位
学位
学位
学位
学位
学位
计算机系统中内、外存访问代价差别相当大,内存访问代价远远小于外存,因此若把数据存储于内存之上的话,理论上访问速度会快得多,人们也一直在努力促进硬件相关技术发展来增大内存
学位
随着移动通信技术、网络技术和信息技术的快速发展,云计算已经成为人们日常生活中不可或缺的一部分。然而,在云计算场景中数据的所有权和管理权分离,用户失去对数据的物理控制,云
学位