基于改进PageRank算法和用户兴趣的个性化搜索研究

来源 :河北工业大学 | 被引量 : 6次 | 上传用户:mbx1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展、互联网上信息量急剧增加,网络已成为人们获取信息的重要途径。用户渴望在膨胀的资源中快速检索出自己想要的信息的愿望,迫使传统搜索引擎向智能化、个性化的方向进行改革。能够感知用户意愿、满足用户个性化需求的个性化搜索引擎将成为未来发展的趋势。因此,本文设计了基于PageRank算法和用户兴趣模型的个性化搜索系统。首先,针对PageRank排序算法存在的四个问题,从网页相似度、点击量、权威性、时间因子入手对PageRank进行改进。首先,在网页分块的基础上,分析位置标签、锚文本、向量空间模型,综合估计网页间相似度,改善主题漂移;其次,分析点击量和点击量增长速度,评估网页重要性发展趋势;再次,利用站内评价和站内外链接计算网页权威性,影响PR值的传递,并防止网页作弊;最后,借助时间补偿因子,消除对新网页的歧视,使新旧网页获得与其实际价值相符的权值。其次,基于改进的向量空间模型和显隐式结合的建模方式,分析用户的注册信息、用户收藏夹、历史浏览记录,构建用户兴趣模型。模型更新采用不定时更新和定时更新两种机制,不定时更新模型是当用户向收藏夹中添加网页时采用的方法,定时更新模型是基于艾宾浩斯遗忘曲线,每隔一段时间就对用户模型内的特征项进行一次更新操作。最后,分析开源搜索引擎nutch的工作流程,以nutch为基础进行二次开发,在nutch中添加用户兴趣模块,并用改进的PageRank算法替换nutch中原有的排序算法,实现个性化搜索。并利用nutch抓取大量网页,以此作为实验数据,进行相关对比试验。实验结果证明,相较于传统的PageRank,改进后算法的排序结果准确率更高。基于改进PageRank算法和兴趣模型的个性化搜索系统,能更好的满足用户的个性化需求。
其他文献
经纬仪野外标校检测系统主要应用于导弹试验靶场,它是基于计算机应用技术、星体标校方法、标准硬件接口及通用软件开发平台的便携式智能型检测系统。  该系统选用便携式加固
针对个体脚型特征,对个性化鞋楦造型设计及皮鞋CAD系统进行了的应用性基础研究.分析和讨论了如何根据个体脚型设计和制造出符合个性化要求的鞋楦,提出了个性化皮鞋CAD设计模
研究的内容具体包括以下几个方面.首先对数据存储系统整体进行了描述.讨论数据存储系统的应用需求,阐述了组成数据存储系统的诸多物理部件和逻辑结构,及其相关技术的国内外研
  本文结合“三维场景真实感技术研究”和“交互式三维建模与物理仿真”课题。  本文提出一种基于双变量二次插值的多边形明暗处理方法,实现了三角面片模型的明暗处理。 
随着企业信息化的深入,企业应用集成(EAI, Enterprise Application Integration)越来越成为各个企业所关注的焦点,而Web服务已经成为企业应用集成的主要方式。Web服务能够在I
随着计算机网络技术的飞速发展,网络规模、用户数量的日益增加,现有的网络管理和维护已经越来越难以适应用户的要求。而网络故障产生的原因很多,现有网络的信息量巨大,从而使
不完全信息数据库与 SQL 语言的语义是数据库理论的两个重要研究方向,不仅具有重要的理论价值,而且还具有很高的应用价值。本文借助中介逻辑谓词演算系统 MFM,对不完全信息系
工作流技术是重要的协同应用支撑技术之一,它通过对业务过程进行建模、执行和管理来完成业务目标。工作流模型建立起来之后,模型正确性验证和工作流执行时的并发控制成为需要
对象管理组织OMG是独立于各厂商的非盈利性组织,其宗旨是要统一不同的商业产品和标准之间的数据交换及互操作性,从而改善各厂商的软件产品之间不兼容的情况。为此,OMG为分布
本文以2003年广东省关键领域重点突破项目:“互联网文化娱乐软件开发”为背景,在参与开发三维游戏引擎的过程中,研究了在三维游戏引擎中实现刚体运动模拟的若干理论与方法,重点研