基于用户行为日志分析的搜索引擎排序算法研究

被引量 : 0次 | 上传用户:zywlaoying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,搜索引擎已经作为用户获取网络资源的首要工具。用户理想的搜索引擎应该能够根据不同用户的查询词,为其提供与用户兴趣相关的搜索信息,此时则需要搜索引擎把用户行为信息考虑进去。考虑用户兴趣,进行有针对性的信息检索,是一个重要课题。本文提出一种改进的网页级别算法N-PageRank。该算法通过对搜索日志的挖掘,利用日志信息,分析用户行为特征,将经典PageRank算法模型与用户行为反馈模型相结合,建立改进的排序模型,将各种表面现象进行归纳描述,揭示用户的搜索意图,发现用户兴趣和搜索规律,以此来改善排序结果的准确率,保证搜索引擎的返回结果正是用户所希望看到的网页。实验证明该算法有效地降低了网页排序时客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求。本文完成的主要工作如下:(1)文中采用N-PageRank算法,根据用户对网页的访问频度分析网页点击率和用户行为,利用合理的数据模型,将用户行为对网页排序的比重考虑进来,最后计算综合权重,给出与用户行为相关的排序结果。用户行为反馈模型是本文介绍的重点,它主要基于五个方面:①存有链接关系的网页间的文本相似度;②用户行为影响因子;③用户对页面的浏览时间向量;④传统PageRank值;⑤由用户点击数据构成网页隐含相关度WIR(Web implied relevancy)。(2)模拟搜索引擎的数据采集、存储、分析和输出等,验证并比较了PageRank算法和改进算法N-PageRank的区别。我们利用MatLab urlread函数构建网络爬虫,对网易163的news频道进行了24小时的爬行,获取网页数2000个,分析了实验数据与大规模搜索引擎的日志数据的相似度,证明了实验数据同样具备全面性,能够反映出广大用户的兴趣走向。通过实验得出如下结论:①查询排序结果与用户兴趣和行为高度相关。②用户在一个会话中点击的数据有限,一般只会点击1到2个结果页面。③在用改进公式计算出的排序结果与实际用户的需求更为接近,明显优于搜索引擎返回的结果。④采用改进算法进行优化排序后的结果和用户搜索意图更接近,网页受欢迎程度的高低直接影响着网页在返回结果中的排名。
其他文献
回顾近年来对银屑病病因和发病机理研究的以及用软化剂、角质促进剂、地蒽酚、焦油、外用皮质激素、维生素D3同类药、维A酸类、甲氨蝶呤、环孢素、他克莫司和PUVA疗法抗银屑
针对城市立交桥中独柱墩曲线梁桥的由于支座设置不当引起的‘脱空’现象,给出了独柱墩支座对斜弯桥的整体受力特性的有限元分析,讨论了支座偏位对梁体受力性能的影响。以杭州上
本文按照黄土地区的四个公路工程地质分区,以大量的室内试验和已有工程资料为基础,重新统计了各区黄土的主要物理力学性质指标,研究了黄土物理力学性质的区域变化规律,得出黄土土
自中国政府提出加快培育和发展战略性新兴产业的决定以来,已有专家学者对战略性新兴产业内涵特征、存在问题以及政策建议等方面进行了广泛探讨,但鲜有关于战略性新兴产业统计
从主要机电设备及其特点、控制保护系统、厂用电、接地以及油、气、水系统等几个方面,介绍了白莲河抽水蓄能电站的机电设计思路,对首台机组首次启动方式、球阀洞室设置、SFC
冲压主要应用于大批量的零件成型的生产。因此冲压模具就成了冲压生产过程中不可缺少的一项装备,是技术密集型产品。模具的设计和制造都直接关系到冲压件的质量、冲压件的生
介绍了常用及新型医用灭菌设备的技术进展,及今后的发展趋势。
高校实验室安全管理关系到学校实验教学和科学研究能否顺利进行,国家财产能否免受损失,师生员工的人身安全能否得到保障,对高校乃至整个社会的安全和稳定都至关重要。针对高