论文部分内容阅读
随着Web2.0的快速发展,互联网数据呈爆炸式增长,据美国互联网数据中心统计,世界上90%以上的数据是最近几年产生的。在此背景下,搜索引擎技术成为人们获取信息的重要手段。如何应用搜索引擎技术从海量数据中“提纯”出潜在的、隐藏的、有价值的信息并提供给用户,成为越来越多的学者关注和研究的热点之一。尽管搜索引擎技术的到广泛应用,但人们发现在日益增长的Web信息中,获取到的资源信息质量并不能得到保证,人们不得不花费大量的时间去搜索真正所需要的信息。现有的搜索引擎方法仅仅考虑了网页间链接关系,在查全率和查准率上并不能得到保证。为了让用户获得满意的信息服务,就要了解用户的需求,为用户提供有效的服务。这正是本课题研究的意义。本课题针对Web环境下产生的大量网络数据,利用数据挖掘知识对用户的行为进行深入挖掘分析,并将挖掘出的用户个性化因子融入到搜索引擎算法的改进中,本文主要工作如下:首先,对搜索引擎算法和数据挖掘的相关知识进行了深入了解,为用户行为挖掘分析和搜索引擎算法改进做了相应的知识储备。其次,本文利用数据挖掘相关知识从用户提交查询词的特点、返回结果次序与被点击的次数、驻留页面的时间、网页访问深度等几个角度对用户行为信息进行了深入的研究分析。然后,利用用户行为分析得到的结果对传统的PageRank搜索排名算法进行改进,提出了U-WPR算法,该算法将用户查询需求的信息置于排序结果的前列,提高了搜索排名的准确率。最后,将本课题的研究成果在花篮子平台上做了相关实验,经验证,该研究结果对用户搜索排序结果有很好的优化,进一步提高了搜索排序结果的准确率。