论文部分内容阅读
目前,搜索引擎已经作为用户获取网络资源的首要工具。用户理想的搜索引擎应该能够根据不同用户的查询词,为其提供与用户兴趣相关的搜索信息,此时则需要搜索引擎把用户行为信息考虑进去。考虑用户兴趣,进行有针对性的信息检索,是一个重要课题。本文提出一种改进的网页级别算法N-PageRank。该算法通过对搜索日志的挖掘,利用日志信息,分析用户行为特征,将经典PageRank算法模型与用户行为反馈模型相结合,建立改进的排序模型,将各种表面现象进行归纳描述,揭示用户的搜索意图,发现用户兴趣和搜索规律,以此来改善排序结果的准确率,保证搜索引擎的返回结果正是用户所希望看到的网页。实验证明该算法有效地降低了网页排序时客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求。本文完成的主要工作如下:(1)文中采用N-PageRank算法,根据用户对网页的访问频度分析网页点击率和用户行为,利用合理的数据模型,将用户行为对网页排序的比重考虑进来,最后计算综合权重,给出与用户行为相关的排序结果。用户行为反馈模型是本文介绍的重点,它主要基于五个方面:①存有链接关系的网页间的文本相似度;②用户行为影响因子;③用户对页面的浏览时间向量;④传统PageRank值;⑤由用户点击数据构成网页隐含相关度WIR(Web implied relevancy)。(2)模拟搜索引擎的数据采集、存储、分析和输出等,验证并比较了PageRank算法和改进算法N-PageRank的区别。我们利用MatLab urlread函数构建网络爬虫,对网易163的news频道进行了24小时的爬行,获取网页数2000个,分析了实验数据与大规模搜索引擎的日志数据的相似度,证明了实验数据同样具备全面性,能够反映出广大用户的兴趣走向。通过实验得出如下结论:①查询排序结果与用户兴趣和行为高度相关。②用户在一个会话中点击的数据有限,一般只会点击1到2个结果页面。③在用改进公式计算出的排序结果与实际用户的需求更为接近,明显优于搜索引擎返回的结果。④采用改进算法进行优化排序后的结果和用户搜索意图更接近,网页受欢迎程度的高低直接影响着网页在返回结果中的排名。