论文部分内容阅读
链接分析技术作为文本分析和日志挖掘技术的有效补充,被广泛应用在主题提取、网页分类、资源发现等诸多Web信息处理任务和服务中。由于Web的巨大、动态变化和复杂,给链接分析技术带来了很大的挑战。
链接表达了网页间复杂而隐蔽的关系。为了更有效的进行链接分析,需要细致的考察并区分对待不同的链接关系。在本文中我们研究了链接网页间多种属性,包括网页的入度、出度分布,内容相似度和链接相似度等,并且引入了语义相似度的概念。语义相似度描述了网页表达的潜在主题间的相似程度。它与内容相似度和链接相似度相关却又有很大差别。它更精确的刻画了链接网页间语义上的关联程度。
我们用语义相似度作为区分链接权重的标准,并将它应用在PageRank的改进中。在PageRank的基本框架下,我们提出了如下假设:浏览者在选择链接浏览下一网页时,他以更大的概率选择与当前网页主题相似的网页链接;并且网页问的语义相似度恰好刻画了网页间主题间的这种相似程度。
直接计算网页间的语义相似度是困难的。为此我们计算了链接网页间的内容相似度和链接相似度,并结合当前的研究成果探索了三者问的联系。我们发现CWT1OOg链接网页间的内容相似度和链接相似度的PearsonCorrelation高达0.74,并且在实验中使用不同的函数来模拟语义相似度和内容相似度之间的关系。实验证明,改进后的PageRank排序在主题提取任务中优于改进前的PageRank排序。