结合语义相似度的链接分析

来源 :北京大学 | 被引量 : 0次 | 上传用户:DDD1968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
链接分析技术作为文本分析和日志挖掘技术的有效补充,被广泛应用在主题提取、网页分类、资源发现等诸多Web信息处理任务和服务中。由于Web的巨大、动态变化和复杂,给链接分析技术带来了很大的挑战。 链接表达了网页间复杂而隐蔽的关系。为了更有效的进行链接分析,需要细致的考察并区分对待不同的链接关系。在本文中我们研究了链接网页间多种属性,包括网页的入度、出度分布,内容相似度和链接相似度等,并且引入了语义相似度的概念。语义相似度描述了网页表达的潜在主题间的相似程度。它与内容相似度和链接相似度相关却又有很大差别。它更精确的刻画了链接网页间语义上的关联程度。 我们用语义相似度作为区分链接权重的标准,并将它应用在PageRank的改进中。在PageRank的基本框架下,我们提出了如下假设:浏览者在选择链接浏览下一网页时,他以更大的概率选择与当前网页主题相似的网页链接;并且网页问的语义相似度恰好刻画了网页间主题间的这种相似程度。 直接计算网页间的语义相似度是困难的。为此我们计算了链接网页间的内容相似度和链接相似度,并结合当前的研究成果探索了三者问的联系。我们发现CWT1OOg链接网页间的内容相似度和链接相似度的PearsonCorrelation高达0.74,并且在实验中使用不同的函数来模拟语义相似度和内容相似度之间的关系。实验证明,改进后的PageRank排序在主题提取任务中优于改进前的PageRank排序。
其他文献
开源软件被应用得越来越广泛,但因为开发模式的松散性,开源软件通常缺乏完善的文档和注释,想要完整的理解并深入定制和应用开源软件难度较大。在重用开源代码前,开发人员通常会对
城市排水系统是保障城市正常运转和生态环境的重要基础设施,是城市的主要脉搏之一,有“生命工程”之称。昆明的市政基础建设在改革开放以后取得了巨大的成就,随着城市的发展,地下
车牌识别技术的任务是分析、处理汽车图像,自动识别车牌号码,它主要包括车牌定位、字符分割和字符识别等三个方面的内容。由于车辆牌照号码对于车辆就相当于身份证和每个公民的
金字塔销售行为(非法传销),是在我国市场经济过程中出现的,一种诱惑力强、隐蔽性高、危害性大的经济犯罪。该犯罪行为一旦具有规模,对某一城市、某一省份乃至全国市场经济秩序带来
国家岩矿化石标本资源平台是科技部国家自然科技资源共享平台项目的子项目。该项目是将分散在全国相关单位和专业研究人员的具有重要科学价值的珍贵岩矿化石标本,以“共享”
2003年以前,大庆油田采油三厂已经开发完成了“生产信息管理及辅助支持系统”并在实际应用中取得了较好效果,为全方位策划思考企业经营活动信息流及支持系统的开发提供了宝贵经
Web2.0时代以来,协同信息系统的广泛应用为知识共享和再创造需求提供了强大的平台。除了被部署在单纯信息共享的学习型组织上,该系统已经成为涉及隐私、安全等重要领域的核心工
多智能体系统是人工智能领域的重要学科,具有自主性、分布性、协调性等特征。多智能体技术被广泛应用于工业制造、交通控制、面向智能体软件开发等领域。多智能体平台将多智能
卫星网络具有覆盖范围广且灵活的特点,可以实现全球网络的无缝覆盖,已经逐渐成为下一代互联网的基础部分。卫星网络自提出以来,路由技术一直是其研究热点。在小卫星网络中,星间链
中等职业教育以促进就业为办学宗旨,故综合学生在校的各种信息预测学生今后的就业情况意义重大。数据挖掘中分类算法研究的日趋成熟为研究上述学生就业情况提供了技术支持。因