基于PageRank算法的Web数据挖掘的研究

来源 :天津理工大学 | 被引量 : 9次 | 上传用户:wangyizhinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网中庞大的数据,怎样获取所需要的信息形成了研究所面对的一个难题。而Web数据挖掘这门学科的泛起为这个难题提出了解决方法。Web数据挖掘由Web内容挖掘、Web结构挖掘和Web使用挖掘构成。Web结构挖掘中主要有PageRank算法和HITS算法。由于Page Rank算法相比于HITS算法的应用更为广泛,同时它的效率也优于HITS算法。所以本文通过对Web结构挖掘中的PageRank算法的特征进行学习,提出了改进的方法,本文主要的贡献如下:(1)针对PageRank算法存在的平均分配PR值的问题。本文提出基于网页相似度的改良方法。将网页之间的指向关系作为一种链接向量,通过这种链接向量来表示某个网页。通过链接向量来表示网页之间的相似度。以当前网页和入链网页的相似度的大小来传递PR值,代替了原来PageRank算法的平均传递值的方法。对PageRank算法和改良的方法进行实验对比,改良后的算法在查准率上有所提高。(2)针对PageRank算法存在的主题漂移问题。本文提出基于主题相关性的改良方法。此改进方法的基本原理是:对一个关键字进行检索时,若检索系统可以在检索结果的排名中依据网页和客户要求的相关性的大小来排名,这么我们就认为这个检索系统的精确度是可以的。本文利用已经发展成熟的概率检索模型BM25F模型,利用此模型来获得网页与查询关键字之间的相关性。对PageRank算法,Top-Sensitive PageRank算法和改良后的算法进行实验对比,改良后的算法在网页质量的上有较大提升。(3)针对PageRank算法存在的偏重旧网页的问题。本文提出基于网页更新率的改良方法。传统的PageRank算法下只是考虑了网页之间的链接结构没有将时间因素作为一个评价标准,这样新的网页由于存在的时间短被其他网页所引用的概率就会大大降低,这对新网页是不利的。此改进方法是基于网页的变化是泊松过程,本文通过泊松分布的数据模型来计算网页的更新率。对PageRank算法和改良后的算法进行实验对比,改良后的算法对新网页的排名有所提升。
其他文献
噬血细胞性淋巴组织细胞增生症(HLH),临床特征为高热、肝脾肿大、全血细胞减少和凝血障碍,组织学特征为组织细胞/巨噬细胞的过度增生与活化。遗传因素、感染、肿瘤、自身免疫性疾
我院自1998年10月在外科病区开展整体护理、实施健康教育收到良好的效果,2000年4月向全院各病区推行。经过几年的实践,健康教育工作取得了一定的成效,病人对护理工作的综合满意
肱骨近端骨折是临床上常见的一类骨折,约占所有骨折的4%~5%。其中85%的患者无明显移位或轻微移位,可通过保守治疗达到良好效果;15%明显移位的肱骨近端骨折需要进行手术治疗。肱骨近端
合理规范违约责任其主要目的是为了保障在合同中当事人对于合同的履行义务不予实现债权的实现以及债务履行。本文从违约责任的含义、特征、违约责任的形态、违约类型等方面及
从开发动态分析油藏开发现状,精细制定氮汽泡沫调驱技术对策;深入研究氮汽泡沫体系,利用实验分析封堵汽窜通道与驱油能力的效果。通过技术调研及现场应用实例分析,研究泡沫调
官办慈善组织近年来在网络上的表现是社会各界的热门话题,事实上,这一话题可以在技术与组织关系的学术脉络上找到链接,并且,由于互联网丰富的社会属性,能够有效扩展既有研究
本文选择2009-2015年我国沪深两市A股市场上发生会计师事务所变更的上市企业为研究对象,分析了不同产权背景下“客户追随式”会计师事务所变更对审计独立性的影响。研究表明:
在全球性金融危机的背景下,世界航运业受到了严重的冲击,从2008年起,国际航运市场持续低迷,持续呈现“需求放缓、运力增加、成本上涨、运价下降、亏损扩大”的态势,航运业面