关于Web数据挖掘中HITS算法的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:catherine00800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet是一个巨大、分布广泛、全球性的信息服务中心,它提供了各种各样的信息服务。与此同时,如何从Internet所提供的浩如烟海的信息中获取所需信息或是从中提取出有用知识便相应的成为一个迫切需要解决的问题。 将传统的数据挖掘技术和Web结合起来,进行Web数据挖掘成为解决这一问题的一条重要途径。本文首先论述了数据挖掘技术在Web中应用的各个方面,包括其分类、技术、发展状况、前景和研究方向,以及Web数据挖掘技术在搜索引擎中的应用,并讨论了XML为Web数据挖掘带来的新变化与转机。 Web结构挖掘是Web数据挖掘的一个重要方面,其重点在于信息检索,链接分析技术在该领域中扮演着极为重要的角色,并已经被成功的用于分析Web超链接数据来确定权威的信息源。在各种对网页进行链接分析并提取分组的算法中,HITS(Hyperlink-Induced Topic Search)算法是应用的最为广泛的。本文对HITS算法进行了重点讨论,在实验的基础上对传统HITS算法易产生主题偏移问题这一缺点进行了分析,并针对这一问题,使用根集向量投影法和基本集缩减法对HITS算法加以改进,接着在根集向量投影法的基础上,又提出了根集向量加权投影法和基本集向量加权投影法进行进一步改进,以更好的实现权威网页搜索。 本文对改进后的HITS算法与传统HITS算法进行了实验比较,发现根集向量投影法可以有效的避免主题偏移现象,基本集缩减法可以大大的缩减算法运算量,而根集向量加权投影法和基本集向量加权投影法则可以在使权威网页的提取结果更为合理的基础上,有效提高算法的灵活性。
其他文献
该论文是以围绕基于数据辅助的无线分组OFDM系统同步技术为中心展开研究.通过同步系统模型的建立,分析了在理想的高斯信道及慢衰落的多径信道下,同步信息对系统接收信号的影
基于多输入多输出(MIMO)系统的空时编码技术是一种新兴的编码和信号处理技术,它充分利用了MIMO 信道的特点,使用空间分集的技术,大幅度的增加了无线通信系统的容量,为无线传
语音压缩编码技术是多媒体通信中一种非常重要的技术,它可以大幅度降低语音信号的传输速率,提高网络带宽利用率。1996年,国际电信联盟标准化组织(ITU-T)推出了基于共轭结构-
群签名是指群成员能够以匿名的方式代表整个群体进行签名,验证者只能验证这个签名是合法的签名,但不能确定是哪个群成员所签署的,如果签名发生争议,群管理员可以利用追踪密钥
全球数据业务量的爆炸性增长使得人们对网络带宽的需求越来越大,而传统的通信介质却无法满足高带宽网络传输的要求,这促使研究者们将目光转移到一种具有巨大潜在容量的传输介
分布式联合信源-信道编码是一种优化的编码设计方案,该设计方案不仅充分利用分布式信源的特点,而且综合了传统的信源编码和信道编码的优缺点,因此,分布式联合信源-信道编码一
随着蓝牙技术的发展以及人们对Internet依赖性的增强,越来越多的蓝牙设备出现在人们的周围。本文正是通过对蓝牙技术的这一发展现状进行了分析,然后进行了蓝牙局域网网关的研
现代社会日益趋于网络化,互联网带来的信息革命正在改变我们的工作和生活方式。我们能通过浏览网页查找资料,寄电子邮件与朋友交流,而且还希望能通过网络控制家用电器,处理工
本文在路由协议方面,对现有的路由算法进行了详细的介绍和分析,并在此基础上提出了一种新的源端多路由发现算法。全文分为五章,其中第一章介绍了本文的研究背景和本文的主要工作