论文部分内容阅读
随着互联网的飞速发展,信息指数级的增长给人们快速有效获得有用信息带来了巨大的挑战,网站是比网页更高层次的抽象,网站聚类作为web挖掘的重要分支已经得到越来越多的关注,对于发现站点间关系有重要意义,可对网站处于网络中的位置和重要程度有更清楚的估价,可用于发现网络社区以及找出同组网站之间共同的爱好或兴趣,网站相似性与流行度分析,以及对一些中小网站如何扩大其影响力提供指导,以及摆脱当前平面式而进入关联式的网站导航等等。当今,许多系统可归纳为一个复杂网络系统,比如:论文引用网络、万维网、生物网络等等,而这些复杂系统都呈现出了一种聚团性质,因此,本文以复杂网络社团结构来进行网站聚类的研究。在基于链接的网站聚类技术中,由于网站层次结构复杂,不易采集,这成为了其应用的瓶颈。另外,基于网站内容的聚类方法,对文本处理的复杂度高,也不适合大规模数据的处理。本文的主要工作是利用复杂网络理论的社区侦测技术来挖掘互联网中以网站为单位的网站关系与网站分组,社区侦测技术将互联网模拟成一张巨大的图,其中每个网站是这张图中的一个节点,两个节点之间的边代表了两个网站之间的关系,本文以他们之间的超链接来刻画这种权值,并对权值的度量进行改进,针对其聚类效果,对于网站关系中的出链和入链对网站关系影响不同,即两个网站之间有相互指向代表了更强的关系,对其权值进行改进,以提高其聚类效果。在深入的研究了网站社团结构的基础上,本文对网站聚类结果进行了可视化,设计并实现了站点聚类与导航系统,将网站之间的关系呈现给用户,并完成具有关联关系的网站导航,基于网站聚类的结果,将网站的域名解析成IP地址,从而对网站的物理地址进行分析,从而可以分析在不同地域范围内网站之间的关系,以及各网站在世界上各个国家和各个城市的影响程度。实验结果与系统表明,文中所提出利用复杂网络理论的社区侦测技术来进行网站聚类是可行的,且系统对用户来说是有意义的。