基于复杂网络社团结构的网站聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ghmyjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息指数级的增长给人们快速有效获得有用信息带来了巨大的挑战,网站是比网页更高层次的抽象,网站聚类作为web挖掘的重要分支已经得到越来越多的关注,对于发现站点间关系有重要意义,可对网站处于网络中的位置和重要程度有更清楚的估价,可用于发现网络社区以及找出同组网站之间共同的爱好或兴趣,网站相似性与流行度分析,以及对一些中小网站如何扩大其影响力提供指导,以及摆脱当前平面式而进入关联式的网站导航等等。当今,许多系统可归纳为一个复杂网络系统,比如:论文引用网络、万维网、生物网络等等,而这些复杂系统都呈现出了一种聚团性质,因此,本文以复杂网络社团结构来进行网站聚类的研究。在基于链接的网站聚类技术中,由于网站层次结构复杂,不易采集,这成为了其应用的瓶颈。另外,基于网站内容的聚类方法,对文本处理的复杂度高,也不适合大规模数据的处理。本文的主要工作是利用复杂网络理论的社区侦测技术来挖掘互联网中以网站为单位的网站关系与网站分组,社区侦测技术将互联网模拟成一张巨大的图,其中每个网站是这张图中的一个节点,两个节点之间的边代表了两个网站之间的关系,本文以他们之间的超链接来刻画这种权值,并对权值的度量进行改进,针对其聚类效果,对于网站关系中的出链和入链对网站关系影响不同,即两个网站之间有相互指向代表了更强的关系,对其权值进行改进,以提高其聚类效果。在深入的研究了网站社团结构的基础上,本文对网站聚类结果进行了可视化,设计并实现了站点聚类与导航系统,将网站之间的关系呈现给用户,并完成具有关联关系的网站导航,基于网站聚类的结果,将网站的域名解析成IP地址,从而对网站的物理地址进行分析,从而可以分析在不同地域范围内网站之间的关系,以及各网站在世界上各个国家和各个城市的影响程度。实验结果与系统表明,文中所提出利用复杂网络理论的社区侦测技术来进行网站聚类是可行的,且系统对用户来说是有意义的。
其他文献
随着嵌入式技术在华人用户中的广泛应用,嵌入式系统所采用的汉字输入法也变得日益重要。本文在嵌入式系统中以数字小键盘为基础,对汉字拼音输入法进行了研究与设计。   本文
当前,随着普适计算时代的到来,从小到儿童玩具大到国家安全,计算机系统已经渗透到社会生活的各个角落。人们的日常生活也越来越依赖于计算机系统,如家庭电脑,娱乐设施,交通运输,通信
随着信息技术的发展,嵌入式技术在航空领域中得到了广泛应用。航空领域的嵌入式测控系统具有可靠性高、实时响应能力强、体积小以及通信接口复杂等特点,给系统的开发带来困难
软件在线演化技术正成为当今软件维护领域的一个重要研究课题。而软件的动态更新技术动态软件更新方法由于其更新粒度小、更新成本低、操作灵活等优点,成为软件在线演化技术
优化问题广泛存在于现实生活中,大多数问题是非线性的,传统数学演算方式无法得到最优目标。为此,元启发式算法被广泛尝试。在应用领域中,最新的趋势是使用群智能优化算法。群智能
在现代工业生产系统和其他领域,信息技术的发展为各行各业注入了新鲜的血液,提供了新的活力和驱动力,可以说IT软件系统无处不在,无所不能,已经成为了支撑社会运转的重要平台
企业信息化发展到一定程度,在应用如ERP、SCM、CRM等业务系统过程中,产生并积累了各种大量数据,不同应用所形成的数据更容易形成信息孤岛。如何充分利用不同业务部门的详尽数
模型驱动体系架构(MDA)是一种新的软件开发框架,它的目标是把业务和应用逻辑与底层的平台技术分离。统一建模语言(UML)是MDA的核心标准之一,用于描述计算无关模型(CIM)、平台无
随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160亿个,较2007年增长90%。网页的增长速度与网
在电子商务的发展进程中,如何准确地理解用户访问网站的行为是十分必要和有意义的,Web日志挖掘是解决该问题的重要研究方法之一。发现用户的兴趣访问模式是Web日志挖掘的一个