基于Hadoop平台的社区发现算法研究

来源 :东北大学 | 被引量 : 5次 | 上传用户:wsdadoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet快速发展,Web互联网络已经成为了一个巨大的、分布广泛的全球信息服务中心,提供了新闻、财经、商业、文化、教育等各种信息服务。互联网络上极度相关的页面聚集在一起形成的各个具有共同相关主题的页面集合是Web社区。Web社区发现是指在分散和无序的互联网环境中发现潜在的和已定义的主题社区,并从互联网中抽取这些社区的过程。因此,将此技术用于Web数据挖掘具有重要的理论意义和实用价值。本文将从理论、算法和实现等三个方面研究社区发现技术。本文主要研究基于Web数据挖掘技术的社区发现技术。本文首先阐述了社区发现技术基本理论,用以处理数据的Hadoop平台的介绍,对现有的典型社区发现算法作了分析,例如Pagerank算法、HITS算法、基于二分图核的社区发现算法、基于最大流的社区发现算法等。针对这些基于结构挖掘的社区发现算法算法优势和缺点,着重针对PageRank算法仅适合静态网页排名,且与主题和时间无关的缺陷,提出一种新的改进社区发现算法TTPageRank算法,弥补以上不足,实现了基于链接权重的发现社区的方法,并在实验室多台虚拟机环境下搭建了一个基于开源Hadoop软件的分布式平台,在该平台上利用MapReduce编程模式设计并实现了PageRank算法和本文给出的改进的TTPageRank算法,演示了改进算法发现社区的过程;利用爬虫工具抓取的大量实际网页数据集对两个算法在Hadoop布式平台上进行了实验,实验运行结果表明了两种算法的性能和社区发现的准确性的不同。
其他文献
在现代飞速发展的信息通信领域中,Internet和移动通信的未来发展是两个引人瞩目的方向。随着以IPv6协议为基础的下一代互联网(CNGI)以及3G移动通信网络的部署和应用,以单机移
基于视频图像序列的人体运动跟踪技术是计算机视觉领域中的研究热点之一。人体运动跟踪的目标是从视频图像序列中检测、跟踪运动人体,获得人体运动参数,编辑并利用已经获取的
高速铁路车载单元采用无线通讯协议,和轨旁的无线闭塞中心,或其它与之相关的安全设备交互信息。而这些安全设备之间需要通过认证密钥进行通信,因此需要有专门的密钥管理识别系统
渗透测试是指借助于值得信任的组织试图对信息系统中的漏洞进行探测和开发的安全实践活动。渗透测试已经从不同系统开发阶段的应用测试发展到生产系统中的网络安全测试。同时
数据挖掘在最近几年里已被广泛的研究和应用,而频繁项集挖掘则是诸如关联规则挖掘、序列模式挖掘等数据挖掘问题中的关键步骤,因此对它的研究具有重要的理论和实际价值。本文的
海洋对全球气候变化具有重大影响。对不同海域的海洋环境数据进行关联分析,使得我们可以从海洋环境数据中发现海洋气候异常变化规律,从而为全球气候变化预测提供智力支持。本
数据文件的安全是信息安全领域里研究的重要内容,防止文件泄密的有效手段是对文件进行加密存储,而传统的用户层加密软件由于改变了用户的使用习惯而给用户的普遍使用带来了不便
随着互联网和电子商务的发展,信息过载现象越发的严重,导致人们在寻找自己所需的信息时要耗费越来越多的时间与精力,有时候还可能迷失在众多信息之中,忘记自己真正需要的信息
传感器网络是由大量的集成了传感器、数据处理单元和通信模块的微小节点构成的全分布式网络。传感器网络管理系统对系统的资源配置、性能、故障和安全等提供一体化的管理机制
本文在对太阳能薄膜电池板制造自动化解决方案的结构和功能分析基础上,设计和实现了生产线监控面板,解决了自动化生产过程中的跟踪管理的问题。本文首先介绍了工厂自动化系统的