基于映射/规约的网页聚类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wanghuaimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络应用的普及化,网络信息量飞速的增长。因此,人们如何在海量的数据中获取有用的知识变得越来越重要。通过长时间的研究与探索,人们提出了数据挖掘技术,该技术是一门多专业交叉、综合的学科,使用该技术可以有效的将用户所需的知识提取出来,聚类分析是数据挖掘领域中的重要的内容和基本工具之一。数据量呈级数的增长和应用开发的复杂性严重阻碍了多核处理器和多处理器系统发展,进而导致数据不能有效的利用。经典的处理方法是开发一个具有信息传递接口(MPI)的分布式系统,由于该接口在并行应用中只能提供细粒度控制,因此,经典方法的抽象性和复杂性超出了现有的计算能力。与传统的分布式系统相比,映射/规约框架提供了一种比MPI更高级的抽象概念,可以被应用于许多数据密集型的批量处理任务中并且该框架的抽象性和复杂性在现有的计算能力范围内能够被处理。本文在并行计算与映射/规约编程框架研究分析的基础上,对映射/规约框架进行了理论上改进,使改进后框架的计算处理性能提高。在改进框架的基础上,实现了一种基于映射/规约的MRK-Means算法,该算法采用迭代操作的计算,能够实现多次执行映射/规约操作,同时将该算法与网页的海量、动态、更新快等属性特征相结合,提出一种具有属性特征的在线OMRK-Means算法,该算法能够提高在线聚类方法的伸缩性和聚类精确度,并且缩短了聚类操作时间,有效的处理增量式数据。通过实验表明,基于映射/规约框架的MRK-Means算法在保证执行效果的基础上,与传统K-Means算法相比,有效地提高了聚类的速度。通过对OMRK-Means算法的收敛性和执行时间、精确度和伸缩性进行试验分析,表明本文提出的在线OMRK-Means算法在数据并行增量的情况下,能加快大型数据集的交互分析,提高聚类处理的精确度,并且有利于可伸缩的网页挖掘。
其他文献
步态识别作为一种新兴的生物特征识别技术,主要通过检测人们走路的方式来进行身份识别,而不论他(她)们穿着什么样的衣服。与传统的生物特征识别(如:指纹、人脸等)相比,它可以
随着市场经济的发展,用计算机辅助制造手段优化生产调度越来越受到人们的重视,但大多数局限于纯加工或纯装配流水线的生产调度,而面对为客户打造个性化产品的时代,研究多品种
随着企业信息化的发展,企业的经营及管理流程实现在线监控,这使管理层可以在线获得完整而清晰的信息,通过实现信息化可以提高其核心竞争力。现代的计算机集成制造系统(CIMS)结构
互联网的广泛应用以及数字产品的迅猛发展给人们的工作和学习带来新的生机。像音乐、图像和视频等数字产品因为被人们所热衷,使得他们成为非法者获取、复制以及传播的对象。
互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存在大量的因转载或抄
学位
信息保障不同于传统的安全技术,它强调信息系统的整个生命周期的防御和恢复。入侵检测系统作为信息安全保障的一个重要部分,可以较好的弥补传统的保护机制不能解决的问题。数
随着社会的发展,科技的进步,人与人之间在交往的过程中进行的身份鉴定成为建立信用的保障,人脸识别技术应运而生,特征提取作为其关键环节成为研究的热点。子空间方法以其描述
无线传感器网络(Wireless Sensor Networks,WSN)路由选择方法是无线传感器网络研究中的关键技术。无线传感器网络路由选择方法是指无线网中信息传递时,采用适当的路由协议后
随着计算机技术的飞速发展,计算机的研究领域也向着越来越多的方面扩展。计算机仿真技术作为当前研究的热点,也受到了越来越高的关注。仿真的数据与计算机动画技术相结合,形