基于Hadoop平台的受限玻尔兹曼机并行化研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:q18198837
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受限玻尔兹曼机是一种无监督学习方法,它具有强大的无监督学习能力,其广泛应用于聚类、分类、协同过滤等机器学习问题。  当训练样本数据量很大时,受限玻尔兹曼机会产生训练时间过长的问题,并行化是解决此类问题的有效方式之一。  Hadoop是一种用于大规模数据处理的典型分布式系统。其具有易于并行编程和扩展性良好等优点,被广泛用于信息检索、数据挖掘等研究领域。基于Hadoop的受限玻尔兹曼机并行化是有意义的研究方向之一。  本文通过分析受限玻尔兹曼机的模型结构,得出受限玻尔兹曼机可以较高效地在Hadoop上实现并行化。受限玻尔兹曼机的训练过程需要计算每层的状态值和更新连接权重矩阵。本文将每层状态值的计算作为一个job,层中每个节点状态值的计算作为一个task。一个job由多个task组成。由于这些task是并行执行的,所以该方法实现了每层状态值计算的并行化。连接权重矩阵的更新采用同样的方法并行化。  在连接权重的更新过程中存在某次更新后的连接权重远离最优值的现象。产生这种现象的原因是更新中用到的梯度有方向,在计算中表现为正负。本文提出一种改进方法,该方法并行计算梯度值为正负时的两种结果,然后选取最优结果。  本文通过测试串行算法、并行算法和改进后的并行算法训练出同等质量的受限玻尔兹曼机所需时间来验证正确性和效果。实验结果表明,本文实现的并行算法和改进型的并行算法正确,并能够缩短训练时间,同时改进型的并行算法优于原并行算法。
其他文献
室内定位系统是指获取对象在室内位置信息的系统,它弥补了全球定位系统GPS无法精确定位室内对象的不足。随着物联网、移动互联网的发展,人们对复杂室内环境下的定位与导航的
网格的目标是利用互联网实现计算资源、存储资源、通信资源、信息资源、软件资源、知识资源等的全面共享。为了利用资源,网格系统自身需要收集资源信息并进行管理维护,这些工作
随着后基因时代的到来,生物过程的模拟已经显示出了越来越重要的作用,它有力地支持了生物学家以及其他研究人员在医学和制药等相关领域的研究。但是在生物过程模拟的研究中,
随着无线通讯和电子技术的快速发展,手机在人群中的普及率越来越高,并且其性能也越来越强大。其作为一种平台,已经可以支持复杂的多媒体应用。手机电视,即利用手机来接收数字
数据采集转发系统是自动化监控系统中的重要组成部分,其实时性、扩展性、稳定性、冗余性、易维护性等特征是自动化监控系统的重要技术指标。随着自动化监控技术的发展,数据采集
随着计算机网络日益深入到人们的日常生活和工作,人们对网络的依赖程度越来越高。移动ad hoc无线网络,或称MANET作为传统的基于固定设施网络的一种重要补充,近年来吸引了大量研
医学超声图像的三维重建技术是医学可视化研究的重要研究方向。三维重建的目的在于通过在三维数据场的可视化技术完成二维医学图像到三维模型的重建,通过三维超声成像能够准确
随着经济的发展,城市化、汽车化的加快,要求采用现代化的管理方法来实现交通管理,这样就引起了对智能交通系统(ITS)的研究。车辆辅助驾驶是智能交通系统的重要组成部分。以其自
在软件测试的过程中,如果软件运行结果没有达到预期结果,则表明软件发生失效。定位引起软件失效的错误代码在源代码中的可能位置,这个过程就叫做错误定位。近些年,产生了许多
近年来,图像和视频编码都取得了长足进步,在压缩效率方面,国际标准JPEG2000、H.264/AVC、MPEG-4以及国内的AVS标准是前一代标准的两倍以上。但是目前的视频编码标准都是以率失真