分布式环境下差异性提升相关向量机算法研究与应用

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:huahua9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论的机器学习算法。该算法十分擅长处理小规模数据问题,由于其优秀的表现,已经应用于图像处理、故障诊断等许多领域。然而,RVM对数据的处理能力还有一些不足,例如在训练样本规模较大的数据时,它会消耗过多的内存和时间,引起学习效率下降;面对有噪声的数据或者样本不均衡的数据时,学习性能表现次优。这些存在的不足,特别是数据规模问题使得RVM的发展受到了限制。针对这些问题,本课题首先利用混合采样、噪声检测和AdaBoost方法提升了RVM在小规模数据集(不均衡、噪声)上的分类精度;其次,结合分布式计算、集成学习和差异性度量对前一个研究成果进行拓展,提升了RVM在大规模数据集(均衡、不均衡)上的分类性能。本文的主要工作包括:(1)针对小规模数据集中不均衡样本和噪声样本对RVM分类的影响,在数据预处理阶段,采用了基于随机欠采样和自适应样本合成采样的混合采样方法减弱了样本间的不均衡性。随后利用RVM概率型输出特性,提出了一种用以识别噪声的检测方法。接着将该检测方法引入AdaBoostRVM中,提出基于噪声检测的AdaBoostRVM算法,该算法克服了AdaBoostRVM对噪声的影响,并且生成的RVM组合模型能够有效地提升RVM在不均衡样本和噪声样本上的分类精度。(2)针对RVM无法有效处理大规模数据集问题,采用分治合并策略和集成学习方法,提出了一种基于差异性度量的分布式RVM集成分类算法。该算法利用Spark平台实现,在数据预处理阶段,首先设计了一种新的分区方案,解决了由数据分区导致的数据不均衡问题。然后,在每一个分区的子数据集上,采用了在小规模数据集提出的基于噪声检测的AdaBoostRVM算法去构建RVM基分类器。最后,通过特定的组合策略将这些RVM基分类器结合生成最终的RVM集成分类器。为了使这个最终分类器拥有最小的经验误差,提出了一种基于差异性度量的RVM多分类器组合策略。在真实数据集和人工数据集的实验结果证明了分布式RVM集成算法能够有效地提升RVM处理大规模数据集的能力。(3)将分布式RVM集成算法算法应用于桥梁裂缝损伤识别中,基于加速度传感器采集的数据建立裂缝损伤识别模型,通过对比实验证实了算法的可行性。
其他文献
近年来,得益于有机太阳电池给受体材料的飞速发展,器件的光电转换效率已经超过了18%。然而,有机太阳电池想要实现商业化应用,不仅需要高的光电转换效率,还需要有良好的长期稳
油菜是自然界中重要的产油作物,是生物油供应的三大作物之一,也是生物燃料的主要原料。油籽作物中的种子重量、种子大小和种子的含油量是育种者的主要选择特征。油菜生长发育
凝聚态物理至今已经发展了半个多世纪,取得了很多惊人的成果,在生活中也有相当重要的应用。近年来,量子霍尔效应己经拓展到量子自旋霍尔体系、三维拓扑绝缘体、强关联电子体系。在凝聚态物理的研究对象中,强关联多体系统是其重要的模型之一,但是在实验上,其微观性质是很难获得的,所以,很多学者利用人工构建的模型来模拟凝聚态物理中的相关问题,同时在实验方面也取得了巨大的突破。例如,约瑟夫森结和光晶格束缚冷原子实验,
钙钛矿太阳能电池作为第三代薄膜太阳能电池,由于其材料优异的光电转换能力和高的载流子迁移率等优势引起了研究人员的极大关注,在短短十年间,效率由最初的3.8%飞跃至24.2%,
目的:通过对伴有或不伴有慢性牙周炎的冠心病患者的血清中炎性细胞因子的定量检测,比较其水平差异,期望筛选出联系慢性牙周炎与冠心病的关键炎性细胞因子,从而探索两疾病在炎
商业化石墨负极材料理论容量低、倍率性能差,在一定程度上阻碍了锂离子电池的进一步应用。过渡金属化合物具有能量密度高、环境友好、成本低的优点,被认为是下一代锂离子电池
切换系统是一类典型的混杂系统,由于其在现实生活中有着十分广泛的应用,已经成为了控制领域的研究热点,并且涌现出许多优秀的研究成果。但是,在切换系统的实际应用场景下,还
如今,随着计算机技术的快速发展,商用级电脑变得无处不在。无论是在政府机构、军事系统,各类公司还是学校,都有它的身影。随着商用计算机在社会生产活动中的广泛应用,人们的
毛竹(Phyllostachys edulis)是重要的亚热带经济林资源,其具有固定森林土壤有机碳和减少温室气体排放的优势。普通尿素施用会增加土壤温室气体的排放,而生物炭施用对降低土壤
在现实生活中,人们可以很容易地获取大量的数据,但是通常其中大部分数据是没有样本标签的。传统的监督学习算法仅使用少部分有标签的数据进行训练,由于训练样本规模小,信息不