论文部分内容阅读
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论的机器学习算法。该算法十分擅长处理小规模数据问题,由于其优秀的表现,已经应用于图像处理、故障诊断等许多领域。然而,RVM对数据的处理能力还有一些不足,例如在训练样本规模较大的数据时,它会消耗过多的内存和时间,引起学习效率下降;面对有噪声的数据或者样本不均衡的数据时,学习性能表现次优。这些存在的不足,特别是数据规模问题使得RVM的发展受到了限制。针对这些问题,本课题首先利用混合采样、噪声检测和AdaBoost方法提升了RVM在小规模数据集(不均衡、噪声)上的分类精度;其次,结合分布式计算、集成学习和差异性度量对前一个研究成果进行拓展,提升了RVM在大规模数据集(均衡、不均衡)上的分类性能。本文的主要工作包括:(1)针对小规模数据集中不均衡样本和噪声样本对RVM分类的影响,在数据预处理阶段,采用了基于随机欠采样和自适应样本合成采样的混合采样方法减弱了样本间的不均衡性。随后利用RVM概率型输出特性,提出了一种用以识别噪声的检测方法。接着将该检测方法引入AdaBoostRVM中,提出基于噪声检测的AdaBoostRVM算法,该算法克服了AdaBoostRVM对噪声的影响,并且生成的RVM组合模型能够有效地提升RVM在不均衡样本和噪声样本上的分类精度。(2)针对RVM无法有效处理大规模数据集问题,采用分治合并策略和集成学习方法,提出了一种基于差异性度量的分布式RVM集成分类算法。该算法利用Spark平台实现,在数据预处理阶段,首先设计了一种新的分区方案,解决了由数据分区导致的数据不均衡问题。然后,在每一个分区的子数据集上,采用了在小规模数据集提出的基于噪声检测的AdaBoostRVM算法去构建RVM基分类器。最后,通过特定的组合策略将这些RVM基分类器结合生成最终的RVM集成分类器。为了使这个最终分类器拥有最小的经验误差,提出了一种基于差异性度量的RVM多分类器组合策略。在真实数据集和人工数据集的实验结果证明了分布式RVM集成算法能够有效地提升RVM处理大规模数据集的能力。(3)将分布式RVM集成算法算法应用于桥梁裂缝损伤识别中,基于加速度传感器采集的数据建立裂缝损伤识别模型,通过对比实验证实了算法的可行性。