论文部分内容阅读
贝叶斯学习作为机器学习的重要分支,为解决数据的建模问题提供了一种重要的方法。其中的稀疏贝叶斯学习算法凭借其概率的预测和稀疏的模型等特点,成为机器学习中的经典算法之一。然而一些稀疏贝叶斯算法,例如相关向量机、概率分类向量机等,因为缺少特征选择能力,无法去除数据中的不相关特征或冗余特征,从而在一定程度上降低了此类算法在高维数据集上的表现。本文为了解决此类问题,基于稀疏贝叶斯学习,提出了一种可以在训练分类器的过程中自动选择相关特征的特征选择分类协同训练算法:概率特征选择分类向量机。本算法在训练的过程中同时选择与预测相关的特征和数据样本,最终在训练集中得到一个稀疏的数据子集,基于此稀疏数据集,概率分类向量机可以完成对未知数据的预测。为了完成选择相关向量和特征的功能,本文使用半截高斯分布作为先验假设,分别使用最大化后验估计和最大化二类边际似然估计提出两种计算模型最大化概率的算法。在实验部分通过设计多组实验验证了本文提出算法的性能。最后,通过分析泛化性误差边界,在理论上论证了本文提出的特征选择算法可以提高模型的泛化能力。本文的主要工作可以总结如下:(1)与传统的贝叶斯分类器不同,本文提出的算法同时在样本和特征空间中引入稀疏先验,在训练过程中自动选择相关的特征,完成特征选择,从而降低高维度数据对分类器的影响,提高分类器的性能;(2)本文在特征和样本中引入半截高斯分布作为稀疏先验,通过分别使用期望最大化算法计算最大化后验概率和通过拉普拉斯方法计算二类最大化边际似然,提出了两种特征选择分类协同训练方法;(3)在实验部分,通过在不同数据集上的对比实验,验证了本文提出算法的性能:分类的准确性和特征选择的有效性;(4)为了在理论上验证稀疏假设的重要性,本文基于拉德马赫复杂度推导出了概率特征选择分类向量机的泛化边界,随后通过优化边界,证明了在特征中引入稀疏可以提高算法的泛化能力,并且提出了一种选择算法初始值的方法。