论文部分内容阅读
基于流形正则化的半监督分类算法框架(Manifold Regularization,MR)和基于后验概率的支持向量机(Posterior Probability Support Vector Machine,PPSVM)是近年来提出的两种比较新的分类方法。然而,MR在标记样本位于模糊异常区域时容易发生分类偏差,而PPSVM则对标记样本数目要求高。为解决这些问题,将后验概率知识引入到MR框架中,设计一种基于后验概率和流形正则化的半监督分类算法框架PPMR。PPMR采用流形正则化技术,在再生核希尔伯特空间中求解一个分类函数,使得标记样本在此分类函数上输出的后验概率值尽量与标记值接近,而距离很近的样本(包括标记样本和未标记样本)在此分类函数上输出的后验概率值也尽量接近。其基本思想是区别对待每个标记样本,采用后验概率知识指示标记样本的位置,并利用未标记样本传播这种后验概率知识。这校正了模糊标记样本引起的分类偏差,又发挥了未标记样本的分类的作用。在MR的基础上,直接采用后验概率标注样本类别值得到PPMR的基本形式;根据经验规模调整正则化系数后得到PPMR的改进形式;在此基础上,引入后验概率映射函数,采用映射值标注样本类别值,得到PPMR的推广形式。分别采用平方损失和关键损失定义抽象损失函数得到基于PPMR的两种基本算法。为进一步阐明PPMR框架并验证PPMR框架的有效性,在仿真数据集、公共标准数据集以及医学实际应用数据集上进行多次随机重复实验,探讨不同的核函数、后验概率映射函数等因素对于PPMR分类效果的影响,并比较PPMR框架与MR框架和PPSVM算法的分类性能。结果表明,PPMR框架在一般情况下具有更好的分类精度和稳定性,特别是在模糊异常标记样本情况下,PPMR框架一般都具有更大的优势。