论文部分内容阅读
特征选择和半监督分类是缓解“高维小样本”问题的有效方法,在统计学、数据挖掘、机器学习、模式识别、生物信息学等领域取得了丰硕的研究成果,特别是在数据挖掘和机器学习领域,特征选择和半监督分类是近几年来的研究热点,具有十分重要的理论研究价值和实际应用价值。特征选择和半监督分类主要存在以下几个问题:(1)在选取表征能力强的特征子集时,很多特征选择方法选择类别识别能力靠前的k个特征,但这样组成的特征子集并不一定具有很强的类别区分能力;(2)标准协同训练方法要求特征集能构成充分冗余的两个视图,即两个特征子集相互独立且能独自训练分类器。这个条件在很多情况下特别是在面临“高维小样本”时难以满足;(3)集成多分类器类型的半监督分类方法提升“小样本”背景下弱分类器的性能时,对基分类器的要求较高,但基分类器的分类性能因标记样本的不足往往不高,进而造成集成后的分类器总体性能提升不明显;(4)当前已有研究者将流形学习方法与半监督学习结合起来,利用大量未标记样本蕴含的几何结构信息来设计高精度的分类算法。但通常这类半监督方法不仅复杂且参数调节较为繁琐。针对“高维小样本”中特征选择及半监督分类存在的问题,在如下4个方面进行了研究,相关研究及主要成果有:(1)对单特征类别区分能力的评价扩展到对特征子集的类别区分能力评价,并结合“最好优先”搜索策略,给出了一种能直接选取具有强类别区分能力的特征子集选取方法FSCRF。实验结果表明,FSCRF能在大多数情况下有效地选出特征数目更少、分类精度更高的特征子集。在此基础上,将该方法应用在老年痴呆诊断方面,同样取得了令人满意的结果。(2)分析了现有协同训练方法存在的一些问题,给出了一种新的交叉训练半监督分类方法NC-T。NC-T将标记样本划分成三份,并利用三个基分类器对其进行训练。它不需要假设数据特征存在两个或多个独立特征视图,相比标准协同训练,每个分类器训练的标记样本为2/3而不是1/2,对标记样本利用更充分。实验结果显示,NC-T方法的分类精度对标准协同方法在多数情况有所提高。(3)为了能有效降低对基分类器的要求,通过融合大量未标记样本信息,给出了一种多类别多分类器集成半监督分类方法SSMAB。SSMAB只需要基分类器的分类精度达到1/K(K为类别数目),就能取得较满意的效果。实验结果表明,在分类精度上,SSMAB与同类型的方法在多数情况下占有优势。(4)由于非公度距离度量对数据之间距离关系的度量更加合理,给出了一种非公度的半监督学习方法NMSNN, NMSNN定义了一个代价长度函数用以度量数据点间的距离,这种距离度量不仅考虑了数据点间的直接关系,而且考虑了全局关系,有效地利用了未标记样本的几何结构信息和标记样本的类别信息。NMSNN只需要设置一个参数,使得该方法更加简便实用。实验结果表明,NMSNN方法具有良好的分类精度和稳定性。