论文部分内容阅读
在机器学习领域,特征选择作为数据预处理的一种常用的手段,不仅能够提高分类器的分类性能,而且能增加对分类结果的解释性,已被广泛的应用到图像检索、人脸识别、医学图像分析等领域。但随着时代发展和科技的进步,各应用领域积累了大量的高维数据,包括有标签数据和大量无标签数据,应用传统的特征选择方法于处理这些数据时具有一定的局限性。基于全监督机器机器学习,充分挖掘数据自身所具有的先验知识,提出了新的特征选择方法,并将其推广到半监督机器学习场景,从而更好利用大量无标签数据,学习出更具推广性的学习模型。具体而言,本文主要进行了如下研究工作: 首先,在全监督机器学习环境下,针对Lasso特征选择方法的不足,提出了一种新的特征选择方法 Lap-Lasso,保留了基于 Lasso特征选择方法的优点,即:能够进行回归和特征选择,选择出的特征与类标签非常相关,同时又考虑到了样本自身内在的关联信息,以诱导出更具有判别力的特征。通过理论分析和仿真实验,在UCI数据集的实验结果验证了Lap-Lasso方法的有效性。进行特征选择时,相比其他的特征选择方法表现出更好的性能。 其次,考虑到在应用实践中,通常获得有标签数据通常需要大量的人力物力,而获得无标签数据相对较为容易,本文将Lap-Lasso模型推广到半监督机器学习场景,提出了半监督特征选择方法Semi-Lap-Lasso方法,在UCI数据集上,一系列实验验证了该方法的有效性。 最后,在 UCI数据集上,一系列实验验证了 Semi-Lap-Lasso方法的有效性。