论文部分内容阅读
随着互联网技术的快速发展,实际应用中存在着大量无标签样本和少量有标签样本。虽然有标签样本能够有效提升监督学习的性能,但是获取充足的有标签样本往往需要耗费大量的时间。在这种情况下,仅使用少量有标签样本的监督学习泛化能力不强,而完全基于无标签样本的无监督学习往往效果不佳。这些传统的机器学习范式不仅没有性能上的优势,还浪费了数据资源。因此,研究能够同时利用有标签样本和无标签样本的机器学习方法具有重要的意义。在有标签样本较少时,半监督学习能够利用大量无标签样本改进学习性能,近年来受到了广泛的关注。经过二十多年的研究,半监督学习己经成为一类重要的机器学习范式,并被成功应用到诸多领域。然而,半监督学习在无标签样本的有效使用、高效利用以及在特征选择中的有效性方面仍然存在一些有待解决的重要问题。本文对这些问题展开研究,主要贡献总结如下:(1)对无标签样本的有效使用进行研究,提出了基于稀疏贝叶斯的半监督学习框架以及基于该框架的半监督算法SBS2LEM和SBS2LVB。这两种算法具有良好的稀疏性,能够在训练过程中自动删除无关的无标签样本,从而更加有效地利用无标签样本。实验表明,SBS2LEM和SBS2LVB能够充分利用无标签样本提升性能。值得注意的是,即使无标签样本提供的有效信息较少,SBS2LEM和SBS2LVB也能取得比其他基于图的半监督算法更好的性能。(2)对大量无标签样本的高效利用进行研究,提出了基于稀疏贝叶斯的可扩展半监督学习算法SBS2LLP和ISBS2L。ISBS2L将SBS2LLP的二类边缘似然分解成与当前无标签样本相关和无关的两部分,从而量化了无标签样本对该边缘似然的贡献。训练过程中,ISBS2L使用增量策略,依次选择对边缘似然贡献最大的无标签样本,避免了直接使用所有的无标签样本。因此,ISBS2L具有更低的时间复杂度,能够处理大规模数据集。通过分析算法的鲁棒性和泛化误差边界,本文在理论上验证了所提算法的可靠性。实验表明,这两种算法在标准数据集上能够取得高度可比的性能;ISBS2L能够有效处理百万规模的数据,并具有良好的分类性能和可扩展性。(3)对半监督学习在特征选择中的有效性进行研究,提出了基于贝叶斯的联合半监督特征选择与分类算法JSFS。通过在无标签样本上关联自调整的权重参数,JSFS能够自动选择有用的无标签样本并删除不相关的无标签样本,避免了不加区分地使用无标签样本,增强了对无标签噪声样本的鲁棒性。此外,JSFS能够自适应地选择相关特征并利用所选特征训练分类器,打破了现有算法需要预先确定所选特征数量并借助额外的学习算法训练分类器的限制。实验表明,相比于目前最先进的半监督特征选择算法,JSFS对噪声具有更好的鲁棒性,并且能够有效处理高维数据。