论文部分内容阅读
近几十年来,机器学习技术在聚类、分类、回归等多个知识工程领域取得了重大进展。其中,聚类技术以及分类技术是目前机器学习中的两个重要的研究课题,且被广泛应用于文本分类、语义分析、图像识别等实际应用场景中。然而,随着多媒体技术的迅猛发展,越来越多的新兴应用场景近年来被相继发掘出来。相对于传统的应用场景,对新兴应用场景分析的过程中往往存在着如下问题:在生产过程中,数据的保密性较高或者高代价产业致使低产量等,导致收集到的数据样本或已标注数据样本十分有限,这造成了可以使用的数据不足的场景经常出现。经典的聚类技术和分类技术在处理此类问题时,通常面临如下挑战:由于可以使用的数据不足,这使得经典的聚类技术以及分类技术在对此类数据进行处理或学习建模时得到的模型往往泛化性能较差。因此,本文主要针对新兴应用场景中存在的非充分数据或已标注数据不足的问题,对经典的聚类技术以及分类技术进行研究并改进,以期得到能够解决上述问题的智能有监督聚类和智能分类方法。为了解决经典的分类技术以及聚类技术在处理上述新兴应用场景中所面临的问题,本文主要从聚类和分类两个方面对传统机器学习方法进行改进,以期得到更加智能的聚类方法和分类方法。具体如下:(1)第一部分为第2至第3章节,主演探讨了有监督智能聚类技术及其应用。首先,针对目前绝大多数聚类算法不仅需要事先设置一些需要用户指定的参数(如聚类个数)而且不能有效处理大规模数据的问题,提出一种基于中心引力优化(Central Force Optimization,CFO)的聚类算法。该算法通过基于CFO的引力运动学的角度来研究聚类问题。区别于CFO全局同步的局限性,提出一种新的模拟局部同步想象的重力同步聚类算法(Gravitational Kinematics based Synchronizd Clustering,G-Sync)。并引入戴维森堡丁指数(Davies-Bouldin Index,DBI)实现G-Sync算法的完全自动聚类。其后进一步将快速核密度估计方法(Fast Kernel Density Estimation,FastKDE)引入到G-Sync算法中,进而提出了一种具备处理大规模数据能力的大规模重力同步聚类算法(Scalable G-Sync,S-G-Sync)。其次,在第3章节,针对应用场景中数据匮乏导致的近邻传播(Affinity Propagation,AP)算法聚类性能下降的问题,引入迁移学习机制来改善其在该场景下的聚类性能。在源域和目标域分布相似的场景中,提出了迁移近邻传播聚类(Transfer Affinity Propagation,TAP)算法。TAP算法在改进AP算法中的消息传递机制的基础上综合考虑了源域和目标域数据的统计特性以及几何特征,达到利用源域辅助目标域学习的目的,并保证了迁移的有效性。通过TAP的因子图可以发现TAP同样以类似AP的消息传递机制完成聚类,并在聚类过程中利用源域数据进行高效的知识迁移,从而在目标域数据匮乏的场景下达到了较好的聚类结果。(2)第二部分为第4至第5章节,主要探讨了有监督智能分类技术及其应用。在第4章节,首先回顾了传统的半监督学习方法通过利用大量的未标注样本和少量已标注样本来进行模型构建的策略。在利用未标注数据样本时,传统的半监督学习方法通常是基于各种假设(如聚类假设、流型假设)等。然而,在假设不成立时,往往会导致传统半监督学习方法的分类性能下降。为了提高已标注数据样本不足情况下半监督学习性能,避免传统的半监督学习基于各种假设导致的分类性能下降的问题,提出了一种利用已标注数据样本和未标注数据样本之间的可靠隐特征信息来提高模型泛化能力的方法。所提方法通过引入正交投影矩阵将已标注数据样本和未标注数据样本同时投影到一个共享隐空间,并利用原始特征,隐特征和0向量组成新的增维特征。所提方法考虑了已标注数据样本和未标注数据样本之间的关联性,使得分类器的泛化性能得到显著提升。其次,在第5章节,针对数据样本不足(数据匮乏)情况下得到的分类模型泛化性能不高的问题,提出一种基于分类误差一致性准则(Classification-error-based Consensus Regularization,CCR)的选择性迁移分类学习方法(CSTL)。传统的迁移学习方法通过利用事先准备好的源域数据来辅助目标域的学习。然而,在真实场景中,并非所有收集到的源域数据都和目标域相关,如若利用这些不相关的源域数据来辅助目标域的学习则会导致负迁移学习。针对此问题,通过保持源域分类误差与目标域分类误差一致,提出了一种CCR准则。在CCR准则的基础上,提出了一种选择性迁移分类学习方法。CSTL可以通过快速留一法迅速有效地筛选出与目标域相关的源域数据及其权重,有效避免了负迁移学习的发生。大量的实验表明,CSTL是一种有效的选择性迁移学习方法。