论文部分内容阅读
摘 要:针对大多数基于实例的迁移学习方法容易产生分布参数估计困难和泛化效果差的问题,提出一种正则化判别迁移学习算法。依据判别分析和半监督学习理论,采用核方法和正则化方法,研究了基于正则化的高斯核半监督判别分析方法,以构造修正嵌入空间的方式进行样本迁移。一方面,在映射空间中筛选样本可克服估计分布参数的困难;另一方面,引入伪标记数据和定义距离函数可避免过拟合问题。文本和非文本数据集上的实验结果验证了所提算法能够有效提高迁移的正确率及学习模型的泛化能力。
关键词:迁移学习;判别分析;正则化;半监督学习
DOI:10.15938/j.jhust.2019.02.013
中图分类号: TP181
文献标志码: A
文章编号: 1007-2683(2019)02-0089-07
Abstract:Aiming at the problem that most instancebased transfer learning methods are difficult to estimate the distribution parameters and having poor generalization ability, a regularized discriminant transfer learning algorithm is proposed. Based on the discriminant analysis and semisupervised learning theory, the semisupervised Gauss kernel discriminant analysis method is studied by kernel method and regularization method, and the reusable samples are transferred by constructing the revised embedding space. On the one hand, screening samples in the mapping space can solve the difficulty of estimating the parameters of domain distribution; on the other hand, introducing pseudolabeled data and defining the distance function can avoid overfitting problems. The experimental results on text and nontext datasets validate that the proposed algorithm can effectively improve the accuracy and generalization ability of transferring.
Keywords:transfer learning; discriminant analysis; regularization; semisupervised learning
收稿日期: 2017-03-30
基金项目: 黑龙江省自然科学基金(F2016024).
作者简介:
冯其帅(1991—),男,硕士研究生;
陈德运(1962—),男,博士,教授,博士研究生导师.
通信作者:
王莉莉(1980—),女,博士,副教授,硕士研究生导师,Email :[email protected].
0 引 言
近年来,受到人类学习过程的启发,“迁移”的概念被引入到机器学习当中[1]。迁移学习是一种适用于数据具有不同分布的新机器学习方法,放宽了传统机器学习过程中对训练数据和测试数据作同分布假设的要求,其思想是把已学习到的知识应用到相关领域来帮助目标任务的完成。
在基于实例的迁移学习方法中,尽管源领域和目标领域的数据分布不同,但是源领域中仍会存在一部分数据可以和目标领域数据一起使用来训练学习模型。大多数实例迁移的方法是对数据间的样本选择偏差和协方差偏差进行修正,使得源领域中的部分数据可用。文[2-3]等对源领域和目标领域中数据的分布进行估计,以修正源领域相对于目标领域的样本选择偏差。文[4]等通过分布参数的学习,对源领域中的数据进行评估加权,找出与目标领域中的数据分布最相近或对目标任务最有帮助的样本。然而,这些方法都需要对分布参数进行估算。在数据量较少的情况下,参数估计往往会出现偏差。
针对上述实例迁移的不足,本文提出一种正则化判别迁移学习算法。首先,在线性判别分析的基础上引入高斯核,使其适用于现实非线性问题,并通过正则化的方式得到一种半监督的高斯核判别分析方法。其次,基于该正则化判别分析并通过定义距离度量来构造修正嵌入空间,在不直接估算分布参数的情况下对源领域中的可重用数据进行迁移。在迁移时通过添加伪标记的方式引入目标领域中的未标记数据,进一步提高迁移学习下分类器的分类精度和泛化能力。
1 正则化的半监督判别分析
1.1 判别分析理论
判别分析[5]的目的是学习一个从原始特征空间到新特征空间的映射,該映射可以是线性的,也可以是非线性的。线性判别分析的基本思想是不考虑类条件概率密度的分布,其原理是使用投影矩阵将原始数据投影到维度更低的空间中,使得投影后的数据会按类别区分,具有相同类别的数据在投影后的空间中更紧密而不同类别的则尽量分开[6]。通常定义一个判据来度量不同子空间中保留的判别信息,通过求得该判据的最优目标函数从而得到最优的子空间。该过程可以形式化为: 其中,判据J(W)是关于投影矩阵W的函数,该函数通常用映射空间中的类间与类内的距离之比来表示,使得在投影空间中同类样本分布密集而不同类样本相隔较远。通常使用欧式距离来计算类间距离和类内距离,类间距离即每一类的中心到所有样本中心的距离,类内距离即每一类的样本到该类样本中心的距离。从而,判据J(W)可以表示为
1.2 高斯核判别分析
1.3 基于高斯核的正则化判别分析
为了利用现实中越来越多的无标记数据,判别分析方法也借鉴半监督学习的思想,形成了半监督判别分析方法[9]。半监督判别分析方法将传统的判别分析技术应用在半监督环境下,同时利用有标记的数据和无标记的数据进行学习,目的是找到一种对分类最有效的投影空间,即嵌入空间。根据利用无标记数据学习方法的不同,半监督判别分析方法大致可归纳为两类。第一类是基于正则化的方法,同时利用无标记数据和有标记数据来保持样本的局部或全局几何结构分布,使得投影变换方向保持了样本的流形分布。第二类是有标记数据样本扩充的方法,根据无标记数据和有标记数据样本的分布特性,将监督信号从有标记的数据传递到无标记的数据上。
半监督学习常用的假设是“流形假设”[10],即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。而图正则化[11]的一般假设为:若数据点在原空间是邻近点,则对应到新的空间中也是邻近点,图正则化能够很好地保持数据的内在几何结构。
正则化可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。正则项用于保持参数值较小,有助于削减假设空间,从而能够降低最小化训练误差的过拟合风险。本文采用正则化思想,在投影后的空间中保持样本的流形结构。在高斯核判别分析的基础上引入样本数据局部与非局部散度之差作为正则项,得到一种新的基于正则化的半監督判别分析方法。该方法能够使数据在投影后的空间中具有最大的类间距离和非局部散度,以及最小的类内距离和局部散度,得到更佳的分类效果。该基于正则化的半监督判别分析方法的目标函数可表示为
2 正则化判别迁移学习算法
2.1 算法思想
首先,选取一个分类算法分别在源领域数据集上、目标领域的有标记数据集上和由这两个数据集组成的新数据集上训练分类器。用这3个分类器分别标注目标领域中的未标记数据,并对标注结果进行不加权投票,使用伪标记数据辅助迁移。
其次,使用上节提出的基于正则化的高斯核半监督判别分析方法得到投影矩阵W*,并用其将源领域数据、目标领域的有标记数据和目标领域的伪标记数据投射到嵌入空间τ1中,对源领域数据进行筛选。
。
2.2 算法描述
3.选
3 实验结果与分析
3.1 实验数据
为了评估本文算法性能,在文本数据集20Newsgroups和Reuters-21758,以及非文本UCI数据集mushroom上进行实验验证。
20Newsgroups是一个包含近20000个新闻组的文档集,包含了7个大类,大类包含20个子类。Reuters-21758是一个包含近21000个英文文档的文档集,它包含5个大类,在这些类别中,orgs、people和places是3个最大的类别。为了使这两个文本数据集适用于迁移学习,需要在预处理之后对它们进行重构,使源领域与目标领域内的数据分布符合不同分布但同时又具有一定相似性。文[13]详细介绍了文本数据的预处理过程。将顶层类标作为分类标号,将顶层类别下的不同子类别数据进行重新组合。以20Newsgroups数据集中的rec vs talk为例,可以将rec.autos,rec.motorcycles,talk.politics.gun,talk.politics.misc作为源领域中的样本,将rec.sport.baseball,rec.sport.hockey,talk.politics.mideast,talk.religion.mise作为目标领域中的样本。Reuters-21758数据集用相似方法进行重构。本文选用20Newsgroups数据集中的comp、sci、talk、rec四大类以及Reuters-21758中的orgs、people、places 3个大类进行实验。
UCI数据集mushroom包含对8124个蘑菇的特征描述,其中每个样本被标记为有毒的或者是可食用的。按文[14]对mushroom数据集进行如下处理:基于stalkshape属性将数据集分为两部分,源领域包含所有该属性值为enlarging的样本,目标领域包含所有该属性值为tapering的样本,使两域分布不同。
3.2 结果与分析
本文以目标领域数据分类的精度为评价算法分类效果的基准,采用余弦距离来衡量文档间的相似度。精度计算公式和余弦距离计算公式分别为
。
表2 各方法实验结果比较(%)
观察表2可知,在各个数据集上的分类精度通常是最低的。表明了当源领域和目标领域的数据分布不一致时,在非迁移学习的环境下直接训练得到的分类器,其分类效果往往是很差的。
比较表2的最后两列可以看出,本文算法在这8个数据集上的分类精度相较于都有提升。表明了迁移时引入伪标记数据可以进一步提高迁移效果和泛化能力。这是因为伪标记数据不仅包含标记数据的类别信息,还具有未标记数据的分布信息。
图1依次标出了ACTL、TrAdBoost以及本文算法在各个实验数据集上的分类精度。可以看出在大部分情况下,本文算法都取得了较好的分类正确率,比TrAdaBoost和ACTL这两个迁移算法的分类精度还高。
本文算法使用基于正则化的高斯核半监督判别分析方法,并定义距离度量和指示矩阵来构建修正嵌入空间,从中选出可重用的源领域数据样本,这样就避免了估计分布参数而造成的偏差。又因本文算法在迁移的过程中通过伪标记方式引入了目标领域中的无标记数据,提高了迁移正确率及泛化性能,所以从图1可观察出,在rec vs talk、comp vs sci、comp vs talk、sci vs talk、orgs vs places、orgs vs people这6个数据集上,本文算法的分类精度较其他两个算法有明显的提升。此外,文[21]已经验证了TrAdaBoost迁移学习算法比半监督算法分类精度更高,因此本文算法也优于半监督算法。 图2依次标出了SVMτT、ACTL和SVMτST在各个实验数据集上的分类精度。这3个算法虽都处在迁移环境下,但是SVMτT没有进行样本选择,ACTL是结合主动学习进行的样本选择,而SVMτST是在没有引入伪标记数据时在嵌入修正空间中进行样本选择。
观察可知,即使在迁移环境下,如果不进行样本选择,仍然会导致判别结果产生较大偏差;而使用本文算法所提出的构建嵌入空间循环辅助选择样本,大多数情况下比ACTL的结合主动学习进行样本选择的迁移效果更好。
考虑到循环次数的选取可能会对算法的性能产生影响,从文本数据集和非文本数据集中各选取一组数据集,设置循环次数j从1开始取值。将本文算法对应不同的循环次数各进行5次重复实验,并取其平均值作为参考。实验结果如图3所示。
观察可知,循环次数j对本文算法的分类精度有一定程度的影响:整体上,随着循环次数的增加,算法的分类精度增高;当循环次数增加到8次以后,算法的分类精度保持在较高水准并稳定下来。
最后,实验比较了随着目标领域中有标记数据的增加,本文算法和传统SVM算法在comp vs sci和people vs places这两个数据集上的分类效果。将其中的标记数据比例范围设定为0.01至0.1,实验结果图4所示。
观察图4可知,随着目标领域标记样本数量的增加,本文算法和传统SVM算法在数据集上的分类效果都会提升。SVM算法提升幅度很大,这说明很大程度上,制约有监督分类算法性能的就是有标记数据的不足;本文算法提升幅度不大,说明本文算法通过添加伪标记数据辅助迁移学习,在一定程度上解决了目标数据不足对算法性能的影响。此外可观察到,当有标记数据不足时,本文算法优于SVM很多,这说明在有标记训练样本不足时,能够通过迁移学习来提高训练效果。
4 结 论
针对实例迁移学习方法估计分布参数困难和泛化效果差的问题,本文提出了一种正则化判别迁移学习算法。在对数据内在结构的认识基础上,通过构造修正嵌入空间对源领域数据进行筛选和再利用,并使用不加权投票的方式引入伪标记数据进行辅助迁移。不仅避免了直接对领域分布参数进行估计,还解决了目标数据不足可能造成过拟合和泛化效果差的问题,进一步提高了迁移的正确率。通过对不同的数据集进行迁移分类,验证了该算法具有更好的分类效果和泛化性能。下一步将研究该算法在大数据环境下的有效性。
参 考 文 献:
[1] PAN S J, YANG Q. A Survey on Transfer Learning[J].IEEE Transaction on Knowledge and Data Engineering,2010,22(10):1345.
[2] BHATT H, SINGH R, VATSA M, et al. Improving Crossresolution Face Matching Using Ensemble Based CoTransfer Learning[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(12):5654.
[3] MCGAUGHEY G, WALTERS W P, GOLDMAN B. Understanding Covariate Shift in Model Performance[J].F1000 Research,2016,11(5):597.
[4] SUGIYAMA M, NAKAJIMA S, KASHIMA H. Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation[J].Advances in Neural Information Processing Systems,2007,13(6):1433.
[5] TIAN Y, QI Z, JU X, et al. Nonparallel Support Vector Machines for Pattern Classification[J].IEEE Transactions on Cybernetics,2014,44(7):1067.
[6] SIDDIQI M H, ALI R, IDRIS M, et al. Human Facial Expression Recognition Using Curvelet Feature Extraction and Normalized Mutual Information Feature Selection[J]. Multimedia Tools and Applications,2016,75(2):935.
[7] 王萬良, 邱红, 黄琼芳, 等. 核判别随机近邻嵌入分析方法[J].计算机辅助设计与图形学学报,2014,25(4):623.
[8] 汪廷华, 陈峻婷. 核函数的选择研究综述[J].计算机工程与设计,2012,33(3):1181.
[9] 姜伟, 李健芳, 杨炳儒. 黎曼流形框架上半监督判别分析[J].计算机辅助设计与图形学学报,2014,26(7):1099.
[10]周志华. 半监督学习中的协同训练算法[M].北京,清华大学出版社,2007:259.
[11]YANG Y, HUANG Z. Local Image Tagging via Graph Regularized Joint Group Sparsity[J]. Pattern Recognition,2013,46(5):1358. [12]张战成, 王士同, 邓赵红. 支持向量机的一种快速分类算法[J].电子与信息学报,2011,33(9):2181.
[13]王骏, 王士同, 王晓明. 基于特征加权距离的双指数模糊子空间聚类算法[J].控制与决策,2010,25(8):1207.
[14]许敏, 王士同, 顾鑫. TLSVM:一种迁移学习算法[J].控制与决策,2014,29(1):141.
[15]张变兰, 路永钢, 张海涛. 基于KL散度和近邻点间距离的球面嵌入算法[J].计算机应用,2017,37(3):680.
[16]MEHTA A K, BHATTACHARYA K, RAY D. Application of Support Vector Network for Power System Static Security Evaluation[J].International Journal of Energy Optimization & Engineering,2015,4(1):55.
[17]TAN Q, DENG H, YANG P. Knowledge Transfer Across Different Domain Data with Multiple Views[J].Neural Computing and Applications,2014,25(1):15.
[18]DAI W Y, YANG Q, XUE G, et al. Boosting for Transfer Learning[C]//Proceedings of the 24th International Conference on Machine Learning.New York:Academic Press,2007:193.
[19]WU J, HAO Y. Linear Regressionbased Efficient SVM Learning for Largescale Classification[J]. IEEE Transactions on Neural Networks & Learning Systems,2015,26(10):2357.
[20]JIANG L, WANG D, CAI Z, et al. Survey of Improving Naive Bayes for Classification[J]. Lecture Notes in Computer Science,2007,46(32):134.
[21]洪佳明, 陳炳超, 印鉴. 一种结合半监督Boosting方法的迁移学习算法[J].小型微型计算机系统,2011,32(11):2169.
(编辑:温泽宇)
关键词:迁移学习;判别分析;正则化;半监督学习
DOI:10.15938/j.jhust.2019.02.013
中图分类号: TP181
文献标志码: A
文章编号: 1007-2683(2019)02-0089-07
Abstract:Aiming at the problem that most instancebased transfer learning methods are difficult to estimate the distribution parameters and having poor generalization ability, a regularized discriminant transfer learning algorithm is proposed. Based on the discriminant analysis and semisupervised learning theory, the semisupervised Gauss kernel discriminant analysis method is studied by kernel method and regularization method, and the reusable samples are transferred by constructing the revised embedding space. On the one hand, screening samples in the mapping space can solve the difficulty of estimating the parameters of domain distribution; on the other hand, introducing pseudolabeled data and defining the distance function can avoid overfitting problems. The experimental results on text and nontext datasets validate that the proposed algorithm can effectively improve the accuracy and generalization ability of transferring.
Keywords:transfer learning; discriminant analysis; regularization; semisupervised learning
收稿日期: 2017-03-30
基金项目: 黑龙江省自然科学基金(F2016024).
作者简介:
冯其帅(1991—),男,硕士研究生;
陈德运(1962—),男,博士,教授,博士研究生导师.
通信作者:
王莉莉(1980—),女,博士,副教授,硕士研究生导师,Email :[email protected].
0 引 言
近年来,受到人类学习过程的启发,“迁移”的概念被引入到机器学习当中[1]。迁移学习是一种适用于数据具有不同分布的新机器学习方法,放宽了传统机器学习过程中对训练数据和测试数据作同分布假设的要求,其思想是把已学习到的知识应用到相关领域来帮助目标任务的完成。
在基于实例的迁移学习方法中,尽管源领域和目标领域的数据分布不同,但是源领域中仍会存在一部分数据可以和目标领域数据一起使用来训练学习模型。大多数实例迁移的方法是对数据间的样本选择偏差和协方差偏差进行修正,使得源领域中的部分数据可用。文[2-3]等对源领域和目标领域中数据的分布进行估计,以修正源领域相对于目标领域的样本选择偏差。文[4]等通过分布参数的学习,对源领域中的数据进行评估加权,找出与目标领域中的数据分布最相近或对目标任务最有帮助的样本。然而,这些方法都需要对分布参数进行估算。在数据量较少的情况下,参数估计往往会出现偏差。
针对上述实例迁移的不足,本文提出一种正则化判别迁移学习算法。首先,在线性判别分析的基础上引入高斯核,使其适用于现实非线性问题,并通过正则化的方式得到一种半监督的高斯核判别分析方法。其次,基于该正则化判别分析并通过定义距离度量来构造修正嵌入空间,在不直接估算分布参数的情况下对源领域中的可重用数据进行迁移。在迁移时通过添加伪标记的方式引入目标领域中的未标记数据,进一步提高迁移学习下分类器的分类精度和泛化能力。
1 正则化的半监督判别分析
1.1 判别分析理论
判别分析[5]的目的是学习一个从原始特征空间到新特征空间的映射,該映射可以是线性的,也可以是非线性的。线性判别分析的基本思想是不考虑类条件概率密度的分布,其原理是使用投影矩阵将原始数据投影到维度更低的空间中,使得投影后的数据会按类别区分,具有相同类别的数据在投影后的空间中更紧密而不同类别的则尽量分开[6]。通常定义一个判据来度量不同子空间中保留的判别信息,通过求得该判据的最优目标函数从而得到最优的子空间。该过程可以形式化为: 其中,判据J(W)是关于投影矩阵W的函数,该函数通常用映射空间中的类间与类内的距离之比来表示,使得在投影空间中同类样本分布密集而不同类样本相隔较远。通常使用欧式距离来计算类间距离和类内距离,类间距离即每一类的中心到所有样本中心的距离,类内距离即每一类的样本到该类样本中心的距离。从而,判据J(W)可以表示为
1.2 高斯核判别分析
1.3 基于高斯核的正则化判别分析
为了利用现实中越来越多的无标记数据,判别分析方法也借鉴半监督学习的思想,形成了半监督判别分析方法[9]。半监督判别分析方法将传统的判别分析技术应用在半监督环境下,同时利用有标记的数据和无标记的数据进行学习,目的是找到一种对分类最有效的投影空间,即嵌入空间。根据利用无标记数据学习方法的不同,半监督判别分析方法大致可归纳为两类。第一类是基于正则化的方法,同时利用无标记数据和有标记数据来保持样本的局部或全局几何结构分布,使得投影变换方向保持了样本的流形分布。第二类是有标记数据样本扩充的方法,根据无标记数据和有标记数据样本的分布特性,将监督信号从有标记的数据传递到无标记的数据上。
半监督学习常用的假设是“流形假设”[10],即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。而图正则化[11]的一般假设为:若数据点在原空间是邻近点,则对应到新的空间中也是邻近点,图正则化能够很好地保持数据的内在几何结构。
正则化可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。正则项用于保持参数值较小,有助于削减假设空间,从而能够降低最小化训练误差的过拟合风险。本文采用正则化思想,在投影后的空间中保持样本的流形结构。在高斯核判别分析的基础上引入样本数据局部与非局部散度之差作为正则项,得到一种新的基于正则化的半監督判别分析方法。该方法能够使数据在投影后的空间中具有最大的类间距离和非局部散度,以及最小的类内距离和局部散度,得到更佳的分类效果。该基于正则化的半监督判别分析方法的目标函数可表示为
2 正则化判别迁移学习算法
2.1 算法思想
首先,选取一个分类算法分别在源领域数据集上、目标领域的有标记数据集上和由这两个数据集组成的新数据集上训练分类器。用这3个分类器分别标注目标领域中的未标记数据,并对标注结果进行不加权投票,使用伪标记数据辅助迁移。
其次,使用上节提出的基于正则化的高斯核半监督判别分析方法得到投影矩阵W*,并用其将源领域数据、目标领域的有标记数据和目标领域的伪标记数据投射到嵌入空间τ1中,对源领域数据进行筛选。
。
2.2 算法描述
3.选
3 实验结果与分析
3.1 实验数据
为了评估本文算法性能,在文本数据集20Newsgroups和Reuters-21758,以及非文本UCI数据集mushroom上进行实验验证。
20Newsgroups是一个包含近20000个新闻组的文档集,包含了7个大类,大类包含20个子类。Reuters-21758是一个包含近21000个英文文档的文档集,它包含5个大类,在这些类别中,orgs、people和places是3个最大的类别。为了使这两个文本数据集适用于迁移学习,需要在预处理之后对它们进行重构,使源领域与目标领域内的数据分布符合不同分布但同时又具有一定相似性。文[13]详细介绍了文本数据的预处理过程。将顶层类标作为分类标号,将顶层类别下的不同子类别数据进行重新组合。以20Newsgroups数据集中的rec vs talk为例,可以将rec.autos,rec.motorcycles,talk.politics.gun,talk.politics.misc作为源领域中的样本,将rec.sport.baseball,rec.sport.hockey,talk.politics.mideast,talk.religion.mise作为目标领域中的样本。Reuters-21758数据集用相似方法进行重构。本文选用20Newsgroups数据集中的comp、sci、talk、rec四大类以及Reuters-21758中的orgs、people、places 3个大类进行实验。
UCI数据集mushroom包含对8124个蘑菇的特征描述,其中每个样本被标记为有毒的或者是可食用的。按文[14]对mushroom数据集进行如下处理:基于stalkshape属性将数据集分为两部分,源领域包含所有该属性值为enlarging的样本,目标领域包含所有该属性值为tapering的样本,使两域分布不同。
3.2 结果与分析
本文以目标领域数据分类的精度为评价算法分类效果的基准,采用余弦距离来衡量文档间的相似度。精度计算公式和余弦距离计算公式分别为
。
表2 各方法实验结果比较(%)
观察表2可知,在各个数据集上的分类精度通常是最低的。表明了当源领域和目标领域的数据分布不一致时,在非迁移学习的环境下直接训练得到的分类器,其分类效果往往是很差的。
比较表2的最后两列可以看出,本文算法在这8个数据集上的分类精度相较于都有提升。表明了迁移时引入伪标记数据可以进一步提高迁移效果和泛化能力。这是因为伪标记数据不仅包含标记数据的类别信息,还具有未标记数据的分布信息。
图1依次标出了ACTL、TrAdBoost以及本文算法在各个实验数据集上的分类精度。可以看出在大部分情况下,本文算法都取得了较好的分类正确率,比TrAdaBoost和ACTL这两个迁移算法的分类精度还高。
本文算法使用基于正则化的高斯核半监督判别分析方法,并定义距离度量和指示矩阵来构建修正嵌入空间,从中选出可重用的源领域数据样本,这样就避免了估计分布参数而造成的偏差。又因本文算法在迁移的过程中通过伪标记方式引入了目标领域中的无标记数据,提高了迁移正确率及泛化性能,所以从图1可观察出,在rec vs talk、comp vs sci、comp vs talk、sci vs talk、orgs vs places、orgs vs people这6个数据集上,本文算法的分类精度较其他两个算法有明显的提升。此外,文[21]已经验证了TrAdaBoost迁移学习算法比半监督算法分类精度更高,因此本文算法也优于半监督算法。 图2依次标出了SVMτT、ACTL和SVMτST在各个实验数据集上的分类精度。这3个算法虽都处在迁移环境下,但是SVMτT没有进行样本选择,ACTL是结合主动学习进行的样本选择,而SVMτST是在没有引入伪标记数据时在嵌入修正空间中进行样本选择。
观察可知,即使在迁移环境下,如果不进行样本选择,仍然会导致判别结果产生较大偏差;而使用本文算法所提出的构建嵌入空间循环辅助选择样本,大多数情况下比ACTL的结合主动学习进行样本选择的迁移效果更好。
考虑到循环次数的选取可能会对算法的性能产生影响,从文本数据集和非文本数据集中各选取一组数据集,设置循环次数j从1开始取值。将本文算法对应不同的循环次数各进行5次重复实验,并取其平均值作为参考。实验结果如图3所示。
观察可知,循环次数j对本文算法的分类精度有一定程度的影响:整体上,随着循环次数的增加,算法的分类精度增高;当循环次数增加到8次以后,算法的分类精度保持在较高水准并稳定下来。
最后,实验比较了随着目标领域中有标记数据的增加,本文算法和传统SVM算法在comp vs sci和people vs places这两个数据集上的分类效果。将其中的标记数据比例范围设定为0.01至0.1,实验结果图4所示。
观察图4可知,随着目标领域标记样本数量的增加,本文算法和传统SVM算法在数据集上的分类效果都会提升。SVM算法提升幅度很大,这说明很大程度上,制约有监督分类算法性能的就是有标记数据的不足;本文算法提升幅度不大,说明本文算法通过添加伪标记数据辅助迁移学习,在一定程度上解决了目标数据不足对算法性能的影响。此外可观察到,当有标记数据不足时,本文算法优于SVM很多,这说明在有标记训练样本不足时,能够通过迁移学习来提高训练效果。
4 结 论
针对实例迁移学习方法估计分布参数困难和泛化效果差的问题,本文提出了一种正则化判别迁移学习算法。在对数据内在结构的认识基础上,通过构造修正嵌入空间对源领域数据进行筛选和再利用,并使用不加权投票的方式引入伪标记数据进行辅助迁移。不仅避免了直接对领域分布参数进行估计,还解决了目标数据不足可能造成过拟合和泛化效果差的问题,进一步提高了迁移的正确率。通过对不同的数据集进行迁移分类,验证了该算法具有更好的分类效果和泛化性能。下一步将研究该算法在大数据环境下的有效性。
参 考 文 献:
[1] PAN S J, YANG Q. A Survey on Transfer Learning[J].IEEE Transaction on Knowledge and Data Engineering,2010,22(10):1345.
[2] BHATT H, SINGH R, VATSA M, et al. Improving Crossresolution Face Matching Using Ensemble Based CoTransfer Learning[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(12):5654.
[3] MCGAUGHEY G, WALTERS W P, GOLDMAN B. Understanding Covariate Shift in Model Performance[J].F1000 Research,2016,11(5):597.
[4] SUGIYAMA M, NAKAJIMA S, KASHIMA H. Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation[J].Advances in Neural Information Processing Systems,2007,13(6):1433.
[5] TIAN Y, QI Z, JU X, et al. Nonparallel Support Vector Machines for Pattern Classification[J].IEEE Transactions on Cybernetics,2014,44(7):1067.
[6] SIDDIQI M H, ALI R, IDRIS M, et al. Human Facial Expression Recognition Using Curvelet Feature Extraction and Normalized Mutual Information Feature Selection[J]. Multimedia Tools and Applications,2016,75(2):935.
[7] 王萬良, 邱红, 黄琼芳, 等. 核判别随机近邻嵌入分析方法[J].计算机辅助设计与图形学学报,2014,25(4):623.
[8] 汪廷华, 陈峻婷. 核函数的选择研究综述[J].计算机工程与设计,2012,33(3):1181.
[9] 姜伟, 李健芳, 杨炳儒. 黎曼流形框架上半监督判别分析[J].计算机辅助设计与图形学学报,2014,26(7):1099.
[10]周志华. 半监督学习中的协同训练算法[M].北京,清华大学出版社,2007:259.
[11]YANG Y, HUANG Z. Local Image Tagging via Graph Regularized Joint Group Sparsity[J]. Pattern Recognition,2013,46(5):1358. [12]张战成, 王士同, 邓赵红. 支持向量机的一种快速分类算法[J].电子与信息学报,2011,33(9):2181.
[13]王骏, 王士同, 王晓明. 基于特征加权距离的双指数模糊子空间聚类算法[J].控制与决策,2010,25(8):1207.
[14]许敏, 王士同, 顾鑫. TLSVM:一种迁移学习算法[J].控制与决策,2014,29(1):141.
[15]张变兰, 路永钢, 张海涛. 基于KL散度和近邻点间距离的球面嵌入算法[J].计算机应用,2017,37(3):680.
[16]MEHTA A K, BHATTACHARYA K, RAY D. Application of Support Vector Network for Power System Static Security Evaluation[J].International Journal of Energy Optimization & Engineering,2015,4(1):55.
[17]TAN Q, DENG H, YANG P. Knowledge Transfer Across Different Domain Data with Multiple Views[J].Neural Computing and Applications,2014,25(1):15.
[18]DAI W Y, YANG Q, XUE G, et al. Boosting for Transfer Learning[C]//Proceedings of the 24th International Conference on Machine Learning.New York:Academic Press,2007:193.
[19]WU J, HAO Y. Linear Regressionbased Efficient SVM Learning for Largescale Classification[J]. IEEE Transactions on Neural Networks & Learning Systems,2015,26(10):2357.
[20]JIANG L, WANG D, CAI Z, et al. Survey of Improving Naive Bayes for Classification[J]. Lecture Notes in Computer Science,2007,46(32):134.
[21]洪佳明, 陳炳超, 印鉴. 一种结合半监督Boosting方法的迁移学习算法[J].小型微型计算机系统,2011,32(11):2169.
(编辑:温泽宇)