论文部分内容阅读
在当今大数据时代下,迁移学习方法作为在新业务标注数据不足时,利用旧有数据提高新业务模型的主流技术,在许多应用中发挥了重要作用。传统统计模型的理论和实证研究通常是在训练集与测试集分布相同的假设下进行的,即要求训练集与测试集的边际分布和条件分布相同,这在我们利用旧业务样本解决新业务问题时是很难满足的。例如在商业银行在小微企业贷款问题中,旧有业务是风险更小的抵押贷款,新业务为小微企业的信用贷款,往往新旧数据在分布上存在很大的差异;再比如个人住房贷款中,旧业务服务于城市,新业务拓展到乡村,新旧样本在收入、贷款金额等特征的分布也会存在差异。在这种情况下,若直接将新旧数据不加区分一起建模分析,可能带来严重的偏差,反而可能使得模型失效。传统迁移学习方法在解决上述问题时,缺少可同时解决边际分布和条件分布差异的方法,也缺少可同时基于样本和特征进行迁移的方法,导致单一迁移学习方法适用性十分有限,模型稳健性很低。为了解决边际分布不同的问题,本文首先拓展了迁移成分分析(TCA)的适用范围,根据样本重要性的差异提出加权迁移成分分析(WTCA)。进一步为了解决条件分布不同的问题,受到提升法优化权重的启发,提出了加权迁移成分分析提升法(WTCABoost),实现基于样本和特征的迁移。本文对WTCABoost方法进行了详细的算法推导,针对数据间可能存在的多种关系,我们进行了多种情形下的模拟分析,并将WTCABoost方法与传统迁移学习方法和监督学习方法进行对比。模拟结果表明,在不同边际和条件分布的假设下,WTCABoost方法在准确率、AUC和稳健性上的表现均显著优于对比模型,并且当样本量增大或者样本维度增加时WTCABoost方法依然保持优势。最后,本文对小微企业抵押贷款和信用贷款的应用展开研究。结果表明,WTCABoost方法在各个方面表现均较为出色,并一致优于其他对比方法。在模拟和实证中WTCABoost方法都较好的解决迁移学习中可能出现的负迁移问题。