论文部分内容阅读
随着现代数字信息技术的飞速发展,各行各业都生成并存储了海量数据,对这些海量数据的准确分类是对数据后续有效分析的基础。由于个人隐私和安全问题,在一些信息保密性高的行业仅能获得少量的存储数据,并且标注大量数据的人工成本过大,这使得可利用的数据是非常有限的。研究表明,深度学习模型对训练数据需求较大,在一些小规模数据的任务上易出现过拟合问题,因此,研究小数据集分类问题具有深远的影响价值。深度森林模型因其可理解性高和自动确定级联层数的特点,在处理小数据集分类任务中具有明显的优势。小数据集样本量少通常会存在类别不均衡和多样性差等问题,类别不均衡会影响随机森林不能有效学习到类别间的准确区分特征,数据多样性差会导致模型学习不到原始数据的整体数据分布,从而可能导致深度森林模型出现过拟合现象,使得模型的分类性能不佳。本文针对这两个问题作了如下深入分析:1)针对小数据集类别不均衡问题,研究了多粒度扫描部分的按类建树策略,提出了跳跃森林(Skip Connection Forest,SCForest)模型。通过在深度森林级联层中加入跳跃连接,有效缓解了特征向量后向传播时易出现特征消失或特征爆炸现象,并且级联层采用了五种类型的分类器提高集成多样性以及考虑前k个重要特征的标准差作为增强特征,优化了模型学习中有效特征的传输过程。实验表明,提出的SCForest模型相对于原始深度森林在小数据集分类任务上能有效避免了类别不均衡的影响,尤其在高维多分类数据集上效果更加明显,提高了模型在小数据集上的泛化能力。2)针对小数据集存在多样性差的问题,根据生成式对抗网络在生成人工样本数据上的优越性能,得到与原始数据同分布的弱标注生成数据,在SCForest基础上提出了联合学习森林(Joint Learning Forest,JLForest)模型。JLForest模型通过级联前i层动态更新生成数据的弱标注直至达到一定准确置信度,通过设计联合损失函数提出了原始数据和生成数据联合训练级联森林的方法。实验结果表明生成数据作为额外数据的分类效果稍逊与真实数据作为额外数据的分类效果,并且通过为不同小数据集设置合适的数据生成率时,JLForest在这些数据集上都能获得最优越的分类性能。本文针对小数据集分类问题对深度森林模型进行深入研究,通过采用按类建树的策略提出SCForest解决了类别不均衡的问题,并通过进一步对级联森林的改进提高有效特征的传输效率,然后基于SCForest模型,通过设计联合训练策略加入生成样本来提高数据的多样性提出了JLForest模型。实验表明,JLForest模型通过加入一定量的生成数据可提升小数据集的分类准确率,该方法为仅能获取少量训练数据的特殊行业提供了新的解决思路。针对数据分类结果,企业可进行后续的客户行为分析以及精准营销等。