基于深度森林的小数据集分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:esshuc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代数字信息技术的飞速发展,各行各业都生成并存储了海量数据,对这些海量数据的准确分类是对数据后续有效分析的基础。由于个人隐私和安全问题,在一些信息保密性高的行业仅能获得少量的存储数据,并且标注大量数据的人工成本过大,这使得可利用的数据是非常有限的。研究表明,深度学习模型对训练数据需求较大,在一些小规模数据的任务上易出现过拟合问题,因此,研究小数据集分类问题具有深远的影响价值。深度森林模型因其可理解性高和自动确定级联层数的特点,在处理小数据集分类任务中具有明显的优势。小数据集样本量少通常会存在类别不均衡和多样性差等问题,类别不均衡会影响随机森林不能有效学习到类别间的准确区分特征,数据多样性差会导致模型学习不到原始数据的整体数据分布,从而可能导致深度森林模型出现过拟合现象,使得模型的分类性能不佳。本文针对这两个问题作了如下深入分析:1)针对小数据集类别不均衡问题,研究了多粒度扫描部分的按类建树策略,提出了跳跃森林(Skip Connection Forest,SCForest)模型。通过在深度森林级联层中加入跳跃连接,有效缓解了特征向量后向传播时易出现特征消失或特征爆炸现象,并且级联层采用了五种类型的分类器提高集成多样性以及考虑前k个重要特征的标准差作为增强特征,优化了模型学习中有效特征的传输过程。实验表明,提出的SCForest模型相对于原始深度森林在小数据集分类任务上能有效避免了类别不均衡的影响,尤其在高维多分类数据集上效果更加明显,提高了模型在小数据集上的泛化能力。2)针对小数据集存在多样性差的问题,根据生成式对抗网络在生成人工样本数据上的优越性能,得到与原始数据同分布的弱标注生成数据,在SCForest基础上提出了联合学习森林(Joint Learning Forest,JLForest)模型。JLForest模型通过级联前i层动态更新生成数据的弱标注直至达到一定准确置信度,通过设计联合损失函数提出了原始数据和生成数据联合训练级联森林的方法。实验结果表明生成数据作为额外数据的分类效果稍逊与真实数据作为额外数据的分类效果,并且通过为不同小数据集设置合适的数据生成率时,JLForest在这些数据集上都能获得最优越的分类性能。本文针对小数据集分类问题对深度森林模型进行深入研究,通过采用按类建树的策略提出SCForest解决了类别不均衡的问题,并通过进一步对级联森林的改进提高有效特征的传输效率,然后基于SCForest模型,通过设计联合训练策略加入生成样本来提高数据的多样性提出了JLForest模型。实验表明,JLForest模型通过加入一定量的生成数据可提升小数据集的分类准确率,该方法为仅能获取少量训练数据的特殊行业提供了新的解决思路。针对数据分类结果,企业可进行后续的客户行为分析以及精准营销等。
其他文献
医院由于自身工作的特殊性,女职工在所有工作人员中占有较大的比例,大部分女职工都坚守在重要的工作岗位。因此,对于医院工会而言,做好女职工工作尤其具有重要的意义。在建设
本文针对会计电算化应用中存在的问题,提出起步加强认识、注重复合型人才培养、健全保密措施、规范各软件数据接口技术等完善对策。
<正> 《毛泽东邓小平江泽民论思想政治工作》收集了党的三代领导人关于加强和改进思想政治工作的重要论述,系统反映了我党思想政治工作的基本要求、基本理论、基本规律,为当
目前,人们的文化审美需要越来越多,对封面设计的要求也越来越高。书法字体作为一种文字表达形式,在封面设计中的应用十分广泛。如何选择书法字体十分重要,关系到封面设计的性
汽车变速器,作为汽车传动系统的主要传动部件,是用来协调发动机转速和车轮实际行驶速度的变速装置。在汽车行驶过程中,可以通过改变变速器的档位,使汽车在不同的路况下以不同
在1957年初,毛泽东同志用“人民内部矛盾”这个概念来概括社会主义社会除敌我矛盾以外的一切人际关系,并将其作为国家政治生活的主题。由此出发,认识和处理国家政治生活中的
在经济新常态背景下,促进高技术产业的发展可以有效地推动创新驱动发展战略的落实,实现经济高质量增长、产业结构优化升级与新旧能转化。区域高技术产业的发展主要依靠以下两种方式:一是增加本地区的创新要素投入,二是依靠邻近地区的知识溢出促进本地区高技术产业的发展。区域内部创新要素的投入是有限的,邻近地区的知识溢出促进本地高技术产业创新效率提升的潜力有待进一步的挖掘。由于知识溢出的根植性,使得知识溢出对邻近省
鸡球虫病为一种全球性的原虫病,对世界养殖业带来了巨大的危害。目前球虫病的控制主要是靠化学药物,但是化学药物的长期滥用,导致耐药性与药物残留两大问题又日趋严重,因此中
随着经济高速发展,决策者在项目选择上需要考虑的因素越来越多,而这些因素之间又存在着紧密的联系,以至于无法通过简单的比较分析得出结论。随机多标准可接受度分析(SMAA)是
以盘偏置单盘双简支试验器转子为对象,由加速与减速的幅频特性曲线确定转子的临界转速。以幅频特性曲线模态计算法确定盘处的偏心距和阻尼比,用弯、扭耦合传递矩阵法计算临界转