论文部分内容阅读
深度学习在各个领域的兴起,使得多种深度神经网络模型得到了广泛应用。而神经网络中过多的超参数,学习性能对参数调整的依赖性,以及需要提前设定模型结构的复杂度等问题,让模型的构建过程变得非常棘手。且因为神经网络几乎有无限种结构组合,所以对神经网络模型的理论分析十分困难。特别是神经网络作为一种黑盒模型,其决策过程很难解释。另外,神经网络的训练需要大量的训练数据,难以应用于只有小规模训练数据的任务。针对深度神经网络当前存在的问题,本文在传统柔性神经树模型的基础上,提出了新的分类模型。本文分析了常用分类模型以及柔性神经树模型的优缺点,结合多种集成学习策略以及新的优化方法,构建了层递式增强型级联柔性神经森林模型。通过将提出的模型应用到癌症亚型分类问题上,验证了模型的分类性能。通过模型在多位点蛋白质亚细胞定位领域的应用,证明了模型的泛化能力。首先,本文提出了新的集成分类模型:级联柔性神经森林。针对柔性神经树的单输出结构,模型通过引入M元法,把多分类问题转化成多个二分类问题进而构建柔性神经树组,再用Bagging策略,将多个柔性神经树组集成;针对柔性神经树深度不足问题,模型把柔性神经树组抽象为单个节点,使用Boosting策略构建多层级联的森林结构。即在不引入新超参数的条件下,实现对柔性神经树模型的加深;针对分类器性能问题,模型使用了多策略融合的集成学习算法,且通过引入不同功能集的柔性神经树组来提升结构的多样性。发挥集成学习的性能优势,在分类时让多个基分类器共同决策,进而提升模型整体的分类性能。其次,为了进一步优化集成分类器,本文提出了层递式增强型级联柔性神经森林模型。针对模型的计算复杂度问题,本文在森林内引入置信度筛选机制,通过设定置信度区间来划分测试样本集,一类是达到高分类准确度的样本集Y。另一类是分类准确度低的样本集X。对于样本集Y,无需对他们重复分类,直接按权重输出分类结果。通过这种方式,避免了大量无意义的计算;针对模型结构的冗余问题,本文提出了一种逐层加宽的集成框架:在第一层只放一个森林节点。在第二层用级联方式加深模型的同时,引入新节点做加宽处理,然后依次类推。层递式增强型结构在保证分类器结构多样性的条件下避免了模型结构的冗余;针对小规模样本数据集的处理问题,本文把森林内部特征转换产生的增强特征点以全连接方式结合起来,增加可使用的样本特征数量,以适合于模型对小规模样本数据集的处理。本文把提出的两个模型应用到了癌症亚型分类领域,以RNA序列基因表达数据为输入对癌症亚型分类。基因表达数据作为一种连续型小规模样本数据,基因之间关联性强以及可用样本数少等特点,使多种机器学习算法在该类数据集上的分类精度不高。本文把前面构建的分类模型应用到癌症亚型分类问题上:在乳腺癌,肺癌和多形性胶质母细胞瘤的RNA序列基因表达数据集上分别进行了分类实验。实验结果表明,与其他常用的分类模型相比,本文提出的模型在多个分类指标上都表现出了更好的性能,且分类结果有良好的鲁棒性。最后,本文把层递式增强型级联柔性神经森林模型应用到多标签学习领域,提出了多标签级联柔性神经森林模型。该模型是通过编码-分类-再解码的方式构建的多标签学习框架。在处理样本标签时,不对单个标签做预测,而是将样本的全部标签看作整体,把具有相同标签的全部样本归到同一类,接着对类别编码。进而将模型对标签的预测问题转化成多分类问题。在模型上得到分类结果后,根据样本所属类别解码为初始标签。这样一来既没有破坏标签间的关联性,又能通过好的分类算法预测出更多样本的真实标签。将该多标签学习模型应用到多位点蛋白质亚细胞定位问题上:在革兰氏阴性菌数据集和革兰氏阳性菌数据集上分别进行了标签预测实验。实验结果表明,与其他常用的多标签学习模型相比,本文提出的方法在两个数据集上的总体定位精度和总体实际精度上都得到了一定程度的提升。