论文部分内容阅读
多示例学习是弱监督学习研究的重要范型之一,在图像检索、文本分类、医学检测等诸多领域具有广泛的应用。深度森林模型近年来受到了高度关注,能有效减少超参数的规模、并取得良好的性能。本文针对多示例学习深度森林模型进行了研究,取得了以下的创新成果:第一,提出了新型多示例深度森林MIDF(Multiple Instance Deep Forest),以及两种新型包级判别多示例森林算法,即多示例随机森林算法和多示例极限随机树森林算法。多示例深度森林MIDF使用级联结构,每层使用新型包级判别多示例森林算法,同时算法将训练样本中的每一个示例都当作一个包来进行拼接。有效保证每层输出的概率分布与传递给下一层的特征拼接成功,同时能自动确定深度森林所需的层数,大幅度减少了人工设计成本和调参的时间开销。实验结果表明,MIDF算法在调参方面具有鲁棒性,在药物活性预测、自动图像标注、文本分类等真实应用上取得很好的效果。第二,提出了新型多示例深度森林MIDF的加速算法,包括算法设计与代码实现两个层面进行加速。从算法设计层面,选择在耗时最多的划分结点部分引入在线排序算法,达到计算时连续访问内存的目的,记录父结点中不适合继续划分的属性,以减少CPU密集型的不纯度计算;从代码实现层面,将代码中的计算密集型任务用Cython改写,避开GIL解释锁并充分利用多核CPU的优势,提升了单任务的运行效率。重新定义代码中的包结构,使用Numpy向量化运算替代循环,从而在加快运行速度的同时降低程序运行过程中计算机内存的消耗。实验结果表明,MIDF加速算法相较于原算法在训练时间上提升了20~106倍,在测试时间上提升了7~55倍。