随机森林和深度神经网络的若干关键技术研究

来源 :清华大学 | 被引量 : 6次 | 上传用户:xinran200391127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在大数据、计算能力和机器学习算法的支持下,人工智能得到飞速发展。其中,机器学习算法是人工智能的核心。本文从两类主流的机器学习算法中选取两个代表性的算法进行研究,即集成学习领域的随机森林算法和深度学习领域的深度神经网络算法。针对这两类算法存在的局限和不足,本文从理论和应用等多方面对其进行深入研究并提出相应的解决方案。主要工作概括如下:(1)针对随机森林中决策树对数据适应性差的问题,本文从Tsallis熵的角度优化决策树的分裂准则和建树方法。首先提出一种统一的Tsallis分裂准则一统现有的决策树算法,在此基础上,又进一步提出一种对称的分裂准则及最大相关最小冗余的建树方法,降低决策树建树的贪婪性,提升决策树对数据的适应性。(2)针对随机森林中随机特征子空间选择机制在高维数据下面临的子空间内信息性特征不足的问题,本文提出一种特征变换和分层抽样相结合的特征子空间选取方法。首先,针对随机森林在高维数据下性能不佳的原因给出理论分析,其次,提出基于特征变换和分层抽样的随机森林算法,保证每个决策树节点都包含足够多的信息性特征进行学习。该随机森林算法在无论低维还是高维数据下的泛化性能都很好。(3)针对随机森林目前面临的理论性质与实验性能之间的两难性问题,即实验性能很好的随机森林其理论性质没有保证,而理论性质有保证的随机森林其实验性能又不好,本文提出一种伯努利可控的随机森林算法,其利用两个伯努利分布来帮助选择每个节点使用的分裂属性及分裂点,即以一定的概率使用随机过程或确定性过程来构建随机森林中的决策树。本文提出的伯努利随机森林不仅具有可以被证明的一致性还具有良好的实验性能。(4)针对深度神经网络在噪声标签数据集上性能不佳的问题,本文从子空间维度的角度解释深度神经网络的学习过程。在噪声标签数据集下,神经网络遵循两阶段学习模式:1)早期维度压缩阶段,学习与真实数据分布紧密相关的低维子空间;以及2)后期维度扩展阶段,逐渐增加子空间维度,以适应噪声标签。基于这一发现,本文提出一种维度驱动学习的训练策略,通过调整损失函数,避免深度神经网络学习中的维度扩展阶段。(5)针对深度神经网络在复杂噪声标签下的鲁棒训练问题,本文提出一种迭代学习框架,通过迭代式噪声检测、判别性特征学习和重新加权三个模块相互作用相互提高,学到一种准确的数据表示,不仅可以把类别分开,还能把噪声样本和干净样本分开。该方法不依赖噪声模型从而适用性更广,解决了真实世界数据中经常出现的复杂开放噪声标签的情况,即有噪声的样本具有不包含在训练数据已知类别集合中的真实类别。
其他文献
近二十年来生态系统动力学模型已在各个海域得到了广泛应用它们以不同时空分辨率量化海洋生态系中各过程的相互作用机制建立了包含不同复杂程度生物物理过程的生态模型本文首
全球50亿人在未来10年,将由社交媒体、移动互联网、可穿戴设备连接起来,在大数据、物联网、云计算等技术浪潮以及云制造、3D打印、能源互联网形成的第三次工业革命浪潮的推动下
当背景天体的光线经过大质量前景天体的时候,会在前景天体的引力下发生偏折,并在前景天体周围形成多个像。我们将这种现象称作强引力透镜现象。本文主要研究星系尺度的强引力
免携带定位(Device-Free Localization,DFL)指不需要携带任何辅助设备的定位方式,也称为被动式定位。与主动式定位方法相比,被动式定位在入侵检测,紧急救援以及智能家居等很
"价值的颠覆"是由西方传统社会向现代社会转变进程中形成的一种框架思维模式,影响和制约着人类中心主义与自然中心主义伦理价值的整合,使生态伦理研究陷入"两难选择"处境。在
针对容错Petri网电网故障诊断模型未考虑近后备保护对模型的影响,以及网络拓扑结构变化时模型的可移植性较差等问题,提出了容错Petri网电网故障诊断的改进模型.通过引入近后
目的:凝血酶(Thrombin)是一种多功能丝氨酸蛋白酶,已被证明是通过水解蛋白酶受体家族(Protease-activated receptors family, PARs)中的成员PAR1(蛋白酶激活受体-1,Protease-
在量子信息中,量子态是其基本的载体,因此单量子态的相干控制,是进行量子信息处理和实现量子计算所必需的条件。在众多的物理实现系统中,腔QED系统是实现各种量子态的最佳候
湖州市是全国著名的三大池塘传统渔区之一,全市淡水养殖水面在30万亩左右,其中池塘近15万亩。传统的“桑基渔塘”因其生态循环效应成为联合国粮农组织推荐模式而世界闻名。但