随机赋权神经网络的模型优化研究

来源 :深圳大学 | 被引量 : 3次 | 上传用户:lianghaiyanps3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机赋权神经网络(Neural Networks with Random Weights,简称:NNRW)是一类采用非迭代学习机制的前馈型神经网络。在其模型训练过程中,输入权值和隐藏层神经元的偏置值都是随机产生的,而且在整个训练过程中保持不变,输出权值则是通过最小二乘法计算得到。这种学习机制使得NNRW具有学习速度快和对硬件计算资源要求低等优势,近年来NNRW受到了广泛关注。根据网络结构及随机程度的不同,目前相关的主流研究路线分为两类:随机向量功能型连接网络(Random Vector Functional Link networks,简称:RVFL)和极限学习机网络(Extreme learning machine,简称:ELM)。基于RVFL和ELM的算法和应用在多个领域展现出了巨大的应用潜力,例如在一些图像分类问题上的预测准确率超过了传统的深度学习模型等。然而,目前多数相关算法在构建模型时,仍然没有合适的方法来处理网络初始化、数据预处理以及隐藏层神经元的数量选择等问题,造成了建模时间长和模型性能没有保障等后果。在应用方面,在线学习场景是NNRW最擅长的领域之一,然而目前在面对数据流的规模大和数据分布不稳定等问题时仍然缺少好的解决方案,在线模型的更新效率和性能难以平衡,严重影响了实际的应用效果。此外,真实场景中有标签的数据过少的问题对于NNRW的应用同样是一个严峻的挑战。这些问题如果得不到合适的解决,将会造成NNRW在落地应用时缺少可靠性保障,甚至造成不可挽回的损失。整体上,上述问题可以归为模型优化和应用算法优化这两类,本文对其中的几个关键问题进行了研究。具体来说,在模型优化方面:(1)目前关于NNRW初始化的研究较少较窄,且现有的研究成果没有考虑网络初始化与训练数据之间的必要关联。初始化问题对于NNRW的模型优化非常重要,不恰当的初始化方式会导致模型的收敛速度和性能大打折扣。(2)关于输入矩阵的秩与NNRW模型性能之间的关系研究方面,目前的成果较为匮乏且缺少理论支撑。输入矩阵的秩对NNRW的模型性能有重要影响,虽然已出现了一些基于ELM网络的研究成果,然而相关的研究成果缺少必要的理论解释。而基于RVFL网络的相关研究则更为匮乏。(3)隐藏层神经元的数量对模型的性能有直接影响,传统基于经验调参的做法很难保障网络结构的最优化。目前已有研究者提出了若干自动化选择隐藏层神经元数量的算法,然而现有的算法仍然存在很多局限,例如容易造成网络中出现大量的冗余神经元等,这会对模型的泛化能力造成负面影响。在应用方面:(4)面对在线学习场景中数据流的规模大、数据分布容易改变以及数据特征复杂等问题,目前基于NNRW的解决方案较少,而且现有算法的灵活性比较低。数据流的规模大容易造成在线模型的更新效率和性能之间出现矛盾;数据的不稳定容易造成在线模型无法快速适应新环境,导致其预测能力出现大幅下降;对于数据特征较为复杂的情况如图像处理问题等,现有的单隐藏层结构的在线模型很难胜任,而在线深度模型相对较少。(5)一些实际应用场景中有标签的数据非常有限,传统基于NNRW设计的有监督学习算法无法有效处理这类问题。有研究者提出采用模糊论技术和ELM网络结合的方式设计半监督学习算法,实现同时利用有标签的数据和无标签的数据。然而相关的研究仍然处于起步阶段,现有的算法在网络类型等方面仍然较为局限,算法设计的合理性也缺少必要的分析。本文围绕上述这五个问题展开了一系列的研究,主要工作包括:对于问题1,本文首次研究了采用不同概率分布初始化RVFL网络对其模型性能的影响,能够为研究者在RVFL网络初始化方面提供有价值的参考。另外,本文首次提出基于数据集的元特征研究NNRW(包括ELM和RVFL网络)的初始化方式与其模型性能之间的关系,揭示了数据的内在特性与NNRW初始化之间的关联;对于问题2,本文首次研究了输入矩阵的秩与RVFL模型性能之间的关系,研究成果能够帮助研究者更好地进行数据预处理。本文还研究了激活函数的类型以及隐藏层神经元的数量对上述关系的影响。此外,本文提出了一个新的概念:矩阵信息离散度(Dispersion Degree of Matrix Information Distribution,简称:DDMID),用来描述NNRW中随机特征映射矩阵的信息分布特征。并利用DDMID对上述经验性的实验结果进行了理论上的解释,填补了目前相关研究成果中的理论缺失;对于问题3,本文首次利用强化随机检索技术优化了B-ELM算法(Bidirectional ELM,最佳的神经元数量选择算法之一),并提出了增强型算法EB-ELM(Enhanced B-ELM)。相比B-ELM,EB-ELM的收敛速度更快,训练得到的模型性能更好。例如,在回归数据集Machine CPU上,EB-ELM模型在预测误差上比B-ELM下降了47.74%。在此基础上,本文又提出了基于随机正交映射的强化型算法OEB-ELM(random Orthogonal projection based EB-ELM)。相比EB-ELM,OEB-ELM进一步降低了模型的网络复杂度,也提升了模型的泛化能力。例如,在回归数据集Red Wine上,相比EB-ELM,OEB-ELM进一步将模型的预测误差降低了5.92%。本文提出的这两种算法都能够自动地为ELM网络选择合适的隐藏层神经元数量,具有重要的应用价值;对于问题4,首先,在应对在线学习场景中数据流规模大的难题上,本文首次提出利用样本的模糊性大小信息对数据流进行过滤,只将高质量的样本应用于模型的更新,从而降低更新样本的规模,高质量的样本也能够保障模型更新后仍然具有较高的预测性能。例如,在分类数据集Page上,本文提出的FOS-ELM算法(Fuzziness based Online Sequential ELM)比OS-ELM(Online Sequential ELM)在预测准确率上提升了11.40%,比TOS-ELM(Timeliness OS-ELM)在准确率上提升了17.72%。其次,面对数据流中样本的统计特性不稳定的情况,本文提出了一个具有动态遗忘因子的在线学习算法DOS-ELM(OS-ELM with dynamic forgetting factor),其能够根据模型的性能变化情况及时地调整新数据和历史数据之间的相对重要性,使模型更快地适应新环境。例如,在分布不稳定的分类数据集Hyperplane上,DOS-ELM模型在预测准确率上比OS-ELM提升了19.35%,比TOS-ELM算法在准确率上提升了11.80%。在回归问题Auto MPG上,相比OS-ELM、TOS-ELM、以及WOS-ELM(a modified OS-ELM),DOS-ELM模型在预测误差上分别下降了53.10%、83.91%、92.95%,在测试标准差上分别下降了72.31%、83.04%、94.98%。此外,本文将DOS-ELM拓展为了具有多隐藏层网络结构的在线深度模型ML-DOS-ELM(Multi-layer DOS-ELM),提升了原算法的特征提取能力,也保持了原有的各项优点。在图像分类问题UMIST上,具有三个隐藏层的ML-DOS-ELM模型在预测准确率上比DOS-ELM提升了3.59%;对于问题5,本文首次利用无标签样本的模糊性大小信息,基于RVFL网络设计了面向半监督学习场景的新算法F-RVFL(Fuzziness based RVFL)。F-RVFL算法能够充分利用有限的有标签数据和海量的无标签数据,可以有效应对实际应用中有标签数据过少的问题。本文对F-RFVL算法设计的合理性也进行了分析,并将其应用于解决真实的肝病预测问题。综上所述,本文的研究涵盖NNRW模型优化与应用中的五个关键问题,其中,问题1-3的研究成果为NNRW的模型优化提供了一些有用的结论和方法,问题4和5的研究成果则为NNRW在落地应用时面临的四个难点问题分别提供了相应的解决方案。本文的主要创新点总结如下:1、本文首次研究了采用不同分布初始化RVFL网络对其模型性能的影响。另外,首次提出从数据集的元特征角度研究NNRW的初始化方式与其模型性能之间的关系,揭示了数据的内在特性与网络初始化之间的关联;2、本文首次研究了输入矩阵的秩与RVFL模型性能之间的关系,并提出了DDMID的概念对其进行了理论上的解释;3、本文提出的两种新算法EB-ELM和OEB-ELM都能够自动化地确定ELM网络中隐藏层神经元的数量;4、本文提出的FOS-ELM、DOS-ELM、ML-DOS-ELM、以及F-RVFL算法分别能够有效应对在线学习场景中更新数据流的规模过大、数据分布不稳定、数据特征复杂、以及实际应用时有标签的训练数据数量过少的问题。
其他文献
广告设计专业是当前高职院校热门专业之一,面对新的教学理念及要求,高职院校所培养的人才必须在创新精神和实践能力上有更高的要求。因此,改革实训教学,是当前高职院校改革面临的
家庭是历史的产物,家庭文化是人们在实践中自觉的审视家庭生活后的理性反思结果。家庭是社会机体的有机细胞,家庭文化是确保家庭细胞形态健康的重要因素。家庭和谐、家庭文化
无论我们是否愿意,也无论我们是否做好了准备,新课程犹如一列正常运行的列车,已向我们驶来!专家预言:新课程中的学生将有可能改变他们的一生,而新课程中的教师也将焕发出新的生命!我市九年级化学使用了由上海教育出版社出版的新教材,该教材在构建思路、体系结构和内容呈现等方面较以前的教材发生了较大的变化。新教材在使用的过程中,教师就如何正确解读新教材,转化为实实在在的课堂教学行为,还存在不少的困惑和误区。笔者
目的分析探讨布地奈德气雾剂治疗支气管哮喘的临床效果。方法随机从2018年1月~2018年9月来附属医院进行支气管哮喘诊断的患者中抽取100例,随机分为研究组和对照组。其中研究
大学生的理想教育是一个历久弥新的话题和研究热点,许多专家学者都在这一领域付出了大量的心血和精力。究其原因,还是因为大学生的理想教育十分重要,大学生的理想教育不仅事
【目的】本文旨在研究分析经皮椎体成形术(Percutaneous Vertebroplasty,PVP)对于非小细胞肺癌(Non-small cell lung cancer,NSCLC)脊柱转移患者的短期疗效及安全性。【方法】回顾性分析我院于2015年10月至2018年7月收入院并采用PVP治疗的NSCLC脊柱转移患者,所有患者均经严格的纳入标准及排除标准进行筛选。入组患者采用疼痛视觉模拟评分(
背景:肺炎克雷伯菌(Klebsiella pneumoniae,KPN)普遍存在于生活环境之中,可在患者体内多个部位定植,当宿主免疫力下降时,可引起呼吸道、血液、泌尿道、消化道、手术切口、皮
随着计算机的发展和互联网的日益普及,海量文本的出现极大地丰富了我们的信息来源。尤其在财经领域中,大量的财经新闻、公司公告、行业研报等非结构化文本的出现丰富了投资银行业与经纪业的信息来源。然而,这些文本的阅读和解析通常需要花费专业人士大量时间。从海量自由文本中自动抽取我们想要的数据成了当下急需解决的问题。信息抽取技术也成为了自然语言处理的重要研究领域。事件抽取是信息抽取领域的一个重要研究方向。事件抽
材料的剪切加工是目前应用最广、操作最简便、发展历程最久的材料加工方法之一。提升剪切过程的效率、降低剪切阻力、优化剪切零件性能具有非常重要的研究意义。本研究以狗獾
随着大众旅游时代的到来,中国旅游业凭借迅猛的发展势头,逐渐成为中国经济发展新的增长点。统计数据显示,2018年旅游总收入达5.97万亿元,与上年相比增长了10.5%。经初步估算,全国的旅游业对我国GDP的总贡献为9.94万亿元,这一贡献值占GDP的11.04%。旅游业带动的直接就业人数为2826万,加之间接就业人数,总共7991万,占总就业人数的10.29%。我国的旅游上市公司无疑是我国旅游产业的