随机森林及其在色谱指纹中的应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhangtao870508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林是Leo Breiman于2001提出的一个组合分类算法。它的元分类器是CART,在Bagging的基础上引入随机选择属性,其分类效果较好且稳定性较高。随机森林算法自提出以来已经成为一种重要的数据分析工具,被广泛地应用于科学研究的众多领域。本文重点研究随机森林对色谱指纹的分类。在对色谱指纹特点了解的基础上,本文构建了两种随机森林分类模型—基于独立属性的随机森林色谱分类模型和基于组合属性的随机森林色谱分类模型。前者适用于对同一时期采集到的色谱指纹进行分类。后者适用于对不同时期采集到的色谱指纹分类。对于不同时期采集到的色谱指纹,存在保留时间漂移、峰的分离度降低等问题,这是目前采集色谱指纹技术中不能避免的问题。在基本随机森林算法的基础上,提出了一种按照时间范围进行色谱峰合并构造的组合属性,以此减小上述问题对分类器性能造成的影响。在建立分类器过程中,同时考虑这种组合属性和原始数据中的独立属性。两种模型的数据预处理功能均包括:色谱峰匹配、数据归一化和属性筛选。其中最重要的部分是色谱峰匹配。本文在吸取较为先进的峰匹配算法优点的基础上提出并实现了一种基于分段匹配思想的色谱峰匹配算法。本文以“芙蓉”系列卷烟烟丝的色谱指纹为例,对构建的随机森林分类模型进行实验。实验后进行了参数优化、对节点分裂策略的讨论以及数据预处理方法的讨论。实验结果表明,最终所建立的烟草分类模型的绝大部分准确率达到90%以上,其分类效果优于基于支持向量机、朴素贝叶斯、PLS-DA、Bagging的烟草分类模型。
其他文献
发展养老服务业是解决老龄化问题的重要途径之一,加快养老服务业发展对更好的满足养老服务需求及促进养老服务资源的节约与合理利用具有重要意义。在“互联网+”和“云服务”
随着计算机网络技术的飞速发展,网络教学这种不受时间和空间限制的教学模式越来越受到教学者的关注,成为传统教学的一个重要的补充。教学信息检索作为网络教学的重要部分,已
无线传感器网络(Wireless Sensor Networks,简称WSNs)是当前一个十分热门的研究课题,它的发展得益于计算、通信、传感等技术的进步。覆盖作为无线传感器网络中的一个基本问题
日益发达的互联网对图像文件的传输存储和安全性提出了更高的要求。在国家安全、医疗、卫星遥感等对图像要求比较高的方面,为了提高图像的传输、存储效率和安全性,设计性能良
随着我国经济建设的迅速发展,电力事业发展规模日趋庞大。面对电力资源需求的不断增长、GIS技术的深入应用,针对现有二维GIS在输电管理系统应用中的局限,以三维GIS输电管理系统应用实例为依托,探讨了三维GIS在输电管理中的关键技术应用。本文针对输电管理的实际情况和特点,在掌握了三维GIS的相关基础知识的情况下,首先对输电管理系统中的海量多源数据的组织进行了分析,采用不规则三角网(TIN)进行三维建模
无线传感器网络作为一种新兴的信息获取技术,已成为网络通信领域中备受关注的研究热点。无线传感器网络是一种无基础设施的无线网络,工作人员将一系列传感器节点随机部署于监
随着信息技术的迅速发展,生物信息学、图像处理、文本挖掘等许多领域中研究对象的数据描述越来越趋向于高维,给数据挖掘造成了“维数灾难”。针对这个问题,出现了数据降维的研究
灌区水情监测系统是一种采集并监视灌区区域内雨量、水库及渠道水位流量等水情信息的实时系统。灌区水情监测系统包括对灌区水雨情的信息采集系统、视频监测系统以及上层应用
无线传感器网络将逻辑信息世界与客观物理世界连接在一起,改变了人类与自然界的交互方式,扩展了人们的信息获取能力,在军事、民用和工业生产领域具有十分广阔的应用前景。与
牙齿排列在虚拟牙齿矫正系统中占有十分重要的地位。在虚拟牙齿矫正系统中的三维空间环境下实现牙齿的自动排列,是一个非常复杂的问题。本文对牙齿的排列问题进行了深入的分