基于大规模数据集的模式分类器研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:hyh900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在对大规模数据集的模式分类过程中,过多的特征及大量的训练样本都会引发分类的速度很慢及对计算机的内存提出很高的要求等问题,所以在模式分类前要对数据集进行必要的数据处理:特征选择及样本选择,以去除与分类不相关的冗余特征,选择出决定分类器非线性决策面的样本集,用简化的训练集来训练分类器,以提高分类精度及减少对计算机的内存要求。正交设计和均匀设计是两种常用的试验设计方法,二者均能够利用较少的试验次数就可以找出因素间的最优搭配。而支持向量机能处理小样本、具有很好的泛化能力且不受数据集维数的制约。结合三者的优势,本文以支持向量机为分类器,分别提出了基于正交设计和均匀设计的的特征选择方法。根据数据集的特征数目及相应正交表和均匀表的结构,安排训练、测试,最后对优选出的特征子集检验,仿真结果表明,这两种特征选择方法均能够去除冗余特征而且能取得比使用特征全集更高的分类率。支持向量机的一种改进算法是简约支持向量机(Reduced Support Vector Machine,简称RSVM),该算法在训练集中任意选取一部分样本作为支持向量来求解无约束优化问题和构造非线性决策面,相对于求解支持向量机原问题的有约束非线性规划问题,减少了计算难度和计算时间,并且减轻了计算机的内存需求,比标准的SVM的性能在一定程度上有所提高。但是,由于任意选取的样本集不具有代表性,仿真结果缺乏稳定性,因此,本文提出利用减法聚类法分别找出数据集中每类样本的最佳聚类数目,再利用模糊C均值聚类法找出属于每类样本各个聚类中心的样本点,并从中选出一些样本点作为支持向量来改进RSVM算法,得到改进的简约支持向量机(Modified Reduced Support Vector Machine,简称MRSVM),以提高分类器的稳定性。仿真结果表明,MRSVM分类器同RSVM相比,对于同一测试数据集,运行程序所需要的时间少了,而且训练误差和测试误差也减少了很多。
其他文献
SKJ-PCI型数字随动系统是自动控制原理实验的重要实验设备,主要用来进行本科阶段数字随动系统的有关实验和研究。但这套实验系统的上位机软件实验内容覆盖面小,缺少综合设计
在航空航天控制、通讯系统以及工业生产等实际工程领域中,时滞现象是普遍存在的。时滞的存在使得系统的分析与控制器的设计变得更加复杂和困难,也是导致系统不稳定和系统性能
本文主要研究线性不确定控制系统的鲁棒容错控制问题。首先本文基于线性矩阵不等式方法和Lyapunov方法,分别对具有一定匹配条件及数值界的参数不确定关联系统,提出了此类系统
近年来,高功率超宽带脉冲辐射源在军事上和空间领域中的应用得到了人们广泛地关注。为了更好地发挥高功率微波在电磁辐射领域中的应用,需要一种高增益、方向性极强的天线充当
地理信息系统(GIS)是一种特定的空间信息系统,它可以将地图的视觉化效果和地理分析功能与一般的数据库操作(例如查询和统计分析等)集成在一起。这种能力使GIS与其他信息系统相
陪护机器人自主定位方法是当前研究的热点问题,也是机器人导航的关键问题。其面临的室内工作环境往往同时包含有未知的静态和动态障碍物,具有不确定性和未知性。本课题以国家86
随着网络技术的发展,利用双向宽带网络为家庭用户提供个性化的互动视频娱乐服务成为可能,并将成为未来3到5年最大的新兴产业机会。目前,DWDM、线速路由器等核心网络通讯技术
图像融合技术自提出以来,经不断发展完善,已成为信息处理领域中的有力工具。由于图像融合是将广泛空间内的图像信息加以综合研究,能够满足三维目标的多角度研究要求。并且图像融
作为一种先进的制造理念,知识化制造自提出以来一直受到学者们广泛的关注。自进化是知识化制造系统(Knowledgeable Manufacturing System,KMS)一个重要的特征,它着眼于制造系统
为了提高照明电器的节能控制能力,本项目针对传统电子镇流器的特点,在原先单点节能的基础上,提出了区域化、网络化多点节能控制的创新,并开发了电子整流器芯片的SMS通讯控制模块