基于数据关系的SVM多分类方法研究

被引量 : 17次 | 上传用户:hejunfeng206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何对大规模多类数据进行有效高精度分类是数据挖掘领域所要解决的重要问题,而待处理数据类间的关系提取则是该分类问题的关键。数据关系提取是指将待分类数据类间的隐含关系(包括属性、特征、边界等)找出,通过训练得到分类器(组)将不同类别的数据分类,而数据关系提取的优劣则会影响到分类结果。在解决现实问题及科学研究的过程中,多类数据分类问题也越来越受到研究人员的重视,许多高效地多分类算法也大量涌现。基于支持向量机(Support Vector Machine, SVM)的多分类方法是将SVM分类思想与多分类方法相结合,对数据样本之间的数据关系优化提取并训练出分类器组合。基于数据关系的SVM多分类方法充分将SVM良好的学习和分类能力与“一对一”思想相结合,对多类样本进行划分并从中获取冗余信息,从而优化分类器组,提高样本数据集分类精度。论文主要工作包括:(1)对已有的SVM多方法进行了分析总结,指出现有SVM多分类算法中存在的主要问题,并针对这些问题进行探索研究。(2)对不平衡数据分类问题进行了总结概括,指出现有不平衡数据分类方法的优势与不足,并针对这些不足提出改进策略。(3)提出一种针对于平衡多类数据的基于向量积的SVM多分类方法—DR-SVM学习算法,并对DR-SVM算法思想进行了研究和探讨。该方法使用基于向量内积的方法将待分类数据样本进行预处理,在预处理的基础上摒弃冗余信息,有效标注SVM的训练样本,优化分类器组模型,提高数据样本分类效率。(4)提出一种针对于不平衡的多类数据的基于空间扩展的SVM多分类方法——SS-SVM方法。SS-SVM方法首先利用基于空间扩展的方法对待分类数据进行预处理,增加训练集中少类样本的数量,降低分类不平衡度,提高少类样本的分类效率。(5)针对实验中出现的“小区块”问题、“冗余分类”问题、“绝对不平衡”问题等,在DR-SVM和SS-SVM的基础上进行改进和优化,参考和利用一系列的决策原则,并将这些原则应用到具体类别划分问题上。多分类问题是数据挖掘中是非常热门的研究方向,不平衡分类问题更是而今大规模数据时代非常重要研究热点。论文所做的研究在丰富SVM理论与应用研究的同时,也拓宽了不平衡问题和多分类问题的解决思路,具有重要的理论意义和实际应用价值。
其他文献
<正>秋季气候干燥,昼夜温差大,易感燥邪。燥邪性干涩,易伤津液,伤及人体,最易出现各种干燥、涩滞的症状。肺为娇脏,喜清润而恶燥,平素体虚者一旦感冒,容易出现咽干口渴,小便
<正>花椒是中国原产的,所以花椒的英文是Chi-nese Pepper,意思是"中国椒"。花椒去湿气的作用,在调料里头是最强的。应该在什么时候用花椒呢?看了下文您就知道了。花椒祛湿、
边裂是影响邯钢新区热轧卷板质量的一个重要因素。对热轧卷板边部裂纹缺陷取样,进行金相分析、扫描电镜分析、能谱分析,并对连铸板坯进行对比轧制试验,证实热轧卷板边裂是由
随着我国经济的快速发展,煤的消耗量在一次能源中所占比重日益增长。作为煤燃烧时产生的主要污染物之一的SO2排放量急剧增加。随着国家对环境保护的要求越来越严格,烟气脱硫在
介绍美国目前采用的四个医院质量评价体系,即美国年度最佳医院评价体系、美国百佳医院评价体系、国际医疗质量评价体系和医疗机构评审联合委员会评价体系。其中最佳医院评价
通过总结学术界对现代化医院的研究成果,运用系统论和专家咨询等方法,提出了构建现代化医院评价体系的技术线路,并对现代化医院的基本定义和评价维度进行了界定,指出人文型医
<正>在过去不到一年的时间里,蘑菇街从一个导购平台升级转变为垂直电商平台,交易额达到以往导入淘宝的规模(1000万元日均成交额),并因此获得投资者青睐,C轮融资金额超过2亿美
运用ProCAST软件对连铸方坯凝固过程进行仿真模拟,同时利用CAFE模块对连铸坯凝固组织进行预测,模拟结晶器有无电磁搅拌条件下连铸坯凝固组织。仿真结果表明,电磁搅拌明显缩小
随着中国城市化水平的提高,流动人口的增加,使得在中国的商品住房市场中存在着巨大的购房需求。但是过高的房价使得潜在的购房群体买不起住房。另外,商品住房市场的状况和宏
龙虎山是道教正一道天师派的祖庭,自东汉末年第四代天师张盛从汉中迁到龙虎山,历代天师华居此地,世袭道统,到清末有一千多年的历史。天师道在此地发扬光大,影响遍及全国,随着