基于非均衡数据的传统分类模型研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:liongliong432
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科技的迅猛发展和数据业务的不断增多,大量数据不断积累的同时数据类型也越来越多样化。其中具有代表性的非均衡数据现在越来越多的出现在医疗、金融、保险、生物等相关领域,给这些领域中实际业务数据的分类预测带来了困难。传统分类器的分类预测大都是基于均衡数据集,数据的非均衡性使传统的分类器忽视少数类样本,分类性能下降。本文对如何处理非均衡数据的相关问题进行了研究,主要从数据层面和算法层面来提高基于非均衡数据传统分类模型的分类性能,从而提升传统分类模型在非均衡数据集上的应用价值。本文的主要研究成果有:(1)在数据层面,本文提出了SMOTE-EN+F方法。该方法在SMOTE过采样法的基础上,结合Easy Ensemble欠采样法中集成(Ensemble)思想,以传统分类模型为子模型,以反映少数类样本分类性能的1F-value值为权重,改善了样本非均衡性的同时提高了传统分类模型的分类性能。通过UCI数据集的实验证明,SMOTE-EN+F法提高了BP神经网络、支持向量机(SVM)和Logistic分类模型对非均衡数据的分类性能。(2)在算法层面,本文研究了基于非均衡数据的Logistic分类模型,为了解决Logistic分类模型在处理非均衡数据时,默认阈值不能合理划分分类变量的问题,本文给出确定分类阈值的方法—置信度阈值法。此方法先计算非均衡数据中各分类样本的置信度,然后将样本置信度作用于默认阈值0.5上,使阈值带有样本信息,进而使得Logistic分类模型能有效的处理非均衡数据的分类问题。同样通过UCI数据集验证了置信度阈值法的合理性。最后,本文使用前面提出的SMOTE-EN+F法和Logistic分类模型的置信度阈值法,基于BP神经网络分类器、支持向量机(SVM)分类器和Logistic分类器,研究非均衡信贷数据中客户是否逾期的分类预测问题。实际应用得出:相比于SMOTE过采样法,SMOTE-EN+F法可以提升传统分类模型对信贷数据的分类准确度且能够更好的识别非均衡信贷数据中的逾期客户,同时得到基于SMOTE-EN+F的SVM信用评分模型;采用本文提出的置信度阈值法可以提升Logistic分类器在实际非均衡信贷数据集上的适用性。
其他文献
本研究以小学高年级学生为研究对象,他们处在青春早期,正是积淀知识和储备经验的关键时刻,也是心理问题比较突出的时刻,其家庭的亲子阅读仍然十分有必要,本研究探究其亲子阅
中国经济进入新常态,经济增速逐步放缓,中国制造业一方面面临劳动力等生产成本的上涨,另一方面产能过剩问题也日益严重。产能过剩形成大量的无用的生产能力,造成资源严重浪费,更可能进一步引发市场恶性竞争,严重的产能过剩还极有可能导致我国经济被低端锁定,在全球价值链分工中长期处于较低地位,无法改变在全球价值链中的被动嵌入者角色,缺乏经济发展主导性。要实现我国的“十三五”期间经济结构的调整和可持续健康发展,就
美育是语文教育的有机组成部分。通过阐述了美育在语文教育中的作用,分析了教师可以利用多媒体创设情境、借助文章字词句、发掘文章多面美及加强学生作文训练等多种方法来培
<正>所谓"心困生",是指在心理发展过程中出现困难,日常行为上表现有认知混乱、情绪异常、性格怪异和品德偏差等问题的学生群体。这些学生通常被称为心理困难生,简称"心困生"
对体育教学中排球扣球助跑起跳技术的分析,提出排球扣球教学是排球基本技术教学中最难的一项教学。建议:1.增强适应球能力的训练;2.熟练掌握助跑;3.增加助跑水平速度;4.掌握助跑起跳时
郸城,是豫东平原上一个不太有名气的县城,但因郸城县皮肤病医院的独特疗效和超高的治愈率,给白癜风患者披上了敢于在阳光下行走的勇气和信心而扬名在中原大地。位处县城的一家医
目的探讨妊娠期糖尿病孕妇血小板与凝血功能状态。方法妊娠期糖尿病孕妇、健康妊娠晚期孕妇与健康妇女各20例。检测所有妇女血小板4项与凝血5项。比较3组妇女血小板和凝血功
天天渔村是广东中山市知名度很高的餐饮企业,同时也是一个名声雀起的美食品牌。位于中山市小榄镇上的天天渔村小榄公饭店是“天天渔村”品牌之下五家店面中的后起之秀。“食客
上海安信农业保险公司作为我。国第一家“先行先试”的专业性农险公司已经走过了三载风雨历程。三年来,公司本着边实践、边探索、边发展的求实务实精神,以服务“三农”为己任,以
由国家出资成立或参股金融企业形成的金融企业国有资产是我国国有资产的重要组成部分,为规范金融企业国有资产的管理,本文建议由汇金公司作为统一的金融企业国有资产监督管理