【摘 要】
:
伴随着数据收集技术和互联网科技的不断进步,欺诈交易检测、网络入侵检测、web挖掘、直接营销和医学诊断等领域显现出越来越多的不平衡数据分类问题亟待解决。在本文中,我们
论文部分内容阅读
伴随着数据收集技术和互联网科技的不断进步,欺诈交易检测、网络入侵检测、web挖掘、直接营销和医学诊断等领域显现出越来越多的不平衡数据分类问题亟待解决。在本文中,我们着重关注不同分类算法对不平衡数据分类问题的改进情况。针对不平衡数据,在总结以往给训练样本分配不同权重和对原始数据重复采样的两种传统方法的基础上,引入2002年Chawla等人提出的模拟少数样本过抽样算法(SMOTE)及2009年Shengguo Hu等人针对SMOTE提出的改进形式(MSMOTE),以此来对数据类别的平衡性进行预处理;其次选取代表性的分类算法引入Boosting循环,通过增加错分样本再次被抽取的权重的方式来提高少数类样本分类的准确度,并将SMOTEBoosting模型应用于财务预警领域。文中涉及的分类算法从经典的Logistic回归、线性判别分析等传统统计模型延伸到机器学习领域的决策树、K近邻以及近些年新兴的并且备受各界关注的支持向量机和神经网络等算法模型。在模型的对比和评价方面,由于不平衡数据集中多数类数据的数量明显高于少数类,即使分类器把全部样本都标记为多数类也会实现很高的精度,因而使用通常的预测精度这一评价指标并不合适。本文引入针对少数类分类的评价指标:精确率、召回率、F得分以及ROC曲线和AUC数值,对不同分类模型针对不同数据集的分类表现情况进行多角度的对照分析。
其他文献
在分税制改革及旧预算法背景下,随着城市基础设施建设的不断推进和深化,政府平台公司融资需求依然巨大;但在经济增长总体放缓,企业去杠杆、防范金融风险、逐步化解政府隐性债
目的对比单独应用595 nm脉冲染料激光、单独应用0.5%噻吗洛尔滴眼液及两者联合应用3种不同方案治疗浅表性婴幼儿血管瘤的疗效。方法以2018年6月至2019年6月于山东大学齐鲁儿
3月8日,江西宜春城区官山路某小区一粗心女司机因挂错档,造成小区围墙被撞倒一块,车身成半挂式悬挂在围墙上,现场砖墙散落一地。原来驾驶员张女士,当时正准备倒车入库,观察到
我国目前直接选举制度中的选区划分既有优点也有弊端,需要通过解决城乡选民和代表的权利平等、逐步实行小选区制、从此地域和职业划分办法结合逐步过渡到以居住地划分为主等手
介绍了中国石化石油化工科学研究院开发的SM GF-4汽油机油复合添加剂和油品配方技术。采用该技术生产的油品模拟试验性能和物理化学性质均能满足SM GF-4规格指标要求,该油品
在初中《中国地理》教学中,“降水”、“河流”、“水资源”、“水田、旱地、林地、草地的分布”、“种植业”、“林业、牧业”等诸多知识点之间存在着密切的联系。举例来说,“
现代学徒制适用于职业教育中各个专业领域,会计专业是我国职业教育中社会经济领域较为热门的专业,一直以来备受青睐。如今我国会计行业出现低端人才供大于求,高端人才供给短
社会经济迅速发展,居民生活质量逐渐提高,人们对食品的要求逐渐提高。食品安全是社会关注的热点问题,相关的检测机构对食品中微生物的检测要求越来越高。本文阐述了食品微生
在司法实践中,由于立法不完善、抗诉运行机制不畅等诸多因素的影响和制约,导致二审抗诉存在一些难题.我国《刑事诉讼法》一方面将二审抗诉的启动权赋予地方各级人民检察院,另
网络媒体语言正在广泛地被大众使用。直白少饰是网络媒体语言的一个基本特征,本文以网络新闻里出现的媒体语言"顶牛"、博客评论语言、网络新闻标题语言、pk、炮灰等为例来说