支持向量机在不平衡数据分类中的研究与应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zkinchow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)是以统计学习理论为基础发展的一种机器学习算法,在分类问题中具有非常好的效果。但是当数据不平衡时,为了确保整体分类错误最小,分离超平面会向少类样本倾斜,从而SVM算法将无法得到满意的结果。本文基于SVM主要取决于少量边界的支持向量这一特点,通过对已有的经典算法的不足进行分析。提出了本文的改进方法:BOSMOTE,该方法步骤如下:(1)选取支持向量。对除噪后的数据运用代价敏感的SVM训练得出支持向量;(2)边界外抽样。将少类中的支持向量与其k近邻中的多类样本进行线性插值合成样本;(3)对合成的样本进行优化。向多类方向插值可能会产生噪声,因此选用粒子群算法优化选择合成的样本,从而确保抽样过程产生有效的点;(4)将合成的样本添加到数据集中进行SVM的训练,得出分类器。通过对KEEL不平衡数据库的9组公开数据集进行验证,分别以G-mean、AUC、f1为评价指标,将本文算法与经典的改进算法进行比较。结果显示,本文算法在大部分数据上的分类性能上都有较稳定的提升。在应用部分,针对现实中离职员工与未离职员工之间的类不平衡,将本文提出的改进算法应用于员工离职预警的研究。本应用所用的1100条数据来源于IBM Watson Analytics分析平台。通过对员工个人信息、职位信息以及和同事间的关系等因素建立模型。对员工未来是否会离职进行预测,并与员工真实的离职状况进行比较。从而可得本文提出的改进方法对模型性能提升具有有效性,通过比较其他改进方法的结果证明了本文方法的稳定性。
其他文献
央地关系视角下的“实验主义创新治理”是一种政策过程,能够在一定程度上诠释中国创新的兴起。基于国家创新型城市建设政策过程的案例能够发现,创新治理政策过程经历了“政策缘起与小范围试验”“政策试验适度推广”“成为政策法规并实现政策扩散”“地方反馈与跟踪监测”四个阶段,呈现出央地间频繁互动、分散决策下的自我纠偏和“分权—集权”转化等特点,反映了实验主义创新治理在我国情境下的适用性。因此,央地关系是创新治理研究不可或缺的视角。
厚皮甜瓜是重要的经济作物,但采后腐烂严重。虽然化学杀菌剂可有效控制厚皮甜瓜的采后病害,但存在农残、病原物产生抗药性以及环境污染等问题。因此,亟需寻求更加安全有效的
政务数据开放是改进政府服务效率、提高政务数据利用价值的重要手段,但政府部门由于业务“条块分割”、系统建设标准不一、数据质量参差不齐,导致政务数据开放效率低下的问题尤为明显,数据资源价值难以最大化挖掘。本文以具有政务数据开放先行经验的佛山市作为研究对象,选取国外的美国、英国和国内的上海市、贵阳市作为分析案例,结合公共管理学理论,对佛山市政务数据共享开放的工作机制、配套制度以及平台载体三个方面进行分析
当前,我国进入了深化改革的新时代,要推动经济社会持续发展,全面建成小康社会,打赢脱贫攻坚战,就需要打造一只能够肩负新时代历史使命、善于社会管理与服务的公务员队伍,公务
我国城市生活垃圾产生量增长迅速,严重危害了环境和居民生活条件,探寻减量化、资源化和无害化的处理方式是一项关乎生态文明和环境保护的重要课题。热解技术因其可以实现有价
液滴微流控是一项相对较新且发展迅速的技术,在物理、化学、生物医学以及光学等多学科交叉领域有着广泛的应用。然而,现有液滴生成装置复杂、价格昂贵、且液滴可控生成操作繁
四环素是一类广谱性的抗生素。如果使用剂量过大或者滥用,会造成其在食品中的残留,对人类健康产生不同程度的危害。因此,建立快速、灵敏的四环素残留现场检测方法对提高食源
SuperORV是一种新型的气化器,具有绿色经济、气化量大等优点。利用海水和天然气的温差能有效地将液化天然气气化成气态天然气。然而,SuperORV传热管的传热性能受操作条件和结
框撑墙是指在工厂预制的厚度200mm,孔洞率30%~60%的空心混凝土墙体,通常设置在装配式混凝土框架或替代装配式剪力墙中的砌体填充墙,墙体四角与结构相连,周边与主体构件之间留
当今社会通讯飞速发展,人类的学习和生活也因此日新月异地改变着。在全球化互联互通的背景下,信息技术传播的地位日益提高,因此大众对科普书刊译本的需求就显得尤为迫切。本