混合型不平衡数据分类方法及应用研究

来源 :山西财经大学 | 被引量 : 1次 | 上传用户:szj188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类别不平衡分类问题广泛存在于金融、生物医学、信息安全等诸多领域,在信用风险评估、疾病检测等实际应用中,类别不平衡数据通常是分类型和数值型数据并存,将分类型数据数值化,会引入不合理的序信息,且假定不同分类型属性值间距离相等。不平衡数据本身的特性,如类别不平衡、类重叠、少数类样本过少等,是影响其分类困难的主要原因,也是影响数据复杂程度的重要原因。因此,对于包含分类型和数值型数据的混合型不平衡数据,在理解数据的复杂性的前提下,设计合理的数据组合映射方法,降低数据的复杂性,对于提升混合型不平衡数据的分类性能具有重要意义。本文针对混合型不平衡数据开展研究,其主要研究工作包括以下三个方面:(1)数据本身的复杂程度是影响分类性能的关键因素,针对分类型数据难以直接度量其复杂性的问题,本文考虑属性与类标签的特点,利用HVDM(Heterogeneous Value Difference Metric)距离度量方法,分别从三个角度提出了适用于混合型不平衡数据的复杂性度量方法,有效解决了具有分类型和数值型数据的混合型不平衡数据难以直接度量复杂性的问题。然后通过实验验证了所提方法的有效性,并最终得出结论:不平衡数据的复杂性可以使用多数类和少数类复杂性的差值来判断。(2)对于复杂性较高的混合型不平衡数据集,传统欠采样易丢失样本信息、过采样易加重两类样本重叠、产生过拟合等问题,本文结合分类型数据的特点,重点关注数据的不平衡性与类重叠,提出了ReSC数据组合映射方法。通过设计相应的样本组合方案,避免了对分类型数据进行数值编码,减少了类间样本的重叠,从而降低了混合型不平衡数据的复杂性。本文分别通过理论分析和实验分析验证了ReSC数据组合映射方法的合理性和有效性。(3)在金融领域中,信用风险评估数据具有混合型不平衡数据的特点,本文以其为应用点进行研究,采用ReSC数据组合映射方法对其进行预处理,并分别从数据复杂性的角度和分类性能的角度对其进行了实验分析,最终,通过实验验证了复杂性度量方法和ReSC数据组合映射方法在实际应用场景中的可行性。通过分析混合型不平衡数据的复杂性理解数据,采用ReSC数据组合映射方法降低数据复杂性,解决了分类型数据难以直接处理的问题。本文的研究对混合型数据的不平衡分类问题具有重要的理论意义和现实意义。
其他文献
近年来,随着党中央发布的一系列教育文件,为贯彻落实思政教育指明了前进方向。全国各高校也加大了思政教育进课堂的力度,形成了思政育人的大格局。篮球课作为全国体育院校学生必须学习的课程,在篮球课上如何将思想政治教育贯穿始终,是全国体育院校需要解决的重要问题之一。通过研究当前全国体育院校篮球课课程思政开展情况及存在问题,并提出实施路径构想,为全国体育院校篮球课融入课程思政理念提供一定的参考意见。本文主要采
通过分析大姚县高原特色农业发展现状、存在问题,提出加大财政投入,夯实农业基础;优化产业结构,集中打造优势特色产业;强化农业科技支撑,提高特色农业生产经营组织化程度,提
目的研究奥美沙坦酯片治疗轻、中度原发性高血压的降压有效率。方法本次纳入2018年6月至2019年5月收治的90例轻、中度原发性高血压患者展开研究,按照随机数字表法分为两组,对
目的探讨中药黄芪在心血管疾病临床治疗中的应用疗效。方法将108例心血管疾病患者随机分为观察组(中药黄芪+常规治疗)和对照组(常规治疗)各54例,观察两组患者的治疗恢复情况
工程咨询行业以企业资质管理为主的市场准入制度越来越制约其本身的发展,而工程咨询供给侧改革对行业发展提出了更高的要求。现行市场监管机制与供给侧结构改革要求之间的矛盾使得工程咨询行业对专业人士个人执业信用建设的需求越发迫切。现阶段工程咨询行业在个人层面还未形成一套专业人士执业信用管理体系。本文选取注册监理工程师为具体对象,探寻在淡化企业资质强化个人执业资格的过渡时期逐步实现个人执业信用的评价的可行路径
目的:探讨血小板4项参数及红细胞变形指数(DI),在糖尿病及其微血管并发症中的变化及意义.方法:分别应用全自动血细胞分析仪和激光衍射红细胞变形仪,测定100例糖尿病患者和80