【摘 要】
:
不平衡数据分类是数据分析和机器学习的重要研究对象。类内的、类间的分布不均以及稀有样本均会导致模型训练结果不理想。本文以Leading-Club不平衡数据为研究对象,提出了重
【基金项目】
:
江苏省大学生创新创业项目(201914160015Y)
论文部分内容阅读
不平衡数据分类是数据分析和机器学习的重要研究对象。类内的、类间的分布不均以及稀有样本均会导致模型训练结果不理想。本文以Leading-Club不平衡数据为研究对象,提出了重新划分数据的方法。一是对样本进行有效缩减,通过聚类算法有效提取未违约数据的共性,结合欠采样方法,保留有效特征;二是平衡分类信息,考虑类内的不平衡分类会导致模型难训练,为此借助特征相关性方法对不平衡分类重新进行划分。实验结果表明:通过这两种方法研究分析不平衡数据的违约与未违约占比,采用数据比为6.8∶3.2时模型训练最好,对比原始训练数据
其他文献
理论创新是其他一切创新的基础和先导.理论创新有两种模式,即肯定性-累积性创新和否定性-批判性创新.两种模式相反相成.推进理论创新,必须坚持以马克思主义为指导,坚持解放思
文章介绍了2008年年初湖南郴州电网冰灾期间的3次黑启动情况,分析了3次黑启动的特点,总结了3次黑启动成功的经验,并对灾难天气导致电网大面积停电后黑启动应对措施提出了建议。
2007年12月31日,龙源集团首个生物质发电示范性项目——东海龙源2×12Mw秸秆发电工程一号机组成功并网发电。
我先于大家阅读了国君先生即将结集出版的散文集《西窗剪烛》。读罢掩卷沉思,很有些不同于一般的感受。
一位参加“中国新闻奖”评选工作多年的同志对笔者说,在历年参评的作品中,有一部分作品就其主题、内容都是不错的,但由于稿件有些地方或文字粗糙,或事理衔接欠佳,或内容不够简洁,尽
新闻播报在现今更多的是要传达即时信息、事件和先进思想。更多的是代表党和国家的意志和思想倾向,所以新闻播音员对每一篇要播出的新闻稿件要进行高度的理解和分析,为在镜头前
公元后第二个千年的开端,正是中国北宋开国不久,呈现出一派文明昌盛的景象。在此后的1000年中,火药、印刷术、指南针广泛运用,典籍文化、医药文化、建筑文化和文学艺术各领风骚。思想
报告3例经手术病理证实的肾上腺髓性脂肪瘤。该病为一种少见、无功能的良性肿瘤,无特有的临床表现,诊断依靠影像学检查,B超检查为首选,CT及MR中有特征性表现。对于肿瘤直径>3.5cm或有临床症状