基于不平衡数据集的机器学习算法研究

来源 :统计与决策 | 被引量 : 0次 | 上传用户:xiaojas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。
其他文献
在室温下用钛酸四丁酯的醇溶液和碱土金属硝酸盐M(NO3)2(M=Mg,Ca,Sr,Ba)溶液的反应经过溶胶-凝胶法制备了多氧钛酸盐。在酸性条件下所获得的无定形凝胶在700和900℃温度之间煅烧制得了高纯MTiO2晶体粉末。用粉末
文章对改造后的提升机制动系统的工作原理作了简单说明,从理论上提出了改造后主要参数的详细计算方法,总结了改造后制动系统的优点.
本文描述了对矿井火灾的发展过程进行数学模拟的软件系统,本系统充分利用了计算机网络和可视化技术,对模拟计算过程进行了并行化设计及可视化表达,在运算速度,精度,可操作性等方面
针对影响沥青混凝土搅拌设备干燥滚筒热效率的因素进行了分析,重点介绍了燃烧系统、排气系统、生产原材料等外部因素对干燥滚筒热效率造成的影响,并且也论述了由于干燥滚筒自身
提出了一种目标规划方法来解决各生产形式成本、客户需求和机器能力均含不确定参数的多目标多产品综合生产计划的决策问题。通过对区间数的优化处理和合理的目标规划,将不确
日前,两年一度的ANKOMAK展在土耳其第一大城市伊斯坦布尔的CNR展览中心拉开帷幕。来自西欧、北美及远东地区的专业观众30,000余人参加了展会。
以具体现场测试实例为依据,介绍了一种简单、可行的煤矿主要通风机现场性能测试方法,并对气动部分的数据进行了处理。
5月11日,由山河智能主办,济南嘉日隆工程机械有限公司协办的“山河智能山东新品发布会”在烟台龙口举行。本次活动展示的山河智能面向国内小型挖掘机市场推出的“N9”系列挖掘
由于生产的转移及瓦斯涌出量的增加,目前的矿井通风系统已不能满足需要,必须进行通风系统改造。文章提出了改造方案,并对拟采用方案进行了经济预测分析。
介绍和分析了平煤集团公司大倾角三软煤层综采支架的改造及实际应用情况和管理方法。