基于IV属性选择的随机森林模型研究

被引量 : 0次 | 上传用户:zgz000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。本文针对属性选择及分类问题开展了以下工作的研究:(1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性选择方法,探讨了它们的特点与不足。(2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS-IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。(3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS-IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS-IV约简的C4.5与朴素贝叶斯模型相比,在不损失精度的情况下,时间性能大幅提升。(4)根据高维、海量、流数据等实际问题,对FS-IV及IV-RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。
其他文献
大体而言,20世纪西方知识分子面对大众文化存在着四种姿态:批判、利用、理解和欣赏,其代表人物分别是阿多诺和利维斯主义者、本雅明和萨特、威廉斯和霍尔、费斯克。这些姿态
目的探讨自身抗体及AST/ALT比值测定在病毒性肝病中的应用及临床意义。方法方便选取2015年4月—2017年6月该院120例病毒性肝病患者为实验组,依据疾病类型分为慢性肝病、急性
在毒品犯罪中对行为人主观明知的认定历来是审判中的难点和重点,从心理学的角度来说,人的心理是可以通过其客观行为来知悉的,同时犯罪心理学更进一步为我们提供了了解行为人
21世纪随着世界进入"城市时代",人类的生存空间面临巨大危机。影响人类生存空间原因甚多,主要有三大因素:人口数量、耕地面积和城市化进程。随着中国城市化进入快速发展阶段,
我国《刑事诉讼法》对检察官在不起诉决定中的自由裁量权之适用范围规定得很窄。起诉法定主义并不符合刑罚上的教育改造目的,也不利于罪犯改过自新,且浪费有限的司法资源。因
历史街区和建筑是城市不可再生的历史建筑文化资源,必须进行有效的保护:同时,历史街区和建筑也是城市中具有活力的动态有机体,需要更新和发展。本文以建立系统科学的历史风貌
本文系统回顾了我国农业支持政策体系的主要构成部分和基本内容,结合经济合作组织(OECD)对农业支持政策的定义和测评方法,对我国2003年至2012年农业支持水平和农民收入之间的
综上所述,传统年画的特征及构图方式是中华民族劳动人民在长期的生活中智慧的结晶。表达了民众的思想情感和向往美好生活的愿望。民间年画历史源远流长,有着较多的产地,流行
在信息社会中,个人信息的保护对于个人信息的安全性起到至关重要的作用。本文分析了个人信息的界定与民法性质以及各国立法模式的区别,得出我国个人信息的民法保护应该借鉴立