基于粗糙集的不平衡数据采样方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:bob01109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类问题是机器学习领域里一个重要的研究内容。在不平衡数据中,样本在各个类别之间地分布是不平衡的。由于少数类样本数量稀少,用传统的机器学习方法在应对不平衡数据分类问题时会出现分类结果更多倾向于多数类,而少数类样本的识别准确率不高,对少数类样本识别困难。为提高少数类样本的识别率,研究人员在不同层面提出了解决办法,其中通过采样改变数据不平衡度从而改善少数类识别率的方法取得了比较广泛地应用,这其中最具代表性的算法就是SMOTE智能过采样算法。但是,SMOTE采样算法不加区分地对所有少数类样本采样,其采样范围过广。虽然能够达到提高少数类识别率的目的,但同时多数类的决策空间被新样本压缩,其识别率降低较大。因此采样前对需要采样的少数类样本进行筛选,研究有针对性的过采样方法很有必要。邻域粗糙集模型将粗糙集理论应用到邻域系统中,该模型以样本点及其邻域半径为基础,可以很容易得出整个不平衡数据集在特征空间的分布状态,如果能够把它应用到SMOTE采样算法中,则可能得到采样效果更好的采样方法。本文结合邻域粗糙集模型,开展了基于邻域粗糙集的采样方法的研究。首先,根据邻域粗糙集模型的理论,计算每个样本的邻域半径以及邻域,根据其邻域内的样本分布将不平衡数据集进行划分并得到属于边界域的少数类样本集与属于正域的多数类样本集。在此基础上,结合SMOTE采样算法,提出了基于邻域粗糙集的边界采样算法,即NRSBoundary-SMOTE算法。算法对边界域内少数类样本进行过采样,同时将合成样本与正域内的多数类样本进行比较,若合成样本属于某个正域内多数类样本的邻域,则进行重采样,否则将合成样本加入到训练集中。其次,在将NRSBoundary-SMOTE算法应用到大数据集上时出现了运行时间过长,执行效率过低的问题。因此本文结合MapReduce编程范式,提出了基于邻域粗糙集的并行边界采样算法,即Parallel-NRSBoundary-SMOTE。算法通过将数据集划分的过程与采样过程进行并行化,降低了算法的时间复杂度,有效改善在大数据上的计算效率。最后分别通过实验并将实验结果与其他算法进行对比分析,表明本文的采样算法能够更加高效地合成少数类样本,并且能够并行处理大数据,降低执行时间。
其他文献
“中国文化失语”是很多中国的英语学习者所面临的问题:他们往往对于西方文化了解深入,而对于如何表达中国文化却不知所措。同时,现有的英语教材中关于中国文化的题材比例也
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:探讨对维持性血液透析患者进行内瘘穿刺时,减少其渗血的穿刺技巧以及出现渗血时需要使用的护理方法。方法:收治进行维持性血液透析的患者52例,对减少维持性血液透析患者
自“十九大”首次提出以来,高质量发展已成为我国经济发展的“最大公约数”。高质量发展理念有着极其深刻的内涵,从企业经营层面理解,高质量发展包括质量过硬、效益突出,持续
大骨节病作为一种广泛分布的地方病,其发病率不仅与当地特定的地理环境有关,也与当地饮用水源的水化学成分有密切的关系。在若尔盖地区大骨节病情调查统计基础上,通过对该地
为了确定影响发电厂环境效率的因素以更好的改善电力行业的碳排放,第1阶段使用方向性距离函数方法评估全要素下发电厂的环境效率,第2阶段以效率值为因变量结合Tobit回归方法,
中国合成树脂供销协会组建正式获批据悉,在中国石油和化学工业联合会的支持与协调下,中国合成树脂供销协会已履行完成各项审批手续。国家民政部目前正式批准组建中国合成树脂供
动漫等新兴经济企业已成为全球经济发展的重要驱动力之一,但受国内环境、企业资源及认知等因素制约,该类企业如何实现成长成为学界关注的重要问题。环境不确定性导致动漫企业