不平衡数据集分类及相关问题研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:wuddy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集分类问题是数据分类领域的研究热点。利用过采样技术对不平衡数据进行预处理从而帮助分类器识别出更多的少数类样本是一种常见的解决办法。由于已有的过采样方法普遍存在无法让数据集在平衡化处理前后数据密度趋于一致、产生新样本的区域过小、采样倍率较高时样本容易重叠等问题,所以本文针对以上问题进行改进而提出新的过采样算法以便更好地完成不平衡数据集分类任务。针对数字型的不平衡数据集,本文提出了两种全新的过采样方法以对数据集进行平衡化处理。因为文本型数据进行线性插值可解释性差,所以针对不平衡的文本型数据集分类问题本文提出了一种改进的文本表示方法来改善不平衡的文本数据分类结果。为了更好地解决不同类型的不平衡数据集分类问题,本文主要做了以下工作:1.针对现有过采样方法存在抽样前后数据密度不一致、抽样权重分配不合理、数据集稀疏性评价不合理等问题,本文利用样本间的最小距离来衡量数据集的稀疏性,并且距离越远的邻居越先被用于抽样,从而提出了一种基于少数类样本间最小和最大距离的过采样策略。这种过采样算法使得分类器在经过平衡化处理后的数据集上进行训练后能够识别出更多的少数类样本,并且正确识别多数类样本的能力也没有被削弱。2.针对SMOTE选择一个辅助样本会使新样本的合成空间较小导致采样倍率较高时容易产生样本重叠的问题,本文提出选择两个辅助样本与一个根样本形成一个三角形,从而扩大新样本合成的区域以降低样本重叠的概率,并且从边界样本中选择辅助样本使边界线更加清晰。实验结果表明,在14种不平衡数据集中85.7%的数据集上获得的G-mean值和78.6%的数据集上获得的F1值有所提高。3.由于文本进行线性插值可解释性差且文本表示是文本分类的重要环节,所以本文从文本表示入手解决不平衡的文本数据集分类问题。根据现有文本表示方法未充分考虑特征项区分各个类别的能力,提出一个新的概念类区分能力,并将它运用于不平衡数据集的文本表示。以TF-IDF算法为载体提出TF-IDF-ρ算法为各个特征项分配权重。F1值和召回率均有提高证明了本文提出的改进方案TF-IDF-ρ确实能够提高不平衡的文本数据集分类效果,其中F1值最高提升了4.07%。
其他文献
胡锦涛始终高度重视非公有制企业党建工作,针对非公有制企业党建工作薄弱的现状,科学界定了非公有制企业党组织的地位,提出构建非公有制企业党组织覆盖网、构筑社企统筹党建工作
生产电炉炼钢用超高功率石墨电极需要优质针状焦.中国对国产针状焦的需求将随着中国钢铁消费的增加而大量增加.介绍了R&D公司开发的一套评价焦炭生产石墨电极适用性的中试方
目的对中国恒河猴主要组织相容性复合体(MHC)I型部分基因进行携带情况调查与分析。方法采用序列特异性引物(PCR-SSP)分型方法对华南灵长类动物研究中心繁殖的30只谱系清晰的
分析了政策、技术、经营等因素对黑龙江省粳稻米加工业发展的影响,为黑龙江省粳稻加工业发展的基本思路与对策的提出提供了重要参考。 The influence of policy, technology
目的:探讨基于信息技术的医疗设备管理新模式,提高医疗设备管理效率。方法:在分析医疗设备管理现状的基础上,将电子签名技术、大数据分析技术、物联网技术、人工智能及云服务
文章首先概述了功能材料课程特点,然后阐述了功能材料课程思政的目标,最后提出了功能材料课程思政的措施,包括依照思政目标,修订并完善教学大纲;梳理教材内容,挖掘课程思政的
随着市场需求的日趋多样化和个性化,越来越多的制造企业采用了面向订单生产(MTO)的制造策略来满足客户的需求,同时这种生产策略也有利于制造商有效地降低库存成本。为了提高
油茶(Camellia Oleifera)是中国独特的经济树种,它的栽植可追溯到2000多年前。良种是种养业的核心,优树是培育良种的基础材料。本研究从广东省的油茶资源中筛选出优树,在各个
对CSSCI(2014-2015)来源期刊目录中的533种期刊的开放获取(OA)状况进行了调查,试图全面地分析中文社科期刊的OA现状。调查内容包括中文社科类OA期刊数量、上网形式、地区分布
上世纪九十年代以来,伴随着中国现代化进程的推进,城市化的发展对中国乡村的影响日渐加剧。在这一过程中,中国乡村中传统文化形态与结构组织正在被逐渐消解,故而“去乡村化”