【摘 要】
:
对于不平衡数据分类来说,不同类别样本间数量的差异性,以及同类样本内部的信息缺失很大程度上制约了这些分类算法的准确性和合理性。虚拟样本生成技术可以有效的解决不平衡分类问题中由于样本数量差异而导致的决策面偏移的问题,同时可以有效的填补样本的信息间隔。在传统的不平衡样本分类问题的解决策略中,虚拟样本构建方法往往只是基于原有样本间的线性组合,由此而导致的数据特征过于单一的问题难以得到有效的解决。因此,本文
论文部分内容阅读
对于不平衡数据分类来说,不同类别样本间数量的差异性,以及同类样本内部的信息缺失很大程度上制约了这些分类算法的准确性和合理性。虚拟样本生成技术可以有效的解决不平衡分类问题中由于样本数量差异而导致的决策面偏移的问题,同时可以有效的填补样本的信息间隔。在传统的不平衡样本分类问题的解决策略中,虚拟样本构建方法往往只是基于原有样本间的线性组合,由此而导致的数据特征过于单一的问题难以得到有效的解决。因此,本文提出了 一种基于核密度估计(Kernel Density Estimation,KDE)和Copula函数的虚拟样本生成方法(Copula-KDEVSG)用以解决不平衡分类问题中的数据偏斜问题和信息缺失问题。根据核密度估计求得每一维数据的边际概率密度函数,并结合Copula函数构建联合概率密度模型。根据已构建的联合概率密度模型进行重采样,以生成新的虚拟样本。结合伪标记技术对虚拟样本进行进一步的优化,以此提出了改进的Copula-KDEVSG方法。并经过实验证实该方法进一步提升了生成的虚拟样本的质量。Copula-KDEVSG可以生成符合原始样本特征的虚拟样本,有效地填充样本间的信息间隔,进而提升分类器对于样本的学习能力。通过两个实际案例(核蛋白定位数据和钞票的小波变换数据),应用Copula-KDE生成的虚拟样本与SMOTE方法所生成的虚拟样本分别在四种分类器上进行对比试验,充分验证了该方法的有效性、实用性和先进性。实验结果表明,该方法生成的虚拟样本可以有效的保留原始样本的特征信息,提升分类器在不平衡样本下的分类表现,进而证明了所提出的虚拟样本生成方法的合理性和有效性。
其他文献
由于高中教育阶段有其特殊性,一方面高中生处于青春期这一人格发展和社会性发展关键期,另一方面他们担负着日益沉重的高考的巨大压力。因此高中班主任的专业发展水平对高中生的身心发展具有重要意义。班主任专业发展是针对班主任个体的发展过程,目的是促进每一位教师的终身发展,从而促进每一位学生的全面发展。班主任专业发展的内容包括专业知识、专业道德、专业能力等方面,是通过学习、实践和反思不断地自我提升、自我超越的过
维纳指标是以哈里·维纳的名字命名,并于1947年提出,在当时维纳指标被称为“路数”.在化学图论中,维纳指标是分子的拓扑指数,它定义为化学图中的分子中非氢原子的所有顶点之间最短路的长度总和.在数学领域,维纳指标则定义为简单图中所有顶点对之间的距离之和.在图论领域,大家都熟知树是发现早且结构相对简单的一类应用很广泛的图.它定义为一个连通的无圈图.在一个树T中的任意两点u和v,它们之间有且仅有一条路存在
谷胱甘肽(GSH)在医药、化学和生物等领域有着广泛的应用。谷胱甘肽易氧化、不易透过细胞膜、生物利用率低等问题在一定程度上限制了它的应用。因此,制备谷胱甘肽脂质体,获得谷
随着工业社会的高速发展,多环芳烃对水环境的污染问题日趋严重,对人体的健康也造成了极大的危害。TiO2光催化技术是用来处理多环芳烃废水的常见技术之一,但是在实际应用中纳
现实世界中的很多真实系统可以用复杂网络来刻画,为了研究的方便,将其构成单元抽象为复杂网络的节点、单元之间的关系抽象成复杂网络的边,研究这些复杂网络能让我们更好地认
外辐射源雷达是近二十多年来雷达领域热门研究课题之一,长期以来外辐射源雷达技术主要由西方国家主导研究,近年来我国部分高校和研究所等研究机构投入大量精力不断探索,也取
采用多光谱测试法及分子对接技术分别研究酰胺类农药(啶酰菌胺、环酰菌胺和磺酰磺隆)与BSA和DNA的相互作用机制,为农药的合理、安全使用及农药的微观致毒性评价提供理论及实验
碰撞是虚拟三维场景中的常见现象,准确而高效的碰撞响应可以有效提高虚拟场景的真实性。作为虚拟现实技术的重要组成部分,碰撞响应一直是一个研究热点,具有十分广泛的应用背景。针对大规模虚拟三维场景中刚体数目众多、尺寸差别大、外形不规则、运动状态不唯一等特性,本文利用分区并行计算以及基于约束的方法,设计并实现了一种动态刚体碰撞响应仿真方法。利用分割方法求取动态刚体的质量,并采用高斯通量定理计算动态刚体质心坐
复杂网络科学的发展,已经成为研究各种复杂系统的有效工具。利用复杂网络的理论和方法探究复杂系统,具有重要的理论意义和实际应用价值。其中:识别多影响力节点是复杂网络领
外辐射源雷达自身不主动辐射信号,利用第三方照射源进行目标定位和探测,相比主动雷达具有低成本、抗干扰、无环境影响等诸多优势。模拟调频广播信号由于分布广泛,发射功率大,