【摘 要】
:
面向类别不均衡数据集的分类学习一直是数据挖掘和机器学习领域的研究热点。数据级、算法级和集成方法是目前解决类别不均衡学习的3种主流方法,其中欠抽样是类别不均衡学习一
【机 构】
:
中南财经政法大学信息与安全工程学院
【基金项目】
:
国家自然科学基金项目(61602518,71872180),中南财经政法大学中央高校基本科研业务费专项资金(2722019JCG074,2722019JCT035)资助
论文部分内容阅读
面向类别不均衡数据集的分类学习一直是数据挖掘和机器学习领域的研究热点。数据级、算法级和集成方法是目前解决类别不均衡学习的3种主流方法,其中欠抽样是类别不均衡学习一种常用的数据级解决方法,其缺点在于容易丢失多数类中部分有用信息。文中将谱聚类引入到成对数据表示的多数类欠抽样过程中,首先利用谱聚类方法,对多数类样本进行聚类,根据聚类簇大小和簇内样本点与少数类样本点的平均距离,在每个聚类簇内抽取不同个数有代表性的样本,并将簇内样本点之间及所有少数类样本点两两成对表示,从而有效降低了所有样本成对数据表示中两两组合而
其他文献
针对集成过程中基分类器的集成优先性缺少精确化度量而导致的模型选择严谨性不高、系统精简性设计难以实现的问题,文中提出了一种基于排序选择度量方式、自适应权重设置的集
依据音频无损检测原理,针对某火炮零部件(凸轮轴)硬度与音频参数的非线性映射问题,将ANN网络应用到音频检测中,同时采用改进粒子群算法(MPSO)优化BP神经网络结构和初始权值;MPSO算法
为了解决现有成果无法有效处理障碍环境下的线段组最近邻查询问题,提出了障碍环境中线段组最近邻查询方法。查询过程分为过滤阶段和精炼阶段两个部分。在过滤过程中,首先根据
随着互联网规模的膨胀,大量的实时应用部署在互联网上,这些实时应用对网络时延提出了更加严格的要求。然而,目前互联网部署的域内路由协议无法满足实时应用对网络时延的要求,
基于代码修改的缺陷预测,具有代码审查量少、缺陷定位和修复快的优点。文中首次将该问题建模为多目标优化问题,其中一个优化目标是最大化识别出的缺陷代码修改数,另一个优化
现有的推荐算法引入用户显式信任,可以有效地提高推荐精度,但没有充分挖掘社交关系,而间接信任在社交信息中具有更加丰富的潜在价值,进一步影响到推荐质量。虽然对于间接信任
近年来,随着Android系统的迅猛发展,其安全面临着极大的挑战。Android的安全包括系统安全和软件安全,系统安全是整个安全的基石,对整体安全至关重要。以TOMOYO Linux为基础,
安全带是保障驾驶员安全最有效的措施之一,我国法律明文规定驾驶员驾驶车辆时必须佩带安全带。目前,驾驶过程中安全带佩带的识别以人工筛查为主。随着汽车数量的飞速增加,传
在谱聚类算法中,相似图的构造至关重要,对整个算法的聚类结果和运行效率都有着巨大影响。为了加快谱聚类的运算速度和通过近邻截断提高其性能,通常选择K近邻(KNN)方法来构造稀
在基于知识的问答系统中,问句中的知识谓词信息分析结果将会对知识元组的整体匹配效果产生影响。中文短问句中的知识谓词的信息表达方式存在着不确定性,这些不确定性的表达增