融合级联上采样与下采样的改进随机森林不平衡数据分类算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:HYB1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题。为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法。该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样。首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法。此外,以G-mean和AUC为评价指标,在15个
其他文献
文本匹配是检索系统中的关键技术之一。针对现有文本匹配模型对文本语义差异捕获不准确的问题,文中提出了一种基于细粒度差异特征的文本匹配方法。首先,使用预训练模型作为基础模型对匹配文本进行语义的抽取与初步匹配;然后,引入对抗学习的思想,在模型的编码阶段人为构造虚拟对抗样本进行训练,以提升模型的学习能力与泛化能力;最后,通过引入文本的细粒度差异特征,纠正文本匹配的初步预测结果,有效提升了模型对细粒度差异特征的捕获能力,进而提升了文本匹配模型的性能。在两个数据集上进行了实验验证,其中在LCQMC数据集上的实验结果显
现代信号处理中,越来越多的领域都需要存储和分析规模大、维度高、结构复杂的数据。张量作为向量和矩阵的高阶推广,在保证原始数据内在关系的前提下,可以更为直观地表示大规模数据的结构性。张量填充作为张量分析的一个重要分支,目前已被广泛应用于协同过滤、图像恢复、数据挖掘等领域。张量填充指从被噪声污染或存在数据缺失的张量中恢复出原始张量的手段,文中着眼于当前张量填充技术中时间复杂度较高的缺点,提出了基于耦合随机投影的张量填充方法。该方法的核心包括两个部分:耦合张量分解以及随机投影矩阵。通过随机投影矩阵,文中将原始高维
针对卷积神经网络对特征信息学习不全面、识别准确率和分类精度不高的问题,提出一种采用空间通道挤压激励模块的scSE_MVGG网络,将其应用于肝硬化识别。对肝硬化图像进行数据增强,以避免深度学习训练出现过拟合现象,改进VGG网络使其适应不同实验样本尺寸,同时将scSE模块与改进的MVGG网络相融合,通过提高网络提取特征的指向性增强肝硬化识别效果。实验结果表明,该网络对肝硬化图像的识别率达到98.78%
针对RFID设备在读取标签信息时产生的高度冗余会造成实时传输压力、存储空间浪费和上层应用分析结果不可靠等问题,提出一种动态附加布隆过滤器算法(Dynamic-Additional Bloom Filter, DATRBF)来清除RFID冗余数据。首先结合RFID动态数据流特点,利用时间和阅读器因素的影响设计了基础布隆过滤器(Time-Reader Bloom Filter, TRBF),然后根据定
随着电力系统、交通系统、通信系统等基础设施网络的广泛使用,提高复杂网络的鲁棒性具有重要意义。重连机制是一种高效且简洁的方法,常用于提高网络的鲁棒性。基于0阶零模型的重连机制通过对边的随机删除和创建操作来提高网络的鲁棒性,其尽管保持了网络的边数,但会引起节点的度值发生变化,如基于香农熵的重连算法;基于1阶零模型的重连机制通过随机选择两条边进行换边操作来提高网络的鲁棒性,其尽管保持了网络的度分布,但随机选边难以准确找到合适的节点,增加了算法的时间成本,如基于最大连通分支的重连算法。因此,为了保持网络的度分布且
随着机器学习技术的快速发展,越来越多的机器学习算法被用于攻击流量的检测与分析,然而攻击流量往往只占网络流量中极小的一部分,在训练机器学习模型时存在训练集正负样本不平衡的问题,从而影响模型训练效果。针对不平衡样本问题,文中提出了一种基于变分自编码器的不平衡样本生成方法,其核心思想是在对少数样本进行扩充时,不是对全部进行扩充,而是分析这些少数样本,对其中最容易对机器学习产生混淆效果的少数边界样本进行扩充。首先,利用KNN算法筛选出少数类样本中与多数类样本最近的样本;其次,使用DBSCAN算法对KNN算法筛选出
视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获得高质量的答案。文中提出了一个通过利用局部和全局帧级别的视觉信息来进行视频问答的多共享注意力网络。具体来说,以不同帧率提取视频帧,并以此提取帧级的全局与局部视觉特征,这两种特征
文中旨在设计一种可以自动评估图像质量,并达到与人类视觉系统相一致的客观评价算法。针对大多数传统的全参考图像质量评价方法只在空域中分析图像,并且在池策略上存在不足,文中提出了一种基于随机森林的空域-频域联合特征全参考彩色图像质量评价方法。该方法首先在空域上提取色度和梯度特征,刻画图像的颜色信息和空间结构信息;在频域上提取log-Gabor滤波器组响应后的纹理细节信息以及空间频率特征,将二者作为联合特
近年来,深度学习被广泛应用于图像超分辨率重建。针对基于深度学习的超分辨率重建方法存在的特征提取不充分、细节丢失和梯度消失等问题,提出一种基于通道注意的递归残差深度神经网络模型,用于单幅图像的超分辨率重建。该模型采用残差嵌套网络和跳跃连接构成一种简洁的递归残差网络结构,能够加快深层网络的收敛,同时避免网络退化和梯度问题。在特征提取部分,引入注意力机制来提升网络的判别性学习能力,以提取到更准确、有效的
在移动边缘计算(MEC)服务器计算资源有限且计算任务具有时延约束的情况下,为缩短任务完成时间并降低终端能耗,提出针对卸载决策与资源分配的联合优化方法。在多用户多服务器MEC环境下设计一种新的目标函数以构建数学模型,结合深度强化学习理论提出改进的Nature Deep Q-learning算法Based DQN。实验结果表明,在不同目标函数中,Based DQN算法的优化效果优于全部本地卸载算法、随机卸载与分配算法、最小完成时间算法和多平台卸载智能资源分配算法,且在新目标函数下优势更为突出,验证了所提优化方