【摘 要】
:
单一的传统分类器在处理不平衡数据时,对少数类的分类存在较大误差,效果往往不够理想,为了提高少数类和整体的分类性能,提出一种融合集成思想的不平衡数据分类方法。该方法首先对多数类样本进行过采样,与少数类样本组成类平衡的数据集;其次,从数据和算法的异质性出发,集成多个基分类器,利用集成后的算法改变数据分布。实验结果表明,该方法能够有效提升分类器的AUC、G-mean和F-measure,在实验数据集中最高提升了16.7%、21.9%和20.2%。在处理不平衡数据时,该方法能够改善分类器对少数类和整体的分类性能。
【基金项目】
:
云南省人民政府发展研究项目(YNDR2017G1C06)。
论文部分内容阅读
单一的传统分类器在处理不平衡数据时,对少数类的分类存在较大误差,效果往往不够理想,为了提高少数类和整体的分类性能,提出一种融合集成思想的不平衡数据分类方法。该方法首先对多数类样本进行过采样,与少数类样本组成类平衡的数据集;其次,从数据和算法的异质性出发,集成多个基分类器,利用集成后的算法改变数据分布。实验结果表明,该方法能够有效提升分类器的AUC、G-mean和F-measure,在实验数据集中最高提升了16.7%、21.9%和20.2%。在处理不平衡数据时,该方法能够改善分类器对少数类和整体的分类性能。
其他文献
为提升BP神经网络对PM2.5浓度预测的准确度,提出一种基于遗传算法的多因子PM2.5浓度预测模型。利用遗传算法的全局搜索特性,得到最优的BP神经网络的初始权值和阈值,针对网络结构设置3个隐含层,提高特征学习能力,更大程度拟合非线性函数,并将模型用于预测。实验结果表明,该方法对于PM2.5浓度的预测精度达到98.5%,比传统方法提高3.6%,具有较高应用价值。
A/B检验主要用于考察相对于原方案A,改进方案B是否更优。重点研究新旧版本网页点击率的贝叶斯A/B检验问题,通过建立起二项分布下的二元Logistic回归模型,结合拉普拉斯近似及重要性抽样技术,成功计算出边际似然并最终得到贝叶斯因子。而贝叶斯因子是贝叶斯A/B检验的核心,经典的A/B检验仅考虑A、B方案是否相等,基于此进一步考虑两者谁更优的问题。研究结果表明,对网页的改版并不能有效地增加用户点击率。
大数据在高效驱动教育管理与教学改革的同时也带来了数据管理及有效应用问题。区块链技术作为一种新兴的去中心化底层数据治理技术,为教育数据的管理及应用提供了新的思路与方法。从区块链技术在教育数据治理应用中的理念逻辑、技术逻辑和应用逻辑出发,借鉴巴西区块链技术在高等教育学位和学分治理中的经验,探讨了区块链技术在教育行政治理、高考综合素质评价治理、学术研究治理和在线教育治理中的应用路径。
组合优化(CO)是运筹学的关键部分之一,近年来引起了学术界的极大兴趣。常见的解决此类问题的方法多数涉及到人工设计的启发式方法。因此,如何利用强化学习(RL)的决策过程生成CO问题的可行解,以及RL能否代替传统方法也是当前研究的重点。主要介绍CO与RL的基本定义、CO与RL框架之间协同作用的分类,最后探讨将CO与RL相结合的研究前景。
“中国制造2025”战略推动智能制造快速发展,面对由此带来的科技革命和控制系统网络化浪潮,设计了一款嵌入式以太网串口服务器。基于STM32系列芯片、RS232/RS485电平转换芯片和以太网控制芯片,以轻量化IP/TCP协议LwIP协议栈为基础,实现串口服务器的软件设计。该嵌入式以太网串口服务器将RS232和RS485串口通讯与以太网连接,通过自动化软件进行统一管理,与传统的以太串口服务器相比具有成本低廉程序简明之特点。
为了解决压缩采样匹配追踪(CoSaMP)算法在观测值固定时重构概率随着稀疏度的增加急剧下降问题,基于最优选择思想和回溯思想设计一种最优选择的压缩采样匹配追踪(OSCoSaMP)算法。在每次迭代过程中,从支撑集中选出最优的支撑,同时采用回溯思想剔除错误原子,分别测试不同稀疏度和不同观测值下的重构概率。仿真结果表明,该算法重构概率与OMP和CoSaMP算法相比有所提升。OSCoSaMP算法在稀疏度50时的重构概率保持在90%以上,当观测值大于70时重构概率在90%以上。OSCoSaMP算法能够有效提高一维信号
转向架作为地铁整车部件中最重要的部件之一,其性能好坏决定了列车的运行安全,因此对转向架进行故障监测具有重要的工程意义。提出基于粒子群算法(PSO)优化深度置信网络(DBN)结构的模型即PSODBN,采用连续性变量构造个体的方式,结合粒子群算法进行迭代训练,做到降低输入层特征维数和各隐藏层神经元数目优化设置。在MNIST手写体数据集上进行实验,结果表明,相较于传统结构,PSO-DBN在错误率和训练时间上分别降低了0.83%、37.08s,验证了PSO-DBN模型的优越性。将PSO-DBN引入到地铁转向架故障
将递归神经网络(RNN)应用于意图检测和槽填充已实现较好的识别效果。传统Slot-Gated模型旨在将意图特征融入槽位识别中,但未能将文本标签信息作为模型先验知识传入模型参与训练。在Slot-Gated模型的基础上,通过意图标签信息构建一种基于注意力机制的意图列表查询模块,并通过全局优化的方法提升模型意图识别以及意图与槽填充联合准确率。通过与Slot-Gated模型进行对比实验,该方法在ATIS数据集上的意图及联合准确率分别提升了1.1%和1.5%;在Snips数据集上,意图及联合准确率分别提升了0.3%
疫情期间全国高校纷纷开展在线教学活动.采用问卷调查和文献调研法,通过对国内外在线教育发展脉络梳理,对第一参与者的调查以及对在线教育相关课题文献进行总结,多角度理出在
Babbling Idiot故障一旦发生,通信总线上的各节点可能产生灾难性后果。分析产生Babbling Idiot故障的软硬件原因,使用FlexCAN主副通道容错模型与改进的CAN总线标识符自减策略,解决Babbling Idiot故障并缓解CAN总线拥堵。利用CANoe工具和3个节点的磁悬浮小球控制系统进行仿真实验,对比分析正常状态与故障状态下控制系统的各节点状况。结果显示,该模型可屏蔽产生Babbling Idiot节点,防止总线受到影响,且CAN总线标识符自减功能减少了低优先级报文被阻塞的次数,缓