【摘 要】
:
不平衡数据的分类问题在数据挖掘和机器学习领域中,一直是备受关注的问题.论文从数据预处理方面出发,提出一种基于谱聚类的欠采样方法,以此来降低数据的不平衡程度.先对多类样本进行谱聚类,根据每个聚类簇的密集程度,以及到少类样本的平均距离,来计算每个聚类簇的采样数目和选取怎样的多类样本,此欠采样方法可以有效去除多数类的冗余数据.实验结果证明,该算法可以有效提升少类样本的分类效果.
【机 构】
:
南京理工大学计算机科学与工程学院 南京 210094
论文部分内容阅读
不平衡数据的分类问题在数据挖掘和机器学习领域中,一直是备受关注的问题.论文从数据预处理方面出发,提出一种基于谱聚类的欠采样方法,以此来降低数据的不平衡程度.先对多类样本进行谱聚类,根据每个聚类簇的密集程度,以及到少类样本的平均距离,来计算每个聚类簇的采样数目和选取怎样的多类样本,此欠采样方法可以有效去除多数类的冗余数据.实验结果证明,该算法可以有效提升少类样本的分类效果.
其他文献
目标跟踪在智能监控、无人驾驶、航空航天等领域有广泛的应用,其目的是在视频每一帧中找到运动目标并用目标框将其定位出来,但由于运动模糊、外观变化、遮挡、光照变化和背景混杂等原因,跟踪器在跟踪过程中极易丢失跟踪目标。由于SiamRPN模型搜索目标区域面积较小,模型有丢失目标的风险,为了提高跟踪准确率和成功率,论文提出了一种扩大搜索区域的改进SiamRPN模型ACSiamRPN,利用目标在图像前后帧间的运
在无人驾驶技术发展的过程中,地图的匹配定位与其所指导的路径规划是十分重要的研究内容.路径规划的质量、总代价和稳定性往往与地图匹配定位的准确率有关.因此,论文使用正态分布变换算法进行基于高精度地图的无人车匹配与定位,然后将匹配误差引入路径规划代价函数.并引入道路危险系数的概念,根据匹配误差修改障碍物附近道路的危险系数,从而提高路径规划的稳定性和安全性.此外,论文进行了仿真实验,验证了算法的有效性.
在运动目标检测众多算法中,ViBe算法是一种快速并且高效的运动目标检测算法,在视频监控领域得到广泛的应用。但是这种方法存在对鬼影的消除速度缓慢,容易形成拖影,而且容易发生漏检,易受到噪音的干扰。当物体运动状态变化缓慢时,原位移区域会留下残影等现象。论文针对以上问题提出了一种结合三帧差分算法的改进的ViBe算法,改进背景模型的初始化来对鬼影进行消除,并且加快鬼影的消除速度。采用自适应阈值来提高检测效
论文中结合无人机在电力巡检中的应用以及无人机巡线的方式,引入了理想巡检路径,提出了一种基于人工势场的无人机航迹规划避障的改进算法;根据电力巡检无人机的应用场景对势函数进行了调整,并且引入无人机在理想航迹投影点的引力场,当无人机陷入U型障碍物时调整无人机对障碍物感知的范围,使无人机摆脱U型障碍物.该改进算法不仅可以提高无人机巡线的效率,也可以解决部分局部极小问题.最后通过二维平面轨迹规划问题的数学仿真,验证了该方法的有效性.
论文基于UVM验证方法学,以及覆盖率驱动的芯片验证指导思想,搭建并分析了高度可重用的以太网控制器IP的验证平台.为了提高验证效率,论文对MAC的工作流程进行了研究,对其功能点进行了划分,针对性地编写了测试用例.在测试用例的驱动下,对MAC的数据收发功能进行了全流程的仿真验证.在大规模随机测试用例和定向测试用例的共同作用下,加快了验证所需要的时间,节省了仿真所需的计算机资源,达到了功能覆盖率100%的目标.
为了将词义信息和语义信息更好的与句子进行融合,论文提出一种基于词义增强和注意力机制的Twitter情感分析方法.通过对Twitter中的单词进行词义和语义信息的补充,增加词向量的维度来增强语义;把扩充后词向量表示的文本与情感强度进行配对输入到双向注意力机制的长短时记忆网络(BiLSTM)中.在Twitter数据集上进行普通情感分类、普通情感回归分析、基于Valence-Arousal的维度情感分析.实验结果表明,论文提出的基于词义增强和注意力机制的文本情感分析模型相比于其他模型具有更好的效果.
按照不同不平衡数据集在面对四类分类情况时侧重点的不同,构造出一种适用于不同特征不平衡数据的分类评价指标,并围绕此指标调整弱分类器权重及样本权重,改进集成算法中的AdaBoost算法,使其自适应不同特征的不平衡数据集分类.选择决策树算法作为基分类器算法进行仿真实验,发现使用AdaBoost算法和GBDT算法后准确率降幅较大,而改进的PFBoost算法能够在保证准确率的情况下显著提升F1值和G-mean值,且在绝大多数数据集上的F1值和G-mean值提升幅度远超其它两种集成算法.
针对常用方法无法准确度量多元时间序列相似程度的问题,提出一种基于多维分段和动态权重动态时间弯曲距离的多元时间序列相似性度量方法.首先对多元时间序列进行多维分段拟合,选取拟合段的斜率、均值和时间跨度作为每一段的特征,在对多元时间序列降维的同时也保留了变量之间的相关性;然后提出一种动态权重动态时间弯曲距离度量方法计算多元时间序列特征矩阵之间的距离,避免了直接使用动态时间弯曲距离造成的畸形匹配问题.最终实验结果也验证了该方法在多种类型的数据集上都能取得较高的度量精度,表明了该方法的有效性.
针对各导航软件快速给出私家车出行最佳路线却无法满足用户个人偏好的问题,论文基于2017年11月全国8186台私家车的出行轨迹,提出一种个性化路线推荐的优化方法.通过混合高斯模型拟合偏好分布,分析相关性找出与当前用户偏好和出行时间最为相近的轨迹,最后从中选择一条最符合用户需求的路线.与DAI方法相比,推荐路线匹配度高于80%的推荐轨迹高出了47%,推荐准确度也有了大幅度的提高,准确度对比平均值达到1.102.
中西医在线问询意图的自动识别是捕获患者核心需求、提高在线问询效率与质量的一个关键环节.提出结合句法结构的图编码分类模型SGM,第一步利用ddparser解析短文本的句法结构,抽取表达文本核心内容的主、谓、宾短语,得到句法依存关系图,进而采用双层图卷积神经网络编码得到128维的文本特征向量;第二步使用SVM、Bayes等分类器完成16597条患者问询意图分类.选取脱敏的中文在线问询数据集开展实验,结果表明SGM分类效果最佳,较直接进行机器学习模型分类的F1值可提高17.6%;较融合句法结构的神经网络(BiG