基于hubness与集成学习的高维不平衡数据分类算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhaohongjie0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集技术的不断发展,实际应用中收集到的数据逐渐呈现规模大、维度高和不平衡的特点。高维不平衡数据学习在许多重要应用中非常普遍,这也对传统的数据挖掘与机器学习算法提出了不小的挑战。现有的方法通常先采用降维技术来处理维数灾难,然后运用传统的类不平衡学习技术来解决类不平衡问题。但是,降维可能造成信息损失问题,而不平衡数据中少数类数据的丢失将更容易导致分类的错误。Hubness现象是高维空间中的固有现象,即某些样本频繁地(或很少地)作为其它样本的k最近邻居出现。因此,本文考虑从hubness现象入手,针对高维不平衡数据中普遍存在的维度灾难与类不平衡分布这两大问题展开研究,从新的角度来解决数据的高维不平衡问题,论文主要包括以下三个方面的工作:(1)针对高维空间中学习不平衡问题,提出了一种基于hubness与过采样的集成分类算法HIBoost。该算法考虑了维度灾难中的hubness现象,即高维空间中普遍存在奇异点(hubs和antihubs),这些奇异点频繁(或很少)出现在其他点的k近邻中。对于高维空间产生的hubs和antihubs,算法在权值更新过程中引入了一个影响因子来限制它们的权值增长,从而在训练成员分类器时能够降低过拟合风险。对于类不平衡问题,算法在每次迭代中采用过采样技术(SMOTE)来平衡训练数据,以减轻成员分类器的预测偏差。实验结果表明,HIBoost在主要的评价指标上优于典型的集成分类算法。(2)针对HIBoost算法在分类器数量较高时所遇到的过拟合和运行开销较大的问题,提出一种基于hubness和聚类采样的集成分类算法HUSBoost。对于高维中普遍存在的hubs,算法在权重更新的过程中为多数类与少数类样本分别引入了不同的权重因子来减缓其权重的过度增长,从而缓解“bad hubs”对成员分类器分类决策的负面影响。为了解决类别分布不平衡的问题,算法采用了基于聚类的欠采样方法,即先通过k-hub聚类技术将多数类样本划分为多个聚类,然后从每个聚类中选取具有代表性的多数类样本,以形成均衡的类分布。实验表明,HUSBoost优于几种典型的集成算法。(3)基于提出的上述两种算法,论文设计并实现了一个轻量级的智能医疗诊断原型系统,主要工作包括架构设计,数据库存储,模型训练与迭代,接口封装等内容,并将其搭载在微信小程序平台上。
其他文献
学位
随着智能终端设备以及5G网络技术的迅速发展,基于地理位置服务的相关应用已经广泛使用到社会生活生产的各个领域。通过对用户上传的共享数据进行相关建模,用户在使用加载模型后的应用的过程中能够为其带来许多便利。但是随着人们个人隐私保护意识的加强,如何保障位置数据中的敏感信息免受恶意的侵犯已成为一个迫切需要解决的问题。差分隐私能够解决传统隐私保护力度不足的问题,差分隐私通过数学定量分析隐私风险程度,以及在发
在生态环境建设的大背景下,仿生设计成为平衡经济发展与环境保护的突破点。然而,如何有效地获取与优选仿生原型等问题已成为学术界面临的一大难点。为此,提出将可拓学(extenics)和功能-原理-行为-结构(Function-PrincipleBehavior-Structure,FPBS)模型的优势融入到仿生设计中,建立基于FPBS与可拓学的仿生原型驱动产品创新设计模型,用于解决复杂产品的工程难题。课
为了减少机动车尾气的排放和缓解全球的能源危机,近年来电动汽车产业在我国得到了迅速的发展。电池的安全性对于电动汽车尤为重要,锂离子电池的健康状态(State of Health,SOH)估算和剩余使用寿命(Remaining Useful Life,RUL)预测是电池管理系统(Battery Management System,BMS)的不可或缺的功能。准确地估算电池的SOH和预测电池的RUL,有助
作为一种重要的数值计算方法,有限元方法在工程领域具有广泛的应用前景,这得益于商业有限元软件的广泛使用。然而,在利用有限元分析软件分析复杂结构或机械大变形等的工程实际问题时,这些软件的表现却不尽如人意。其原因主要归结于:分析中常用的非结构网格的计算精度低,而结构网格预处理困难、计算成本高。针对传统有限元方法存在的这些问题,近些年以光滑有限元为代表的一系列新型数值算法逐渐发展起来。但这些新型数值算法目
学位
学位
学位
学位
学位