【摘 要】
:
在机器学习领域中,不平衡数据的分类问题是一个重要的研究话题。不平衡数据是指在分类数据中某些类别的样本数量明显高于其他类别的样本数量的情况。这种数据分布会使传统分类算法的结果偏向于多数类。但在很多实际情况中,对少数类的正确识别更加重要,比如医疗诊断、欺诈检测、故障分析等。特征选择是解决不平衡数据分类问题的一类有效方法。它可以选出有利于识别少数类的特征子集以平衡分类结果。本文从特征选择方法入手研究不平
论文部分内容阅读
在机器学习领域中,不平衡数据的分类问题是一个重要的研究话题。不平衡数据是指在分类数据中某些类别的样本数量明显高于其他类别的样本数量的情况。这种数据分布会使传统分类算法的结果偏向于多数类。但在很多实际情况中,对少数类的正确识别更加重要,比如医疗诊断、欺诈检测、故障分析等。特征选择是解决不平衡数据分类问题的一类有效方法。它可以选出有利于识别少数类的特征子集以平衡分类结果。本文从特征选择方法入手研究不平衡数据的分类问题,改进特征相关性的评估方法,提升不平衡数据的分类准确率。本文的创新和贡献主要包括以下两个方面:(1)提出了一种基于混合相关性的特征选择算法。为了解决基于相关性的特征选择算法对多数类样本的偏向以及忽略数据内在性质的问题,提出了基于加权对称不确定性和皮尔逊相关系数的混合相关性指标来评价特征,并采用序列后向搜索方法寻找最优特征子集。经多个公开的不平衡数据集验证,基于混合相关性的特征选择算法不仅能有效提升少数类的识别精度,还能保证整体分类性能不下降。在十个数据集上,本章算法相比于其他对比算法,少数类的识别率平均提高了9.00%,整体分类准确率平均提高了4.14%。(2)针对上述算法用于高维不平衡数据时效率较低的问题,提出了基于Hellinger距离和SVM-RFECV的两阶段特征选择算法。该算法结合过滤式与包裹式特征选择算法的优点,首先利用Hellinger距离去除大量无关特征,大幅减小特征空间的维度;然后采用SVM-RFECV方法进一步筛选特征子集,得到最优特征子集。在公开数据集上的实验结果表明,基于Hellinger距离和SVM-RFECV的两阶段特征选择算法能在高、中、低维的数据集上有效选取利于少数类识别的特征子集,明显提升不平衡数据的分类性能。在十个数据集上,本章算法相比于其他对比算法,少数类的识别率平均提高了4.05%,整体分类准确率平均提高了1.40%。
其他文献
作为一种主要的基础数据类型,时间序列的分析预测具有重要的研究意义和实用价值。近年来,复杂网络理论在时间序列中的应用吸引了大量研究人员的关注,诞生了许多将时间序列转换为复杂网络的算法。时间序列的复杂网络转换算法为时间序列的研究打开了一个新的视角,为时间序列和复杂网络两个领域的理论交融架起了一道桥梁。目前,时间序列的复杂网络转换算法主要有可见图算法和相空间重构算法。通过二者构建的复杂网络可以有效地描述
目的:根据既往研究报道的光学相干断层扫描仪视网膜神经纤维层及神经节细胞-内丛状层缺损特征性表现,构建一种基于Cirrus HD-OCT的视网膜神经纤维层(RNFL)及视网膜神经节细胞-内丛状层(GCIPL)厚度图及偏差图的特征性表现诊断原发性开角型青光眼的更简化精炼的评分系统,并验证评价其诊断效能。方法:本研究获取2017年3月至2021年12月于汕头大学·香港中文大学联合汕头国际眼科中心就诊的1
目的:研究视网膜激光光凝术中疼痛的影响因素及应用电针针刺疗法缓解视网膜光凝术中的疼痛效果。方法:本研究为非随机性临床研究。我们收集了2021年到2022年在汕头大学·香港中文大学联合汕头国际眼科中心(JSIEC)接受视网膜激光光凝患者的人口学资料、生活习惯、激光参数,并对接受激光的患者使用视觉模拟评分法(VAS)进行疼痛评分,分析可能影响评分的相关因素。将符合入组条件的糖尿病性视网膜病变(DR)患
临床诊断中耳鼻咽喉科、神经内科、急诊科、康复科、骨科以及精神科都会接诊出现眩晕症状的患者,然而由于眩晕疾病发病机理复杂,目前对其进行精准诊断依然是一大医学难题。随着眩晕认知的不断深入,临床发现大部分眩晕症患者往往都伴随有眼球不由自主且快慢交替颤动的情况,临床称为眼震。早期临床医生多凭肉眼观察得到眼震情况直接判断眩晕疾病,随着软硬件技术的不断发展,越来越多的医生借助辅助器械可以完整地记录眼球运动视频
<正>习近平总书记指出,“国有企业是中国特色社会主义的重要物质基础和政治基础,是党执政兴国的重要支柱和依靠力量。”黑龙江省交通投资集团有限公司(以下简称“省交投集团”)始终坚持以习近平新时代中国特色社会主义思想为指导,以建设“六个龙江”,推进“八个振兴”为己任,坚持投资拉动主业,发挥金融杠杆作用,按下“交通+旅游”一体化“快进键”。
社区检测能够发现网络中节点之间的隐藏关系。社区检测算法往往由于遍历节点顺序的不同、平局情况的频繁出现或随机种子选择的不同而具有较大的随机性,从而导致算法多次运行的结果不同。大多数社区检测算法是通过组合优化找到具有最高目标函数值的网络划分。单一目标函数不能完美匹配各种图的底层社区结构,某些目标函数存在“分辨率限制”和“解退化”问题。各类社区检测算法采取的目标函数不同,其计算过程及结果差异巨大,即使在
目的:分析糖尿病性黄斑水肿(Diabetic Macular Edema,DME)患者的体液负荷状态,与其受肾功能(包括预估性肾小球滤过率(estimated Glomerular Filtration Rate,e GFR)及尿白蛋白/肌酐比值(Urine Albumin-to-Creatinine Ratio,UACR))影响的程度。方法:这项横断面观察研究纳入了2020年5月至2021年2月
目的:对比飞秒辅助的准分子激光原位角膜磨镶术(femtosecond-assisted laser insitu keratomileusis,FS-LASIK)与飞秒激光微小切口透镜取出术(small-incision lenticule extraction,SMILE)矫正复合近视散光,比较两种手术方式矫正屈光度效果及对角膜像差的影响。方法:本研究为回顾性研究。按入选标准收集了在汕头国际眼科
目的:观察康柏西普联合全视网膜光凝(PRP)治疗不合并黄斑水肿的增生早期糖尿病视网膜病变(DR)的疗效,并比较其与单独PRP在治疗增生早期DR的疗效差异。方法:回顾性分析惠州市中心人民医院2017年1月至2021年6月确诊为增生早期DR且不合并黄斑水肿的43例患者60只眼。根据治疗方式不同,分为联合治疗组(康柏西普联合PRP组)23例30只眼和对照组(单独PRP)20例30只眼。联合治疗组于玻璃体
在大数据时代,旅游业作为一个综合性行业,产生了包括用户生成内容,设备数据和旅游相关活动数据等大量的结构和非结构化数据。如何挖掘出这些数据中潜在的价值成为目前旅游数据分析的研究热点。然而,传统的统计分析方法只能分析历史旅游数据的规律,无法实现旅游大数据中的知识发现。机器学习应用于旅游数据分析中可以实现游客流量预测,游客意见挖掘和游客画像等,从而帮助旅游管理部门实现智慧化管理。因此,本文就机器学习在城