【摘 要】
:
随着计算机存储与数据采集技术的高速发展,基因组学、财务预警、文本分类、客户流失预测和垃圾邮件识别等应用领域产生的海量数据呈现出高维和类不平衡的双重特性。在将这些高复杂度的数据集转化为具有应用价值的信息时,传统机器学习和数据挖掘技术面临着严峻的挑战。基于此,本文针对高维不平衡数据分类面临的困难,研究了如下内容:第一,针对数据集的类不平衡问题,本文提出了循环采样算法FTL-SMOTE。现有的传统过采样
论文部分内容阅读
随着计算机存储与数据采集技术的高速发展,基因组学、财务预警、文本分类、客户流失预测和垃圾邮件识别等应用领域产生的海量数据呈现出高维和类不平衡的双重特性。在将这些高复杂度的数据集转化为具有应用价值的信息时,传统机器学习和数据挖掘技术面临着严峻的挑战。基于此,本文针对高维不平衡数据分类面临的困难,研究了如下内容:第一,针对数据集的类不平衡问题,本文提出了循环采样算法FTL-SMOTE。现有的传统过采样技术仅从数据的统计特征出发对数据进行平衡化处理,与后续的分类算法无关,这导致平衡化后的数据集可能不适用于分类器。因此,该算法将SVM分类器的分类结果考虑进了采样过程,即在SVM分类器监督的情况下,基于SMOTE采取不同策略对分类正确和错误的少数类样本进行精确化的循环采样。此外,为了避免噪声样本对采样过程的干扰,本文提出了噪声样本识别三原则对噪声样本进行精确识别并在采样过程中予以剔除。大量数值结果显示,与经典的SMOTE等重要采样算法以及标准SVM相比,FTL-SMOTE过采样算法具有更好的分类效果。第二,针对数据集的高维不平衡问题,本文提出了FTL-SMOTE+ISVM-RFE(FPD)组合模型。首先,为克服数据集的类不平衡问题,采用FTL-SMOTE算法对数据集进行平衡化处理;然后,在平衡化后的数据集上,本文提出了新的嵌入过滤型准则的封装型特征选择算法ISVM-RFE(FPD)。该算法是从特征选择排序准则和特征选择过程两方面对经典的封装型特征选择算法SVM-RFE的改进。在四个公开的癌症微阵列数据集上的大量实验表明,ISVM-RFE(FPD)算法在rr_p和G值方面优于SVM-RFE算法以及现有的嵌入过滤型准则的封装型特征选择算法。第三,本文研究了FTL-SMOTE+ISVM-RFE(FPD)组合模型在上市公司财务预警问题中的应用。伴随全球经济一体化和市场经济的快速发展,我国上市公司财务预警数据呈现出高维和类不平衡的双重特性。为了验证提出算法在该类数据集中的有效性,本文构建了两个新的财务预警组合模型ISVM-RFE(FPD)+MKSVM和ISVM-RFE(FPD)+CSMKSVM,并在第一个和第二个模型中的特征选择过程中以及在第一个模型的分类过程中引入过采样算法FTL-SMOTE。大量实证研究表明,本文提出的组合模型在降维和分类方面优于其他组合模型,其中ISVM-RFE(FPD)+CSMKSVM模型的表现最佳。
其他文献
备皮是行小儿头皮静脉穿刺中的一项重要内容,目前使用的工具主要是普通剃须刀(以下称传统剃毛刀),而剃毛损伤时有发生。本文拟通过调查了解目前护士使用小儿备皮刀现状,探讨
抗战史迹是物化的历史,是历史记忆的载体,不仅可以弘扬民族精神、加强爱国主义教育,更是人们吸取精神文化的良田,同时也是遗产文化重要组成部分。在当今旅游业不断蓬勃发展形势下,抗战史迹的利用应顺应体验经济时代发展潮流,游客在抗战史迹游览过程中的体验质量影响因素类型、因素影响程度及构建一个客观科学的抗战史迹公众体验质量评价方法,这些都值得我们深入探讨的研究问题。抗战史迹公众体验质量评价是一个多学科、综合性
伴随着国家经济的飞速发展,社会生活方式也有了很大的变化。社会方式的改变促使了家庭结构的迅速变化,传统模式的家庭生活方式也有了巨大的变化,老年人、儿童、残疾人等日常里能接触人已经不再是仅限于家庭成员的范围,扩大到幼儿园、医院、养老院等能接触的地方日益增加,能见到各种类型的监护人或看护人。以前的虐待事件基本都是家庭成员之间出现的,但是近几年有监护、看护责任的人员实施虐待儿童或老年的事件经常发生,其中2
随着机械、化工和石油等行业的相继发展,对相关行业设备的使用条件在逐步提升,对于制造业中的机械产品表面强化和保护的技术以及不断提升机械零件的可靠性和使用寿命,同时改进机械制造设备的质量和性能等方面研究都是十分必要的。然而利用各种复合镀层对金属材料进行保护是行之有效的方法,因此本论文对Ni-Co-SiC纳米复合镀层的生长机理、工艺参数、性质、模拟仿真等方面进行研究具有重要意义。由于纳米复合镀层不同的生
本研究以84K杨树(Populus alba×P.glandulosa cv.‘84K’)为试验材料,采用盆栽方式,通过饱和灌溉(CK)、分根灌溉(PRD)和亏缺灌溉(DI)三种控水处理,研究了分根灌溉(PRD)对84K
目的:瑞芬太尼是一种超短效阿片受体激动剂,其因起效迅速、持续输注无蓄积等优点广泛用于临床麻醉。然而有研究发现,当瑞芬太尼长时间大量输注后,患者对疼痛的敏感性增加,镇
作为诺贝尔文学奖获奖者,威廉·福克纳对于许多中国读者来说仍然十分陌生。本篇报告是关于威廉·福克纳人物传记的翻译实践报告,作者旨在通过此篇报告,探讨人物传记的翻译方法,总结翻译策略,希望为今后相关的翻译研究提供借鉴和参考。本篇翻译实践报告的翻译内容选自密西西比大学出版社2016年6月出版的《我和我的世界:威廉·福克纳传》,属于人物传记,具有真实性和文学性的特点。在翻译过程中,作者运用功能对等理论,结
随着社会的飞速发展,社会对学校教育的人才培养标准提出了新的要求。当前对核心素养的研究和以核心素养的培育为目标推进了教育的发展,已成为世界各国教育改革的风向标。要培养学生适应未来社会发展的核心素养,唯有通过教师的深度教学,引领学生深度学习,才能使学生发展核心素养真正在实际中落地开花。而在初中数学教学中,例题教学在课堂教学中占有相当重要的地位。例题教学对学生学习基本数学知识、获得数学技能、掌握数学思想
改革开放以来,我国凭借劳动力、自然资源优势,吸收国外资金与技术,策略性的发展方式促使我国产业结构得到极大调整,实现从农业大国到工业大国的转变。随着我国经济的日益发展,我国经济开始“转轨”,步入“高质量”的发展道路,原有的传统经济增长模式已不再适用,我国经济增长模式需要从以往资源要素投入驱动转为以创新驱动,而产业结构上需要从资源密集型、劳动密集型产业向技术密集型、知识密集型产业转变,从高污染、高能耗
目的研究miR-7-5p基因对胃癌细胞SGC-7901增殖、迁移的影响,并进一步探讨miR-7-5p在胃癌中的作用与RAF1/MEK/ERK通路有关,从而进一步阐明胃癌的发病机制、并为胃癌的治疗提供新的理论依据。方法(1)利用NCBI-pubmed、Targetscan、Star Base和miRBase等数据库和生物信息学技术找到相关的miRNAs,预测并从中筛选出它的靶基因。(2)实时定量PC