【摘 要】
:
先进的医学设备和数据采集技术产生了大量医学数据,这些医学数据对于疾病的诊断、治疗和医学研究都是非常有价值.决策树作为一种经典的分类算法,因其分类规则简单易懂而被广
【基金项目】
:
国家自然科学基金项目(61672142,614472070,61602103);国家重点研发计划(2018YFB1003404)
论文部分内容阅读
先进的医学设备和数据采集技术产生了大量医学数据,这些医学数据对于疾病的诊断、治疗和医学研究都是非常有价值.决策树作为一种经典的分类算法,因其分类规则简单易懂而被广泛应用于医学数据分析中.然而,医学数据的样本不平衡问题,使得决策树算法的分类效果降低.数据重采样是目前解决样本不平衡问题的常见方法.其主要通过改变样本分布来提升少数类样本的分类性能.现有重采样方法往往独立于后续学习算法,采样后的数据对于弱分类器的构建不一定有效.基于此,本文提出一种基于C4.5决策树的混合采样算法.该算法以C4.5决策树为迭代采样的评价准则控制过采样和欠采样的迭代过程,同时依据数据的不平衡比动态更新过采样的采样倍率,最终以投票机制组合多个C4.5分类器预测结果.通过在9组UCI数据集上的对比实验,证明了本文所提算法有效性,同时RuSE算法也在稽留流产数据上实现了准确的预测.
其他文献
通过文献研究与实际调研的方法,对新疆零售企业的发展现状进行深入研究,发现新疆零售业存在规模小竞争激烈、主营业务利润率低、资产负债率及主营业务成本率过高、南北疆地区
利用1980—2009年的相关数据,通过协整理论、向量误差修正模型以及脉冲响应和方差分解等方法,对煤炭生产、煤炭消费和经济增长进行动态特性研究。结果表明,经济增长和煤炭生
近年来,应急演练在我国逐渐普及,广泛开展,成为每年必备的一项活动,呈现出社会多元参与、科学规范、挑战性提高、系统性增强的趋势,但仍存在"演"多"练"少"评"少、"练体"多"练
汉诺塔问题是递归算法最为典型的例子。对多柱汉诺塔问题进行了研究,采用动态规划的想法,给出了解决汉诺塔问题的C++程序。通过C++语言实现,可以使阅读者清晰地了解解决问题的全
文章对南京地铁南北线一期工程某标段盾构区问联络通道冻结加固工法进行了分析,指出地铁联络通道冻结法施工中应采取的必要施工技术措施,并提出施工过程值得改进的方面,以确保施
随着计算机技术的快速发展,FLAC3D数值模拟软件在各行业中发挥着越来越巨大的作用,尤其在公路、矿山、市政等各岩土工程领域都得到了广泛的应用。复杂三维模型建模技术是数值
在锆钛沸腾氯化工艺中,物料粒度、配碳比、反应温度、气流速度等,是影响沸腾氯化效果的主要因素,而原料粒度及其分布,是其中最重要的影响因素。本文从动力学角度阐述其中原理
当前小学美术课堂教学.在新课程改革理念的倡导下,广大教师都在积极的尝试、实施“开放性”教学。因为,开放性教学能为学生提供更为广阔的想象空间和个性创作与展示的平台,促进学
革命文化是中国共产党在长期历史实践中探索出来的宝贵的精神财富和丰厚的政治资源,也是中华民族特有的文化形态,具有独特的文化价值。将革命文化融入高校党课教育和党的组织