【摘 要】
:
集成学习是一种能够有效提升基分类器分类精度的方法,当集成学习方法应用在一些不稳定分类器上时,其分类精度都会得到大幅的提升。例如集成多棵决策树后的随机森林是目前分类
论文部分内容阅读
集成学习是一种能够有效提升基分类器分类精度的方法,当集成学习方法应用在一些不稳定分类器上时,其分类精度都会得到大幅的提升。例如集成多棵决策树后的随机森林是目前分类效果最好的分类器之一,另外还有目前广为人知的XG-Boost,其在GDBT的基础做了些许改善。但是当针对像贝叶斯网络这种稳定的分类器进行集成学习时,例如常用的Bagging,Boosting集成方法,由于这类分类器的稳定性,往往会得到差强人意的结果。在学者们探究如何应用集成方法于贝叶斯网络分类器上以提升其分类精度的过程中,也出现了一些非常优秀的集成模型–AnDE,这种集成模型相比其基模型SPODE有大幅的提升。由于没有结构训练的过程,AnDE保留了近乎朴素贝叶斯的快速和高效,加上其自身的很高的分类精度,尽管AnDE提出了近十几年,但它目前依然是贝叶斯领域分类性能很强的分类器。但是AnDE也有致命的缺陷阻碍了其进一步的广泛使用–AnDE无法扩展到大数据集,并且对于含有大量属性的大数据集很不友好。当训练大数据集时,特别是那些具有很多属性的数据集,尽管其分类精度随着阶数的增加而提升,但是基分类器的数量会呈指数级增加。实验表明,AnDE最多只能体现两两属性间二阶的关系。既AnDE提出之后,一些研究者提出ATAN和AKDB,他们的核心思路和AnDE很相似-分别是平均所有的TAN结构或者KDB结构。但是结果显示ATAN只是在某些特定的指标上对和TAN比有一定的改善,但是在分类精度方面的改善很小;而AKDB由于其集成搜索空间巨大,只能应用在小型的数据集上,并且对分类精度的改善也很有限;由于这些令人不满意的结果,在贝叶斯上应用集成学习的思路慢慢淡出学者们的关注。本文提出了一种新的可应用于贝叶斯分类器上,并且支持并行的集成方式-随机分化方法。在随机分化方法中,我们将属性分化为更小的颗粒属性来构建不同结构的分类器。随机分化可以应用于任何包含结构学习过程的贝叶斯分类器。它简单高效、支持并行、支持增量学习、并且可拓展。除此以外,随机分化方法不会增加对训练时数据集的遍历次数,并且由于其特殊的特点,只需集成较少的基分类器就可以达到不错的提升效果。我们在UCI的27个大数据集上的实验表明随机分化方法相比目前最优秀的集成贝叶斯分类器AnDE要具有更准确的分类精度。
其他文献
伊犁芦草沟镇地处霍城县东北方向,其方言具有自身的复杂性和独特性。本文在马克思主义理论指导下,以伊犁芦草沟话为研究对象,综合运用汉语方言学和社会语言学的研究理论与方法,通过田野调查法和问卷调查法收集语料,并利用SPSS19.0进行数据分析,探究伊犁芦草沟话语音变异的特点和机制。本文共6个部分,说明了研究目的、意义,总结国内外语言变异研究概况并阐释了本文的理论依据、研究方法等内容;介绍伊犁芦草沟镇相关
目的:肺癌的发病率和死亡率都位居全球最高,我国拥有世界三分之一的肺癌患者。目前肺癌的主要治疗方法为外科手术、放化疗和靶向治疗,但预后并不理想,五年存活率仍然很低。因此,深入了解肺癌发生发展的机制显得尤为重要。细胞叠套结构(Cell-in-cell structure,CICs)是近年发现的一种新的非凋亡的细胞死亡方式,肿瘤组织的细胞叠套结构中,内化细胞的命运主要有分裂、逃逸、死亡和长时间滞留,其中
病理语音是发声系统异常所产生的语音,可由多种疾病引起,其中构音障碍是由于神经病变导致发音器官出现肌肉功能减弱或不协调的一种疾病,它会导致发音困难和吐字不清。随着人们对语音信号的产生原理和传输过程进一步解析,针对病理语音的分析识别能够对患者病情的诊断和治疗起到明显作用,特征的分析进一步加深了人们对构音障碍和正常语音间区别的认识,因此对于病理语音特征分析的关键技术研究具有极大的社会意义。目前对各种疾病
随着经济全球化进程的加快和燃气轮机市场的竞争加剧,燃气轮机制造厂家不仅面临着来自质量、成本、技术、服务等的挑战,更让其自身承受着经营理念和运营模式转变、组织结构和
农村公路是公路交通运输系统深入农村地区的毛细血管,连接着农村、城市、乡镇集贸市场、产业园区、旅游景区、矿产资源开发地等节点,对推进新农村建设和新型城镇化建设具有重大的作用。而目前,我国农村公路发展相对滞后,在路网布局优化的随意性和盲目性尤为突出,制约着农村地区经济社会的发展。因此,本文针对路网布局的不合理,提出农村公路路网布局优化的方法。本文主要研究内容如下:首先结合农村公路的类型和功能,深入分析
Logistic回归模型在医学研究及应用中有广泛应用,尤其在病例对照数据中探究某一因素的诊断性能(Receiver Operating Characteristic,ROC)曲线时更是如此。但是在通常的诊断测试中,当研究某一因素的诊断性能时,往往会受协变量的影响,此时要充分利用协变量这一辅助信息。例如,当研究某一地区的患病因素的诊断性能时,受某些条件制约,可获得的数据十分有限,由现有数据得到的统计
人力资源管理在当今的激烈市场竞争中已经变成一种起到决定性作用的管理工具,特别是绩效管理有着尤为重要的作用。企业的量化管理可以通过绩效管理的手段来进行优化,不仅能够达成企业的指标战略,同时,可以激发企业职工的激情和动力,提高企业的核心竞争力,这是改变企业经营困难的有效途径之一。河北建设集团秦皇岛分公司在成立的5年多时间里,随着工程建设规模的不停扩展,员工的数量逐年增加,现有正式职工200余人。在员工
新疆航空队是全面抗战时期中共中央在新疆特殊的统战环境下选派43位共产党员在新疆学习航空技术、由党中央和驻新疆代表直接领导的一支空地配套的航空技术队伍,后将其称为新疆航空队。新疆航空队是中国共产党独立领导武装力量以后,首次有组织、有计划、有规模地培养航空人才,充分体现了中共中央的高瞻远瞩和英明决策,新疆航空队的伟大创举对人民空军的探索发展有重大意义。新疆航空队在人民空军成长史上有着特殊地位。本文研究
在我国教育部于2017年颁布的《普通高中物理课程标准》中,明确提出对高中物理学科核心素养四个方面的落实要求,并指出高中生应当具有批判性思维与解决实际问题的能力。但在传统讲授式教法的影响下,教材与现实之间仍缺乏联系,学生习惯于被动的接受知识,缺乏发现问题和解决问题的能力。为落实新课程标的要求,教育工作者们不断拓展思路,积极探讨适合中国国情的、能围绕现实问题展开教学的新模式。于是,兴起于19世纪60年
大兴安岭南段地处森林和草原的生态过渡带,生态系统的结构、功能以及生态过程相当复杂,其生物群落对气候变化十分敏感,易受到全球气候变化的影响。近些年大兴安岭南段赛罕乌拉地区出现大面积的森林斑块状死亡或生长衰退现象,其原因可能是乔木生长过程中受到养分限制。为了验证内蒙古大兴安岭南段赛罕乌拉地区山杨林出现的生长衰退现象与山杨生长过程中受到养分限制有较大概率的相关性这一假设,应用生态化学计量这一研究工具,以