【摘 要】
:
随着社会发展进入数字化时代,数据挖掘成为研究大数据的重要手段,集成学习在数据挖掘中扮演着重要角色。在复杂情况下,构造出单一分类器非常困难,并且可能存在输出不稳定的情况,而集成学习能有效的克服这一缺点。AdaBoost(Adaptive boosting)作为集成学习中的代表性算法,它只要求基分类器比随机猜测略好,这种性质能很好的解决复杂情况下分类器的构造问题。因此,AdaBoost算法在业界受到了
论文部分内容阅读
随着社会发展进入数字化时代,数据挖掘成为研究大数据的重要手段,集成学习在数据挖掘中扮演着重要角色。在复杂情况下,构造出单一分类器非常困难,并且可能存在输出不稳定的情况,而集成学习能有效的克服这一缺点。AdaBoost(Adaptive boosting)作为集成学习中的代表性算法,它只要求基分类器比随机猜测略好,这种性质能很好的解决复杂情况下分类器的构造问题。因此,AdaBoost算法在业界受到了极大关注。针对AdaBoost算法对噪声敏感、基分类器组合效率低以及过度关注难分样本等问题,本文从多样性、组合系数、间隔理论和聚类方面进行了深入研究,具体工作如下:1)为提高AdaBoost算法的集成效率,根据样本权重的分布状态与基分类器的分类错误率,给出新的基分类器系数求解方法,此方法克服了传统AdaBoost算法基分类器系数仅与错误率相关的缺点,且没有改变传统AdaBoost算法的结构,改进后的算法仍满足传统AdaBoost算法的误差收敛上界,更好的体现了基分类器的分类效果;其次,为提高基分类器间的多样性,在基分类器选择的过程中引入双误度量,以防止迭代过程中分类器的同质化,基于上述两点提出WD AdaBoost(AdaBoost based on weight and double-fault measure)算法。实验结果表明,新算法可以进一步提高分类性能。2)为解决AdaBoost算法在迭代后期样本权重的负向移动问题,提出了基于间隔理论的WPIAda(Sample weight and parameterization of improved AdaBoost)与WPIAda.M(Sample weight and parameterization of improved AdaBoost-multitude)两种改进算法。WPIAda与WPIAda.M都将样本权值的更新分为四种情形,增加间隔从正到负变化的样本权值,来抑制间隔的负向移动,以减少间隔处于零点的样本数量。其中,WPIAda.M算法的样本权重调整幅度更小,为保证间隔移动的准确性,基分类器系数计算公式与1)中提出的相同。实验结果表明,与其它几种算法相比,WPIAda和WPIAda.M的测试误差分别有不同程度的降低,AUC(Area under curve)分别有不同程度的提高。3)为提高训练样本的多样性和一致性,首先,使用聚类算法将训练集分成多个类簇。其次,分别在每个类簇上训练出一个强分类器,其中,在每个类簇上进行学习的算法,它的基分类器系数与1)中相同,这种做法保证了局部性上获得的强分类器具有较高准确率。此时分类器的权重由两部分组成:一、测试样本与各个簇心的距离;二、强分类器对测试样本的分类置信度。最后,把各个类簇上训练出的强分类器通过加权投票策略进行联合,由此提出AECC(Adaptive ensemble algorithm based on clustering and new base classifier coefficients)算法。在UCI数据集上的实验结果表明,AECC算法具有更高的分类正确率。
其他文献
目的:探究腹腔镜直肠癌根治术中吻合口加固缝合对中低位直肠癌患者术后吻合口瘘的预防效果及对术后恢复的影响。方法:收集2018年01月至2021年06月在我院诊断为直肠癌且肿瘤距离肛门10 cm以内,行腹腔镜下直肠癌前切除术患者,详细收集患者临床资料,比较加固缝合组患者与传统吻合组患者术后相关临床指标的差异。结果:本研究共纳入254例患者,两组患者在一般指标对比上均未见明显差异。加固缝合组患者手术时间
本文对氢能发展的意义进行了介绍,阐述了我国近几年在氢能源发展和氢燃料电池车方面的相关支持性文件。并针对氢能储运环节,分别介绍了国内高压气态储氢、低温液态储氢、金属氢化物储氢和有机液态储氢四种方式的发展现状以及标准研究现状。
肠系膜下动脉(inferior mesenteric artery, IMA)的结扎是直肠癌手术中至关重要的一步,但其结扎水平却一直难以达成统一的认识。主要争议点是,关于术中左结肠动脉(left colic artery, LCA)是否保留,其吻合口漏发生率、IMA根部淋巴结(253站淋巴结)清扫、术中神经损伤及术后排便、排尿及性功能的影响等在各研究中心不能达成一致,这就造成了在手术时术者对于手术
【研究目的】上扬子垭紫罗裂陷槽内广泛分布下石炭统旧司组暗色泥页岩,其厚度变化大,该裂陷槽北西段旧司组暗色泥页岩发育特征和生烃中心展布并不清楚。【研究方法】通过对GWD2井旧司组的测录井以及岩芯观察、岩石薄片鉴定、干酪根类型显微鉴定、有机碳含量、镜质体反射率测定等资料的综合分析,对旧司组的地层-沉积相、暗色泥页岩分布和有机地化特征进行了详细研究。【研究结果】①该井下石炭统旧司组地层厚度大,钻厚114
目的:探讨腹腔镜中低位直肠癌根治术(Dixon)经肛加固吻合口对预防直肠癌术后吻合口瘘的可行性。方法:收集2019年08月至2022年05月我院普外科行腹腔镜中低位直肠癌根治手术(Dixon)患者共127例。根据指南,中低位直肠癌为肿瘤下缘距离肛门10 cm以内,根据吻合口加固方式不同分为三组:经肛连续缝合组(n=43);经肛间断缝合组(n=42);对照组(未经肛门缝合组)(n=42)。对患者一般
在科学技术日新月异的今天,创新对于一个国家经济社会发展和综合国力的提升至关重要。当前我国正处在向建设世界科技强国目标进军的重要历史阶段,实施创新驱动发展战略,推进以科技创新为核心的全面创新,需要坚实的马克思主义理论作支撑。新时代下深入分析习近平对马克思科技创新思想的创新和发展,对推进我国世界科技强国建设步伐,实现中华民族伟大复兴具有十分重要的意义和价值。本文以马克思科技创新思想为理论依据,透过对十
通过划分分析永定庄煤业矿井地质构造、煤层稳定程度、水文地质、瓦斯种类及其他地质状况,其结果是瓦斯种类属于简单类别,地质构造复杂程度,煤层稳定性、水文及其他地质条件均属于中等类别。因此,综合判定永定庄煤业属于中等类型的煤矿地质类别;并进一步采用地质块段法对山4#、2#、3-5#、8#煤层共有资源量进行估算计算,结果表明探明资源量占保有资源量的48%,控制资源量占保有资源量的66%。
马铃薯中存在的糖苷生物碱,如α-茄碱、α-卡茄碱、茄啶和垂茄啶等,是一类有毒的代谢物,在植物中,它们是防御细菌、真菌的分子,具有抑制微生物、抗肿瘤等作用。但是糖苷生物碱的积累会使得马铃薯口感苦涩,同时,当超过一定范围时可引起包括肠胃炎、低血压、发热甚至是神经功能紊乱等食物中毒症状。本研究从马铃薯糖苷生物碱的种类、理化性质、提取方法和检测技术等几方面进行综述,进一步总结了马铃薯中糖苷生物碱检测技术的
背景与目的:尽管腹腔镜全直肠系膜切除术(La TME)已广泛应用于直肠癌的治疗,但仍有其技术障碍,经肛门全直肠系膜切除术(Ta TME)能够克服La TME的缺点,在中低位直肠癌治疗中具有一定优势。然而,目前对Ta TME的疗效与安全性仍有一些争议。因此,本研究通过Meta分析的方法比较Ta TME与La TME的近期疗效与安全性,为临床提供循证参考。方法:检索多个国内外数据库中有关Ta TME与
美国翻译理论家Philip Lewis提出的放纵式忠实概念在学界引起了如何翻译非常规价值用法的热烈讨论。国内已有学者对这个概念做过论述,但总体倾向于对其做一种二元对立的定性。由于该文的观点与德里达有关翻译的论述同属解构主义思维,再加上国内对其的批评性应用至今仍较为鲜见,故本研究从放纵式忠实的本义出发,尝试挖掘它对实现文学语篇中文本动能和语言游戏过程中所产生的复杂关系的作用。研究发现,通过对语篇诸如