【摘 要】
:
大数据时代已经到来,大数据的出现使得传统的机器学习算法无法在单机环境下完成训练。分类是机器学习和数据挖掘领域中最基本的学习任务,传统的分类算法都是在假设所处理的数据为平衡数据的前提下设计的,但在许多实际应用中,需要处理的数据常为非平衡数据。因此,研究非平衡数据分类问题,特别是大数据环境下的非平衡数据分类问题,具有重要的理论及应用价值。在非平衡问题中,根据处理数据所包含的类别数,可以将非平衡问题分为
论文部分内容阅读
大数据时代已经到来,大数据的出现使得传统的机器学习算法无法在单机环境下完成训练。分类是机器学习和数据挖掘领域中最基本的学习任务,传统的分类算法都是在假设所处理的数据为平衡数据的前提下设计的,但在许多实际应用中,需要处理的数据常为非平衡数据。因此,研究非平衡数据分类问题,特别是大数据环境下的非平衡数据分类问题,具有重要的理论及应用价值。在非平衡问题中,根据处理数据所包含的类别数,可以将非平衡问题分为两类非平衡分类问题和多类非平衡分类问题。本文主要研究大规模数据环境下的两类非平衡分类问题,提出了基于MapReduce和Spark并行计算框架下的两种解决方案。具体地,本文工作主要包括以下四部分:(1)研究了X-means算法在大数据环境下的并行化问题,提出了基于MapReduce和Spark的大规模X-means自适应聚类算法。在两类非平衡大数据分类中,将负类大数据看作无类标数据集合,通过大规模X-means自适应聚类算法,自适应地对负类大数据进行聚类。(2)提出了基于MapReduce和Spark的大规模压缩模糊K-近邻算法。将大规模X-means算法得到的聚类结果视作有类标的数据集,使用大规模压缩模糊K-近邻样例选择算法,对负类样例进行下采样,减少负类样例个数。(3)将通过下采样后的每个负类簇与正类样例合并,构成多个训练集。若训练集仍是非平衡数据集,则使用上采样方法对正类样例进行上采样,构成平衡训练集,并在平衡的训练集上训练分类器。使用模糊积分方法对不同训练集训练出的分类器进行集成,得到最终的分类结果。(4)在7个两类非平衡大数据集上,对基于MapReduce和Spark的两类非平衡大规模分类算法进行了相关指标的比较,并与其它算法进行了比较,实验结果表明,本文提出的算法是行之有效的。
其他文献
多元和共享己经成为当今时代的主题,每个人都拥有手机、电脑等移动设备,都可以直接成为个人信息的创造者和传播者。大数据时代企业运营方式发生重大变革,个人信息被全面数据
目的:常规病理难以检测出淋巴结微转移,病理超分期可能对微转移有诊断价值,也可能提高前哨淋巴结活检(Sentinel lymph node biopsy,SLNB)的灵敏度。本研究旨在探讨早期宫颈癌前哨淋巴结(Sentinel lymph node,SLN)微转移的检出情况,评估SLN病理超分期的敏感性。方法:纳入2017年8月至2018年8月在广西医科大学附属肿瘤医院接受手术的ⅠA2~ⅡA2期(F
中国老龄化社会程度不断加深,老龄人口数量持续增多,高龄人口问题日益凸显。高龄老人的身体状况每况愈下,养老和赡养的矛盾较为突出。当前社会对于高龄老人需求的相关研究较
Al-Mg2Si原位复合材料是一种新型伪二元共晶复合材料,具有比强度高、界面强度高、耐磨性能好、热稳定性好以及生产资源丰富等优点,是汽车、航空航天等领域轻量化的重要材料。
近年来,正渗透膜分离技术由于具有低能耗、低污染和高水回收率等优势得到了广泛关注。然而传统带有支撑层结构的正渗透膜在使用过程中出现的内浓差极化(ICP)问题却限制了该技术
本文是由对一百多年前美国记者兼作家汤姆斯·华莱士·诺克斯所著的游记小说《两个男孩的近代远东之旅——中日篇》的节选进行的英汉翻译实践和基于该翻译实践的报告组成。在辜正坤翻译标准多元互补论思想和彼得·纽马克翻译理论的指导下,本文试图研究翻译此类涉及非源语历史文化的现实主义青少年文学作品的英汉翻译特点及策略。本文旨在通过讨论原书标题翻译,以及词汇、句子和语篇层面的翻译,探究指导译者在翻译此类文学作品中进
压电陶瓷是一类具有广泛应用的功能材料,如传感器、驱动器、滤波器、换能器等,遍及日常生活、生产制造、传输通讯、航空航天等领域。但当今市场使用最多的是铅基压电材料,而
近年来,伴随着国家“大众创业、万众创新”的号召,一股创新创业的热潮席卷了神州大地。然而,面对日益复杂的创新创业环境,双创大军亟需先进的思想和理念作为指导。《创新柔道术:克服创新路上的体制障碍与人为阻挠》为“百森商学院教授创业学经典丛书”项目入选书籍,作者Neal Thornberry将柔道运动中的战术技巧引入创新领域,提出了一系列行之有效的创新技巧,旨在为广大面临重重阻碍的组织创新者指点迷津。笔者
背景肝细胞癌(Hepatocellular carcinoma,HCC)是一种侵袭性强、转移率高、预后差的恶性肿瘤,90%以上的原发性肝癌(primary livercancer,PLC)为肝细胞癌。据最新统计,在全球范围内,肝癌发病率位于癌症第6位,而死亡率位于第4位;在我国,肝癌在恶性肿瘤中发病率位居第四,死亡率位居第二;随着目前肝癌的治疗手段和技术在不断的提高,复发转移率和五年生存率有所改善
自我修正是一种常见的会话现象,在母语交流和二语对话中经常出现。同声传译因其即席性和即时性而成为一项高难度的跨语言交际活动,因此同传过程中必然出现自我修正现象。同声传译的方向性问题在学界一直颇具争议,有学者认为从外语译入母语才能保证译文质量,有学者认为译入外语才是最佳模式。学界对于口译中自我修正现象的研究大多是对停顿、重复和不流利现象的考察,关于方向性的研究也只是聚焦于其如何影响译文质量,而对同声传