面向互联网应用的不平衡数据分类技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：wj1982sp

【摘要】

：

互联网的飞速发展,尤其是各类互联网应用,如网络新闻、电子邮件、电子商务等的发展为人们获取信息提供了便捷,但也同时将人们淹没在信息的海洋中。对海量的互联网应用数据自

【作者】

：

李虎

【出处】

：

国防科学技术大学

【发表日期】

：

2016年期

【关键词】

：

互联网应用不平衡数据分类重采样集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的飞速发展,尤其是各类互联网应用,如网络新闻、电子邮件、电子商务等的发展为人们获取信息提供了便捷,但也同时将人们淹没在信息的海洋中。对海量的互联网应用数据自动进行分类可以有效提高人们获取信息的效率,进而提升决策效率。然而,很多互联网应用数据中某一类别或多个类别对应的样例数目明显少于其它类别对应的样例数目,形成所谓不平衡数据,如反动新闻与正常新闻、垃圾邮件与正常邮件、异常交易与正常交易等。传统的基于类别均匀分布假设所设计的分类方法以及评价策略通常以整体的准确率为优化目标,容易忽视其中的少数类别。而在实际应用中,人们经常更加关心少数类别,如网监部门更加希望识别出反动新闻、邮件服务商希望更好地识别出垃圾邮件、电子商务平台希望检测出其中的异常交易等。互联网应用数据的持续到达特性以及类别分布的不平衡性为准确进行数据分类带来了诸多困难与挑战。因而对面向互联网应用的不平衡数据分类技术进行研究具有很强的现实意义和社会价值。本文从互联网应用数据的特性以及承担项目的实际需求出发,遵循由简单到复杂的思路,对不同类型的互联网应用数据设计了相应的处理算法。首先从常见的两类别不平衡数据出发,针对其特点及实际应用需求,研究了不平衡数据预处理中的噪声过滤策略和数据重采样方法。之后,将其扩展到多类别(类别数目多于两个,但每个样例只能属于一个类别)不平衡数据应用场景,提出了分解策略与数据重采样相结合的处理方法。之后,进一步将前述研究成果拓展应用到多标签(不同于多类别,此时同一样例可以属于多个类别)不平衡数据分类中,设计了新的集成学习框架和基础分类算法。最后,根据互联网应用数据持续到达的特点,研究了在不平衡数据流上的多窗口学习策略:(1)在两类别不平衡数据的预处理方面,首先针对不平衡数据集中可能存在的噪声,提出了基于IPF的改进噪声过滤方法,以尽可能减少噪声过滤时将少数类样例误判为噪声的可能性。之后,针对少数类样例和多数类样例各自的特点,分别设计了基于近邻分布的少数类过采样算法以及基于距离排序的多数类欠采样算法。在此基础上,针对实际应用需求,设计了少数类和多数类之间采样比例的自适应方法,从而减小了数据重采样对后续处理流程的影响。最后,通过在大量真实数据集上的测试验证了所提方法的有效性,尤其是对于少数类别分类效果的提升明显;(2)在多类别不平衡数据分类方面,针对互联网应用数据的多类别特性,提出分而治之的学习策略。首先使用一对多的OVA方法对训练数据进行分解并训练得到多个子分类器。此时,所有的子分类器都是基于全部类别数据训练得到,确保了子分类器的适应性。之后,使用一对一的OVO方法对候选类别对应的样例集进一步划分,此阶段根据划分子集的类别分布决定是否进行数据重采样。最后,在采样后的数据子集上训练得到更加细粒度的子分类器。此外,根据实际应用需求,分别设计了子分类器输出值为离散和连续情形下的不同处理策略。在理论分析的基础上,对所提方法在多个真实数据集上进行了测试,结果表明所提方法能够有效处理多类别数据中存在的不平衡问题;(3)在多标签不平衡数据分类方面,针对已有方法偏重多标签分解而缺乏对标签分布不平衡性考虑的问题,提出了一种多标签不平衡数据集成学习框架并设计了相应的基础分类算法。以AdaBoost方法为基础,该框架将标签分布的不平衡特性集成到了各个子分类器的学习训练过程中。此外,以多标签神经网络方法BPMLL为基础,设计了针对多标签不平衡数据的改进算法并将其作为集成学习框架的基础分类算法,在多个实际应用数据集上对分类效果进行了测试,表明了所提方法的有效性;(4)在不平衡数据流分类方面,针对互联网应用数据流的动态特性以及各个类别样例到达顺序的不确定性,提出了一种基于多窗口机制的集成学习方法。该方法根据不平衡数据流的特点,定义了四个不同的窗口分别用于保存当前滑动窗口数据、最近的少数类样例、经筛选的子分类器以及子分类器对应的历史窗口数据。分别为不同的窗口设计了不同的更新策略。对于新的测试样例,其类别标签通过多数加权投票确定。通过在多个人工合成数据集和真实数据集上的测试表明,该方法效果更好,效率更高。综上所述,本文针对互联网应用中不同类型数据的不同分类需求,尤其针对其中存在的类别分布不平衡问题,提出了有效的解决方案,并通过在不同领域真实数据集以及人工合成数据集上的实验验证了本文所提方法的有效性。本文的研究工作对于推进各类互联网应用数据的分类处理具有一定的理论意义和应用价值。

其他文献

网络继续教育培训课程满意度影响因素调查与分析

网络继续教育培训作为教师专业发展的重要途径，融合了远程教育与继续教育的优势，已经成为当今世界继续教育发展的新趋势。总体上，目前学员关于网络继续教育培训的课程满意度处于

期刊

网络培训继续教育网络课程影响因素online training continuing education online courses facto

浅论爱立许(EIRICH)混合机在太钢粉煤灰厂的应用

德国爱立许(EIRICH)公司生产的混合机在技术、商业和环保等工艺领域可靠性高,工艺要求十分严格,代表了世界最新发展水平,从而保证了客户生产出最佳质量的产品。本文就爱立许(

期刊

控制图层参数调试故障维护

机械设计综合实践教学研究

为培养学生的创新能力,通过探索以能力培养为本位、真实项目为依托的机械设计综合实践的教学,架构出符合高职学生综合设计和创新设计能力培养要求的综合实践内涵定位、项目设

期刊

能力培养真实项目创新设计综合实践ability training real project innovation design comprehen

葛兰西的实践哲学观

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

葛兰西实践哲学政治化日常化伦理化

高职院校大学精神的塑造

大学精神是高职院校的灵魂，大学精神的塑造是其长期的战略目标，高职院校的大学精神不仅包括大学精神的基本内容，还应体现高等职业教育的特有内容。当前高职院校应遵循高职教育特

期刊

高职院校大学精神内容塑造Higher vocational coUeges university spirit content shape

大学生生命价值观教育现状及对策

大学生生命价值观教育是针对大学生这一特殊群体而言的,大学生是我们国家未来的建设者,代表着国家的希望,但是近些年来,我国高校大学生伤害生命的事件时有发生。浪费生命、漠

期刊

大学生生命价值观生命价值观教育college students life values life values education

地质灾害防治措施及技术建议

随着人类对自然探索与开发的不平衡性以及不合理的开发利用,使得自然的生态破坏越来越严重,导致地质灾害频频发生,严重威胁了人民的生命财产安全。所以,我们必须高度重视地质

期刊

地质灾害防治措施防治技术防治分析geological disastersprevention and control measurespreventio

石蜡切片技术在植物胚胎学中的应用综述

植物胚胎学研究的是植物有性生殖过程的科学,这是一门基础学科。制片技术可以帮助人们观察生殖过程中的结构,便于研究。现在的制片技术有常规的石蜡切片技术,半薄切片技术,还

期刊

石蜡花粉子房

试析计算机云技术在现代图书馆的应用

近年来,我国的科学技术正在飞速发展中,其中计算机的发展已经成为了当今时代发展的潮流,计算机技术为现代化管理进行翻天覆地的改革创新时,图书馆也就随之被重视起来。由于资

期刊

计算机云技术现代图书馆应用computer cloud technologymodern libraryapplication

矿井及交通隧道地热能开发利用现状研究

地热能是极具开发潜力的可再生能源,矿井及交通隧道是目前进行地热开发尝试较多的两种地下工程,文章分析了现阶段矿井及交通隧道的地热能利用技术以及取热用途,为未来的地下

期刊

地热矿井交通隧道废热geothermalminetraffic tunnelwaste heat

面向互联网应用的不平衡数据分类技术研究

其他学术论文