基于改进的SMOTE和RST的新型混合重取样算法

来源 :第18届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:moon_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  分类是数据挖掘和知识发现的重要任务之一,非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况,非均衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对非均衡数据集进行准确可靠分类的关键制约因素。非均衡数据的分类问题已成为机器学习和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。针对非均衡数据集分类性能提高的解决方法主要围绕数据层面和算法层面进行。数据层主要是通过去除多数类实例的欠采样或人工合成少数类实例的过采样达到均衡训练集的目的。本文提出一种新的解决非均衡数据集的预处理方式(记为ImSMOTE-RSTR*),通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,所提出的算法被验证得到较理想的结果。
其他文献
云存储环境下为解决存储资源利用率问题,服务器端需动态为用户分配存储空间。本文致力于解决如何伸缩系统卷文件系统可识别大小。具体针对NTFS文件系统卷,重点介绍了NTFS文件系统关于容量管理的重要数据结构,设计并实现了根据用户申请的磁盘空间大小,自动伸缩系统卷的工具。实验表明:该工具能够在无数据损坏的前提下快速扩展或缩小系统卷文件系统识别的大小。
在数据以几何级快速增长的今天,如何更好的保护主存储上的海量数据安全成为研究重点,云存储以其大容量、低成本成为用户选择数据二级存储的主要模式。本文提出了一种绿色、安全的云存储解决方案,研究设计了云存储解决方案的架构和重删、压缩、自动精简、备份容灾、zone控制、日志和策略等实现技术。云存储系统通过虚拟存储技术提高了用户的存储利用率,降低了企业在存储软硬件和人力维护投入的成本,实现绿色高效低碳的数据存
数据密集型应用已成为当今最重要的计算机应用之一,面向数据的并行编程模型MapReduce为其提供了优雅的解决方案,但目前的众核微体系结构并不匹配MapReduce运行时,众核芯片系统无法发挥相应的计算能力。本文结合众核(Many-core)和云计算两个计算机学科最新发展方向,从计算机微体系结构的角度,为实现高性能众核芯片系统中巨大计算和处理能力目标,提出了众核三维存储体系结构,满足MapReduc
随着云计算技术的发展,越来越多的数据需要被存储及其管理。然而现在云应用需要存储的数据越来越多,达到了TB级甚至PB级别的数据量,这为存储和管理带来了极大的困难。如果使用一种坏的存储模型,那么在处理PB级别的海量数据时的效率将会十分低下。本文提出了一种基于语义的智能云存储模型。该模型将对所有的云应用的所有文件进行一个语义处理,形成一种智能的分布式语义索引机制。有了这个智能的分布式语义索引机制,当各种
在云计算环境中提供数据服务逐渐成为研究热点。本文在云计算环境中结合已有XQuery查询处理引擎,实现了云计算环境中XML数据查询服务。为提高云计算环境中XML数据查询效率,采用基于XPath投影的方法预先对XML分块处理,仅保留与XQuery语句相关的数据,实验表明,该方法有效缩小了数据分块的规模、缩短了XML数据服务的查询处理时间。
云计算作为一种新型的IT模式,具有超越传统IT架构的高效和灵活特性。“云时代”使得计算过程更加便捷,同时引入了新的安全问题。为了解决这些问题,必须建立一套完整的云计算安全体系。本文描绘了云计算安全发展趋势,同时提出了云计算平台安全技术体系框架,并对数据安全,身份管理和访问控制等云安全方面的关键技术进行了分析。
随着数据量的迅猛增长,由于传统的存储架构扩展性较差,无法满足用户需求,云存储在海量数据处理中的应用越来越广泛。为了简化云存储的访问方式,将各种特殊接口转换成传统应用程序可以访问的方式,来为用户提供更加便利的存储服务,课题组设计实现了JoinIn云存储网关。由于云存储本身架构的原因,对远程文件和目录的访问延迟大,影响用户体验。本文针对这些挑战,设计实现了JoinIn云存储网关的缓存系统,支持用户的读
云计算是一种新型的IT基础设施构建及服务模式,云环境具有资源种类多、规模大、高弹性等特征,对云环境的高效监管是其可靠运行的基础。云环境下监控调度的状态信息采样频率直接关系到故障发现的效率和对被监控资源及网络的负载,本文比较了当前广泛使用的四种主要监控调度模式的优点与缺点,在主动监控调度的基础上提出了一种多区间多采样频率监控调度策略,并对该策略进行了性能分析评估及相关优化。
在对分布式异构存储系统性能进行监测中,传统监测方法存在监测对象单一,数据采集粒度不够,对采集数据缺乏有效分析和难以低成本保存有效原始数据的问题。本文研究了分布式存储环境下性能监测的关键技术并且实现了分布式异构存储系统性能监测系统平台。经过监测结果分析,本文所提出的方法与系统能够很好地监测存储环境中服务器群的性能指标并且能够对进程级别性能进行很好的监测与分析。该系统为管理者分析决策提供支持,具有很大
研究了精细粒度可扩展编码技术(FGS)的分层编码原理,提出了基于RTP并结合MPEG-4 FGS编码的自适应视频流传输策略,介绍了RTCP的反馈机制,对往返时间RTT及丢失间隔LD的算法进行了改进,实现了发送速率的动态调整。文章最后对速率控制算法进行了仿真比较,结果表明了改进方案的有效性。