基于数据层面的不平衡数据集的分类方法

来源 :光盘技术 | 被引量 : 0次 | 上传用户:tltim2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在不平衡数据集上的泛化能力,笔者提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意锻炼,再将提取出的段落添加至此类原始文本末尾,产生新的合成少数类样本,提高了小类别文本分类的正确率。
其他文献
SSL服务是目前互联网上常用的安全信息传输服务,尤其在电子商务、电子银行中更是普遍采用,本文介绍了在Windows环境下配置SSL服务的步骤。
本文提出了基于Client/Server数据库完整性约束的实现技术,讨论了数据库完整性的有关内容,分析了分布式处理环境下的数据库完整性约束的概念及基于Client/Server模式下企业规
随着计算机技术的发展,在计算机上处理业务已由基于简单连结的内部网络上的内部业务处理、办公自动化等发展到基于企业复杂的内部网、企业外部网、全球互联网的企业级计算机
推进高等学校学生信息化管理是一项范围广、投入大、周期长的系统工程,涉及系统结构、管理理念、业务流程等。介绍了推进高等学校学生信息化管理的过程中应遵循的原则,探讨了
通过论述在VC++6.0环境下,如何利用Excel的强大的数据处理及报表输出功能,与Mapgis相结合,系统一步到位地自动生成地质工作中所需要的报表。给出了程序自动化实现报表的具体方
社会信息化水平不断提高,它影响着我们生活的各个方面。各个企业、单位组建自己的局域网,并且规模在不断扩大,网络变得越来越拥挤,冲突不断产生,管理难度日益加大。局域网组
随着计算机技术的迅速发展,基于网络连接的安全问题日益突出,利用防火墙技术构筑校园网络安全屏障。
论文在说明数据传输问题对实施汽车技术状态远程监测诊断工作的重要意义之后,分析了GSM网的数据传输特性,以及GSM对TCPAP数据传输特性的影响.在此基础上,论文提出了数据传输
随着通信技术的发展,雷电对通信设备的危害引起了人们的极大重视。本文针对雷电电磁脉冲对通信机房的干扰做了初步分析,并在此基础上提出了在通信大楼中建立独立式避雷针的方
传统的"三环节"教学模式与"卓越计划"理论课时少、教学要求高的现状不适应,不能满足当前社会对可编程控制领域的人才要求,难以真正实现"卓越计划"的人才培养目标.顺应学生心理认知