【摘 要】
:
随着信息技术的不断发展,各行各业的信息化程度越来越高,机器学习也逐渐运用到各行各业中去。其中,不平衡分类问题由于其出现的广泛性越来越受到人们的关注。不平衡分类问题
论文部分内容阅读
随着信息技术的不断发展,各行各业的信息化程度越来越高,机器学习也逐渐运用到各行各业中去。其中,不平衡分类问题由于其出现的广泛性越来越受到人们的关注。不平衡分类问题是指在分类问题中,属于不同类别的样本之间存在明显的数量差异的问题。在实际应用中,人们往往更关心其中的少数类别,如风险检测、疾病检测等。而由于样本分布不均匀,直接使用分类器进行训练,容易造成分类器分类结果更偏向于分类为多数类,从而影响其应用价值。对于不平衡的数据集,常用的方法是采用上采样或下采样将其转换为平衡的数据集后再进行分类。其中上采样采用复制少数类样本或人工生成新的少数类样本的方式增加少数类样本的数目,以获得平衡的数据集。该类型方案由于使用了人工生成的样本,可能会引入新的噪声而降低最终的分类器的效果。下采样则采用抛弃部分多数类样本的方式来达到平衡数据集的目的,该类型的方案虽然没有引入人工样本,但由于抛弃了大量多数类样本,可能会损失样本中包含的部分重要信息,导致降低了最终的分类效果。本文基于下采样的思想,提出了一种基于哈希的下采样的多分类器算法来解决不平衡分类问题。该方案采用多分类器融合的思路,使用基于哈希的方法对多数类样本进行划分,并通过带权采样的下采样方式构造出多个具有差异性的训练样本子集。该方案充分利用了绝大多数的多数类样本,克服了下采样中损失大量样本信息的缺点。多组不同的对比试验,从样本划分方案、权重分配方案的角度对比分析了本文算法的表现和优点,与其他下采样算法在多个数据集上的对比表现,验证了本文算法在高不平衡的数据集上和规模较大的数据集上有更好的分类性能和更高的训练效率。此外,在基于家中传感器的行为识别问题中,本文将所提出的基于哈希的下采样的多分类器算法与随机敏感自编码器相结合,给出了相应的解决方案,展现了所提出算法良好的泛用性和可扩展性,也通过对比实验表明所提出的方案能有效的解决基于家中传感器的行为识别问题。
其他文献
In recent years,wireless communication applications have become a major part in our life.Almost every day we check our emails or on personal computer via wirele
随着科技的进步,双足舞蹈机器人逐渐成为人工智能机器人的主要研究对象。它不仅融合了控制理论、仿生学以及电子技术等多门学科,还被应用到了不同的学习领域。双足舞蹈机器人
平面形状变形在计算机图形学和几何处理等领域有着广泛的应用,该技术可以帮助用户根据自己的想法而获得新的形状。平面形状变形通常可表示为欧氏平面之间的映射函数,根据表示
伴随企业的发展,组织结构的复杂化和地理位置的分散极大地降低了SAP的沟通协作效率,建立快速而有效的沟通协作平台成为了企业的客观需求。基于社交的移动化企业管理模式让SAP迅速降低信息成本成为了可能。借助便携的移动设备,具有信息分流和明确导向性的新型企业社交协作应用将为企业提供高效的管理和协作平台。以SAP的企业社交应用项目Jam为背景,对如下内容做出了研究:1.基于业务需求研究了Jam App的Hy
近年来,在国家战略推进与民航强国建设的大背景下,Z市通用航空产业迎来了难得的发展机遇期。但发展的同时,不安全事件也同样频发:河南永翔通用航空有限责任公司一架飞机执行
智能交通监控是缓解城市交通问题的有效手段,先进的交通信息传感技术可以推进智能交通监控快速发展。激光雷达作为一种主动型传感器,具有抗干扰能力强、空间分辨率高、环境适
随着居民消费水平的逐渐提升和生鲜电商的快速发展,我国生鲜品消费规模呈现快速增长的趋势,消费者对生鲜品的运输时效性、品质完好度等方面提出了更高要求。然而,由于大多数
工业机器人在运行时产生的振动将降低其工作效率和疲劳寿命,如何抑制振动对提升机构的动态特性具有重要的指导意义。长期以来,研究人员致力于通过优化机构的材料参数以及减少
随着云计算和云存储技术的广泛应用,越来越多的数据拥有者倾向于将他们的数据外包给远程云服务器,以减少计算和存储的开销,但不可信的云服务提供商会使数据面临严重的安全威
2013年爆发的斯诺登事件证实了密码机制在实际应用过程中有可能被秘密地植入后门,从而导致密码机制无法提供理论上所证明的安全性,甚至在某些情况下其安全性会遭到完全破坏。