面向非平衡数据集的多簇IB算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ldd3663
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
IB方法是基于率失真理论的无监督数据模式分析方法,它自1999年提出至今已在众多领域取得成功的应用。IB方法具有严密的理论基础,它通过将数据数据对象压缩到一个“瓶颈”变量的同时最大限度的保存特征变量的所有的相关信息。非平衡数据问题是机器学习,数据挖掘和模式识别研究领域中最具有挑战性和最重要的问题之一。由于非平衡数据的独特构造特性——归属于少数类的样本数量远远小于其他类中的样本数量的数据集,许多传统的模式识别算法在对非平衡数据集的分析上表现不够理想:即使在输入数据集具有明显的簇规模大小的情况下,它们往往会仍然产生规模相对均匀的簇,这种现象被称之为“均匀效应”。针对基于率失真理论的信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,产生倾向于将大簇中的数据对象划分到数据规模较小的小簇中的现象,引起“均匀效应”的问题,本文提出了一种面向非平衡数据的多簇信息瓶颈算法(Mc IB)。Mc IB算法采用欠采样方法的思想来降低非平衡数据集的倾斜度,使用先划分再学习后融合的策略,来优化IB算法处理非平衡数据的抽取合并过程。整个算法包含三步:首先提出了一种分离标准,根据分离标准来对确定欠采样的比例参数,然后对数据进行初步的聚类生成可信赖的多个簇,最后再利用簇之间的相似性对簇进行合并,组织多个簇代表每个实际的簇来得到最终的聚类结果。与欠取样方法相比较,Mc IB算法可以有效地避免大簇中的的重要信息丢失;与信息瓶颈算法相比较,Mc IB算法能够有效的降低数据类分布引起的“均匀效应”对聚类效果的影响。实验结果表明:本算法能够有效地解决IB方法在非平衡数据集上出现的“均匀效应”问题:与其他聚类算法相比,Mc IB算法的性能更优。本文提出的Mc IB算法可以应用于聚类分析、异常检测、信息检索等领域,并且实验结果表明其能得到高精度的结果。此外,本文提出的Mc IB算法相较于原IB算法适用于更多种类的数据集,为IB理论在非平衡数据集上的数据分析上提供了一个新的研究思路。
其他文献
人工生命有广泛的概念,一个真正的人工生命体是能够自主决定自己的行为,而本文研究的问题之一是人工生命体的基于优先度的行为选择的问题。借鉴已经有的“刺激——驱动”机制
通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,使得无线传感器网络成为当前一个研究热点。由于传感器节点的能量非常有限,在大规模网络环境中,一个很重要的问
随着计算机网络的发展、电子政务和电子商务的普及,信息在存储和传输中容易被攻击或截获,如果用户的重要信息被窃取或篡改,可能因此而蒙受巨大损失。信息安全在国家稳定、社
为了保证协议实现的质量,协议测试是一个必要的手段。而协议一致性测试是协议测试中最基本的测试,对协议实现必须先要进行协议一致性测试。由于协议系统的复杂化,针对不同的
分形理论是非线性科学的前沿和重要分支,在分形造型、自然景物模拟以及图象压缩等方面具有广阔的应用前景,随着图形学和软件技术的迅速发展,分形理论的研究和应用日见受到人
近年来,随着视频监控系统不断向数字化和智能化发展,智能监控技术已经引起了越来越多的国内外厂商和学者的重视并进行了一系列的研究。基于计算机视觉的智能安全监控系统不但
随着IT行业的快速发展和企业基本业务需求的不断增长,目前的软件体系结构越来越难以应对和处理日益增长的软件复杂性。然而,近年来,业界提出的面向服务体系结构(Service Orie
将地理信息系统技术引入配电网的运行与管理,对提高配电企业的现代化生产管理水平具有重大的意义。本文论述了基于ArcInfo平台的配电网GIS的设计与开发的过程及相关技术。首先概述了系统开发的背景及意义;其次研究了基于ArcInfo平台的GIS开发技术;随后对配电网GIS进行了详细、全面的系统分析;然后在系统分析的基础上进一步阐述了系统的总体设计,包括系统的体系结构、功能模块、数据库以及安全性设计,接
针对铁路安全监控系统中图像分割问题进行了研究及算法实现。算法主要功能是实现对铁轨图像中阻碍列车通行一定大小障碍物的准确分割。在分析铁轨图像的采集环境及图像特征的