论文部分内容阅读
IB方法是基于率失真理论的无监督数据模式分析方法,它自1999年提出至今已在众多领域取得成功的应用。IB方法具有严密的理论基础,它通过将数据数据对象压缩到一个“瓶颈”变量的同时最大限度的保存特征变量的所有的相关信息。非平衡数据问题是机器学习,数据挖掘和模式识别研究领域中最具有挑战性和最重要的问题之一。由于非平衡数据的独特构造特性——归属于少数类的样本数量远远小于其他类中的样本数量的数据集,许多传统的模式识别算法在对非平衡数据集的分析上表现不够理想:即使在输入数据集具有明显的簇规模大小的情况下,它们往往会仍然产生规模相对均匀的簇,这种现象被称之为“均匀效应”。针对基于率失真理论的信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,产生倾向于将大簇中的数据对象划分到数据规模较小的小簇中的现象,引起“均匀效应”的问题,本文提出了一种面向非平衡数据的多簇信息瓶颈算法(Mc IB)。Mc IB算法采用欠采样方法的思想来降低非平衡数据集的倾斜度,使用先划分再学习后融合的策略,来优化IB算法处理非平衡数据的抽取合并过程。整个算法包含三步:首先提出了一种分离标准,根据分离标准来对确定欠采样的比例参数,然后对数据进行初步的聚类生成可信赖的多个簇,最后再利用簇之间的相似性对簇进行合并,组织多个簇代表每个实际的簇来得到最终的聚类结果。与欠取样方法相比较,Mc IB算法可以有效地避免大簇中的的重要信息丢失;与信息瓶颈算法相比较,Mc IB算法能够有效的降低数据类分布引起的“均匀效应”对聚类效果的影响。实验结果表明:本算法能够有效地解决IB方法在非平衡数据集上出现的“均匀效应”问题:与其他聚类算法相比,Mc IB算法的性能更优。本文提出的Mc IB算法可以应用于聚类分析、异常检测、信息检索等领域,并且实验结果表明其能得到高精度的结果。此外,本文提出的Mc IB算法相较于原IB算法适用于更多种类的数据集,为IB理论在非平衡数据集上的数据分析上提供了一个新的研究思路。