论文部分内容阅读
超网络是在细胞中生物分子网络的启发下形成的一种用于学习和记忆的概率图论模型。超网络是一种由大量超边组成的特殊超图。与一般意义上的图不同,超图的超边可以连接两个以上顶点。超网络的这种特殊结构使其能够有效地表示特征属性之间的高阶关联性。超网络是一种基于规则的分类器。在模式分类的框架下,超网络的超边被看作决策规则,超边被赋予相应的权值,用以表示特征属性与类别之间的关联程度,权值越大,关联性越高。与其它模式分类方法相比较,超网络分类模型具有实现简单、学习结果可读等优点。目前,超网络模型已经在生物医学、多模态信息检索、文本分类等领域取得了比较成功的应用。 本文主要研究基于超网络模型的不平衡数据分类和高维数据分类问题,以及基于GPU的超网络的并行演化学习和分类。
不平衡数据分类问题是机器学习和数据挖掘领域的一个研究热点。所谓不平衡数据是指数据中类别分布不均匀、某个类别的样本占支配地位的数据集。不平衡数据普遍存在于现实世界中,如医疗数据分类、信用卡非法交易检测等。然而传统的机器学习方法大都是建立在样本类别分布均衡的基础之上的。因此,在处理不平衡数据分类问题时传统机器学习方法不能获得满意的结果。针对这一问题,介绍了一种代价敏感超网络选择性集成的方法。首先将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型。然后为了解决代价设置问题,采用选择性集成的方式自适应地设置代价参数。最后,在处理类别分布严重不平衡的数据的分类问题时,将采样技术与代价敏感超网络选择性集成方法相结合,首先通过采样技术降低数据的不平衡程度,然后在采样后的数据上对代价敏感超网络进行选择性集成。在10个常用的不平衡数据集上的对比实验结果表明本文提出的代价敏感超网络选择性集成方法具有处理不平衡数据分类问题的优势。
超网络模型可以从训练数据中有效地挖掘特征属性之间的高阶关联性。然而,和其它传统的机器学习方法一样,在处理高维数据时超网络也面临着“维数灾难”的问题。超网络模型的搜索空间会随着数据维数的增加而显著扩大,这对超网络模型的学习效果和学习效率都产生了严重的影响。为了解决超网络在处理高维数据的分类问题时所面临的问题,介绍了一种多视角分层超网络模型。首先将原始数据划分为多个低维的局部视图,然后在每个局部视图上训练第一层超网络模型,最后将第一层超网络作为第二层超网络的输入,对第一层超网络模型学习得到的局部概念进行整合,形成全局概念。采用多视角的思想,第一层超网络可以在低维的局部视图中高效地搜索类别分辨能力强的超边,第二层超网络模型对第一层的局部概念进行整合。多视角分层超网络模型可以很好地维持数据的局部视图和全局视图,为解决高维数据分类问题提供了一种有效的方法。在4个高维数据上的实验结果表明多视角分层超网络模型能够改善普通超网络在高维数据分类问题上的分类性能。
目前,超网络模型是通过DNA计算实现的。在基于DNA计算的超网络模型中,采用四种核糖核苷酸(A,T,G,C)将超边编码成DNA分子,超网络就是一个由大量DNA分子组成的分子库,超网络的演化学习是通过酶促反应等生物技术实现的。超网络的学习和分类在DNA计算中都是以高度并行的方式进行的。然而,DNA计算虽然具有很高的并行性,但是DNA计算的技术难度比较大且对实验条件的要求比较苛刻,这在一定程度上限制了DNA计算的使用范围。现代GPU已经演变为一种通用的并行处理器,它的出现为实现超网络的并行化提供了一条新的、简单的途径。基于GPU并行计算框架,介绍了一种孤岛遗传算法演化的并行超网络模型。超网络被看作为由很多个体组成的一个种群,一条超边表示一个个体。为了使用遗传算法对超网络进行演化学习,首先将超边编码成二进制串,然后将整个超边库划分成多个子库,每个子库分别代表一个子种群。在对超网络模型进行演化学习时,把一个子种群映射到GPU的一个线程块,而该子种群中的个体被映射到线程块中的线程之上,并由线程负责个体的演化学习的所有操作的实现。由于GPU中的线程具有线程块间和线程块内两个层次的并行性,超网络的演化学习能够获得很高的并行性。在4个DNA微阵列数据集上进行实验,实验结果表明与基于CPU的单线程的实现方式相比,基于GPU的并行超网络模型能够取得两个数量级左右的加速比。这也表明了GPU并行计算是实现超网络并行化的有效方案。