基于演化超网络的高维不平衡数据分类

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:doodoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
超网络是在细胞中生物分子网络的启发下形成的一种用于学习和记忆的概率图论模型。超网络是一种由大量超边组成的特殊超图。与一般意义上的图不同,超图的超边可以连接两个以上顶点。超网络的这种特殊结构使其能够有效地表示特征属性之间的高阶关联性。超网络是一种基于规则的分类器。在模式分类的框架下,超网络的超边被看作决策规则,超边被赋予相应的权值,用以表示特征属性与类别之间的关联程度,权值越大,关联性越高。与其它模式分类方法相比较,超网络分类模型具有实现简单、学习结果可读等优点。目前,超网络模型已经在生物医学、多模态信息检索、文本分类等领域取得了比较成功的应用。 本文主要研究基于超网络模型的不平衡数据分类和高维数据分类问题,以及基于GPU的超网络的并行演化学习和分类。   不平衡数据分类问题是机器学习和数据挖掘领域的一个研究热点。所谓不平衡数据是指数据中类别分布不均匀、某个类别的样本占支配地位的数据集。不平衡数据普遍存在于现实世界中,如医疗数据分类、信用卡非法交易检测等。然而传统的机器学习方法大都是建立在样本类别分布均衡的基础之上的。因此,在处理不平衡数据分类问题时传统机器学习方法不能获得满意的结果。针对这一问题,介绍了一种代价敏感超网络选择性集成的方法。首先将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型。然后为了解决代价设置问题,采用选择性集成的方式自适应地设置代价参数。最后,在处理类别分布严重不平衡的数据的分类问题时,将采样技术与代价敏感超网络选择性集成方法相结合,首先通过采样技术降低数据的不平衡程度,然后在采样后的数据上对代价敏感超网络进行选择性集成。在10个常用的不平衡数据集上的对比实验结果表明本文提出的代价敏感超网络选择性集成方法具有处理不平衡数据分类问题的优势。   超网络模型可以从训练数据中有效地挖掘特征属性之间的高阶关联性。然而,和其它传统的机器学习方法一样,在处理高维数据时超网络也面临着“维数灾难”的问题。超网络模型的搜索空间会随着数据维数的增加而显著扩大,这对超网络模型的学习效果和学习效率都产生了严重的影响。为了解决超网络在处理高维数据的分类问题时所面临的问题,介绍了一种多视角分层超网络模型。首先将原始数据划分为多个低维的局部视图,然后在每个局部视图上训练第一层超网络模型,最后将第一层超网络作为第二层超网络的输入,对第一层超网络模型学习得到的局部概念进行整合,形成全局概念。采用多视角的思想,第一层超网络可以在低维的局部视图中高效地搜索类别分辨能力强的超边,第二层超网络模型对第一层的局部概念进行整合。多视角分层超网络模型可以很好地维持数据的局部视图和全局视图,为解决高维数据分类问题提供了一种有效的方法。在4个高维数据上的实验结果表明多视角分层超网络模型能够改善普通超网络在高维数据分类问题上的分类性能。   目前,超网络模型是通过DNA计算实现的。在基于DNA计算的超网络模型中,采用四种核糖核苷酸(A,T,G,C)将超边编码成DNA分子,超网络就是一个由大量DNA分子组成的分子库,超网络的演化学习是通过酶促反应等生物技术实现的。超网络的学习和分类在DNA计算中都是以高度并行的方式进行的。然而,DNA计算虽然具有很高的并行性,但是DNA计算的技术难度比较大且对实验条件的要求比较苛刻,这在一定程度上限制了DNA计算的使用范围。现代GPU已经演变为一种通用的并行处理器,它的出现为实现超网络的并行化提供了一条新的、简单的途径。基于GPU并行计算框架,介绍了一种孤岛遗传算法演化的并行超网络模型。超网络被看作为由很多个体组成的一个种群,一条超边表示一个个体。为了使用遗传算法对超网络进行演化学习,首先将超边编码成二进制串,然后将整个超边库划分成多个子库,每个子库分别代表一个子种群。在对超网络模型进行演化学习时,把一个子种群映射到GPU的一个线程块,而该子种群中的个体被映射到线程块中的线程之上,并由线程负责个体的演化学习的所有操作的实现。由于GPU中的线程具有线程块间和线程块内两个层次的并行性,超网络的演化学习能够获得很高的并行性。在4个DNA微阵列数据集上进行实验,实验结果表明与基于CPU的单线程的实现方式相比,基于GPU的并行超网络模型能够取得两个数量级左右的加速比。这也表明了GPU并行计算是实现超网络并行化的有效方案。
其他文献
目前,云计算作为一种新兴的计算模式,正被全世界人们广泛关注。云计算以其增强的计算能力,无限的存储容量,对用户端设备要求低以及高扩展性、高性价比和高度灵活性等优势,相比于传
短时交通流量预测是智能交通系统研究的关键。能否对短时交通流量进行实时的、准确的预测对实现交通控制和诱导起到了至关重要的作用。因此,对短时交通流量的预测研究具有十分
视觉认知是人类获取信息的重要方式,在视觉认知过程中,客观世界都以图像形式存在。图像分割作为视觉认知的基础,其目的是:从大量复杂的背景中,提取所需信息。但是,由于图像信息的
视频运动目标跟踪,这个课题作为机器视觉研究的一个主要分支,它就是对视场内的非静止的目标,如人和车辆等,进行实时的观测,并在这个基础上对把被观测对象按一定方法进行分类,然后仔
随着计算机网络的普及和信息技术的不断发展,网络在人们生活中的作用越来越大,网络中的文本信息也不断积累,种类复杂多样,文本分类系统的完善显得尤为重要。需要进行分类的文本往
无线传感器网络是由部署在监测区域内大量传感器节点以自组织和多跳的方式构成的传感器网络,具有大规模、低功耗、低成本和自组织等典型的特点,能够广泛应用于环境监测等多个领
近年来,实时系统被广泛地应用到安全关键的汽车电子领域。除保证实时应用输出结果的逻辑正确性外,还必须具有严格的时间确定性和高度的可靠性,否则会导致严重后果。然而随着应用
随着互联网对社会生活的影响越来越大,人们逐渐习惯于利用新兴媒体,如微博客、QQ、MSN、聊天室和论坛等平台交流心得体会、参与公众话题讨论。意见领袖作为社会舆论中的一种关
三维重建技术在近几十年的飞速发展中已成为计算机视觉、图像处理、虚拟现实技术等多个学科的研究热点,并在游戏产业、建筑行业、历史事件重现等领域得到广泛应用。三维重建是
在信息技术、市场竞争和需求的共同作用下,移动通信技术更是突飞猛进,数字技术在语音质量、通信安全、频谱效率、业务功能丰富性等诸多方面比模拟技术有明显的优势,对讲机作