论文部分内容阅读
表征学习一直以来都是机器学习的研究热点,数据的特征表达形式及其分布规律直接决定后续学习任务的的性能和效率。受限玻尔兹曼机(RBM)是经典的表征学习模型,也是目前深度学习网络的基础模块之一,在表征学习中显示出强大的特征提取能力,近年来在多个领域都取得了成功。然而经典RBM的训练过程缺少辅助信息引导特征编码,而且不具备协同表征学习能力。因此,本文在传统的RBM模型训练过程中融合多种辅助信息引导特征编码,展开了一系列变体模型及其深度框架的表征学习研究。主要工作如下:
(1)提出了一种半监督高斯受限玻尔兹曼机模型。通过把成对约束信息融合到RBM表征学习中,提出了一种新的半监督高斯受限玻尔兹曼机模型pcGRBM,使得Must-Iink集合中同类簇数据实例的重构向量尽可能地聚集,并且Cannot-link集合中不同类簇数据实例的重构向量尽可能分散。实验结果证实了pcGRBM模型具有优异的半监督表征学习能力。
(2)构建了小约束扰动的受限玻尔兹曼机模型和深度半监督特征学习框架。为了尽可能地减少标签信息利用率,提高高维空间中表征学习的稳定性,提出了基于小约束扰动的RBM变体模型MCDRBM和MCDGRBM,在此基础上构建了小约束扰动的深度半监督特征学习框架MCD-DSFL,在其深度特征学习过程中融入微小的约束扰动,使得同类簇的数据在特征空间中概率分布尽可能相似,并且不同类簇的数据在特征空间中的概率分布具有尽可能大的差异性。实验结果证实了MCD-DSFL框架具有优异的深度半监督表征学习能力,小约束扰动在深度学习过程中显出杠杆效应。
(3)提出了一种无监督多聚类集成受限玻尔兹曼机模型。通过把无监督集成学习方法获得的局部聚类划分信息LCP融合到RBM的表征学习中,提出了多聚类集成RBM变体模型MIRBM,使得LCP集合中同类簇数据的隐藏特征和重构后的隐藏特征都尽可能地聚集到一起,并且LCP集合中的每个局部类簇的中心尽可能地分散开,优化隐藏特征的分布。实验结果证实了MIRBM模型具有优异的无监督表征学习能力。
(4)构建了协同表征受限玻尔兹曼机模型和无监督协同表征深度网络。通过LSH方法获得数据矩阵的多个局部小数据块,在RBM隐藏层特征的编码过程中融合了局部小数据块的实例和特征的协同关系,提出了协同表征RBM变体模型crRBM和crGRBM,使得每个小数据块在特征空间和重构的特征空间中都尽可能地向其中心点聚集。在crRBM和crGRBM模型为基础,构建了无监督协同表征深度网络UCRDNet。实验结果证实了UCRDNet在协同关系的辅助作用下表现出深度协同表征学习超性能。
(1)提出了一种半监督高斯受限玻尔兹曼机模型。通过把成对约束信息融合到RBM表征学习中,提出了一种新的半监督高斯受限玻尔兹曼机模型pcGRBM,使得Must-Iink集合中同类簇数据实例的重构向量尽可能地聚集,并且Cannot-link集合中不同类簇数据实例的重构向量尽可能分散。实验结果证实了pcGRBM模型具有优异的半监督表征学习能力。
(2)构建了小约束扰动的受限玻尔兹曼机模型和深度半监督特征学习框架。为了尽可能地减少标签信息利用率,提高高维空间中表征学习的稳定性,提出了基于小约束扰动的RBM变体模型MCDRBM和MCDGRBM,在此基础上构建了小约束扰动的深度半监督特征学习框架MCD-DSFL,在其深度特征学习过程中融入微小的约束扰动,使得同类簇的数据在特征空间中概率分布尽可能相似,并且不同类簇的数据在特征空间中的概率分布具有尽可能大的差异性。实验结果证实了MCD-DSFL框架具有优异的深度半监督表征学习能力,小约束扰动在深度学习过程中显出杠杆效应。
(3)提出了一种无监督多聚类集成受限玻尔兹曼机模型。通过把无监督集成学习方法获得的局部聚类划分信息LCP融合到RBM的表征学习中,提出了多聚类集成RBM变体模型MIRBM,使得LCP集合中同类簇数据的隐藏特征和重构后的隐藏特征都尽可能地聚集到一起,并且LCP集合中的每个局部类簇的中心尽可能地分散开,优化隐藏特征的分布。实验结果证实了MIRBM模型具有优异的无监督表征学习能力。
(4)构建了协同表征受限玻尔兹曼机模型和无监督协同表征深度网络。通过LSH方法获得数据矩阵的多个局部小数据块,在RBM隐藏层特征的编码过程中融合了局部小数据块的实例和特征的协同关系,提出了协同表征RBM变体模型crRBM和crGRBM,使得每个小数据块在特征空间和重构的特征空间中都尽可能地向其中心点聚集。在crRBM和crGRBM模型为基础,构建了无监督协同表征深度网络UCRDNet。实验结果证实了UCRDNet在协同关系的辅助作用下表现出深度协同表征学习超性能。