基于图的半监督学习理论、算法及应用研究

被引量 : 0次 | 上传用户:blus95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从有限的观测数据中学习是机器学习的一个经典难题。在传统的监督学习中,学习器需要对大量的有标记数据进行学习,从而建立模型来对无法观测的数据或未见数据进行预测。然而当有标记数据的数量较少时,利用它们所训练出的学习器往往很难有较好的泛化性能。在无监督学习中,由于没有标记数据,聚类算法的聚类方向具有不确定性。如何利用少量的标记数据和大量的未标记数据来获得较好的学习器,己经成为当前机器学习研究中最受关注的问题之一。半监督学习研究当有标记的数据较少时如何利用大量的未标记数据来改善学习器的性能,具有广泛的应用领域。本文在分析了各种半监督学习的研究现状及其目前仍存在的问题的基础上,主要对基于图的半监督学习理论、算法在聚类、分类和降维中的应用进行了研究,主要取得的研究成果如下:1.提出了一种基于图收缩的半监督聚类算法。首先将样本空间的整个数据集,表示为一个带权图;然后根据约束条件对图进行边收缩的修改,达到增强must-link约束的效果;在此基础上引入图拉普拉斯算子,将cannot-link约束作为一种软约束融入正则化框架。通过对图的修改,实际上就把样本空间投影到了一个子空间,在子空间上进行聚类分析。虽然该算法也使用了图拉普拉斯,但是是在经过边收缩了的图上使用的图拉普拉斯。实验证明,基于图收缩的半监督聚类算法具有较好的聚类精度和较快的聚类速度。2.提出了一种基于图的半监督学习与主动学习相结合的维数约减算法。该算法将图、半监督学习和基于支持向量机的主动学习相结合,来对高维数据进行降维处理。首先将高维度的观测数据集嵌入到一个带权图中,在图上使用特征映射方法得到高维数据的初始低维嵌入空间;然后在初始嵌入空间中对数据使用基于支持向量机的主动学习,来寻找标记模糊数据并予以标记;再使用基于图的半监督学习,在图嵌入的基础上引入一个吸引子参数使得标记相同的数据在投影子空间中靠得更近;重复上述过程直到满足结束条件。实验表明该算法对高维生物医学图像数据、基因表达数据具有较好的降维效果。3.提出了一种应用图像分割和半监督学习的图像标注算法。算法充分考虑到了图像的标注与图像局部区域之间的关系,先将图像分割为若干个局部区域,使用局部敏感的哈希表来构建图像局部区域的kNN(k Nearest Neighbours)图;然后基于图像局部区域的kNN图来构建原始图像的kNN图;再利用基于图的半监督标签传递算法来标注未标注的图像。实验证明该算法在获得较高标注精度的同时,也能获得更快的标注速度,并能应用于大型图像数据集。4.给出了一种通过图像局部区域来计算两个图像之间相似性的方法。设两幅图像分别为Im和In,经过图像分割,分别被分割为pm和pn个局部区域,Im被分割为{r1m,rpmm},In被分割为{r1n,...,rpnn}。显然,Im和In两图像之间的相似性,只与{r1m,rpmm}和{r1n,...,rpnn}相互间的k近邻相关,也就是在图像局部区域的kNN图中有边相连的局部区域对。因此在本文中给出了一种根据图像局部区域的kNN图来计算图像之间的相似性的方法。5.给出了一种寻找样本k近邻的方法。该方法通过哈希表和样本局部属性的kNN图来寻找样本的k近邻。实验表明该方法寻找k近邻的速度要高于线性扫描寻找k近邻。
其他文献
基于数据的机器学习是一种重要的数据挖掘方法,也是现代智能技术中的重要内容。近年来,粗糙集与支持向量机作为两种主要的数据挖掘方法获得了大量的研究。基于结构风险最小化
阅读能力在英语学习中非常重要,新课程标准把培养阅读能力作为英语教学的重要目标之一。阅读是人们获取信息,进行学习或娱乐的最基本途径。中职学生一旦具备了独立阅读的能力,也
本文由导言、正文、结语三部分组成,正文共三章,按时间顺序阐述从明治时期到平成初期的日本音乐著作权法律保护的发展历程。导言描述了著作权发展初期主要保护出版者利益,而日本
在社会经济快速发展和人们生活水平不断提高的同时,全球也面临着严重的资源短缺和环境污染问题,温室效应尤为严重。以低能耗、低污染为基础,减少温室气体的排放为目标的低碳
著名军旅作曲家之一印青,曾担任总政歌舞团团长,所创作的声乐作品在全世界都享有盛名。在他所创作的声乐作品中,其中以军旅歌曲创作最为出众。在印青先生的作品创作中,大多擅
重工业的高速发展给环境造成了污染隐患,是否能够处理好环境污染问题关系到中国是否可以坚持走可持续发展道路,而企业披露的环境信息是外界了解公司环境现状的最主要途径。本
以文献史料为主,结合民间传说,梳理钱四娘(钱妃)信俗的起源、发展及传播历程;分析钱四娘信俗对福建莆仙文化的主要影响;探讨钱四娘信俗的现实价值与研究意义:对传承莆仙优秀
随着我国经济的不断发展,人力资源和社会保障机制也逐渐得到完善,并朝向信息化建设的发展方向不断发展。现如今,人力资源和社会保障信息化建设已成为我国社会经济全球化、现
车号自动识别系统是车号自动识别设备在铁路运输中的具体应用和发展。该设备通过采用先进技术,实现机车、车辆在不同状态下的自动识别和管理。
随着时代的发展,人们的自我意识不断增强,对个性化的需求也不断提高,对网络游戏角色造型的设计提出了新的要求,主要表现为玩家们对网络游戏中角色的个性化以及可操作性等方面的要求不断提高,这使得角色塑造的发展逐步转向自定义化的形式,在设计过程中形成了新的方法。玩家通过对自己游戏角色形象的自我塑造的展现集结在一起,它的交互性、开放性和复杂性,为玩家提供了多层次的体验,同时也为玩家带来了自主设定游戏角色的乐趣