基于卷积神经网络的多标签场景分类

被引量 : 0次 | 上传用户:iqwanifir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不同于传统的分类问题,多标签分类是一类更复杂的分类任务。在传统的分类问题中,每个样本只有一个类别标签。在多标签分类中,每个样本可以同时属于多个类别。这类问题在文本分类,图像识别,医学诊断等领域应用广泛。多标签场景分类是多标签分类在图像识别中的一种应用。卷积神经网络(Convolutional Neural Networks, CNN)常常被用于图像识别中,也是几年来基于深度模型的图像处理中最常用的模型。目前对CNN的研究主要集中在深度模型领域,更多的层数,更复杂的网络是目前的研究趋势。然而并不是所有问题都需要一个复杂的深度网络,在一些相对受限的领域,如场景分类,使用相对简单的网络就够了。尤其是一些训练数据集比较小的问题,浅层网络几乎是必然的选择。另外,在深度模型的研究中,出现了一些在深度模型上表现很好的技巧,如Relu激活函数,dropout等,这些技巧对浅层网络的适用性也没有人研究。本文将CNN用于多标签场景分类。不同于传统CNN的训练,本文首先介绍使用非监督的方法训练CNN的卷积核,包括针对低分辨率小图像数据集所使用的一些正则化技巧。然后使用CNN提取图像的特征,使用逻辑回归来分类,并使用多种评价标准来评价分类结果。本文使用非监督自动编码器来训练CNN的卷积核。自动编码器是一个三层全连接的神经网络,由于在训练的时候不需要标签,所以编码器的训练方法是非监督的。编码器训练的目的是学习到输入数据的更好的特征表示,以便用来训练更好的分类器。为了学到更好的特征表示,本文对输入样本做了ZCA白化,以消除相邻像素点之间的相关性,使网络隐含层节点数远多于输入层,并在训练过程中对隐含层节点的激活数量加以限制,以学到稀疏的特征。训练完卷积核后,本文使用逻辑回归做图像分类。在卷积层上加一个子采样层和一个逻辑回归层,就组成了本文使用的网络结构。子采样层用于降低特征维度,降低网络结构的复杂性,并能使得输入特征有一些转换,缩放等的不变性。在这个网络结构中,本文实验了Relu, dropout等技巧,并在理论上分析了这些技巧的适用性。由于每个样本可能有多个标签,本文对每个标签单独训练了一个分类器,对每个标签,使用相应的分类器分类,然后将所有的分类结果合并,作为最终的分类结果。对于分类结果,本文首先使用准确率作为衡量标准,然后使用了汉明损失,差一错误,覆盖率,排序损失和平均精确度等适用于多标签分类的评价标准。实验结果表明,本文的网络结构可以得到很好的分类结果。
其他文献
悬浮上砂法的基本原理是将锯丝基体放置在上砂槽中,槽中的金刚石微粉通过搅拌悬浮在镀液中,通过金属的电沉积将悬浮在镀液中的金刚石微粉固结在芯线基体上。利用悬浮上砂法,
斯大林民族定义是中国民族理论中最广为人知又最富争议的定义,科学解读该定义对于准确运用该定义认识民族的发展过程具有重要意义。本文通过对斯大林民族定义在运用于汉民族
政策评估在整个公共政策过程中起着重要的作用。政策评估作为一种对公共政策的效益、效率和价值进行综合判断与评价的政治行为,不仅是考量政策延续、改进和终止的重要依据,而
电镀金刚石切割线是以电镀金属为结合剂,通过金属的电沉积把金刚石磨料固结在芯线基体上而制成的一种线性切割工具。主要简述了电镀金刚石切割线的研究意义,电镀金刚石切割线
随着交通、水利水电等重大基础设施的建设,尤其是西部大开发战略和国家“十二五”计划的深入实施,重大工程建设重心向地形地质极端复杂的西部山区与岩溶地区转移,我国已成为
从论述精密播种技术及其作用出发,阐明了大豆种子精选分级与精密播种的相互依赖关系。种子精选分级是实现精密播种的前提,可提供高质量的种子,为作物高产增收创造有利的条件。
在今天的小学教育中,班主任的班级管理工作越来越受到各个学校的关注。小学班主任的工作任务不仅仅是保证班级的学习成绩,更重要的是为学生的全面发展奠定良好的基础。班级活
喉内鼻音-η在梗摄三、四等字中,为何日文吴音译作-u,而汉音却译作-i,其原因何在?本文通过对汉语梗摄字音的考察,结合日文吴音和汉音资料进行对比,发现梗摄二等字日文吴音和
<正>一、电视娱乐节目媚俗化的特征1.过于使用煽情手法。以煽情和眼泪来赢得观众,已成为时下众多娱乐节目克敌制胜的法宝了。电视娱乐节目中经常会突出这样的场景,如某某歌星
本文以打印机上盖为例,通过对上盖模型进行前处理、初始方案分析及优化方案等分析过程,详细论述了Moldflow模流分析技术在塑料模具设计与制造中的应用。