基于语义计算的小样本图像分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:htvit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
小样本是训练样本不足或者分布不均匀,造成了个别类别的训练数据很少的情况。小样本问题在图像分类中是常见问题。采用传统的机器学习方法,对这些样本不足的类别进行分类时,分类效果难以满足要求。因此,在图像分类等实际应用中,小样本问题是一个难题,需要采取不同于传统机器学习的方法对训练样本进行学习。本文在图像分类领域,假设图像数据库的数据主要包括图像及其标注信息,针对图像或标注信息少的两类四种不同的小样本问题进行了研究,分别提出了相应的解决办法,主要贡献有以下四点:(1)在单源数据,即单图像数据库的情况下,只能在当前数据中挖掘出语义知识,提高模型的泛化能力,从而增加模型的分类正确率。1)在单数据库中,图像分类领域的小样本问题体现在数据库中某些类别训练数据较少。特别是在自然场景的图像中,其类别较多,某些类存在训练数据少的问题。本文提出了基于潜在语义的单源小样本图像分类模型。首先分析场景类别、图像、对象相互的三个语义关系,其中包括了对不同场景标签的语义关系,场景所包含对象的语义关系,以及对象与其中所包含视觉词汇的语义关系进行分析。然后通过计算出的相似性表示潜在语义关系,寻找其他类别中与数据较少类别相似的场景,学习其中满足迁移条件的样本,实现样本数量的扩充,弥补小样本问题造成的不足,提升模型分类正确率。2)零样本问题是指某些类别没有训练数据的情况,如在复杂场景、自然场景等图像数据中,不可能收集到所有类别的数据,但这些没有训练数据的类别也有分类的需求。本文提出模糊属性与模糊知识,分别用于刻画图像特征-属性与图像类别-属性的语义关系。模糊属性与现有的二进制属性相比,有着更好的对对象的刻画能力;模糊知识可通过多种途径获得的多源知识,实现扩充已有知识,并通过语义计算纠正部分错误知识,达到提高数据知识质量的目的;最后提出了模糊直接属性预测和模糊间接属性预测算法。实验结果表明本文算法与现有算法相比,有效地提高了分类正确率。(2)在多源数据,即本地有多个数据库或者网络中有其他相似数据库可利用的情况下,通过语义计算,寻找满足特定条件的样本,以改善模型泛化能力,提高模型分类正确率。1)在单主机环境下,主机存储着多个数据库,其中某些数据库或者某些类别所包含的数据少,但是本地主机还有其他图像数据库可供利用。在图像语义间关系的基础上,本文对不同源数据中标注词,分析语义生成语义二叉树,并通过计算语义关系,根据语义相似性的大小,筛选各数据源的语义二叉树节点,生成新的语义二叉树。新的语义二叉树能更好地表示不同类别的语义关系,辅助多任务学习将其他源数据训练的模型与本地的模型集成在一起,从而达到改善分类效果的目的。2)网络环境中的小样本问题,即本地主机的数据库训练数据较少,但整个网络的数据是海量的情况。本地主机可通过语义相似关系,有条件地利用其它网络节点的语义相似数据来扩充训练样本。首先在网络中每个节点都利用自身数据建立类别弱分类器,然后通过分析各个节点中数据与本地数据的语义关系,采用迁移学习方法实现弱语义计算,使各个节点的弱分类器对待测试图像进行分类,最后在本地完成分类结果集成。本方法既利用了其他网络节点的数据提高系统整体性能,还有效地保护了其他节点数据所有者的隐私,并且各个节点相对独立可通过并行计算可节省整体运算时间。本文提出了四个模型,分别解决四种不同情况的图像分类小样本问题。本文根据四种情况的特点,设计不同的语义计算模型来应对小样本问题。从实验中可以看出,本文提出模型与现有模型相比,不但在分类性能上有所提升,而且能满足其他特殊需求如隐私保护等。
其他文献
历史地图是由历史学家根据初中历史教学需要编制而成的,学生可以利用历史地图中的符号、线条、颜色等简明的历史语言,进行历史事件的再现,整理历史线索。历史地图在初中历史
2018年是改革开放40周年。40年来,经过艰苦奋斗,中国发生了翻天覆地的巨变,取得了年均经济增长率9.58%的巨大成就,可谓前无古人,堪称奇迹。探析和明了当代中国经济发展奇迹,
随着智能终端设备的广泛普及以及近年来物联网技术不断发展,在非全连通网络环境下节点间数据传输逐渐增多,传统单跳接入点通信方式难以满足“物物互联”的通信需求。无线多跳
<正>1.肝肾阴虚 肝肾同源,肝阴与肾阴互相资生,盛则同盛,衰则同衰,阴虚则阳亢,故以阴液亏虚,阳亢火动为其病变特点。如头晕耳鸣、烦躁易怒、烘热汗多、五心烦热、怔忡健忘、
目的:研究地高辛浓度与临床疗效之间的关系.方法:将353例口服地高辛的充血性心衰患者分成3组:有效组、无效组及中毒组.应用放射免疫法(RIA)对其稳态血药浓度进行测定同时观察
贵金属钯(Pd)与铂(Pt)在周期表中位于同族,具有非常相似的物理化学性质,更重要的是,Pd在地球上的含量是Pt的50多倍,价格相对低廉,因此,越来越多的人们开始研究Pd纳米材料催化
客户识别作为客户关系管理的起始阶段,是客户关系管理中其它环节开展的前提。高效的客户识别模型可以帮助企业准确地找到有价值客户,为企业开展客户关系管理提供有力依据,因
苏云金芽孢杆菌(Bacillus thuringiensis,Bt)是一种需氧,能够形成孢子的革兰氏阳性菌,在孢子形成的期间能够产生昆虫病原细菌伴孢晶体蛋白或δ-内毒素。这些Cry蛋白对多种害
自住房体制改革以来,房地产业迅速发展,但也面临着很多尖锐的问题,这些问题是房地产业利益主体利益分配扭曲失衡的表现。本文利用博弈论的思想和经典的供求理论寻找导致利益
在建筑工程项目管理工作中,其比较基础的工作内容便是工程造价,而预决算审核工作则是影响工程造价准确性的因素之一。但是,在我国目前的工程项目预决算审核过程中,依旧存在很多严