基于机器学习的物体识别

被引量 : 39次 | 上传用户:lengningyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉是人工智能领域的核心问题之一,它的目标是让计算机拥有人的视觉能力,也就是让机算计像人一样理解现实世界中的图像。计算机视觉在医学、工业、军事、航天等领域拥有广泛的应用。但是,根据人的视觉占用至少60%的人脑资源这个事实,计算机视觉在学术界被认为是“人工智能完全”问题,或者至少是“人工智能困难”问题。在众多计算机视觉的问题中,广义的物体识别,即在任意环境下识别任意物体,又是最核心的问题之一。总的来说,物体识别是让计算机自动地把图像中的物体分类。这是个非常具有挑战性的问题,它也是很多应用问题的最紧要瓶颈所在,比如图片搜索问题。虽然世界上诸如麻省理工、斯坦福、耶鲁、剑桥、普林斯顿等众多非常有实力的研究机构已经研究这个问题多年,广义的物体识别问题还远远没有得到很好的解决。但是,从机器学习的角度来说,物体识别的问题至少在一定程度上是可行的。准确的说,只要能合适地抽取图像特征、合适地描述物体和找到合适的分类模型,实现一个能满足实际应用的物体识别系统是可行的。在这篇论文里,我们将介绍一个基于机器学习的物体识别系统原型。这个原型系统包括三个部分:物体分割子系统、物体描述子系统和一个分类器。在这三个要点上,我们创造性地提出了自己的方法:一个基于混合图模型(HGM)的物体分割算法、一个基于拉多表示的物体描述算法(RRFD)和一个称为神经编码分类器(NCC)的分类算法。随后,我们对这个基本原型系统做一些改进工作:包括基于低秩描述(LRR)的图像聚类算法、基于局部线性转换(LLT)的多标签分类算法和基于反馈嵌入(FE)的大规模相似图像查找技术。具体来说,本文的创新点有:我们提出了用于一般半指导分类的HGM (Hybrid Graph Model,混合图模型),并建立了一个有效的物体自动分割方法。根据我们所知,我们是第一个将混合图引入机器学习的人。不同于传统的物体分割方法,我们的基于HGM的方法是自动的,即不需要手动分割好的训练数据。这使得我们的物体识别系统更加实用。我们提出了基于Radon变换的物体描述算法,称为RRFD (Radon Repre-sentation Based Feature Description,基于拉多表示的特征描述)。在物体已经从图像中分割出来后,RRFD可以把物体的形状、颜色、纹理等信息综合地集成到一个维度比较低的特征向量中去,并由此而实现精确的物体识别。除此之外,RRFD也可以作为一个一般的特征描述算法,它可以描述任意一个图像区域。物体识别中的最后一个步骤是对特征向量进行分类。我们提出了基于神经编码的分类器,称为NCC(Neural Coding Classifier,神经编码分类器)。和传统的诸如SVM的分类算法相比,NCC不仅能够很好地处理测试数据与训练数据同分布的情况,也能更好地处理测试数据与训练数据概率分布不同的情况。实验结果表明,在测试数据和训练数据概率分布相同的情况下,NCC的分类精度度略微超过SVM;在测试数据和训练数据概率分布不同的情况下,NCC可以显著地超过SVM。当一张图像中可能含有多个类的物体时,物体识别中对应的分类问题就是一个MLC(Multi-Label Classification,多标签分类)问题。多标签分类问题可以用MOR(Multi Output Regression,多输出回归)模型来处理。我们提出了用于定义回归分析中损失函数的LLT(LocallyLinear Transformation,局部线性转换)机制,并在SVR(Support VectorRegression,支持向量回归)框架下提出了一种结合LLT和SVR的多输出回归算法,即所谓的LLT-SVR。LLT-SVR即提供了一种很好的多输出回归分析工具,又为我们的物体识别系统提供了一种有效的多标签分类器。为了提高物体识别系统的实用性,我们需要一种有效的图像聚类机制。我们首次提出了用于处理矩阵数据信号的LRR(Low-Rank Representation,低秩表示)。LRR是一种新的压缩传感(Compressed Sensor)技术,和传统的SR(Sparse Representation,稀疏表示)相比,LRR能更好的描述数据的整体结构,从而在诸如图像聚类之类的数据聚类问题中,LRR有明显的优势。基于LRR,我们提出了一种有效的图像聚类算法。除图像聚类外,LRR子空间分割算法也是一种基本的数据聚类法。更重要的是,LRR首次提出了“低秩”(Low Rank)准则。LRR不但在机器学习领域产生巨大的理论影响,而且在计算机视觉和图像处理领域有着广泛的应用。为了提高物体识别系统的运行速度,我们需要一种高速的相似图像查找技术。我们提出了称为FE(Feedback Embedding,反馈嵌入)的数据降维算法。基于FE,我们可以设计出一种有效的语义哈希算法,进而实现在大规模物体识别系统中的快速相似图像查找。除研究物体识别和一些相关的机器学习问题(比如分类、聚类和降维等)外,本文也对一些根本的科学问题进行了讨论。比如我们探究大脑是如何处理视觉信号的,并提出了一个新颖的神经编码假设,即大脑是基于信号重构来处理信号的。
其他文献
本文利用CGSS2003和CGSS2008两年的数据,分析了我国城镇居民教育与主观幸福感之间的关系。研究发现:(1)教育对我国城镇居民主观幸福感有显著影响,教育水平越高主观幸福感越强;(2)收入
委婉语在世界各民族语言中都是一种普遍存在的语言现象,也是当今语言学界关注的热点。不同的社会历史背景和文化氛围可以生成各异的委婉语。汉英两种语言中都存在大量的委婉语
受世界经济全球化、区域经济一体化发展趋势和旅游业竞争的影响,越来越多的地区开始重视区域旅游合作,以此提高区域旅游竞争力。区域间资源共建、产品互补、客源互送、利益共享
我国是一个多民族统一的国家,根据各少数民族发展的需球和愿望,在少数民族地区的学校开设双语教学,是我国民族教育政策中的一项基本政策。不断加强中小学少数民族“双语”教师师
地处农牧交错带的毛乌素沙地是我国北方重要的生态屏障。油蒿(Artemisia ordosicaKrasch)是毛乌素沙地最重要的建群植物之一,其群落面积约占沙区总面积的31.2%,是毛乌素沙地面
体裁分析这一概念最早由John Swales在1981年引入到学术英语中,它主要研究在某种特殊语境下语言结构的使用。过去三十年里,体裁分析吸引了越来越多学术英语和科研英语领域内学
变像管分幅相机是研究物质超快过程的重要工具之一,在核聚变、高温高密度等离子体物理、非线性光学、光化学、光生物学等领域具有广泛的应用。变像管的光电阴极通常使用Ag-O-C
<正> 在热轧硅钢带的生产过程中,为了给后续轧机提供表面光洁的坯料,需要对带钢连续地进行酸洗。但由于热轧硅钢带表面附有氧化铁皮,且氧化铁皮中又含有一定量的二氧化硅,仅
超高层建筑的安全性问题是现代土木工程建设领域中所面临的重要问题之一。超高层建筑的变形监测由于其独特性,常常很难利用常规测量方法进行,GPS由于具有众多优点已经成为超高
本文通过系统地研究高钙粉煤灰地质聚合物净浆的早期凝结性能和以高钙粉煤灰、低钙粉煤灰掺Ca(OH)2或者矿渣为原材料的地质聚合物的力学性能、耐久性及微观结构的分析。获得了