基于词袋模型的图像分类研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:az4112513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词袋模型在图像分类领域中的分类效果主要受限于局部特征的量化误差。针对这一点,本文提出一种基于多尺度全局编码图像分类方法,有效减少特征量化误差。文中通过使用多尺度特征密集采样,构建多尺度码本,使码本具备一种层次结构,通过充分利用图像特征的流形结构,计算码本全局信息,实现全局编码。通过本文方法得到的编码系数比较平滑和准确。最后本文使用多路径方法,分别将不同尺度的特征表示进行级联,得到最终的图像特征表示。这种特征表示具备了一定程度上的尺度不变性。在UIUC-8、Scene-15和Caltech-101三个常用的标准图像数据集上进行的测试中,分类准确率分别达到了88.0%、83.9%和83.1%。实验结果表明,相比于基于固定尺度码本的局部编码方法,本文方法在分类识别率方面有了显著提升。本文取得的研究成果为以下几点:首先本文提出了基于多尺度码本的多尺度特征学习方法。该方法基于词袋模型码本空间结构,提出了一种多尺度码本,在完善码本结构的同时增强了码本描述能力,减少了特征量化误差。在码本多尺度化的基础上,本文采用了多路径编码,使特征表示多尺度化,有利于得到图像各个层次的信息内容。其次本文充分利用多尺度码本的描述能力,采用一种全局编码方法,在具体的编码过程中加入了全局信息,将局部编码转换为全局编码,进一步减少了特征量化误差,使特征编码结果更为平滑,特征表示更为精确。由于全局编码对K近邻值的变化较为鲁棒,无需针对图像集寻找最优的K近邻值即可达到最优的分类效果。最后本文将多尺度特征表示与全局编码两种方法相结合,提出了基于多尺度全局编码图像分类方法,并通过实验分析了本文方法的复杂度和影响因素。本文在多个图像数据库上进行测试,证明了本文方法的有效性,同时分析了本文方法的优势和不足。
其他文献
电力市场的兴起为电网规划带来了许多新特点。建立电力市场的主要目的是通过在电力工业中引入竞争来打破电力系统的垄断,优化资源组合,提高电力系统的运行效率,使电力工业充满活力。在电力市场化的同时,也出现了一些问题。针对不同的电力区域机构关注的对象不同,因此各电力机构拥有自己的数据模式、数据组织结构不合理、数据冗余现象很常见。各个系统间的通用性很差,于是形成了电力部门之间拥有许多相互隔离的系统。本文分析了
学位
非真实感绘制(NPR)指的是利用计算机生成不具有照片般真实感,而具有艺术创作风格的图形绘制技术;而基于GPU的体绘制是利用现代可编程图形硬件的并行处理机制完成体绘制过程的
学位
近年来,随着信息处理技术的广泛应用,使各行各业的电子化迅速普及,产生了海量数据信息,如何获取和发现有价值的信息并将其运用于生产实践中非常关键。因此,一个能够分析数据并且可
“足球机器人”是人工智能与机器人领域的应用基础研究课题,它涵盖了人工智能、机器人、实时视觉、智能控制和无线电通讯等技术,受到越来越多的关注。特别是中型组足球机器人
水是生命之源,是人类生存和社会经济发展的物质基础,是可持续性发展的重要保障。水资源的可持续利用关系到人口、资源、环境、社会的协调发展。随着人口增长、社会经济发展和
公共对象请求代理体系结构(CORBA)允许分布式应用程序进行交互,并且具有操作系统、网络协议、语言无关性,因此已在商业的分布式计算环境中得到广泛应用,但是在高负荷并发通信
近年来计算机处理能力的不断增强,使软件容错技术受到了广泛的关注。软件容错具有灵活性较强和实现费用低的特点,因而被越来越多地应用到不同的领域。随着Linux操作系统的不