基于深度学习的图像及视频描述方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:lwjjet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据压缩、通信、存储等技术的迅猛发展,图像与视频数据日益增多,必须对其进行有效的管理及利用。因此,一项运用数据挖掘技术来处理图像与视频数据的新兴技术——“视频数据挖掘”应运而生。图像描述与视频描述均为视频数据挖掘的重要内容,称其为描述性视频数据挖掘。此外,图像描述与视频描述是计算机视觉和自然语言处理领域的重点以及难点,具有广阔的应用前景。针对目前图像及视频描述准确率较低的缺点,论文以提高图像及视频描述准确率为出发点,利用深度学习领域相关方法,对图像描述框架及视频描述框架进行设计,采用卷积神经网络相关模型对单幅图像与多幅图像进行特征提取,采用词向量模型对单词序列进行处理,以对图像及视频进行自然语言描述。对基于连续Skip-gram及深度学习的图像描述方法进行研究。为进一步提高图像描述的准确率,将连续Skip-gram模型引入生成图像描述的框架中。首先,利用连续Skip-gram模型学习单词的分布式表示,产生高质量的词向量,降低了词向量的计算复杂度。然后,利用区域卷积神经网络对图像进行目标检测及特征提取。最后,将词向量与图像特征向量分别作为循环神经网络的输入向量以及偏置向量,进而输出图像描述。与三类图像描述模型相比较,采用连续Skip-gram模型的图像描述框架提高了图像描述的准确率及该框架的泛化能力。对基于深度迁移学习的视频描述方法进行研究,构建了一个新的视频描述模型。该模型在现有视频描述框架的基础上,利用迁移学习中的深度域适应方法,实现图像与帧流域中语义特征的深度融合,将融合语义特征作为视频描述框架的输入,再结合视频输入与长短时记忆神经网络,生成视频的自然语言描述。与现有的七种视频描述模型相比较,利用深度域适应方法融合不同域中的语义特征,可以进一步提升视频描述的性能。
其他文献
非物质文化遗产保护的核心是传承发展,开发利用则是传承发展的必由之路。非物质文化遗产保护丰富了旅游内容,旅游开发又促进了保护和传承发展。要根据非物质文化遗产的特性,探索
超市作为百姓日常消费的必要场所,在民生中发挥着重要作用,农林商品是解决民生的重要问题。本文对农林商品包装设计在超市中的表现形式优缺点进行探讨研究,目的是改进农林产
本文通过对不同放牧强度的研究表明 :随着牧压强度的增加 ,土壤表层 (0— 2 0 cm)水分含量明显下降 ,土壤容重与硬度增大、孔隙度减少 ;土壤全量养分下降 ,但速效养分则显著
在高速公路系统中需要使用临时交通标志作为一种重要的安全管理设施,为了维护道路的交通安全,需要对其进行合理的设置。本文以实际工程为例,首先对临时交通标志的设计要求进行了
<正>"高产、优质、高效、生态、安全"是新时期水稻栽培技术发展的主要方向。水稻集成栽培在主攻单产的同时,还要兼顾优质、高效、生态、安全,这是稻米生产上贯彻落实科学发展
Apple Pay进驻中国引起了广泛关注,但对于其在中国市场的发展前景各方却持不同观点。本文在前人研究基础之上,基于SWOT分析法,对于Apple Pay在中国市场的竞争力进行研究。文
本文从上海柑桔产业发展历史出发,分析上海地区柑桔产业发展过程中取得的成就和制约上海柑桔产业发展的诸多因素,从而提出上海柑桔产业发展的对策,以供参考。
幼儿的教育也离不开良好的饮食为其提供健康保障。因此,对幼儿园饮食健康教育予以积极关注,并积极探索适应幼儿发展的饮食健康教育方法,对于幼儿的健康、茁壮成长具有至关重
时下,直播带货成为一种新风尚,村民直播,网红直播,公司老总直播,很多领导干部也走进了直播间。我在百度输入“县长直播”,搜索结果显示有1140万条。$$其实,走进直播室直播带货的不光
报纸