自然场景图像中的文本检测与识别算法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:furuirui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信、数字媒体技术和人工智能的飞速发展,产生了大量的数字图像资源。目前,对这些丰富多彩的图像资源进行分析,并提取有价值的信息是计算机视觉领域的研究重点。因为自然场景图像中的文字都含有丰富的语义信息,可以帮助人们更好地沟通和学习。因此,对自然场景中的图像和视频中的文字进行检测与识别具有十分重要的意义。本文重点研究了自然场景图像中的文本检测算法。首先介绍了场景文本检测领域的研究背景和国内外研究现状,然后对当前流行的文本检测模型进行重点介绍与分析,并详细讨论了文本检测模型的评价标准。在通过检测算法得到文本区域的基础上,本文还对经典的文本序列识别算法进行了分析与实现。针对自然场景图像中的文本检测和识别算法准确率较差的问题,主要的研究内容如下:(1)论述了现有的端到端文本检测模型EAST,分析了EAST模型存在的不足,改进了EAST检测模型的网络结构,利用Refine Net结构融合特征,解决了EAST模型因感受野的限制而无法完整检测长文本的问题。其次,调整了模型的损失函数Loss,改进了数据集样本权重不均衡的问题,提升了文本检测的精度。同时,使用Res Net50作为基础网络,提高了模型在复杂场景中的鲁棒性。(2)研究了场景文本识别的相关问题,采用改进的CRNN识别算法对文本区域进行识别,使用Dense Net模型作为卷积层,并重点识别中文文本。同时针对自然场景图像中非水平方向的文本,使用仿射变换操作调整文本方向,提高了文本识别的精度。(3)将改进后的场景文本检测算法和文本序列识别算法在不同的文本数据集中进行了验证和对比。实验结果表明,本文所提出的自然场景文本检测和识别算法能够高效、准确地检测文本的位置,在面对复杂的场景时也具有良好的鲁棒性。与其他文本检测和识别方法相比,速度和算法准确率都取得了不错的结果,具有很重要的理论研究和使用价值。
其他文献
在经济科技迅猛发展的今天,从行业产品质量的竞争到产品个性的竞争,我们已经开启了品牌时代。品牌代表了市场和消费者对企业的认可,品牌价值的提高能够使企业形成良性循环,在竞争中脱颖而出。我国一直倡导品牌的主导作用,以促进供给侧结构改革。因此,企业科学的评估品牌价值,并开展有针对性的品牌建设非常必要。近年来,时尚、高性价比的快时尚服饰风靡全球。自2002年进入中国市场,快时尚服饰行业获得了快速发展,它给中
随着我国经济的飞速发展和城镇化的深入推进,在家庭承包制的基础上如何实现农户承包地规范有序流转成为各级政府关注的重点,而农村土地股份合作社因在运行中能较好的保障农民
通过图像来重建三维数字几何结构是计算机视觉、计算机动画、工业制造等多个领域的核心问题。在广泛的应用领域中,重建物体的完整和精确的3D几何形状的能力至关重要。近年来,
政府介入权是PPP合同中的必备条款。在特定情形下,政府为保证项目安全或者正常运营,可以行使介入权对项目实施干预。然而,政府行使介入权会对社会资本方的利益产生较大影响,所以需要设置严格的行使条件加以规范。欲对政府介入权加以规制,先要明确政府介入权的法律性质。当前,我国未对政府介入权的法律性质给予明确规定,关于政府介入权的法律性质界定存在争议。政府介入权虽然是通过政府与社会资本方签订PPP合同设立的,
新世纪以来我国城镇化和工业化水平都在迅猛飞跃,使得对建设用地需求也在逐步增加,集体所有经营性建设用地势必将变成我国建设用地市场必要构成要素之一。市场的关键是其价格
近年来视频数据量呈爆发式的增长,如何在海量的视频数据中获取结构化的数据成为了一个亟待解决的问题,而在海量视频数据中,人们最迫切希望获取关于行人的位置信息和特征属性
子宫颈癌是全世界女性中第四大常见的癌症。目前子宫颈癌有效的诊断方式是液基薄层细胞学检测。但这需要医生于显微镜下在大量的细胞中寻找癌细胞,其工作量巨大、误诊率高,且我国的病理医生严重缺乏。因此迫切需要智能化的辅助诊断系统。而细胞核的分割和识别是决定这一系统是否有效的关键两步。然而显微镜采集到的图像会存在一些光照不均、背景复杂、染色深浅不一,采集到的图像中也会有一些细胞碎片、垃圾的存在。且医生通过显微
随着移动交互设备的飞速发展,5G网络的逐渐普及,人们越来越渴望获得更加高质量的信息交互体验。从文字,图像,语音,到目前逐渐火热的短视频,信息的载体在逐渐由简单向复杂,由
大气压冷等离子体射流(APPJ)作为一种全新的加工介质被提出,在被用作微细电火花加工介质时,可以获得较其他气体介质更大的放电间隙,改善了极间状态,减少了非正常放电现象和电
视觉注意作为生物视觉和计算机视觉的一个重要研究方向,从提出至今,吸引了心理学、神经系统科学以及计算机视觉等领域的众多专家和学者投入其中,经历了长期的发展。研究发现,人类大脑与视觉系统对场景图像进行视觉处理时,并非对所有信息同等看待,而是习惯于对某些区域或目标分配更多的注意(如观察次序和持续时间等),我们称之为显著目标或显著区域。显著目标和显著区域检测算法在工程上应用广泛,如智能相机、智能交通系统等