【摘 要】
:
本文主要研究基于深度学习方法的中文手写字体的识别问题。由于汉字特有的“方块形”特点,手写体汉字无法直接利用英语手写字体识别的模型(如卷积循环神经网络模型,CRNN)进行识别。借鉴深度学习中目标检测算法的最新进展,尤其是YOLO系列算法在准确度、易用性、速度等多方面的提升,本文提出了一个基于目标检测与图像分类的两阶段非端到端模型VRCH。该模型通过在中文识别模型中引入目标检测算法,弥补了CRNN单方
论文部分内容阅读
本文主要研究基于深度学习方法的中文手写字体的识别问题。由于汉字特有的“方块形”特点,手写体汉字无法直接利用英语手写字体识别的模型(如卷积循环神经网络模型,CRNN)进行识别。借鉴深度学习中目标检测算法的最新进展,尤其是YOLO系列算法在准确度、易用性、速度等多方面的提升,本文提出了一个基于目标检测与图像分类的两阶段非端到端模型VRCH。该模型通过在中文识别模型中引入目标检测算法,弥补了CRNN单方向检索可能遗漏的信息。第一阶段,VRCH采用YOLOv5的L模型进行单字的框选,并将捕获到的汉字传入到由卷积神经网络构成的单字识别模型中。第二阶段,本文采用Conv Ne Xt的Large模型进行单字识别。整合两阶段的结果,便可对中文手写字图像进行文字识别。为了更好地完成识别任务,VRCH额外添加了用模拟数据集作预训练的步骤,极大降低了数据标注的工作量。本文选用了2020与2021年某地升学考试答题卡图像数据,以及公开的单字手写字体数据库CASIA-HWDB分别训练VRCH模型的两个阶段。为了进一步提升模型的性能,本文对部分中学的学生进行了上述两种数据的采集,经人工标注后作为补充数据集进一步提升了VRCH的性能。VRCH最终应用于该地区升学考语文默写题的实际机器批阅过程中。在实际机器阅卷中,与人工批阅结果相比,VRCH的结果在小分一致率上超过了85%,并且从2000份不一致卷中找到了200多份人工误判卷。本文的编程语言为Python3.8,采用的深度学习框架为Pytorch1.12。
其他文献
随着金融市场的稳健发展,上海证券交易所于2015年2月9日在证监会的批示下推出上证50ETF期权,其以境内首支交易型开放式指数基金上证50ETF为标的资产,所属欧式期权类别,是投资交易和学术研究的主流期权之一。作为国内首只场内期权,上证50ETF期权推动着期权交易量稳步上升,也带动郑州商品交易所等交易所推出各式商品期权,吸引越来越多投资者活跃在期权市场,期权价格是投资者所关心的投资成本,所以期权定
<正>本刊讯近日,2023年度江苏省轻工协会科学技术奖名单公布,洋河《苏派白酒生态智能酿造关键技术研究与应用》《一种提高浓香型原酒总酸含量及复合感的方法》分别荣获2023年度江苏省轻工协会科学技术进步一等奖、三等奖,《白酒酒糟中功能性物质提取关键技术的研究与应用项目》荣获2023年度江苏省轻工协会科学技术发明三等奖。
小屏手机因其小巧便携和续航能力强等特点一直备受欢迎。然而,受限于零件配置和生产技术,目前市场上可选的小屏手机种类并不多。因此,各大手机厂商对小屏手机市场份额的竞争异常激烈。与此同时,在线评论数据爆炸式增长,如何有效利用这些数据已成为一个挑战。本文旨在利用大数据分析和文本挖掘技术分析消费者的反馈和评论,帮助商家提高产品和市场竞争力,同时也有助于消费者更好地了解商品情况,优化购买决策。基于此背景,本文
近年来,房地产行业实现了跨越式发展,它对国民经济起到重要支撑作用的同时也带来了一些现实问题。随着房地产行业的快速扩张,日益高涨的房价成为了社会各界的关注热点,我国政府也相继出台了多项政策来对房价进行控制。为了确保宏观政策调控的合理性,需要对房地产行业进行更为科学有效地分析。本文采用中国35个大中城市2007年-2020年的房价及相关数据进行实证分析。首先,建立参数空间面板自回归模型探索房价影响因素
糖尿病是全球最为流行的慢性病之一.根据2021年一份全球糖尿病报告,全球糖尿病患者已达到5.37亿人.我国是糖尿病患者最多的国家,近年来我国成人糖尿病患病率持续上升,过去的10年间患者人数增幅达56%,其中尚未被确诊的患者比例高达51.7%.但由于医疗资源有限等原因,我国对糖尿病高危人群的筛查是远远不够的.而通过机器学习的方法,可以帮助医生快速的对高危人群进行筛查,做到早发现、早干预,可以有效减少
本文介绍了对数正态几何复合分布的定义与性质,给出了复合分布函数的概率分布函数、密度函数、失效率函数、平均剩余寿命和平均失效率函数。由于文中给出的失效率函数、平均失效函数、以及密度函数和平均剩余寿命较为复杂,不能通过对函数求导的方式给出函数的形状特征,故本文主要以图像加证明的方式讲述了复合分布概率密度函数、失效率函数、平均剩余寿命和平均失效率函数的性质。此外,文中给出了高阶矩的存在性的证明。论文在参
顺应经济全球化的发展,未来国家需要的是应用型和全面型的人才,以满足科学技术的发展和应对国际竞争的需要。随着全球化的进程不断推进,多元文化的融合已然成为我国社会文化发展的必然趋势和不争的事实。发展STEAM教育既有利于培养创新性、实践性和全面性的人才,又能促进多元文化的融合。近年来国内相继出台了很多国家性和地方性的政策来促进STEAM教育的本土化发展,希望通过STEAM教育培养学生成为具有科学文化素
股票市场是资本市场的重要组成部分,也是量化投资的重要研究方向。随着我国经济的不断腾飞,人们的投资理念在不断提高,对于股票趋势预测的研究课题越来越受到广大学者的重视。从初期通过简单的线性模型,例如:ARIMA模型、GARCH模型等时间序列模型对股票数据进行预测,到通过非线性模型,例如:SVM模型、RF模型、NBM模型等机器学习模型对股票数据进行研究,模型的复杂度和预测效果都在不断上升。最近几年,随着
在房地产市场的搜寻过程中,初始价格、交易持时和交易价格是反映交易过程的重要指标。所谓交易持时是指房屋从挂牌开始到销售达成的时间间隔。通过探究交易持时和成交价格的影响因素,建立模型,既可以帮助买方选择成交价格合适、更符合自身情况的房源;又可以帮助卖方在较高的成交价与较短的交易持时之间找到平衡点,获取更高的收益;同时为房产中介及政策制定者提供参考。上海作为我国的超大城市之一,其二手房地产业更是备受关注
随着人工智能、大数据等新技术的迭代与飞速发展,数据规模与网络复杂度日益呈现爆炸式增长。由于各类网站和应用的增多,为了维持更新服务器的性能与质量,企业不断增加服务器数量和规模,这也就导致了IT系统越来越复杂化。针对当前运维的缺陷,需要有一种更高效、智能的运维技术。它可以大幅度提升运维效率和质量,包括监控的便捷部署、系统故障的及时发现与报警、根因定位、以及故障处理的智能决策。本文旨在通过搭建一套微服务