【摘 要】
:
随着信息传播和信息交换需求的迅猛增长,以纸张为介质的文档信息自动转化为数字形式信息的技术成为当前研究的一大热点。文档的中文字符识别是模式识别和数字图像处理领域研
论文部分内容阅读
随着信息传播和信息交换需求的迅猛增长,以纸张为介质的文档信息自动转化为数字形式信息的技术成为当前研究的一大热点。文档的中文字符识别是模式识别和数字图像处理领域研究的重要内容之一。本文在对国内外研究现状进行深入分析的基础上,研究并设计了一个印刷体文档图像的中文字符识别系统。本文首先对经过预处理的文档图像进行了版面分析,为了有效的避免传统算法中存在的经验阈值的调整,本文采用了基于模糊连接度和行列置信度的版面分析算法,以连通域搜索算法为基础,两次合并文本行、列,准确的提取了文本区域。其次,重点研究了对文本区域进行的字符切分。针对传统算法误切分率高的问题,提出了一种改进的垂直投影算法。为了进一步提高字符切分的正确率,引入贝叶斯分类器对字符类型进行判定,然后在已有算法的基础上提出了一种基于识别反馈的中文部件合并算法和一种改进的滴水算法,后者解决了传统算法选择起始位置不准确和字符笔画损伤的问题。最后对切分出的中文字符进行识别,本文采用了二级识别的方法。以笔画全穿过数目作为汉字特征进行粗分,并在此基础上提出了笔画半穿过的汉字特征提取,然后将全穿过和半穿过结合起来作为汉字的特征值。解决了单独使用全穿过粗分汉字时能力不太强的问题,减少了二级识别的工作量。对粗分仍不能区分的汉字,采用四角的能量值密度特征对汉字进行细分。本文系统以MATLAB环境为软件平台,通过仿真验证算法的可行性,最终得到中文识别结果,识别正确率达90.8%。
其他文献
在我国林业部门的大力支持下,印度檀香(Santalum album)已在我国开始大力推广与种植,发展势头迅猛。印度檀香因其心材中所含的芳香油料而闻名于世。印度檀香是一种与寄主植物木
PM2.5是我国大气复合污染的关键污染物,随着新的国家空气质量标准的实施,PM2.5成为未来我国大气污染防控的重点对象.准确细致地掌握PM2.5的来源结构是有效防控PM2.5的前提条
南迦巴瓦峰地区出露的大片石榴石兰晶石高压麻粒岩 ,提供了一个观察青藏高原深部地壳岩石及结构的窗口 .根据高压麻粒岩的岩相学特点 ,可识别出 3期变质矿物组合 ,即 ,M1:Mus
目的:在了解医疗纠纷基本解决方式运用情况的基础上,根据调查结果分析、总结目前医疗纠纷中协商的应用情况,如采用形式、使用过程、产生效果等;全面把握现有医疗纠纷协商解决
建筑是用材料建造来创造空间的,因此建筑具有本体建造的物质意义和再现形式的精神意义。对建筑材料的研究,势必要综合材料的结构属性、技术构成、表面属性以及由这些呈现出来
<正> 影片的内涵与结构形式《青春祭》描写的是汉族女知识青年李纯到西南傣族地区插队时期的一段生活经历。李纯在和傣家朝夕相处的日子里,逐步在灵魂深处复活了人的本性,并
由于西瓜酮特有的清新果香以及海洋气息,越来越受到消费者的推崇,目前已经广泛应用于日化产品中,因而对其合成工艺的研究具有十分重要的意义。本文以1,3-二氯丙酮和4-甲基邻
恶意诉讼是诉讼领域中一种不正常的现象,是指行为人为了牟取非法利益或者加害他人,无事实根据或合理理由利用诉讼程序提起民事诉讼、刑事诉讼或者滥用诉讼程序,从而使他人遭
<正>一般情况下,中央空调营销属于典型的大宗贸易,其销售特征与渠道结构与普通消费品区别也很大。笔者曾经接触过不少中央空调产品营销案例,对于中央空调新产品上市作