并行化的手写文档识别方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dhxdhxdhxdhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写汉字识别是指将用户在设备上的书写笔迹记录并转化成最终汉字内码的过程,其中涉及到信息规整、模式识别等过程。手写汉字识别的难度主要体现在汉字集的庞大、用户各异的书写习惯及相似字的判别上。由于庞大的数据集,在对汉字的判别上识别系统需要花费大量时间进行判别。而传统的手写识别主要集中在单一设备上,设计人员受到设备资源的限制,如较低级的处理器、较小的内存空间等,需要在识别速度及准确率上做出一定的协调,这就导致在单机上识别率很难得到进一步的提升。  针对这种识别率及识别速度的平衡问题,我们采用一种并行化的在线手写识别方法。这种方法秉承瘦客户端的优势,将计算量最大的识别部分集中在一个服务端集群,利用并行化加快识别过程,最终将识别结果返回给用户。这样解决了客户端计算能力不足的问题,并且能够在服务集群上利用并行化加快识别速度,既提高了识别率又提高了识别速度。  在总结手写识别算法的基础上,本文的研究工作主要包含以下几个方面:  (1)在改进的二次判别函数基础上,使用其变形公式实现数据的独立性,从而实现线性并行化,并利用加速比进行实验分析。  (2)利用神经网络实现字符识别,采用平行并行化和垂直并行化两种并行化方式,实现神经网络的并行化。  经实验测试,本文提出的并行化识别方法在不影响识别精度的前提下,极大的降低了字符识别时间,单字识别加速比达到2.7。实现的并行化在线识别系统能够达到用户自由书写并且流畅识别的需求。
其他文献
知识获取是知识工程中关键的一环,而从文本知识源中获取专业知识是一种重要而常用的途径。但从文本中获取知识并不简单,不管是手工获取还是机器获取,领域专家所使用的概念都
随着互联网的普及,计算机在各个领域的普遍应用给人们的工作和生活带来了很大的方便,人们在享用信息社会方便高效的同时,也面临着各种各样的安全风险。黑客的攻击,病毒和木马
随着网络技术、计算机技术和通信技术的迅速发展,医疗数字化渐成趋势,PACS(Picture Archiving and Communication Systems)医学图像的存档和通讯系统也逐步普及。由于PACS需
从海量生物数据中挖掘出反映疾病发生发展变化的重要信息,尤其是恶性肿瘤发生的关键特征,是生物信息学及其应用研究的一个热点问题。在生命机体中,分子间彼此相互关联、相互作用
计算机网络技术和流媒体技术的快速发展,尤其是3G移动通信技术和H.264数字视频编码标准不断的完善和普及,使得视频技术已被广泛用于人们日常生活中。但由于视频内容易复制、易
尽管二维掌纹识别技术的发展已经比较成熟,但是传统的二维识别算法主要利用手掌的灰度信息,无法完全避免光照强度变化、拍摄角度倾斜等因素带来的干扰。因此,人们开始关注使
中国手语合成系统旨在为聋人教育,聋健间的无障碍交流创造环境与基础,它利用人工智能,计算机图形学等技术,实现用三维虚拟角色演示用户指定的中国手语。系统的成功研发,为聋
近年来,随着互联网技术和视频技术的研究发展,网络上的视频数量越来越多,想要在海量的视频数据中准确提取自己所感兴趣的视频数据也是一个困难的事情,因此视频的检索技术应运
近年来,乳腺癌已经成为困扰女性身体健康的最常见的恶性肿瘤之一,如果治疗不及时还会危及生命。统计发现,若能及时诊断和治疗,患者的生存率在90%以上。乳腺钼靶 X线摄影检查是
移动手持设备的飞速发展,无线网络的全面覆盖,使得各种应用,尤其是多媒体应用,如视频,图片等,越来越多的进入到无线网络,如何提升多媒体数据在无线网络中的传输性能,成为了一