基于多层次可信度指导下的自底向上版面分析

被引量 : 0次 | 上传用户:ydzdems
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,数字信息己经成为人类最重要的资源。大量的信息记录在纸质文档上,而纸质文档具有不便于长期保存、检索和数据挖掘的缺点。因此,纸质文档的电子化、数字化处理己成发展趋势。采用传统的手工录入的方法实现大量纸质文档电子化是不现实的。随着OCR(Optical Character Recognition)技术不断发展与成熟,人们开始利用计算机对文档进行自动处理,提高了文档处理的效率、节约了人力和物力。文档图像自动处理越来越受到人们的重视,并开始应用到日常生活中。 文档图像自动处理主要包括文档图像的版面理解(Document Layout Understanding)和OCR识别。OCR识别研究起步较早,已经达到较为实用的程度。而文档图像的版面理解直到90年代才得到人们的重视,在这方面研究的不足己成为制约文档处理推广应用的主要因素。本文在收集和分析了大量近年来国内外文档图像处理方面的研究报告、学术论文等专业资料,对文档图像版面理解所涉及的若干理论问题进行了探讨;着重对文档图像的倾斜估计、表格文档图像的版面理解进行了研究。主要工作包括: 在自动办公文档业务中,文档图像处理已经逐渐成为关键的技术。文档的自动处理是OCR(Optical Character Recognition)系统的重要组成部分。在扫描的过程中由于操作的原因,可能会使文档图像发生倾斜。这种倾斜的图像会对后期的版面分析、版面理解、字符分割和字符识别产生不利影响。因此,在实用的OCR系统中检测和纠正倾斜的文档图像是关键的环节和技术。本文应用从二值文档图像萃取连通体为倾斜矫正和分割识别提供信息的方法。同时还提出了一种新的快速、准确的倾斜矫正的算法。实验表明此方法适合各种版面。 版面分析是文档数字化中的关键问题。本文将版面分折算法分为两类:基
其他文献
本文采用本体聚合和乳液聚合两种合成路线,系统研究了本体聚合制备得到的氨基硅油微乳化规律,首次系统研究了D4/KBM-602阳离子乳液聚合的条件对纳米级乳液性能的影响。 在
对豫西熊耳山地区祁雨沟金矿床区几个主要含金角砾岩筒开展了角砾岩岩相学、结构构造和含矿性研究,将含矿角砾岩分为三类:1)锯齿状—网脉状构造角砾岩,角砾可拼贴性强,角砾之
<正>近年来,伴随着互联网技术的完善、上网设备的普及和电子商务的高速发展,互联网金融迅速崛起。2013年被称为是"互联网金融元年",余额宝、P2P网络贷款、大数据金融、众筹融
将马克思的哲学思想置于世界思想史演进的总进程和总图景予以观照 ,通过与其他形形色色的哲学派别的比较 ,确立其独特的地位、价值和意义 ,是马克思研究中的一个重要环节。它
"胎儿"概念在我国立法中并没明确界定,在理论界也存在着争议。我国在对胎儿民事权利保护还停留在理论阶段,立法层面的保障明显不足,但各国的立法实践可以给予一定的借鉴和思
政治社会学的研究对象 ,是政治的社会基础 ,以及政治与社会的互动关系。而政治社会学的基本内容 ,则是政治社会学研究对象的具体化 ,是政治与社会之间的基本关系在各个具体领
以“一切为了学生发展”为核心观念的新课程改革,特别重视开发和培养学生的主体性,也就特别注意学生之间的互动。大学英语的教学目标也在于培养学生的语言能力、创造力和提高
清洁发展机制是《京都议定书》确立的三个灵活机制之一,是国际社会未来应对全球气候变迁的最重要弹性机制。该机制通过发达国家向发展中国家输入资金和技术与发展中国家开展
乳糖酶是一种水解酶,目前主要应用于食品、医药、分析等领域。本研究以酶工程实验室所保存的一株黑曲霉D2-26为出发菌株,采用10L发酵罐发酵生产乳糖酶,建立了一套简单易行的
《红楼梦》是中国四大古典小说之一,被称为中国古典小说创作的最高峰。《红楼梦》作为一部文学经典具有恒久的魅力,它在中国文化里产生、流传,在异域文化里也得到传播——这