论文部分内容阅读
随着现代社会的快速发展,人们对信息的要求越来越高了,作为重要信息资源之一的档案正面临着全球信息化浪潮的巨大冲击,原有的手工管理档案的方式已经不能满足人们对档案高效管理和利用的需求。如何借助于先进的信息技术,将档案管理从手工方式向数字化方式转变,即如何更好的实现档案现代化建设已经成为人们关心和研究的热点问题。而档案数字化处理则是档案现代化建设中一个重要的内容,是档案管理模式里的一项深刻变革。对档案数字化进行研究具有十分重要的意义.在实际工作应用中,有很多要处理的数据是各种纸质的档案性表格文档。它作为一种常见的表格文档,是日常工作中处理得比较多的一种,广泛应用于各种场合,例如:各种银行票据、税务、财务报表、登记表、人事档案及考勤表等。而这些档案性文档中的大量信息常常需要输入到计算机进行整理、归类、存储和分析等更高一级的应用。这些档案性表格文档有如下特点:数量通常非常庞大,具有相同结构的表格信息,往往还包括一些公共的印刷体文字,不同的数据往往就只是人工填写的手写体信息。这里就把它称为相似表格图像档案。对档案的数字化研究首先从美国和英国开始,先进的技术和充分的研究使得他们在理论和实践上已取得了较大的成绩。我国在这方面起步较晚,对档案的数字化研究还处在探索和论证阶段,尚未形成统一的操作标准。档案图像质量还有待进一步提高、档案图像的存储空间还有待进一步压缩等问题,本文借鉴了已有的研究成果,根据实践,探讨了纸质档案中相似表格图像档案的数字化处理中的一些应用性问题,从纸质档案的数字化生产开始,仔细研究总结了纸质档案的数字化与预处理内容,包括纸质档案数字化处理的硬件设备、档案数字化的文件存储格式及选择、纸质图像档案的数字化扫描和档案二值化等图像预处理。总结研究相似表格图像档案的特点,对其中的公共表格线提取和倾斜校正进行了研究,针对实际研究对象,提出了一种基于Hough变换的图像档案的表格提取与倾斜校正方法,并且对于表格图像倾斜角度较小的情况,采用基于线性搬移技术的校正达到图像快速倾斜校正,在检测表格线的同时,完成对其端点坐标的同步记录。最后,实现了一种基于特征的以图元信息代替像素信息的图像档案压缩存储方式,对于表格线进行单独存储,然后对各档案的剩余内容再进行分别存储,与通常的单张档案的分别存储相比,极大地压缩了存储空间,这对表格档案的现代化建设具有非常大的实际意义和应用价值。