论文部分内容阅读
【摘 要】本文介绍文档数字化过程中的一种实际情况的处理过程和方法,主要是依托条形码技术和信息管理系统,对具有不同规格纸张的文件进行分拆扫描、在信息管理系统中实现扫描电子文件自动识别、自动拼接和系统自动上载等。
【关键词】条形码;文档数字化;信息管理系统;扫描;电子文件
引言
文档数字化是企业档案管理工作中不可避免的过程和环节,它是建设数字档案馆最基础的工作。文档数字化有机器扫描、缩微转换、人工录入等多种途径,其中通过机器扫描是纸质文件数字化最常见的手段。纸张规格单一、规范化的文件在扫描过程中操作简单,需花费的人力较少。当文件中存在不同规格的纸张的时候,操作过程将非常繁琐,差错率较高。在企业文档数字化过程中,大量的文件和报告中含有不同规格的纸张,一份文件中既包含有A4幅面的大量文字信息,还包含A1,A2,A3,甚至包含A0等不同页面规格的图纸,这些不同规格尺寸的文件给扫描工作带来较大的难度。操作人员往往需要把文件分拆,对不同规格的纸张分别进行扫描,然后再将扫描电子文件按前后顺序进行拼接合并。无论是文件分拆、扫描、拼接,还是最终的扫描文件质量检查,其工作量都非常大,容易产生人为错误,从而影响最终扫描文件的质量。
本项目的研究思路是通过将条形码技术植入文件扫描和系统管理过程,对纸质文件进行分拆扫描,自动拼接,系统识别上载,实现对纸质文件扫描、电子文件上载过程的自动控制,提高纸质文件扫描和扫描电子文件上载的效率,实现无差错管理。
1.系统分析
本项目的关键技术涉及两方面内容,一是条形码技术的应用,二是系统开发。条形码技术应用包括条形码技术的系统植入,以及根据实际情况对实体文件进行分拆处理。由于文件纸张规格的不同,必须对待扫描文件进行分拆,才能进行扫描。如果在文件被分拆之前植入条形码,通过条形码在被分拆文件的各个部分之间、扫描电子文件与系统著录信息之间建立关联,系统就可以通过识别条形码,来实现各部分扫描电子文件之间的精确识别、排序。同时,条形码也可以作为扫描电子文件最终实现自动拼接和自动上载的依据。条形码的植入可通过系统打印,人工粘贴的方式植入到待扫描文件的固定位置。
在系统开发方面,需要在系统实现以文件数据为依据生成条形码,系统中条目信息与扫描电子文件的无缝对接,实现系统识别电子文件,自动拼接电子文件,自动上载电子文件等功能。将人工从繁琐的电子文件检查、拼接、上载过程中解放出来,提高工作效率。根据业务工作实际情况,系统的业务流程图如图1所示。
以上业务流程中,①文件检查、③文件植入条形码、④扫描、⑦电子文件检查、⑧问题文件处理等五个业务步骤是需要人工干预的流程,②生成条形码、⑤文件拼接、⑥电子文件与系统条目对接、⑨电子文件上载则完全由系统自动实现。其中⑤⑨这两部分是文档数字化过程中业务量最为繁重的步骤,现在都由系统功能替代人工操作来完成。
2.技术方案
2.1条形码方案
条形码是在被分拆文件的不同部分之间,扫描电子文件与系统三者之间建立联系的纽带,在文件拆分时,其实现过程如下:
在文件检查阶段,以实体文件的纸张规格为依据,人工对实体文件进行分拆,为不同规格纸张的首页赋予一个条形码,人工检查确定文件需要被拆分的部分数。系统以记录为依据,为每一个记录生成一个条形码。根据实体文件的拆分情况,人工进行条形码分拆,条形码拆分的个数与实体文件拆分的部分数相同,这样就可以给被拆分文件的每一部分赋予一个条形码。例如:W文件中间有三张页码连续的A1规格的图纸,其余均为A4规格的纸张。该文件因为纸张规格和前后顺序不同,需要被拆分为三部分,三张页码连续的A1规格的图纸赋予一个条形码,图纸前后的A4规格纸张各赋予一个条形码,共3个条形码。系统把赋予该文件的条形码分成1/3,2/3,3/3三部分,按顺序分别赋予给文件的三部分。在系统生成条形码时,根据实体文件的实际情况,在数据库中人工输入文件分拆的总部分数是3,把条形码分成3部分并打印。在系统中显示情况如图1。
条形码被打印出来,人工粘贴到文件相应部分首页的固定位置,就可以进行文件扫描。这样扫描电子文件每一部分的首页都附上相应的条形码。至此,系统记录与电子文件均具有相同的条形码,电子文件的条形码植入业已实现。
2.2系统开发
系统开发需要实现条形码分拆(见上述条形码方案),通过识别条形码实现电子文件拼接,以及电子文件自动上载等功能。
实体文件分拆扫描后,存放在固定位置。为实现电子文件拼接,系统定期检查指定目录下的电子文件,根据数据库中电子文件的总部分数,以及位于文件首页固定位置条形码分拆顺序号,将具有相同条形码的多个电子文件按顺序合并成一个逻辑单元(电子文件),实现电子文件拼接合并的任务。至此,被分拆扫描的实体文件被重新合并成与实体文件完全一致的、完整的电子文件,并由系统按既定规则命名,转移至另一固定位置,供系统上载。电子文件命名规则也被设计为系统识别和上载电子文件的依据,以作为条形码识为的补充。
电子文件自动上载阶段,系统读取固定位置的、规则命名的电子文件,将电子文件按条形码与数据库中对应的文件记录建立关联关系,实现拼接后的完整电子文件与系统记录对接,并自动上载电子文件到数据库中相应的记录,更新数据库中的记录状态为“挂接完成”。
结论
从实际情况看,本项目的实施效果完全达到并超出系统当初的设计目标:
①条形码识别率达90%。植入条形码后,电子文件的系统扫描识别率达到90%,即90%的文件可完全由系统识别,实现自动拼接和自动上载。对于系统不能识别的文件,通过人工检查,手动完成拼接并按既定规则命名后,仍可以通过系统自动上载至数据库。
②人力成本节省30%。经过统计,与全人工操作实现文件拼接与电子文件上载相比较,该项目的实施可节省30%的人力。人工操作阶段,大量的人力集中在两个阶段,一是扫描工作需要花费人力确保扫描顺序不能倒置。植入条形码之后则可以随机扫描,由系统识别文件的页码顺序。二是花费大量的人力进行电子文件拼接。在这个过程中需要人工打开电子文件,识别文件顺序,然后再进行文件拼接,三个步骤都耗费大量时间。现在这两个阶段的80%工作由系统自动完成,与方案实施前相比较,人工只需承担以前20%的工作量。
③电子文件的良品率实现提升。实施条形码技术方案以后,由于人力资源从以前的实体文件扫描,扫描电子文件拼接等环节转移到文件检查环节,实体文件的检查效果与电子文件的检查效果都较项目实施前有明显提高,电子文件的良品率从92%提高至98%,项目实施效果非常明显。
参考文献:
王崇、高洪波、杨帆:信息时代网络媒介对档案服务的影响研究.兰台世界.2014年第32期
耽文欣:基于文字特征的文档碎片拼接复原研究. 焦作大学学报.2014年第5期
阳诚海 陈开 许华虎 何永义:基于分类特征提取的手部动作识别方法的研究及应用.计算机应用与软件2011 年第28 卷第6 期
作者简介:王崇,1971年10月,男,汉族,籍贯湖北英山,武汉大学双学位,副研究馆员 研究方向:信息技术应用和企业信息安全。现就职于深圳中广核工程设计有限公司。曾在《兰台世界》、《情报理论与实践》、《中国信息导报》发表多篇论文。
【关键词】条形码;文档数字化;信息管理系统;扫描;电子文件
引言
文档数字化是企业档案管理工作中不可避免的过程和环节,它是建设数字档案馆最基础的工作。文档数字化有机器扫描、缩微转换、人工录入等多种途径,其中通过机器扫描是纸质文件数字化最常见的手段。纸张规格单一、规范化的文件在扫描过程中操作简单,需花费的人力较少。当文件中存在不同规格的纸张的时候,操作过程将非常繁琐,差错率较高。在企业文档数字化过程中,大量的文件和报告中含有不同规格的纸张,一份文件中既包含有A4幅面的大量文字信息,还包含A1,A2,A3,甚至包含A0等不同页面规格的图纸,这些不同规格尺寸的文件给扫描工作带来较大的难度。操作人员往往需要把文件分拆,对不同规格的纸张分别进行扫描,然后再将扫描电子文件按前后顺序进行拼接合并。无论是文件分拆、扫描、拼接,还是最终的扫描文件质量检查,其工作量都非常大,容易产生人为错误,从而影响最终扫描文件的质量。
本项目的研究思路是通过将条形码技术植入文件扫描和系统管理过程,对纸质文件进行分拆扫描,自动拼接,系统识别上载,实现对纸质文件扫描、电子文件上载过程的自动控制,提高纸质文件扫描和扫描电子文件上载的效率,实现无差错管理。
1.系统分析
本项目的关键技术涉及两方面内容,一是条形码技术的应用,二是系统开发。条形码技术应用包括条形码技术的系统植入,以及根据实际情况对实体文件进行分拆处理。由于文件纸张规格的不同,必须对待扫描文件进行分拆,才能进行扫描。如果在文件被分拆之前植入条形码,通过条形码在被分拆文件的各个部分之间、扫描电子文件与系统著录信息之间建立关联,系统就可以通过识别条形码,来实现各部分扫描电子文件之间的精确识别、排序。同时,条形码也可以作为扫描电子文件最终实现自动拼接和自动上载的依据。条形码的植入可通过系统打印,人工粘贴的方式植入到待扫描文件的固定位置。
在系统开发方面,需要在系统实现以文件数据为依据生成条形码,系统中条目信息与扫描电子文件的无缝对接,实现系统识别电子文件,自动拼接电子文件,自动上载电子文件等功能。将人工从繁琐的电子文件检查、拼接、上载过程中解放出来,提高工作效率。根据业务工作实际情况,系统的业务流程图如图1所示。
以上业务流程中,①文件检查、③文件植入条形码、④扫描、⑦电子文件检查、⑧问题文件处理等五个业务步骤是需要人工干预的流程,②生成条形码、⑤文件拼接、⑥电子文件与系统条目对接、⑨电子文件上载则完全由系统自动实现。其中⑤⑨这两部分是文档数字化过程中业务量最为繁重的步骤,现在都由系统功能替代人工操作来完成。
2.技术方案
2.1条形码方案
条形码是在被分拆文件的不同部分之间,扫描电子文件与系统三者之间建立联系的纽带,在文件拆分时,其实现过程如下:
在文件检查阶段,以实体文件的纸张规格为依据,人工对实体文件进行分拆,为不同规格纸张的首页赋予一个条形码,人工检查确定文件需要被拆分的部分数。系统以记录为依据,为每一个记录生成一个条形码。根据实体文件的拆分情况,人工进行条形码分拆,条形码拆分的个数与实体文件拆分的部分数相同,这样就可以给被拆分文件的每一部分赋予一个条形码。例如:W文件中间有三张页码连续的A1规格的图纸,其余均为A4规格的纸张。该文件因为纸张规格和前后顺序不同,需要被拆分为三部分,三张页码连续的A1规格的图纸赋予一个条形码,图纸前后的A4规格纸张各赋予一个条形码,共3个条形码。系统把赋予该文件的条形码分成1/3,2/3,3/3三部分,按顺序分别赋予给文件的三部分。在系统生成条形码时,根据实体文件的实际情况,在数据库中人工输入文件分拆的总部分数是3,把条形码分成3部分并打印。在系统中显示情况如图1。
条形码被打印出来,人工粘贴到文件相应部分首页的固定位置,就可以进行文件扫描。这样扫描电子文件每一部分的首页都附上相应的条形码。至此,系统记录与电子文件均具有相同的条形码,电子文件的条形码植入业已实现。
2.2系统开发
系统开发需要实现条形码分拆(见上述条形码方案),通过识别条形码实现电子文件拼接,以及电子文件自动上载等功能。
实体文件分拆扫描后,存放在固定位置。为实现电子文件拼接,系统定期检查指定目录下的电子文件,根据数据库中电子文件的总部分数,以及位于文件首页固定位置条形码分拆顺序号,将具有相同条形码的多个电子文件按顺序合并成一个逻辑单元(电子文件),实现电子文件拼接合并的任务。至此,被分拆扫描的实体文件被重新合并成与实体文件完全一致的、完整的电子文件,并由系统按既定规则命名,转移至另一固定位置,供系统上载。电子文件命名规则也被设计为系统识别和上载电子文件的依据,以作为条形码识为的补充。
电子文件自动上载阶段,系统读取固定位置的、规则命名的电子文件,将电子文件按条形码与数据库中对应的文件记录建立关联关系,实现拼接后的完整电子文件与系统记录对接,并自动上载电子文件到数据库中相应的记录,更新数据库中的记录状态为“挂接完成”。
结论
从实际情况看,本项目的实施效果完全达到并超出系统当初的设计目标:
①条形码识别率达90%。植入条形码后,电子文件的系统扫描识别率达到90%,即90%的文件可完全由系统识别,实现自动拼接和自动上载。对于系统不能识别的文件,通过人工检查,手动完成拼接并按既定规则命名后,仍可以通过系统自动上载至数据库。
②人力成本节省30%。经过统计,与全人工操作实现文件拼接与电子文件上载相比较,该项目的实施可节省30%的人力。人工操作阶段,大量的人力集中在两个阶段,一是扫描工作需要花费人力确保扫描顺序不能倒置。植入条形码之后则可以随机扫描,由系统识别文件的页码顺序。二是花费大量的人力进行电子文件拼接。在这个过程中需要人工打开电子文件,识别文件顺序,然后再进行文件拼接,三个步骤都耗费大量时间。现在这两个阶段的80%工作由系统自动完成,与方案实施前相比较,人工只需承担以前20%的工作量。
③电子文件的良品率实现提升。实施条形码技术方案以后,由于人力资源从以前的实体文件扫描,扫描电子文件拼接等环节转移到文件检查环节,实体文件的检查效果与电子文件的检查效果都较项目实施前有明显提高,电子文件的良品率从92%提高至98%,项目实施效果非常明显。
参考文献:
王崇、高洪波、杨帆:信息时代网络媒介对档案服务的影响研究.兰台世界.2014年第32期
耽文欣:基于文字特征的文档碎片拼接复原研究. 焦作大学学报.2014年第5期
阳诚海 陈开 许华虎 何永义:基于分类特征提取的手部动作识别方法的研究及应用.计算机应用与软件2011 年第28 卷第6 期
作者简介:王崇,1971年10月,男,汉族,籍贯湖北英山,武汉大学双学位,副研究馆员 研究方向:信息技术应用和企业信息安全。现就职于深圳中广核工程设计有限公司。曾在《兰台世界》、《情报理论与实践》、《中国信息导报》发表多篇论文。