论文部分内容阅读
尽管近年来信息化程度得到了飞速的发展,但在企业业务中还是不可避免地出现大量纸质表单。为了存储和管理这些纸质表单上的信息,现在一般是通过人工的方式手动录入信息并处理,这将耗费大量人力,也阻碍了企业信息化的发展。另外,纸质表单的信息还具有多源异构、多级层次的特殊性,常用的纸质表单如简历、发票等都是来自不同渠道,有不同样式,可能包含多个实体和属性之间的层次关系。这不仅对信息抽取造成了难度,也对信息系统中的数据管理增加复杂性。因此,如何将非结构化的纸质表单转化成计算机可处理的实体模型,协助企业信息系统的快速开发,是在企业信息化过程中将要面临的难题。针对这一问题,本文提出了表单实例驱动的数据类服务平台框架,通过OCR工具识别表单中的信息,根据识别结果从表单中抽取出对应的实例模型,对实例信息进行分析整合,构建适合于企业信息系统的实体资源模型,生成对应的数据服务,帮助企业信息系统的快速构建。本文的主要研究内容如下:1)提出了纸质表单驱动的数据服务平台框架本文提出了基于纸质表单的服务平台的框架。它解决了现实业务中对纸质表单读取和处理的需求,不仅节约人力物力来管理纸质表单,更为企业信息系统的快速开发提供了帮助,加快了企业信息化的进程。2)实现了从表单抽取出实例模型的自动化方法本文提出了识别非结构化的表单信息的方法。通过分析已有OCR工具的优缺点,选择两个来分别抽取文字和表格线的信息,将结果整合后根据领域相关的规则及知识库,最终生成原始的表单实例模型。3)设计了实体资源模型及其数据持久化策略本文结合字符串、词义和内容文本相似度来判断实例属性之间的匹配关系,整合所有实例,针对表单实例多源异构、多级层次的特点,设计了实体资源模型及其数据持久化的方案,该方法易于实现和查询,易于描述实体和属性的层次关系,对多样的纸质表单具有通用性。4)构建了表单驱动的数据服务平台的原型系统本文设计了根据实体资源模型到数据服务的抽象方法,并实现了原型系统。原型平台使用Java语言进行开发,通过Tesseract和Abbyy Cloud SDK识别表单信息,利用Jena处理实例模型,借助BosonNLP、知网等库处理中文语义信息,采用MySQL实现数据持久化。为了验证方法的有效性和实用性,将原型系统应用到法务管理系统的开发中,并给出了使用场景。本文提出了基于表单实例的信息抽取和服务构建,并设计实现了原型系统。通过一系列实验的对比和原型系统的构建,证明了本文提出的方法和框架的有效性和通用性。