表单实例驱动的数据类服务平台的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：fy9112003

【摘要】

：

尽管近年来信息化程度得到了飞速的发展,但在企业业务中还是不可避免地出现大量纸质表单。为了存储和管理这些纸质表单上的信息,现在一般是通过人工的方式手动录入信息并处理

【作者】

：

周珺

【出处】

：

上海交通大学

【发表日期】

：

2004年期

【关键词】

：

OCR技术表单识别模型融合词义相似度实体资源模型数据服务平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

尽管近年来信息化程度得到了飞速的发展,但在企业业务中还是不可避免地出现大量纸质表单。为了存储和管理这些纸质表单上的信息,现在一般是通过人工的方式手动录入信息并处理,这将耗费大量人力,也阻碍了企业信息化的发展。另外,纸质表单的信息还具有多源异构、多级层次的特殊性,常用的纸质表单如简历、发票等都是来自不同渠道,有不同样式,可能包含多个实体和属性之间的层次关系。这不仅对信息抽取造成了难度,也对信息系统中的数据管理增加复杂性。因此,如何将非结构化的纸质表单转化成计算机可处理的实体模型,协助企业信息系统的快速开发,是在企业信息化过程中将要面临的难题。针对这一问题,本文提出了表单实例驱动的数据类服务平台框架,通过OCR工具识别表单中的信息,根据识别结果从表单中抽取出对应的实例模型,对实例信息进行分析整合,构建适合于企业信息系统的实体资源模型,生成对应的数据服务,帮助企业信息系统的快速构建。本文的主要研究内容如下:1)提出了纸质表单驱动的数据服务平台框架本文提出了基于纸质表单的服务平台的框架。它解决了现实业务中对纸质表单读取和处理的需求,不仅节约人力物力来管理纸质表单,更为企业信息系统的快速开发提供了帮助,加快了企业信息化的进程。2)实现了从表单抽取出实例模型的自动化方法本文提出了识别非结构化的表单信息的方法。通过分析已有OCR工具的优缺点,选择两个来分别抽取文字和表格线的信息,将结果整合后根据领域相关的规则及知识库,最终生成原始的表单实例模型。3)设计了实体资源模型及其数据持久化策略本文结合字符串、词义和内容文本相似度来判断实例属性之间的匹配关系,整合所有实例,针对表单实例多源异构、多级层次的特点,设计了实体资源模型及其数据持久化的方案,该方法易于实现和查询,易于描述实体和属性的层次关系,对多样的纸质表单具有通用性。4)构建了表单驱动的数据服务平台的原型系统本文设计了根据实体资源模型到数据服务的抽象方法,并实现了原型系统。原型平台使用Java语言进行开发,通过Tesseract和Abbyy Cloud SDK识别表单信息,利用Jena处理实例模型,借助BosonNLP、知网等库处理中文语义信息,采用MySQL实现数据持久化。为了验证方法的有效性和实用性,将原型系统应用到法务管理系统的开发中,并给出了使用场景。本文提出了基于表单实例的信息抽取和服务构建,并设计实现了原型系统。通过一系列实验的对比和原型系统的构建,证明了本文提出的方法和框架的有效性和通用性。

其他文献

C2-神经酰胺抑制α-synuclein聚集的研究

帕金森病(Parkinson’s disease,PD)主要的病理变化是中脑黑质多巴胺能神经元变性坏死及α-synuclein(α-syn)的异常聚集导致路易小体形成。经研究发现,应用C2-神经酰胺通过

会议

生活情景方法在小学数学教学中的运用

小学数学学科的知识与学生的生活息息相关,数学学科中的许多内容都是来源于现实生活。为了充分激发学生学习数学的兴趣,小学数学教师应该积极创设生活情境,在课前导入、课中

会议

生活情境小学数学教学运用策略

芹菜素对3-MCPD引起的SD大鼠肾脏损伤的保护作用及机制初步研究

芹菜素(Apigenin,API)是一种广泛存在于果蔬中的黄酮类物质,尤其在芹菜中的含量特别高。近年来国内外对于芹菜素的药理作用有着深入的研究,发现其具有抗肿瘤、抗炎、氧化损伤

学位

3-MCPD芹菜素SD大鼠氧化磷酸化caspase

汉日语数量词谓语句的对比研究

数量词谓语句是数词做谓语的句子,属于名词谓语句的一种。汉日语数量词谓语句的对比研究对汉日语名词谓语句甚至是汉日两种语言的对照都起到很大的作用。而如今并没有学者对

学位

数量词谓语句数量词语义关系对称性汉日对比

基于ICC的恶意安卓程序检测方法研究与实现

目前全球已进入移动互联网时代,智能手机的用户量在逐年增加,功能变得越来越强大,已成为一个存储了大量个人隐私信息的设备。应用程序通过调用系统API获取用户的联系人信息、

学位

程序检测ICC污点传播语义特征

零售业O2O系统的性能测试与优化

2015《互联网+流通行动计划》明确指出:支持大型实体零售企业利用电子商务平台开展网上订货实体店取货等业务。“互联网+零售”已经处于国家级战略高度。因此,许多传统零售企

学位

O2O性能测试架构系统优化高并发

利用生活情景开展小学数学教学

本文从阐述生活化情景教学法对小学数学教学的意义入手,探讨了利用生活情景开展小学数学教学的原则,并在原则指导下探究了课前、课中、课后三个教学阶段的教学策略,希望能为

会议

小学语文作文教学

无过渡金属参与，烷基酮导向的选择性芳环单碘化反应研究

由于芳基碘化物在有机及药物合成、临床药物、分子标记物和材料化学等领域有着广泛的用途,因此芳基碘化物的合成一直受到有机化学家们的青睐,并被广泛深入地研究。但以优异的

学位

无金属参与官能团导向芳环C-H碘代α-取代芳基酮碘二乙酸碘苯六氟异丙醇

鞘内注射甘珀酸对急性切口痛大鼠脊髓星形胶质细胞PX1的影响

目的:研究鞘内注射甘珀酸(carbenoxolone,CBX)后对趾部切口痛大鼠星形胶质细胞缝隙连接蛋白pannexin 1(PX1)的影响,探讨甘珀酸缓解急性疼痛的相关机制。方法:雄性SD大鼠102只

学位

甘珀酸切口痛急性疼痛星形胶质细胞PX1

虾青素通过诱导HO-1表达对神经病理性疼痛大鼠的影响

目的:研究虾青素对坐骨神经慢性压迫法(CCI)致神经病理性疼痛大鼠行为学,氧化应激和炎性反应的影响,并探讨其作用机制。方法:成年雄性Sprague-Dawley大鼠72只,体重200~250g,

学位

神经病理性疼痛虾青素HO-1炎性反应氧化应激

表单实例驱动的数据类服务平台的研究

其他学术论文