论文部分内容阅读
企业内容管理(Enterprise Content Management)(简称ECM)作为一种专门的非结构化信息管理技术,伴随着非结构化和半结构化信息规模和应用需求的急剧增长,正逐渐成为信息管理技术发展的一个重要方向。很多主要的企业内容管理厂商都在各自的企业内容管理产品中有相应的非结构化数据转换技术和产品。但是这些技术和产品大多转换文档种类有限,并且转换过程缺乏灵活性和定制能力,所以并没有在企业内容管理中得到广泛的应用。另外,因为工业界存在大量的由其他系统和软件产生的页面描述语言(Page Description Language)(简称PDL)文档,为了使这些非结构化数据能够容易地纳入企业内容管理的有效管理,需要有高度自动化和高性能的转换处理工具。针对现有的这些产品和技术的不足和一些突出需求矛盾,本文以非结构化数据中-种常用类型-页面描述语言文档-为例,提出了一种通用文档模型,作为将不同格式的的非结构化数据转换成其他格式的中间媒介。首先介绍了各种常见页面描述语言文档,并分析比较了各自的优缺点。通过总结一般规律得到了页面描述语言文档的主要共通元素。然后以Unified Modeling Language(简称UML)类定义的形式设计了适用于保存各种页面描述语言文档的各类元素信息,并具有统一接口的通用文档模型。再以这个中间数据模型作为转换基础,进一步设计了基于工作流和多线程等技术的转换系统架构。它具有高灵活性和较高转换性能的特点。然后,本文详细描述了该转换系统架构中的各核心组成模块,并说明了该转换系统工作原理,包括从准备系统配置参数和转换任务项目文件、到系统的启动、任务的准备、启动、执行和结束等工作,再到最后的系统关闭的完整执行过程。同时,概要介绍了系统的监督与报告机制、系统的eXtensible Markup Language(简称XML)化参数和与图形用户界面Graphical User Interface(简称GUI)通讯的设计。接着,详细说明了组件的设计。组件设计的目标是实现整个系统处理转换任务上的高灵活性和高可扩展性。依此目标定义了组件基本类的主要数据结构和行为方法,并详细说明了组件的执行原理,包括组件的启动、执行(单线程模式和多线程模式)、停止和释放等。然后将组件按功能分为输入、处理和输出三大类,并分别说明各自的功能特点。然后再对基于上述设计而开发的转换系统原型作了介绍,包括原型系统的开发目标、产出物设计、开发的标准、工具和各个阶段的主要工作等。然后简单介绍了原型系统的界面和使用。之后再对原型系统进行了评价。评价的标准是能否替换现有产品,并能提供更多的好处。通过比较分析,得知原型系统很好地解决了现有产品的主要缺点,但是在转换性能和输出质量上需要更进一步的提高和完善,并列出了一些问题和改进点。最后总结了全文,还简单探讨了一些新技术在新转换系统中的应用和展望。