论文部分内容阅读
随着大型化、集团化企业内部业务复杂程度快速增长,大型企业数据环境建设面临如下两个方面挑战:(1)支持复杂业务的数据集成共享困难。大型企业信息系统,由于业务实体数量巨大、实体间的关系复杂、实体的更新频繁,跨部门间复杂业务实现过程中,不同业务实体信息集成时存在语义共享需求。例如,在典型的集团化生产制造企业中,业务实体的规模从几千个快速到数万个不等,而实体间的关系却接近实体数量的数十倍。业务实体的修改或调整将会导致复杂业务间实体信息共享困难。(2)支持企业数据深度应用的数据分析困难。由于传统企业数据环境缺乏语义信息,导致企业数据深度应用分析困难。例如,大量诊疗数据中由于缺乏药品副作用、替代药品等领域知识支持;疾病诊断记录缺乏完整的疾病知识库支持;治疗及手术记录缺乏详细的手术操作数据库支持;使得医院内部数据间的深度关联分析变得十分困难。语义信息的缺失是阻碍企业数据集成共享与深度应用分析的主要原因之一。目前的研究认为基于企业已有事物数据环境,融入带有语义描述的知识数据,构建能够同时支持复杂数据共享和深度数据应用的语义支持环境是一种可行的实现路径。本研究结合关联数据模型、开放关联数据、基于关联图的语义匹配,扩展并提出了一套完整的企业语义数据应用框架。尝试将开放知识数据与企业内部数据相结合,提高传统企业的知识共享能力和数据语义分析能力,为企业数据环境的智能化提供一种可能的实现路径。该框架被实际应用于某大型生产企业和某大型中心医院,应用的表现和结果验证了该套框架的可行性和有效性,为现代信息化体系发展提供了一条新颖的探究道路。具体来说,本研究的主要贡献和创新点有:·本文首先提出了一套完整企业数据语义支持框架,与开放环境相结合,构建富含语义的企业数据应用环境。该框架以传统的数据库及其他数据源为输入,输出一个以关联数据模型为基础,结合开放知识与数据融合的企业语义数据环境。框架包含数据建模、知识导入、语义融合三个部分,其能够支持企业复杂业务数据的共享和数据深度应用分析。·本文提出了一个面向数据分析的数据模型,将传统关系模式映射到关联数据模式。其能够将以关系数据库描述的企业内部数据映射为以RDF描述的关联数据。同时,也能够将以E-R关系模型描述的半结构化表单转化为以RDF描述的关联数据。关系型数据库的转化被实际应用于某大型中心医院的HIS数据转化中;而半结构化表单转化被应用于某大型轮毂生产企业的工艺文件转化中;为两个企业提供了统一的基础数据模型,为后续基于此数据的应用分析提供了较好的基础。·本文提出了一种开放数据与本地数据的关联方法,将外部知识数据导入到企业内部环境中。其不仅能够关联开放数据中的实例对象,也能够通过实例挖掘和描述推理,关联高层次的概念对象。实例的关联被实际应用与某医院的药品数据库中,极大的丰富了院内药品信息的维度。概念关联被应用于某轮毂生产企业的工艺文档中,极大的丰富了专业工艺概念的知识解释,较好的缩短了工艺设计和现场加工之间的差距。·本文提出了一种基于关联数据图的语义匹配方法,将知识数据与企业内部数据自动的融合起来。其结合了Sim Rank、Sim Flooding等语义匹配技,扩展了子图划分和节点索引。得到了一种能够有效应对大规模关联数据图语义匹配的综合算法。该算法在OAEI国际标准测试集的测试中获得了较好的结果。该算法被实际应用于某医院肠癌相似病例的语义匹配中,获得了较好的表现,为该医院相似病例分析提供了一种新颖且有效的解决方案。·本文所提的企业数据语义应用框架被实际应用于大型生产和服务企业中:某大型轮毂生产企业和某中心医院移动医疗服务。针对企业特定业务需求,融合开放数据的语义数据环境的构建,有效的提高了该生产企业的工艺文档的创建、发布、调整和现场部署,缩短了该企业之前存在的工艺设计与现场加工之间的数据偏差。应用语义数据标签的分析,某中心医院能够有效的从移动医疗服务中众多用户中准确的识别出异常或投机倒票用户,较好的优化了该医院的移动医疗服务质量。总的来说,针对不同的业务需求,本文所提的语义数据框架能够灵活的应用于不同的业务场景中解决实际存在的问题,为现代生产与服务型企业提供一种有效的知识共享与数据分析支持环境,为现代企业智能化发展提供了一种可行的实现路径。