中医药信息的XML描述实现

来源 :硅谷 | 被引量 : 0次 | 上传用户:papalong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]中医药信息具有单属性多值的特点,同名异物、同物异名的现象普遍存在。传统的关系数据库中数据的表述是基于行与列的,这非常不利于中医药信息的描述。XML以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述。在XML中,用户可以采用树型结构自己定义标记,标记的增加与删除也非常的方便。然而XML毕竟不是数据库,用XML代替数据库的想法是不科学的。SQL Sever 2005提供了对XML的强数据类型支持,对XML文档或片段的修改与查询也提供了全面支持。
  [关键词]医药信息 XML 信息表述
  中图分类号:R2 文献标识码:A 文章编号:1671-7597(2008)1220048-01
  
  一、使用XML信息化数据
  
  (一)XML概述
  HTML(Hypertext Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)都是标记语言。随着Internet的发展,信息的交换、检索、保存和再利用等迫切需求使HTML这种最常用的标记语言已越来越捉襟见肘。作为SGML的子集的XML,以一种开放的自我描述(Self describing)方式定义了数据结构,在描述数据内容的同时能突出对结构的描述。XML较HTML有如下的一些优点[1]:
  1.数据与表现形式的分离:HTML文档的一个局限之处在于数据和表现形式没有分离,而XML可以只保存数据,或者只保存表现形式即架构(XML Schema),开发人员可以很灵活的修改数据或者其表现形式而不会对另一方面造成影响。
  2.灵活的扩展能力:在XML中没有固定不变的标记,使用者可以根据具体应用及习惯来定义标记,从而设计出高效的、可扩展的数据结构。
  3.数据结构的开放性:XML规范是由W3C(World Wide Web Consortium,
  全球万维网联盟)制定的,完全开放,不同组织开发的XML文件格式对于其他人和应用程序来说都是可读的。
  (二)XML文档与关系数据库之比较
  随着Web时代的到来,“泛数据”管理成为人们关注的重点。这些数据通常都不是以行和列的格式存在的,不像关系数据那样是严格的结构化数据,因此对这类数据的存储管理以及快速高效的查询是对传统关系型数据库的挑战。
  从严格意义上来说,XML与关系数据库不具备可比性,因为XML本身不是数据库。从狭义上来讲,XML仅仅意味着XML文档。但它提供了许多数据库所具备的东西,从技术角度讲,XML与其他数据库同属于数据管理手段[2]。
  XML随时可以新增字段,只要吻合XML schema的定义,字段便可以弹性置入;相对而言,关系型数据库一旦要修改字段,牵动的范围相当大,既会影响到过去的数据,与其它数据表的关系也必须一并思考在内,在变动的弹性上较小。
  
  二、使用XML描述中医药信息
  
  (一)中医药信息的特点分析
  我国中药材资源丰富,品种繁多,除药物正名外,还有异名如方名、土名、别名、俗名等,同物异名及同名异物的现象极为普遍。据《中药大辞典》统计:有异名的多达3967种,其中药物异名从一个到数个不等,同名异物的也有一定数量,《中药大辞典》中,仅正名相同的就有50余种。
  正是由于中药材多名、重名的现象大量普遍存在,在中医药界同时普遍存在着中药处方用药名称不规范的现象,如“破故纸”既是补阳药“补骨脂”的别名,又是清热药“木蝴蝶”的别名,处方中开“破故纸”,调配者不知如何付药。无论是在中药学、中医方剂学方面,还是中医药文献方面,都存在着大量的异名现象。施氏[3]用计算机对《中华名医方剂大全》一书中的异名方做过统计,全书9031个方剂竟然有1004个异名方。
  (二)采用关系数据库描述信息
  从上述描述可以看出,中医药信息具有单属性多值的特点。如果采用传统的基于关系的数据表描述,势必造成大量的信息冗余:不论是在一张表中使用多条记录描述属性所有的值,还是将有信息冗余的字段独立成另外一张表;如果采取在一张表的一个字段中以逗号或制表符等做分隔符的方法表示多值的数据,虽然可以有效地避免信息的冗余问题,但读取数据时就需要借助对应的解析器对多值字段进行处理,这样就减缓了开发的速度,而且很可能导致错误的发生。一个良好的解决方案是使用XML文档或片段描述信息,并对它们进行存储和处理。
  (三)采用XML描述的设想
  然而XML不是数据库,用XML文档代替数据库的做法是不科学的;传统的关系型数据库经过长期的发展已相对成熟,具有稳定高效的特点。幸运的是,SQL Server2005对XML提供了强类型支持,此外,对XML数据查询与更新技术也提供了强大的支持。因此笔者提出在存储和主体设计上仍然采用关系数据库SQL Server2005;对于中药信息的具体描述则采用存储XML“片段”的方法:在关系数据库的“药材”表中只有“编号”与“药材信息”字段,两个字段分别采用整型和XML类型描述;中药材所有属性都以标记的形式封装在“药材”标记中(该标记属性为空),并在XML类型字段“药材信息”中以XML片段的形式存放。
  这样一来,一种中药材对应多个异名的同时又有效地避免了其他字段信息的冗余,如果需要查询某种中药材,可以先得到这种药材对应的XML片段。当这些片段被取出时再利用XML相关的查询语言XQuery便可获取相关结点的信息。
  
  参考文献:
  [1]侯昌昌,XML数据管理技术研究,硕士论文. 南京师范大学, 2004. 6.
  [2]江导、姚国祥,XML在数据库设计中的应用及研究,2005.26: 590-592.
  [3]施诚,中医药信息学的特点与现状,医学信息,1998.11: 21-23.
其他文献
[摘要]研究一种VPN网关的设计方案,使工作在局域网的网关位置具有加密和认证功能:完成了采用IPSec的VPN网关设计,通过修改Linux内核可以实现基于IPSec的VPN网关,加快了处理速度并避免了操作系统本身的不安全性。  [关键词]VPN网关 IPSec协议 Linux内核  中图分类号:TP3文献标识码:A 文章编号:1671-7597 (2008) 0310028-01    一、设计方
期刊
[摘要]一种基于Trident Pro-QX数字电视系统的DDR2 400信号完整性设计、采用Cadence SPecctraQuest 仿真平台进行分析设计。类似于理论指导实践,来保证memory在高速状态下,保持稳定工作。从而达到研发成本最小,系统效率最大。  [关键词]DDR2 Pro-Qx 数字电视 信号完整性 Cadence SPecctraQuest  中图分类号:TN94文献标示码:
期刊
[摘要]讨论C语言教学中需要注意的几个问题,包括兴趣、实践、数学基础以及程序设计风格等问题。  [关键词]C语言 兴趣 程序设计  中图分类号:G43 文献标识码:A 文章编号:1671-7597(2008)0310067-01    C语言是计算机及其相关专业本科生的一门专业基础课,很多高校都将其作为学习计算机时的必修课程。学好C 语言既是学习C++、Windows编程等程序语言的基础,也是数据
期刊
[摘要]通过VB控件教学,讲述怎样教学生将专业知识和其它素质相结合起来,并系统化。  [关键词]visual basic 控件 对象 创造性 方法  中图分类号:G43 文献标识码:B 文章编号:1671-7597 (2008) 0310076-01    控件是面向对象的程序设计语言中的一大特色,它是面向对象程序设计中的一个基本组成部分,同样,在VISUAL BASIC语言中,它也给我们提供了丰
期刊
[摘要]二叉树中E=I+2n公式在查询等领域有着广泛的应用。一般对它采用数学归纳法来证明,且仅限于公式的直接应用。直接证明方法在充分利用二叉树定义的迭代关系基础之上,分析二叉树中E与I之间的密切关系,据此提出该公式的另一种证明方法并进行严格的证明。该方法能更多地了解每一边、每一结点上的具体情况,因而具有广泛意义。  [关键词]扩充二叉树 内部结点 外部结点 外部路径长度 满二叉树  中图分类号:O
期刊
[摘要]近年来,110KV有载分接开关多数采用电阻式组合型,总体结构可分为三部分:控制部分、传动部分、开关部分。有载分接开关对提高供电系统的电压合格率起到了重要作用。而目前靠大电网供电的县级电网的调压手段,主要靠有载调压变压器来实现。  [关键词]110KV有载分接开关 运行 维护  中图分类号:TM4 文献标识码:A 文章编号:1671-7597(2008)1220018-01    一、110
期刊
[摘要]在许多中小型软件企业中,软件质量是亟待解决的问题,而测试作为软件质量问题解决的重要手段,就成为他们的瓶颈。讨论抽取CMMI中的针对测试体系的部分,性能能够快速复制并且符合CMMI体系的软件测试体系标准,使得这些无法实施CMMI的企业也能够获取更好的软件质量。  [关键词]CMMI 测试体系 快速复制  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)122004
期刊
[摘要]目的:研究大孔树脂分离和富集麦冬中总皂苷的工艺条件。方法:以麦冬中含量较高的麦冬皂苷A和麦冬皂苷B的富集量作为考察指标来确定富集效果。对5种不同类型的树脂进行评价优选。结果:D一101型大孔吸附树脂对麦冬中总皂苷有较好的分离富集能力。通过D一101大孔吸附树脂富集,麦冬提取物可以有效除去糖类等水溶性杂质,使麦冬皂苷A含量提高32倍,使麦冬皂苷B的含量提高36倍,富集效果好。  [关键词]麦
期刊
[摘要]在分析应变Si/应变Si1-YGeY/驰豫Si1-XGeX pMOSFET的在栅极电压作用下电荷在栅氧化层下面的分布情况的基础上,通过求解泊松方程,得到此器件的隐埋SiGe沟道阈值电压解析模型和表面沟道的阈值电压解析模型,并用典型参数对模型进行了模拟,得到的模拟结果与实验结果能够很好的吻合。  [关键词]SiGe MOSFET器件 阈值电压 解析模型  中图分类号:TM8 文献标识码:A
期刊
[摘要]介绍一种基于复杂可编程逻辑器件(CPLD)和数字信号处理器(DSP)的图像采集系统。系统采用增强型视频输入处理芯片SAA7111A完成视频信号的A/D转换,利用CPLD实现对视频前端译码后的视频数据的存储,以及完成前端采集与后端处理协调工作的方案。按照该方法制作的系统,经过实验验证效果良好。  [关键词]DSP CPLD 图像采集  中图分类号:TP3 文献标识码:A 文章编号:1671-
期刊