论文部分内容阅读
XML文档具有的与平台无关、可移植性强等特点使其已成为跨系统交换数据的标准格式,便于进行信息检索、集成、挖掘,有着重要的实际应用意义,而Word字处理软件具有强大的文档编辑功能,且简单易学,广泛应用于文字处理,并大量采用表格来表示信息,但对Word表格的自动理解非常困难。
本文提出了一种将Word表格转换为XML文档的方法,该方法具体做法是先构建一棵HTML表格的DOM树,抽取Word表格的结构信息和单元格属性映射到HTML表格DOM树的相应结点,根据HTML的DOM树即可逆向生成HTML表格,然后利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化,再存储于关系数据库SQL Server 2000中,最后利用SOL Server2000关系数据库系统对XML文档的支持将数据库文件转换为XML文档。