Word表格向XML文档的转换

来源 :中山大学 | 被引量 : 0次 | 上传用户:slie726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档具有的与平台无关、可移植性强等特点使其已成为跨系统交换数据的标准格式,便于进行信息检索、集成、挖掘,有着重要的实际应用意义,而Word字处理软件具有强大的文档编辑功能,且简单易学,广泛应用于文字处理,并大量采用表格来表示信息,但对Word表格的自动理解非常困难。 本文提出了一种将Word表格转换为XML文档的方法,该方法具体做法是先构建一棵HTML表格的DOM树,抽取Word表格的结构信息和单元格属性映射到HTML表格DOM树的相应结点,根据HTML的DOM树即可逆向生成HTML表格,然后利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化,再存储于关系数据库SQL Server 2000中,最后利用SOL Server2000关系数据库系统对XML文档的支持将数据库文件转换为XML文档。
其他文献
随着我国社会主义市场经济的不断发展,迫切需要建立适应市场需要的内部生产管理体制。《项目施工集成管理软件系统》采用项目管理,推行项目经理负责制,能密切专业间的协调关
在互联网时代,人们普遍使用搜索引擎来搜寻自身所需内容,但是检索时往往被淹没于信息海洋中。由于网络信息的动态变化和用户兴趣的迁移,往往在搜索引擎返回的结果列表中,很难
公安机关是维护我国国家稳定和人民生命财产安全的重要力量。随着社会的发展、科技的进步,科技强警成为公安机关应对新形势、新任务的必然选择。公安信息化是科技强警的重要内
随着计算机网络的快速发展,网络上传输的信息模式发生了翻天覆地的变化,信息的交流变得更加快捷,形式也呈现多样化。尤其是数字图像形式的传播也变得越来越普遍。由于数字内容很
随着计算机技术和无线通信技术的高速发展,先进的移动无线计算有望逐步得到普遍使用和应用。而移动Ad hoc网络由于其不需要集中式的网络管理和基础设施的显著特点在近年来受
MapReduce是一个被广泛采用的大数据分析计算框架,其基于分治的思想在一次性批处理的应用中具有相当大的灵活性和可扩展性。但是,MapReduce并不直接支持被广泛使用的迭代类型
IMS(IP Multimedia Subsystem,IP多媒体子系统)是3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)在R5版本中提出的支持IP多媒体业务的子系统,是一个独立于接入技
目前在电力系统各种应用软件中,图形支持系统的实现和功能各异。多样化的软件环境使得不同的电网接线图绘制软件和显示软件之间存在着难以共享和交换数据的问题,电力系统的发
可满足性问题(简称SAT问题)是NP-hard问题,它是当前运筹学、人工智能和计算机科学的热点领域,解决SAT问题具有突出的理论价值和应用价值。解决SAT问题的传统算法往往要占用很长
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题。图像检索技术是解决这一问题的关