【摘 要】
:
文档信息的记录格式反映了文档处理系统支持不同语言文字的能力。从中文本地化需求出发,系统地分析了国际主流的两种文档格式标准ODF(Open Document Format)和OOXML(Office OpenXML)在文字处理方面对中文信息的支持能力,包括行文方向、中文字体、中文数字编号、日期时间格式、拼音、句首下沉、排版禁则以及网格设置等等.分析结果表明两种文档格式标准对中文信息的支持虽然存在许多
【机 构】
:
北京信息科技大学计算机学院,北京 100101 中国电子技术标准化研究所,北京 100007
论文部分内容阅读
文档信息的记录格式反映了文档处理系统支持不同语言文字的能力。从中文本地化需求出发,系统地分析了国际主流的两种文档格式标准ODF(Open Document Format)和OOXML(Office OpenXML)在文字处理方面对中文信息的支持能力,包括行文方向、中文字体、中文数字编号、日期时间格式、拼音、句首下沉、排版禁则以及网格设置等等.分析结果表明两种文档格式标准对中文信息的支持虽然存在许多共性,但是在约80%的相关功能描述方面存在较大差异,在一定程度上影响到中文信息的交换。本项研究可为文档信息的表示、共享和互操作研究提供参考,为制定面向中文信息处理的文档格式国家标准提供借鉴。
其他文献
SiO2颗粒是一种轻质纳米结构材料,它具有高比表面积(200~1000m2/g),低密度和分散性好等特性;近年来,利用SiO2作为载体的研究备受关注,相继报道了一些关于SiO2在超临界流体氛中对物质的吸附行为的研究。本研究的目的在于建立高压吸附装置,测定苯乙醇于饱和的超临界二氧化碳中在SiO2上的吸附平衡,操作温度为313.2K-333.2K,压力为8.4MPa-16.8MPa。结果表明,当苯乙醇
采用三原色染料(分散橙30、分散红167和分散蓝79)建立了超临界流体配色基础数据库。根据部分实际拼色样获得的上染系数,对配色软件进行了修正,修正后的软件给出的配方准确性明显提高。
本研究於含有超临界二氧化碳流体的电镀液中,探讨改变超临界二氧化碳的压力对电镀镍磷合金镀层性质之影响,并比较常压及超临界二氧化碳流体中所制备的合金镀层之性质。并利用X光绕射分析来监定镍磷合金镀层之晶体结构;而镀层之微观结构则是以穿透式电子显微镜进行分析。结果显示,合金镀层的重量增加量及镀层中的磷含量皆随着施加压力的变化而改变。於10MPa的压力作用下,镍磷合金镀层呈现一奈米结晶,其晶粒尺寸为14 n
SiO2气凝胶材料的干燥制备工艺是目前较成熟,应用较为广泛,其纳米状多孔的结构使其具有轻质绝热的特点。在航天热防护领域、特种服装的保温以及船舶阻燃、高层建筑等都有应用,除此之外,在其它领域也得到广泛研究应用。本文主要介绍了超临界CO2流体干燥装置为解决在气凝胶成型件干燥过程中关键设备的设计与开发,着重讨论了超临界CO2流体萃取装置与新的干燥装置的不同点,研究SiO2气凝胶成型件、铺敷件的干燥装置中
帕罗醇是合成手性抗抑郁药帕罗西汀的关键中间体,有效拆分帕罗醇对映体是制备帕罗西汀工艺的重要步骤。本文研究了醇改性超临界二氧化碳流体色谱法拆分帕罗醇对映体,以多糖衍生化手性柱Chiralpak AD-H为固定相,重点考察了甲醇、乙醇和异丙醇等改性剂对手性识别性能的影响,研究改性剂含量、超临界流体的压力和温度对帕罗醇对映体保留因子、对映体选择性和分离度的影响规律。实验采用的改性剂含量范围为3~20%(
复杂文档信息处理是基于多种组合的分析,包括手写体,表格,图片以及可打印的格式化文本。快速分析复杂文档集对于人工智能,商业智能以及决策分析等变得越来越关键。这些数据集可能是由军方,强力部门或者公司其他部门所收集,只有对这些数据进行扫描之后才能在短时间内理解和利用它们的全部价值。本文分析了当前文档信息处理中复杂数据的处理问题,提出了解决方案并在此基础上构建一个原型系统。
作为中国早期的象形文字,甲骨文的识别一直是一个难题。为探索与之相关的甲骨文自动分类问题,本文提出了一种基于曲率直方图的傅里叶描述子(FDCH)用于提取甲骨文的图形特征。这些特征进一步用于对甲骨文文字的分类。该方法具有平移,旋转、尺度不变性。在小范围的实验中表明,这种方法能够较好地实现对甲骨文文字的自动分类。
针对网页文档,网页的内容信息对于聚类来说并不完全够用。本文提出了一种融合网页标签的增强型网页聚类算法。本文将网页之间的附加信息挖掘出来,包括相同作者链接,相同标签链接和相同作者相同标签链接信息,然后将网页的内容信息相似度和网页的标签信息结合起来判断网页所属的类别。实验表明,本文提出的算法是有效的。
基于办公文档格式的文档安全需求,本文分析、比较了几种主流办公文档格式对文档安全的支持能力,并介绍了“标文通”2.O在文档安全安全机制方面所作的改进。
通过在“标文通”电子表格文档格式的基础上提炼出的电子表格文档结构模型,较系统地介绍了“标文通”和Office Open XML Formt两种文档格式的描述结构及其存在的差异。综合功能和描述方式两方面,提出了包括预处理和主转换的两段式文档格式转换的基本方法。并通过构建转换器,实现了两种文档格式之间转换。该项研究对于文档信息共享和“标文通”国家标准的推广实施有重要意义。