论文部分内容阅读
在我国电子政务建设过程中,以PDF为格式的电子文档得到了广泛的应用。相比较而言,PDF具有许多其他电子文档格式无法相比的优点,如完全保持纸质文档原样、存贮空间小、便于网络传输等。
问题:PDF文档无法编辑
作为一种图像格式,PDF的只读特性为它带来了缺陷:只能看,无法进行文本编辑、复制和引用,PDF文档之间也无法相互引用和检索,大量文档只能是一堆死的文字,而不是可应用的流动的信息。这些成为电子政务应用中的一个老大难问题。
这个问题该如何解决?面对不同部门、不同内容的PDF文档,如果要拷贝和检索,要将全部信息进行统一整理和归类,政府部门可以采取的一种办法就是用人工方式将它们重新整理录入,统一制作成某种文本格式(如Word 或txt)。显而易见,如果采用人工录入的方式,不但占用了大量人力和时间,消耗了宝贵的政府资源,还会因人工录入而产生较高的错误率,从而对政府信息传递的有效性产生不良的影响。
据汉王科技副总裁李志峰介绍,早在2002年,汉王就以敏锐的市场洞察力觉察到了各级政府机关面临的这个老大难问题,并率先提出了解决该问题的思路。从那时起,如何使政务信息流动得更通畅、信息利用率变得更高,如何更好地帮助政府机构实施电子政务工程,这些问题就一直萦绕在汉王人心头。在随后的几年里,汉王一方面密切关注政府机关PDF文档转换为文本文档的现实需求,另一方面積极组织大量科研人员进行难题攻关。
创新:实现格式转换
近期,汉王科技应用OCR领域的最新技术,推出了全新的汉王PDF图像OCR识别系统。该系统支持打开多种编码方式的PDF文件,将PDF页面完整地转换成图像,然后在系统中将其识别为可编辑的文本。用户根据需要对识别出的文字、图片、表格数据进行修改调整,并保存为Word、RTF、Excel、txt、普通PDF、双层PDF等文件格式。
该系统为政府办公量身打造,无缝整合了PDF文档录入、图像处理、版面分析识别和文本转换的全过程,使得大量PDF格式文档无法编辑、复制和检索的难题迎刃而解,彻底解决了PDF格式文档内容检索的老大难问题。
通过应用汉王PDF图像OCR识别系统,政府机构多版本的PDF文档都可以成为单一的文本格式,可以加强政府机构对文档进行科学且高效管理的能力,充分实现各类信息的在线检索、查询、浏览和阅读功能,从而为海量信息的交叉检索、内容的进一步发掘提供了现实可能性。
据悉,汉王PDF图像OCR识别系统可以涵盖全部11种PDF图片存储格式,在对PDF文档进行检索与编辑的时候,还可以保留原始文件。此外,公式识别曾经是业界公认的大难题,许多PDF文档也存在这个亟待解决的问题,即复杂的数学、物理公式及化学反应方程式的识别和转化。对此,李志峰表示,汉王PDF图像OCR识别系统也成功解决了PDF文档格式中公式识别的问题。目前,该系统已经在多个中央部委中得到了应用,同时也引起了诸多地方政府机构的关注。
链接: 关于PDF
PDF(Portable Document Fromat)文件中文名称为可携式文件,是一种平台无关的结构化文件格式,无论原始文件采用的字体、图像格式如何,生成后的PDF文件可以在Windows和Linux系统下精确呈现出文件原有的效果。
PDF文件数据组织形式灵活多样,可用多种编码方式对文本图像数据进行编码,并可以对文件数据进行加密。这使得PDF文件在显示印刷、存储空间、网络传输、信息安全等方面都优于其他众多的电子文档格式。
PDF编码方式目前有ZIP、LZW、CCITT、JPEG、JPEG2000等。
问题:PDF文档无法编辑
作为一种图像格式,PDF的只读特性为它带来了缺陷:只能看,无法进行文本编辑、复制和引用,PDF文档之间也无法相互引用和检索,大量文档只能是一堆死的文字,而不是可应用的流动的信息。这些成为电子政务应用中的一个老大难问题。
这个问题该如何解决?面对不同部门、不同内容的PDF文档,如果要拷贝和检索,要将全部信息进行统一整理和归类,政府部门可以采取的一种办法就是用人工方式将它们重新整理录入,统一制作成某种文本格式(如Word 或txt)。显而易见,如果采用人工录入的方式,不但占用了大量人力和时间,消耗了宝贵的政府资源,还会因人工录入而产生较高的错误率,从而对政府信息传递的有效性产生不良的影响。
据汉王科技副总裁李志峰介绍,早在2002年,汉王就以敏锐的市场洞察力觉察到了各级政府机关面临的这个老大难问题,并率先提出了解决该问题的思路。从那时起,如何使政务信息流动得更通畅、信息利用率变得更高,如何更好地帮助政府机构实施电子政务工程,这些问题就一直萦绕在汉王人心头。在随后的几年里,汉王一方面密切关注政府机关PDF文档转换为文本文档的现实需求,另一方面積极组织大量科研人员进行难题攻关。
创新:实现格式转换
近期,汉王科技应用OCR领域的最新技术,推出了全新的汉王PDF图像OCR识别系统。该系统支持打开多种编码方式的PDF文件,将PDF页面完整地转换成图像,然后在系统中将其识别为可编辑的文本。用户根据需要对识别出的文字、图片、表格数据进行修改调整,并保存为Word、RTF、Excel、txt、普通PDF、双层PDF等文件格式。
该系统为政府办公量身打造,无缝整合了PDF文档录入、图像处理、版面分析识别和文本转换的全过程,使得大量PDF格式文档无法编辑、复制和检索的难题迎刃而解,彻底解决了PDF格式文档内容检索的老大难问题。
通过应用汉王PDF图像OCR识别系统,政府机构多版本的PDF文档都可以成为单一的文本格式,可以加强政府机构对文档进行科学且高效管理的能力,充分实现各类信息的在线检索、查询、浏览和阅读功能,从而为海量信息的交叉检索、内容的进一步发掘提供了现实可能性。
据悉,汉王PDF图像OCR识别系统可以涵盖全部11种PDF图片存储格式,在对PDF文档进行检索与编辑的时候,还可以保留原始文件。此外,公式识别曾经是业界公认的大难题,许多PDF文档也存在这个亟待解决的问题,即复杂的数学、物理公式及化学反应方程式的识别和转化。对此,李志峰表示,汉王PDF图像OCR识别系统也成功解决了PDF文档格式中公式识别的问题。目前,该系统已经在多个中央部委中得到了应用,同时也引起了诸多地方政府机构的关注。
链接: 关于PDF
PDF(Portable Document Fromat)文件中文名称为可携式文件,是一种平台无关的结构化文件格式,无论原始文件采用的字体、图像格式如何,生成后的PDF文件可以在Windows和Linux系统下精确呈现出文件原有的效果。
PDF文件数据组织形式灵活多样,可用多种编码方式对文本图像数据进行编码,并可以对文件数据进行加密。这使得PDF文件在显示印刷、存储空间、网络传输、信息安全等方面都优于其他众多的电子文档格式。
PDF编码方式目前有ZIP、LZW、CCITT、JPEG、JPEG2000等。