论文部分内容阅读
对PDF文档的处理常常要涉及到文本和图像的提取。文章在深入分析PDF格式和其中采用的各种压缩算法的基础上,实现了PDF文档中JPEG图像的自动提取。算法结合PDF文档结构和页面树,按照图像在页面中出现的顺序,对各页面中含有的图像对象进行准确定位,依次提取其中的图像压缩数据,并根据采用压缩算法的不同,对压缩数据进行筛选,最后得到保存为JPEG格式的图像。算法可以很好地应用于由任何途径生成的各种类型的PDF文档。