页面树相关论文
对HTML文档进行预处理,包括HTML文档的清洗、建立页面树、去除无用节点和相似或相同基本项节点的合并等步骤。......
对PDF文档的处理常常要涉及到文本和图像的提取。文章在深入分析PDF格式和其中采用的各种压缩算法的基础上,实现了PDF文档中JPEG图......