轻松四步将PDF转换为WORD文本

来源 :电脑知识与技术·经验技巧 | 被引量 : 0次 | 上传用户:asdf716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  阿贵最近很辛苦,写毕业论文,朋友给的资料全都是PDF格式的。资料很具有参考性,但要引用里面的文字却需要一个字一个字的敲。哎,痛苦啊,打字打的阿贵的两只手都发麻了。
  其实,阿贵不需要这样痛苦,利用Microsoft Office提供的Microsoft Office Document Imaging工具,我们可以提取PDF文档中的文本,甚至能把整个PDF文档转换为Word文本。
  第一步:安装Microsoft Office Document Imaging
  要安装Microsoft Office Document Imaging,需要先下载该软件。其实Microsoft Office Document Imaging不需要下载,Microsoft Office 2003、2007都提供了该工具,我们可以在“开始”菜单的“Microsoft Office 工具”找到该软件(如图1)。如果在“Microsoft Office 工具”没有该软件,可以插入Microsoft Office安装盘,选择“Office 工具”中的“Microsoft Office Document Imaging”安装该软件(如图2)。
  第二步:把PDF文档“打印”为多页面的图像
  Microsoft Office Document Imaging安装后,会给Windows安装一个叫Microsoft Office Document Image Writer的虚拟打印机(如图3),该打印机能把任何文档,包括PDF文档打印为MDI或TIF格式的图像:
  1. 用Adobe Reader等PDF浏览器打开PDF文件;
  2. 选择“文件→打印”,打开“打印机”对话框;
  3. 如图4所示,在“名称”中选择“Microsoft Office Document Image Writer”打印机,打印范围可以选择全部页面或当前页面;
  4. 在正式打印前,还需要设置输出格式和图像的保存位置:点击“属性”,如图5所示,选择输出格式和保存文件夹,一般情况下,我们选择MDI格式即可;
  5. 点击“确定”,选择的页面就会被打印为MDI格式的文件
  提示:MDI和TIF是图像文件,它们共同的特点是一个文件中可以包含多页图像,因此我们可以把一个具有很多页的PDF文件打印为一个MDI或TIF文件。
  第三步:执行OCR,把图像中的文字识别为可编辑的文本
  默认设置下,打印完成后,生成的MDI文件会自动被Microsoft Office Document Imaging打开。在Microsoft Office Document Imaging中,如图6所示,我们可以使用“页面窗格”或工具栏上的“上一页”或“下一页”按钮,查看包含在MDI或TIF文件中的多页图像。定位到需要的页面,我们就可以执行OCR识别了。
  1. 选择需要识别的页面,然后点击工具栏上的OCR识别按钮,如图7所示,可以选择所有页面或当前页面进行识别;
  2. 点击“确定”,Microsoft Office Document Imaging启动OCR识别引擎开始对选择的页面进行识别;
  3. 点击工具栏上的框选工具,在需要提取的文字上画框,然后点击右键,选择“将文本发送到WORD”,即可将要提取的文字发送到WORD中;
  4. 如果要将整个页面或所有页面上的文字发送到WORD,可点击工具栏上的“将文本发送到WORD”按钮,在打开的对话框上选择“所有页面”或“当前页面”,即可将所选页面上的文字发送到WORD中。
  提示:MDI文件还有一个特性就是能将识别出的文本和原来的图像同时保存下来。这也就是说,我们下次打开MDI文件,不需要再执行OCR识别,就可把页面上文字发送到WORD中。
  第四步:在WORD中纠错,排版文本
  通过观察发送到WORD的文本,我们会发现很多文字被错误地识别成其它字。实际上,100%地识别图像上文字是不可能的,要提高识别率,我们可选用清晰度较高的PDF文件,另外,如果文件被打印成TIF格式,选择较高的分辨率也能提高识别率。不过还好,借助Word强大的文字编辑与排版功能,我们可以对照原版对识别后的文档进行校正。
其他文献
放射性核素在近海底泥中的分布规律研究是探讨沿海核设施及核电站低放废液排入附近海域后对环境影响的一个重要方面.由于实际海域条件的复杂性,如何估算放射性核素在底泥中的
探讨了在电化学还原后隐色体被氧化及弱电流保护对靛蓝染色性能的影响。结果表明:在实验时间为3.0 h时,隐色体在不同弱电流保护下对纯棉织物染色的最高K/S值比不加弱电流保护
首次应用六线涡量探针测量了大型电站锅炉四角燃烧器射流形成的涡量场 ,发现了射流向火侧相干结构性质的涡 ,采用兰金复合涡 (RankineVortex)旋涡模型描述了该剪切大涡的尺度及其旋转速度 ,该剪切大涡的涡核半径r0 为 2 5mm ,流体微团作刚体式旋转的角速度为 - 1.5 6× 10 5r min ,应用粒子在相干结构中运动的研究成果以及燃料型NOx 的生成和破坏机理 ,分析了NOx 在
办公室中有四台电脑,一台打印机,这台打印机到底归谁好呢?难道还要抓阄?其实,打印机放谁那都一样,使用起来一样方便,因为通过局域网共享可以让每台电脑都可以访问到这台打印机并进行文件的打印。    一、打印机先落户    虽说放谁那都一样,但给打印机落户时还是有优先选择的,例如尽量选择系统稳定的,杜绝选择装机狂的电脑来共享打印机。其次,还要考虑这台电脑是否能够在上班时间常开,例如一些做业务的同事,经常
本文分析在中职学校班级管理中实施家校协同共育,有利于实现家庭教育与学校教育的优势互补,促进中职学生身心健康成长,实现社会和家庭的和谐,提出家校协同共育在中职学校班级
稳就业就是稳民生,中央提出"六稳",第一位就是稳就业。高校毕业生群体一直是政府、高校、社会、家庭高度关注的焦点,高校就业工作一直处于高校教育工作的首要目标,更是高校"
从青岛近岸海水中分离、筛选到73株细菌和10株真菌,并对其降解石油的能力进行了研究.结果表明,多数菌具有明显的降解石油的能力,部分菌株对短链烷烃正己烷和芳香烃萘具有不同程