论文部分内容阅读
中文文本自动校对,属于自然语言处理的应用基础研究范畴,其目的是要实现一个能达到一定校对目标的人机交互式计算机辅助校对系统。自上世纪90年代以来,出版业电子化迅猛发展、办公及日常文档处理的数字化迅速普及,这就要求人们在短时间内处理大量的电子文档,而处理过程中难免出现错误。因此电子文档的校对任务越来越重,中文文本自动校对成为一项亟待解决的研究课题。近年来不少研究者已经在文本自动分词、上下文依存分析、文本语义分析、查错纠错模型的构建等方面做了不少研究,但由于汉语理论研究的局限性和汉语言本身的特点,现有系统的整体性能离实际需求还有相当大的差距。不同的输入途径造成文本的错误也是不同的。拼音输入、语音输入导致了发音近似错误的发生,而笔型输入、OCR技术则导致了外形相近或相似错误的发生。近年来,OCR技术日渐成熟,目前的OCR识别系统对印刷体文本的正确识别率理论值可达97%左右。随着识别正确率的提高,人们对OCR识别软件的使用频率会越来越高,然而在实际识别中由于汉字字形变化剧烈,待识别文本图像噪声干扰严重等因素,汉字识别的正确率会有所降低。而OCR识别导致的主要错误就是形近或者形似错误,因此,如何对该类错误进行文本自动校对是一个必须解决的问题。本文在调研了国内外相关的自动校对研究之后,结合汉语的实际情况,充分分析了人在识别汉字形似字的常规思路,提出了基于笔形相似的文本校对算法。算法执行过程就是对人识别形似字过程的模拟:当系统根据用户当前操作判定该处文本可能错误时,系统即启动“查找疑似形近字→疑似词组反查→纠错建议给出”的操作,辅助用户进行文本校对。MS Word是目前应用最为广泛的文档编辑处理程序,本文基于微软最新推出的VSTO 2005 SE平台,实现了MS Word 2003环境下的基于笔形相似的中文文本自动校对原型系统,并完成了部分相关实验。实验表明该算法能够对形似字错误给出有效的纠错建议,实验原型系统接口的设计能够极大程度的方便用户修改文档中的错误,提高用户的校对效率。