论文部分内容阅读
本文的研究目标是让计算机辅助人来处理汉语中介语中的偏误。辅助的方式有四种:偏误的自动识别及提示;偏误的交互式识别及提示;偏误的自动标注;偏误标注的自动管理和检索。其中自动识别及提示的智能性最高,是本文研究的重点,其处理过程首先是自动发现偏误,在发现的基础上,计算机还可以进一步在不同程度上给出提示:直接修改、给出修改建议、指出偏误原因或提出疑问。目前,有关计算机查错的研究领域中,只有英语拼写检查技术比较成熟,汉语字词错误的校对系统刚刚达到具有实用价值的水平,其他方面的应用技术还在研究过程中,汉语中介语偏误的计算机处理还没有见到有相关研究成果发表。本文的工作集中在以下三方面:第一,面向计算机进行了偏误分析的理论研究。分析了计算机的长处和局限性,结合HSK动态作文语料库的偏误标注体系以及《外国人学汉语语法偏误分析》中的偏误类别体系,根据计算机处理自然语言的能力及所需知识,对各类偏误自动识别及提示的可行性进行了分析,特别指出语法偏误自动识别及提示的可行性较强,提出了计算机进行偏误处理的指导思想。第二,进行了偏误自动识别及提示的实践研究。依据出错率较高、可形式化程度较高等标准,选择了“把”字句、“比”字句、“有”字句和“被”字句四种特殊句型偏误作为切入点,采用规则的方法进行了偏误自动识别及提示的实验,通过与人工标注的结果相比较,证实了计算机能够在这些特殊句型偏误的识别和提示方面发挥很好的辅助作用。第三,进行了偏误自动标注的实践研究。利用了经典的求解字符串间编辑距离的算法,以汉语的词为单位通过进一步求解仿人的编辑路径发现修正原句所需要的基本编辑操作,从而实现了原句和修正句的自动比对。此外,基于自动比对的结果还让计算机在一定程度上参与偏误的归类。这样,能够较好地弥补偏误人工标注的缺陷,体现了人机的优势互补。与以往的一些相关研究比较起来,本文工作的创新性体现在:(1)研究侧重点在汉语的偏误分析方面,以往的研究是面向人的,目的是寻找让学生减少、避免偏误的教学策略;本文的研究是面向计算机的,目的是寻找让计算机自动或半自动地识别、修正偏误的方法。在汉语的中介语语料库建设方面,以往的工作主要是人工标注偏误;本文的研究是探讨如何让计算机尽可能地参与其中,与人形成优势互补。在中文文本查错方面,以往的研究针对的是汉语母语写作中出现的偶然性错误;本文的研究针对的是汉语非母语写作中出现的规律性偏误。在计算机辅助汉语教学方面,以往的研究热衷于计算机如何向学生单向地传授知识;而本文的研究重点是计算机如何对学生输入的信息给出反馈。(2)技术思想分析了计算机处理自然语言的能力以及处理各类偏误的能力,提出了利用计算机处理偏误时应遵循的指导思想。(3)技术方法基于HSK动态作文语料库,对“把”字句、“比”字句、“有”字句和“被”字句四种特殊句型的各种偏误做了具体分析,给出了识别及提示的规则,实验结果表明有较高的识别准确率和召回率。提出了采用编辑距离算法进行偏误自动标注的方法,实验证明能明显提高标注的质量和速度。本文的意义在于:理论方面,探讨了计算机辅助语言教学的可能性,既不能停留在简单的多媒体教学手段方面,又不能希冀计算机能全自动地处理各类偏误,而是实事求是地指出在这一领域计算机能力所及的范围。此外,面向计算机进行偏误分析为汉语语法研究、对外汉语教学研究提出了新的关注视角。应用方面,本文提出的方法可以辅助教师教学,减轻教师的负担;可以辅助科研人员进行中介语语料库的标注,提高标注的质量和速度;可以辅助有一定汉语基础的学生自学;有助于提高汉语作文评分的自动化程度。