论文部分内容阅读
随着现代出版事业的不断扩大,人工校对的工作量日益增大,产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域,它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难,如分词、词性标记等。中介语文本由于它的特殊性,无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面向普通的中文文本,它处理的是母语为汉语的人士所写成的中文文本,它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言,后者较前者在研究、处理上多了很多困难,如:训练语料和测试语料不同质,错误种类繁多,难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库,随机抽取了2063个存在错误的句子,以查找句子中的错误点为目标,构造了汉语中介语自动查错系统AECIT(Automatic Error Checker for Interlanguage Texts),采用窗口移动的方式,一次读取一个三元词串,以二元词的互信息为基本统计手段,结合词性和确定合理搭配阈值进行隔断的方式,从句子中提取发生错误的词语。由于目前中文句法分析和语义分析技术远没有达到可以实用的阶段,所以本文着眼于词语一级的自动查错研究。最终,以合理搭配阈值为3.0为例,AECIT得到了召回率73.7%,精确率50%,误报率50%的结果,并且随着阈值的调整,召回率和精确率会分别上升和下降,以满足不同用户的需要。