论文部分内容阅读
摘要:蒙古文电子文档中普遍存在文本错误,主要有非词错误、真词错误、形对码错错误、句法语义错误等。其中,尤以形对码错错误最为普遍,且难以人为判断对错,只能由计算机程序自动校对。梳理文本错误是做蒙古文自动校对工作的基础和依据,其重要性不言而喻。本文在梳理了蒙古文电子文档中文本错误类型的基础上,列出了错误产生的相应原因及解决方案。
关键词:蒙古文;文本错误;自动校对
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)11-0211-03
Abstract: There are common text errors in Mongolian electronic documents, mainly including non-word errors, true word errors, pronunciation non-word errors, and syntactic and semantic errors. Among them, especially the pronunciation of non-word errors is the most common, and it is difficult to judge right or wrong manually, and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia, and its importance is self-evident. Based on the text error types in Mongolian electronic documents, this paper lists the corresponding causes and solutions of errors.
Key words: Mongolian; text error; automatic text proofing
1 文本錯误类型
由于蒙古文不同于英文的特点,蒙古文电子文档中除了有英文文档中出现的非词、真词、句法语义等错误以外,还有形对码错错误等普遍存在,且比较独特的错误。
1.1 非词错误
2.3 编码转换
由于历史原因,以往有大量蒙古文电子文档都是基于字形编码或音形混合编码(如方正6.0 文档等)存储。这些电子文档转换为基于语音的国际编码时,因为只能达到字形上的一致而导致文本错误。例如,上述单词“”的例子,在编码转换时也存在同样的问题。在将这类同形音异单词转换为基于语音的国际编码时,转换软件如果没有相当好的上下文分析功能,则很难完成转换到正确编码的任务。
3 文本错误解决方案
3.1 自动校对软件
使用自动校对软件处理非词错误相对简单,有比较成熟的一些校对算法可以很好的胜任校对任务,但处理真词错误则比较困难。对于蒙古文电子文档中真词错误的处理,最新研究有内蒙古大学斯·劳格劳副教授的硕士生迎春在其硕士论文“蒙古文真词错误的侦测与纠错建议的生成研究”中给出的一个采用基于统计的方法和基于易混淆词词典的方法设计实现的蒙古文真词错误校对系统。该系统的召回率为82%,正确率为3.4%,纠错建议生成率为91%。对于形对码错错误的处理,郝莉在其文章“基于贝叶斯算法的蒙古文文本自动校对研究”中给出了一种使用贝叶斯算法校正由于读音混淆而引起的错误(读音非词)的方法,其拼写纠错率可达89%以上。廉冰在其论文“基于有限状态自动机的蒙古文同形词校对方法的研究”(该文中的同形词错误的概念与本文中的读音非词错误的概念相同)中也给出了一种读音非词的校对方法,平均准确率达到了91.5%,平均召回率为84.9%。
3.2 输入法校对功能
通过输入法自带的校对功能,可以解决文档中的非词错误。例如,对正在编辑的文档,通过输入法自带的校对功能,在输入的同时提示用户,使其进行正确录入。目前,主流的蒙古文输入法有两种,一个是蒙科立2016输入法,另一个是德力海蒙古文输入法2016-教育版。这两种输入法都具备一定的非词提醒功能,前者是用红色显示提醒用户录入的是非词,后者是用黑色显示提醒用户录入的是非词。输入法自带的校对功能不能处理真词错误。
使用德力海蒙古文输入法2016-教育版输入读音非词错误编码时,会自动处理错误,将错误编码转换成正确编码。
3.3 人工结合校对软件
3.4 培养使用者正确录入习惯
蒙古文文档中,读音非词错误主要是由于使用者没有养成正确录入习惯,只求字形正确而导致。所以通过培养使用者正确录入习惯,从而避开导致读音非词类的形对码错错误的起因是一种较好的从源头解决问题的方案。
4 总结
蒙古文电子文档中普遍存在文本错误,主要有非词错误、真词错误、形对码错错误、句法语义错误等。分析梳理这些文本错误及其产生的原因,对蒙古文文本自动校对工作有重要的意义,是文本自动校对工作的基础和依据。目前,对非词错误的处理相对成熟,有较多的处理算法和模型;解决真词错误方面的研究相对薄弱,缺乏实用算法和方案;对形对码错错误处理的研究较广泛,但主要集中在读音非词的校正上,而同形词替代引起的错误有待更进一步研究。
参考文献:
[1] 张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006(6):8-12.
[2] 斯·劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115.
[3] 迎春.蒙古文真词错误的侦测与纠错建议的生成研究[D].呼和浩特:内蒙古大学,2017.
[4] 包敏娜.《蒙古文印刷体扫描识别系统》(recog1.0版)自动校正算法研究[D].呼和浩特:内蒙古大学,2007.
[5] 斯·劳格劳.蒙古文编码转换通用算法研究[J].内蒙古大学学报(哲学社会科学版),2009,41(2):133-136.
[6] 郝莉,敖登巴拉,巩政,等.基于贝叶斯算法的蒙古文文本自动校对研究[J].内蒙古大学学报(自然科学版),2010,41(4):440-442.
[7] 骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249.
[8] 包乌格德勒,李娟.蒙古文文本自动校对研究综述[J].电脑知识与技术,2016,12(35):227-229.
[9] 廉冰.基于有限状态自动机的蒙古文同形词校对方法的研究[D].内蒙古大学,2014.
【通联编辑:梁书】
关键词:蒙古文;文本错误;自动校对
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)11-0211-03
Abstract: There are common text errors in Mongolian electronic documents, mainly including non-word errors, true word errors, pronunciation non-word errors, and syntactic and semantic errors. Among them, especially the pronunciation of non-word errors is the most common, and it is difficult to judge right or wrong manually, and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia, and its importance is self-evident. Based on the text error types in Mongolian electronic documents, this paper lists the corresponding causes and solutions of errors.
Key words: Mongolian; text error; automatic text proofing
1 文本錯误类型
由于蒙古文不同于英文的特点,蒙古文电子文档中除了有英文文档中出现的非词、真词、句法语义等错误以外,还有形对码错错误等普遍存在,且比较独特的错误。
1.1 非词错误
2.3 编码转换
由于历史原因,以往有大量蒙古文电子文档都是基于字形编码或音形混合编码(如方正6.0 文档等)存储。这些电子文档转换为基于语音的国际编码时,因为只能达到字形上的一致而导致文本错误。例如,上述单词“
3 文本错误解决方案
3.1 自动校对软件
使用自动校对软件处理非词错误相对简单,有比较成熟的一些校对算法可以很好的胜任校对任务,但处理真词错误则比较困难。对于蒙古文电子文档中真词错误的处理,最新研究有内蒙古大学斯·劳格劳副教授的硕士生迎春在其硕士论文“蒙古文真词错误的侦测与纠错建议的生成研究”中给出的一个采用基于统计的方法和基于易混淆词词典的方法设计实现的蒙古文真词错误校对系统。该系统的召回率为82%,正确率为3.4%,纠错建议生成率为91%。对于形对码错错误的处理,郝莉在其文章“基于贝叶斯算法的蒙古文文本自动校对研究”中给出了一种使用贝叶斯算法校正由于读音混淆而引起的错误(读音非词)的方法,其拼写纠错率可达89%以上。廉冰在其论文“基于有限状态自动机的蒙古文同形词校对方法的研究”(该文中的同形词错误的概念与本文中的读音非词错误的概念相同)中也给出了一种读音非词的校对方法,平均准确率达到了91.5%,平均召回率为84.9%。
3.2 输入法校对功能
通过输入法自带的校对功能,可以解决文档中的非词错误。例如,对正在编辑的文档,通过输入法自带的校对功能,在输入的同时提示用户,使其进行正确录入。目前,主流的蒙古文输入法有两种,一个是蒙科立2016输入法,另一个是德力海蒙古文输入法2016-教育版。这两种输入法都具备一定的非词提醒功能,前者是用红色显示提醒用户录入的是非词,后者是用黑色显示提醒用户录入的是非词。输入法自带的校对功能不能处理真词错误。
使用德力海蒙古文输入法2016-教育版输入读音非词错误编码时,会自动处理错误,将错误编码转换成正确编码。
3.3 人工结合校对软件
3.4 培养使用者正确录入习惯
蒙古文文档中,读音非词错误主要是由于使用者没有养成正确录入习惯,只求字形正确而导致。所以通过培养使用者正确录入习惯,从而避开导致读音非词类的形对码错错误的起因是一种较好的从源头解决问题的方案。
4 总结
蒙古文电子文档中普遍存在文本错误,主要有非词错误、真词错误、形对码错错误、句法语义错误等。分析梳理这些文本错误及其产生的原因,对蒙古文文本自动校对工作有重要的意义,是文本自动校对工作的基础和依据。目前,对非词错误的处理相对成熟,有较多的处理算法和模型;解决真词错误方面的研究相对薄弱,缺乏实用算法和方案;对形对码错错误处理的研究较广泛,但主要集中在读音非词的校正上,而同形词替代引起的错误有待更进一步研究。
参考文献:
[1] 张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006(6):8-12.
[2] 斯·劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115.
[3] 迎春.蒙古文真词错误的侦测与纠错建议的生成研究[D].呼和浩特:内蒙古大学,2017.
[4] 包敏娜.《蒙古文印刷体扫描识别系统》(recog1.0版)自动校正算法研究[D].呼和浩特:内蒙古大学,2007.
[5] 斯·劳格劳.蒙古文编码转换通用算法研究[J].内蒙古大学学报(哲学社会科学版),2009,41(2):133-136.
[6] 郝莉,敖登巴拉,巩政,等.基于贝叶斯算法的蒙古文文本自动校对研究[J].内蒙古大学学报(自然科学版),2010,41(4):440-442.
[7] 骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249.
[8] 包乌格德勒,李娟.蒙古文文本自动校对研究综述[J].电脑知识与技术,2016,12(35):227-229.
[9] 廉冰.基于有限状态自动机的蒙古文同形词校对方法的研究[D].内蒙古大学,2014.
【通联编辑:梁书】