汉语中介语文本词语级错误的自动查错研究及其实现—AECIT

来源 :南京师范大学 | 被引量 : 0次 | 上传用户：penguin669

【摘要】

：

随着现代出版事业的不断扩大，人工校对的工作量日益增大，产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域，它的目的主要是在出版行业中减轻校对人员的工

【作者】

：

柏晓鹏

【出处】

：

南京师范大学

【发表日期】

：

2007年期

【关键词】

：

自动校对中文信息处理中介语语料互信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着现代出版事业的不断扩大，人工校对的工作量日益增大，产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域，它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难，如分词、词性标记等。中介语文本由于它的特殊性，无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面向普通的中文文本，它处理的是母语为汉语的人士所写成的中文文本，它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言，后者较前者在研究、处理上多了很多困难，如：训练语料和测试语料不同质，错误种类繁多，难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库，随机抽取了2063个存在错误的句子，以查找句子中的错误点为目标，构造了汉语中介语自动查错系统AECIT(Automatic Error Checker for Interlanguage Texts)，采用窗口移动的方式，一次读取一个三元词串，以二元词的互信息为基本统计手段，结合词性和确定合理搭配阈值进行隔断的方式，从句子中提取发生错误的词语。由于目前中文句法分析和语义分析技术远没有达到可以实用的阶段，所以本文着眼于词语一级的自动查错研究。最终，以合理搭配阈值为3.0为例，AECIT得到了召回率73.7％，精确率50％，误报率50％的结果，并且随着阈值的调整，召回率和精确率会分别上升和下降，以满足不同用户的需要。

其他文献

血管紧张素Ⅱ2型受体抑制小鼠骨髓源树突状细胞的成熟及活化

目的研究血管紧张素Ⅱ2型受体(AT2R)体外基因转染对小鼠骨髓源树突状细胞(BMDC)成熟活化及部分免疫功能的影响,探讨AT2R参与动脉粥样硬化斑块进展的免疫机制。方法取C57BL/6J

期刊

血管紧张素Ⅱ2型受体基因转染树突状细胞细胞成熟动脉粥样硬化

带整流负载异步发电机分析

带整流负载异步发电机具有结构简单坚固、可靠性高、成本低、功率密度高等独特优点，是电力系统直流供电模块的重要发展方向之一。针对异步发电机带整流系统稳态运行后其电路为

学位

异步发电机整流负载功率平衡优化算法谐波

智慧学习环境的现状与发展研究

智慧学习环境是教育技术学领域的热点研究主题之一。智慧学习环境相关研究的目的是构建出完善的智慧学习环境,从而更好地支持和促进学习者的学习和发展。本研究运用内容分析

期刊

智慧学习环境内容分析法研究现状发展趋势

王十朋《梅溪集》研究

《梅溪集》是南宋初年诗人、学者、政治家王十朋的文集，《四库全书》、《四部丛刊》都有收录，今又被收入《儒藏》中，是南宋儒家文献的一部分。本文采用文献学与思想史相结合的研

学位

王十朋《梅溪集》

毫米波辐射探测技术工程侦察应用研究

毫米波辐射探测技术已成为各国的研究热点,其应用领域也在不断拓展。在工程侦察领域,毫米波辐射探测技术必将成为一种非常有潜力的新型探测手段。本文系统分析毫米波辐射探测

期刊

毫米波辐射探测工程侦察

《山羊或谁是西尔维娅?》:一个悲剧定义的注解

<正>所有的文明对其宽容度都有着专断的限制。本剧表现了一个家庭如何被一桩无法想象的事件深深地动摇以及他们如何解决这困境。我希望人们对于自身价值观的合理走向予以崭新

期刊

阿尔比《山羊或谁是西尔维娅?》

模糊控制理论的发展及应用

常规控制的基本特点是控制器的设计要建立在被控对象的数学模型基础上,但是在许多情况下被控对象的精确数学模型很难建立,而采取模糊控制和其它技术的结合形成的控制方法,在

期刊

模糊控制遗传算法神经网络

五大连池火山旅游资源系统分析评价及保护利用探讨

运用系统方法从旅游学角度对五大连池火山资源进行分析评价，以确定其开发价值和开发条件，力图为进一步开发、利用、保护五大连池火山旅游资源奠定理论基础．

期刊

五大连池旅游资源评价

全站仪在矿山井下平面控制测量的应用

本文探讨了运用全站仪在矿山井下平面控制测量中测量方法。

期刊

全站仪矿山测量测量方法

有一种毒药

期刊

有一种毒药摄影机

汉语中介语文本词语级错误的自动查错研究及其实现—AECIT

其他学术论文