汉语中介语文本词语级错误的自动查错研究及其实现—AECIT

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:penguin669
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代出版事业的不断扩大,人工校对的工作量日益增大,产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域,它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难,如分词、词性标记等。中介语文本由于它的特殊性,无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面向普通的中文文本,它处理的是母语为汉语的人士所写成的中文文本,它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言,后者较前者在研究、处理上多了很多困难,如:训练语料和测试语料不同质,错误种类繁多,难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库,随机抽取了2063个存在错误的句子,以查找句子中的错误点为目标,构造了汉语中介语自动查错系统AECIT(Automatic Error Checker for Interlanguage Texts),采用窗口移动的方式,一次读取一个三元词串,以二元词的互信息为基本统计手段,结合词性和确定合理搭配阈值进行隔断的方式,从句子中提取发生错误的词语。由于目前中文句法分析和语义分析技术远没有达到可以实用的阶段,所以本文着眼于词语一级的自动查错研究。最终,以合理搭配阈值为3.0为例,AECIT得到了召回率73.7%,精确率50%,误报率50%的结果,并且随着阈值的调整,召回率和精确率会分别上升和下降,以满足不同用户的需要。
其他文献
目的研究血管紧张素Ⅱ2型受体(AT2R)体外基因转染对小鼠骨髓源树突状细胞(BMDC)成熟活化及部分免疫功能的影响,探讨AT2R参与动脉粥样硬化斑块进展的免疫机制。方法取C57BL/6J
带整流负载异步发电机具有结构简单坚固、可靠性高、成本低、功率密度高等独特优点,是电力系统直流供电模块的重要发展方向之一。针对异步发电机带整流系统稳态运行后其电路为
智慧学习环境是教育技术学领域的热点研究主题之一。智慧学习环境相关研究的目的是构建出完善的智慧学习环境,从而更好地支持和促进学习者的学习和发展。本研究运用内容分析
《梅溪集》是南宋初年诗人、学者、政治家王十朋的文集,《四库全书》、《四部丛刊》都有收录,今又被收入《儒藏》中,是南宋儒家文献的一部分。本文采用文献学与思想史相结合的研
毫米波辐射探测技术已成为各国的研究热点,其应用领域也在不断拓展。在工程侦察领域,毫米波辐射探测技术必将成为一种非常有潜力的新型探测手段。本文系统分析毫米波辐射探测
<正>所有的文明对其宽容度都有着专断的限制。本剧表现了一个家庭如何被一桩无法想象的事件深深地动摇以及他们如何解决这困境。我希望人们对于自身价值观的合理走向予以崭新
常规控制的基本特点是控制器的设计要建立在被控对象的数学模型基础上,但是在许多情况下被控对象的精确数学模型很难建立,而采取模糊控制和其它技术的结合形成的控制方法,在
运用系统方法从旅游学角度对五大连池火山资源进行分析评价,以确定其开发价值和开发条件,力图为进一步开发、利用、保护五大连池火山旅游资源奠定理论基础.
本文探讨了运用全站仪在矿山井下平面控制测量中测量方法。