基于虚词用法的偏误检测识别研究

被引量 : 0次 | 上传用户:mzhao79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语的虚词丰富多样且没有形态标记和曲折变化,却又担负着繁重的语法和语义的表现任务,这就决定了虚词更加灵活和难以掌握,因此对虚词的研究有着重要的意义。现代汉语虚词用法的自动识别是以虚词用法知识库为基石的,虚词用法知识库越完备、规模越大,对现代汉语虚词用法的自动识别也会越有帮助。本文简要介绍了现代汉语虚词用法知识库的概念和“三位一体”的结构框架,并详细介绍了现代汉语虚词用法知识库的内容:现代汉语虚词用法词典、现代汉语虚词用法规则库、现代汉语虚词用法语料库。目前虚词用法的自动识别方法有基于规则和基于统计两种基础方法,还有二者相互结合的方法,本文采用基于规则的方法详细介绍了虚词用法的自动识别。一个虚词有多种用法,就有多个识别规则,在虚词用法的自动识别过程中使用规则的不同顺序可以得到不同的用法识别的准确率。对规则进行全排序并用全排序的结果逐一标注可以得到最佳排序,但是时间复杂度较高。而先对全排序的结果进行筛选,然后用筛选之后的集合标注则可以大大降低时间复杂度。“偏误”一词主要用于二语习得领域的中介语错误,初高中生语文考试中的病句与其在句型和特征方面有不同的地方,但是大体上都可以归类于错序、误加、误代、遗漏四大类,并且虚词错用在其中所占的比例都非常大。因此可以考虑都用基于虚词用法的方法进行识别研究。偏误类型在大的方面可以分为四类,但是具体到每个虚词的用法,情况却千差万别。本文从虚词用法的角度,用基于规则的识别方法对四类偏误中的部分小类进行研究,识别准确率为:83.67%、91.56%、87.75%、93.74%。实验结果表明,这种方法可以有效的识别出虚词用法的偏误。
其他文献
所谓微课程,即利用构建主义方法化形成的实际的教学内容,它主要用于网络上的在线学习或移动式学习。高中语文微课程开发是一个全新的领域。以高中语文微课程的开发与实践为研
目前,我国经济社会正处于转型期,而企业作为市场经济的主体,在推动国民经济发展和促进社会稳定方面起了巨大的作用。但是企业却普遍存在着寿命过短和难以可持续成长的困扰,因
<正>语文是国家课程。语文课程标准体现了国家的意志和学生发展的需要,规定了语文课程所应该培养的语文素养,包括学科育人价值和学科核心素养,其主体是语文课程目标和课程内
基于血缘、亲缘、地缘的农村民间金融长期地存在于我国广大的农村地区。农村民间金融的产生和发展,一方面因其具有成本低、效率高等优点而弥补了正规金融的不足,对农户和农村
识字是小学低年级语文教学的重头戏,也是小学语文教学的基石。因此,面对刚刚进入小学的一年级学生,有必要让学生在多种形式的诵读中感受韵文的韵律美,并在情境的创设中将想象
<正>写作教学注重写什么,阅读教学注重教什么,这两者是相通的。怎么教较之于教什么,正如怎么写较之于写什么,永远是第二步考虑的事。正因此,面对文本首先要思考的是教学内容,
背景和目的S100B蛋白是一种小分子酸性钙结合蛋白,主要存在于神经胶质细胞、星形胶质细胞和Schwann细胞。它在S100蛋白一大家族中占绝大部分,活性也最高,在中枢神经系统损伤
近十几年来,全国各高等体育院校都先后开设了网球专修课与普修课程。在十几年的网球教学中我国各高等体育院校都取得了很大的成绩,也正因为体育院校的网球教育带动了我国网球
门式起重机是一种在露天物料搬运工作中广泛采用的大型装卸机械,被应用于航空工业、冶金、机械加工等诸多生产领域。而作为起重机“骨架"的金属结构,其重量占整机重量的60%~80
文章从两个层面对"S+不是+X+的"句式的焦点进行分析。首先从表层结构对这类句式的焦点指派进行了分类:有的焦点指派给X的前段,有的指派给后段。接着对这类句式的深层语义结构