论文部分内容阅读
“汉语热”现象及“孔子学院”的开办表明汉语正在走向世界,汉语已经成为第二语言学习的重要选择。汉语性质独特,非汉字文化圈的外国汉语学习者学习汉语难度极大,其中尤以汉字难学。汉字初学者极易将汉字写错。汉字教学难的现状已经制约了国内语文教学和汉语国际推广工作的进一步发展。不同初始特征的学习者在汉字学习过程中出现的书写错误具有不同的规律。但是,目前还没有基于大规模错字样本的书写偏误统计分析研究成果为汉字教学提供指导和服务。主要原因是错字的计算机处理(错字编码、错字输入输出、错字检索统计等)还存在很多困难。错字的编码问题主要体现在Unicode预留的用户私有编码区无法满足规模不断膨胀的错字需求,而且错字的编码由使用者自行定义,造成编码混乱,无法进行交换和共享。使用现有的各种输入法向计算机系统中录入的汉字都是标准字符集内的汉字,无法录入错字,只能以图片方式显示错字,不能支持错字的检索和统计。因此,缺乏符合国际标准的错字编码方案和简易有效的错字输入、管理方法是造成计算机难以有效处理错字信息的主要障碍。为了有效地解决计算机处理错字问题,本文重点完成了以下几方面的工作:(1)分析了汉语教学领域错字分类的研究成果,建立了一种适合计算机处理、以字形为依据的错字分类方案。(2)以汉字字形特征为依据,基于Unicode国际标准,建立了一种以正字为中心、范围可扩展的错字编码方案,即采用正字加表意文字变体选择符组成的变体序列(Ideographic Variation Sequences, IVS)作为错字编码的方案。这种方案使错字的编码统一到国际标准编码框架下,并在编码层次与正字建立了关联,能够有效地表示和管理大规模错字。(3)采用OpenType智能字体技术实现了IVS模式的错字编码方案。并使用专业字体制作工具设计完成了具有一定数量的宋体错字OpenType字库,为错字可以与正字一样进行计算机处理建立了基础,可在记事本等软件中实现错字与正字同文显示、统一检索。(4)基于上述的错字编码方案和OpenType错字字库,设计实现了一个面向汉字教学研究人员、操作简便的Office错字输入插件工具。使用该工具可以向Word、Excel、PowerPoint、Access等软件中输入错字。与内码输入方法相比,该方法极大地提高了输入速度,操作也更加方便、简易,适合非专业人员使用。本文的以上工作成果有效地解决了错字输入输出、检索、管理和共享问题,为基于大规模错字样本的书写偏误定量分析建立了基础。这些成果能够用于其它各种需要处理错字的应用领域,如在各类汉字书写评测试题、汉字教学系统、汉字教学研究论文中输入处理错字等,对汉字教学的理论研究和教学实践都具有重要的实用意义。此外,这些成果还可以进一步推广用于处理古籍异体字、甲骨文、民俗拼合字等特殊汉字领域,对利用计算机进行汉字历史文化研究将发挥辅助作用。