论文部分内容阅读
汉字的输入与输出问题一直是汉字信息处理关注的焦点,俗字作为汉字中较为特殊的一类,其输入与输出问题更是受到汉字信息处理领域和文字学领域的双重关注。但是,长期以来,汉字的处理都以字符编码的形式对整字进行输入与输出,这种方法不仅不利于分析汉字字形的内部结构,其封闭性更是大大限制了字符集的扩展,使得俗字这类编外字符的输入与输出成为难题。为了更好地解决俗字字形的计算机处理问题,方便字形结构和部件等数据的统计分析,本文借鉴现有汉字字形描述方法,在考察俗字字形讹变特点的基础上探究俗字字形的形式化表示方法。本文俗字字形描述方法的基本思路是以正字字形表达式为平台,在此基础上对俗字字形结构和部件的讹变情况加以形式化表示。其中,正字字形表达式又以结构和部件为基本参数,利用R<a,b>这一形式化表示方式将末级部件用分析获得的十七种结构关系联系起来,之后再通过不断递归,最终生成正字字形表达式。俗字字形的描写则以此为基础,分两步进行,首先是保留讹变部件具体形体的预标注,之后再在正、俗字讹变部件表的辅助下,用正字部件形体加编号的形式指代相应讹变部件,以完成俗字字形的最终描写。前后两次俗字字形描写中,结构关系的变化都以替换(→)、添加(+)、省略(V)和移位(*)四种关系变化符来表示。利用确定的俗字字形描述方法,本文对《干禄字书》中641对正、俗字字对和《敦煌俗字典》中3349个正字及其对应的7635个俗字进行了标注,形成了相应的正字字形表达式和预标注的俗字字形表达式,并以此为字形资源,利用自定义算法自动获取了相应的正、俗字讹变部件对,之后再通过对所获部件对的独立性、自由度、与字内其他部件联系的紧密程度以及正、俗字部件间的相关性等情况的进一步分析确定最终讹变部件对,形成正、俗字讹变部件表。并通过对表中数据的考察与分析,发现了俗字字形讹变的部分规律。另外,又以正、俗字字形表达式为基础,分别获取了491个正字基本部件和766个俗字基本部件。本研究中俗字字形结构和部件等相关数据的统计与分析能够为俗字讹变规律的探究提供假设。而整理所得的正、俗字讹变部件对则从字形上为俗字对应正字字形的推断提供思路。