论文部分内容阅读
异体字字库的开发问题一直困扰着我们,因为它牵涉到了异体字的数字化问题,异体字的整理问题,和字库的开发平台研究。本文以《第一批异体字整理表》为依据,对于学术界争论已久的异体字定义问题即采取狭义异体字还是广义异体字提出了基于整理层面的异体字研究和基于应用的层面的异体字研究,把《第一批异体字整理表》和《汉语大字典》、《康熙字典》、《说文解字》进行了对比研究,整理出了音义完全相同的异体字。在字库的开发中,我们采用了尉迟治平先生“字形”和“字位”的概念,遵守了国际Unicode组织一形一码的编码原则,试着探讨了异体字字库建设的相关问题。
绪论部分主要介绍了异体字的整理和字库的开发现状以及本文的研究材料和研究方法。
第二章主要从输入法的发展,字符集的不断扩大和数据库的发展三个方面介绍了数字化汉字字库的必要性和可能性。
第三章先讨论了异体字的定义问题,了解了在异体字定义中最大的分歧是采取广义异体字和狭义异体字,然后我们通过观察一系列异体字整理表如《第一批异体字整理表》、《汉语大字典·异体字表》、《通用规范汉字表》,对它们在整理异体字的过程中所遵循的原则进行了解,深入的发掘了异体字整理中遇到的问题以及解决的办法,提出了整理狭义异体字的定义,即基于整理的一组狭义异体字是音义完全相同,而且不包括繁简字和姓氏字。
第四章根据前两章的讨论,得到了基于整理层面的异体字字库开发,和基于应用层面的异体字库开发的观点,并以《第一批异体字整理表》为例,对它所收的异体字以组为单位进行了对比研究,对它所收的异体字进行了细致的描写和归类,并对归纳出来的音义完全相同的异体字试着进行了字库建设。
最后是结语部分,归纳了全文的重点是提供一种可行的思路即基于不同层面的异体字整理办法。对异体字现象中的狭义异体字进行了整理,并试着为狭义异体字的字库建设做了介绍。