论文部分内容阅读
本文主要是研究和梳理计算机国际标准汉字集所收录的20902个汉字。由于其汉字集混杂收字,造成诸多的汉字处理问题,故必须彻底研究和梳理之,以期能整理出各种有用的汉字数据供参考。本文希望能提供计算机国际标准汉字集的各种相关数据以作汉字信息处理参考。同时盼能抛砖引玉,期待更多的汉字专家及学者关注和研究计算机国际标准汉字集。
国际标准汉字集不止收录了简体字,也包含了繁体字,同时也收录日本及韩国汉字。在这个简繁日韩混收的汉字集中,除了收录中国的规范汉字外,也同时收录了不规范的汉字。因此其收字充满矛盾,有很多混乱处。面对如此混杂的计算机汉字收字,汉字信息处理就得在混杂的汉字中选用规范的汉字,故此有必要梳理出实用规范的汉字,避开混乱不规范的汉字。故了解计算机汉字集是研究汉字信息处理必备的常识之一,本文的目的之一就是要梳理以上的计算机汉字,以便能更得心应手地在计算机上作汉字信息处理。
计算机字符集也称为电子字集,它是集合了各种文字、符号而组成的。字符集所收录的汉字集称为计算机汉字集,就是应用在计算机上的汉字总集,这些汉字总集结合汉字字体就能在计算机上显示、输出汉字了。计算机的汉字集就好比汉语字典的收字,若某个汉字未被字典收录,我们是不可能在该字典里查到的;同样的,若某个汉字未被收录在计算机汉字集里,计算机也无法处理(输入、输出)该汉字。
为了统一全球的计算机字符集规格与及方便世界各地的计算机信息处理的互相交流,国际标准化组织(ISO)和Unicode联盟联合开发了一个多语言字符集,把世界各地的主要书写语系和字集规格并入一个大字集,称为计算机国际标准字符集。
在还没有统一的字符集之前,以汉字为例,中国、台湾、日本、韩国的计算机都有各自的计算机汉字集,而且规格都各有不同,对于计算机的汉字信息交流非常不便,因此统一各国的汉字集是有其必要的。这个统一汉字集的工作于1993年获得主要的汉字使用国家、地区的共识,在国际上称之为中日韩统一汉字字符集,简称为CJK汉字集,C是中国(Chinese,包含台湾地区)、J是日本(Japan)、K是韩国(Korea),它总共收录了20902个中日韩汉字,也就是本文主要论述的国际标准汉字集。
国际标准汉字集的收字是来自中日韩的原有计算机汉字集,了解中日韩原有的计算机汉字集是对研究国际标准汉字集不可缺少的基础。要深入了解这些汉字集必需取得中日韩计算机的各类汉字集的国家标准书,本文第二章就是研究这个课题。
本文第三章介绍了国际标准汉字集的收字来源及其发展,同时对其收字规则作了进一步的深讨,即对其部首和笔画作了统计分析。在收字规则方面,论述其“汉字认同规则”、“汉字不认同规则”与“源字集分离原则”。另外也介绍了其汉字排序的规则。
第四章主要探讨国际标准汉字集在处理汉字所面对的问题,同时提出建议。这些课题包括了:汉字的字序、纯洁的汉字集、汉字字形、简繁汉字、异体字、生僻字和类推简化汉字、日韩特有的汉字、没有出处的汉字。