论文部分内容阅读
名片就是logo。除了身份,王子善的名片上还印着他所发明的输入法。年复一年,“一根筋”跟生僻字较劲的王子善解决了一个世界难题。
找规律,建字库
“It’s a long story!(说来话长)”
言谈中夹杂着英文字句,虽然语速飞快,但眼前的王子善显然是一个常年“坐得住”的人。有专家说,研究汉字输入法必须文理兼容。开始学画图,后来学外语,最后又迷上国画,这几个“知识点”凑在王子善身上,发明“对称码”水到渠成。
1990年,在体育杂志做英文编辑的王子善被安排学习汉字输入,因为熟悉画图,他很快就掌握了五笔输入法,并在单位为大家讲课。然而,细心的王子善发现,无论是五笔,还是其他汉字输入法,都存在一个共同的问题:无法输入生僻字,即使计算机字库里有这些字,也因为不知道发音,而无法找到。
“目前国内外上千种汉字输入法无非分为3类编码,即形码、音码、音形码,这3类编码都无法解决复杂汉字的输入问题。”带着困惑,王子善开始了他的“瞎琢磨”、“瞎找”,泡图书馆,找软件商,最早的愿望就是“起码要有一个字库。”
建立字库有规律可循,为了找出汉字规律,王子善开始抄写现代汉语词典第4版,厚厚一本词典,被他手抄了3遍。
“从早上8点到下午5点,中午1小时吃饭,一天8小时。”他记得有一次抄完一部用了整整14天。
“五笔是把汉字当成部件拆解出来的,除此之外,有没有别的方法呢?”自问之余,王子善把抄好的汉字建起了卡片“小库”,总共几万张,“家里铺天盖地到处都是。”
当时,只要是关于汉字输入法的书籍都被王子善翻遍,学历史的儿子不理解爸爸,劝他“别浪费时间了,因为这是一个世界性难题!”
给汉字排序确实是世界性难题。“因为汉字是无序的文字,不像英文字母有前有后,汉字无前无后。”王子善说,为了深入发现汉字规律,他买了世界上最好的4部汉字辞典中的3部,《日本大汉和辞典》(5万汉字)、《中华字海》(8.5万汉字)以及台湾出版的《中文辞典》(6万汉字),其它各类小字典,王子善买了上千本,逐一阅读。
回忆起那段日子,王子善说,他当时彻底迷进了为汉字排序的念想中,这个念头是如此执著,以致每天吃完饭,他跟太太在天坛附近遛弯,走在路上,情不自禁就会分析墙上和广告牌上的汉字,“其乐无穷。”
在王子善的世界里,没有电视电影、请客应酬,公司成立7年,每年春节,初一到初七,办公楼里只有王子善一人,电磁炉煮饭,沙发作床,很多一闪即过的念头就在这些清冷的日子里被他捕捉住,成了日后发明对称码的重要线索。
汉字是象形文字,有着自己的对称规律,开始,王子善把汉字分成30多个种类,后来是16类,最后缩小到10类。“所有的汉字都在这10类中,凭着它可以检验任何汉字。”
总结出汉字字形的特点,王子善首先提出汉字字形的对称性和非对称性的理论,经过申报,获得两项国家发明专利。他首次提出《数字键汉字结构编码规范》技术标准,于2011年11月获得了国家新闻出版总署的正式批准。
目前,王子善字库中的汉字已经达到74854个,其中包括288个字典词典没有收入的汉字,在并不豪华的办公室里,王子善的自豪溢于言表,“目前世界最大的,最标准的字库就在我们这里。”
生僻字输入的意义
王子善的办公桌被各种资料堆满,其中,很多印有生僻字。穿行在这些生僻字之间,王子善和他的同事把这些生僻字一一寻出,录入字库。
上边是“未”、“成”,下边是“人”,此字音“载”,这是古人对16岁以下未成人的称呼;左边“亻”,右边“西”、“域”、“哲”相叠组成一个极为复杂的汉字(音:佛),王子善说就是古代的“佛”字。
这些生僻字,普通人很难得见,在电脑上更是无法敲出。正是因为难以输入,这些字所承载的文化内涵,正在加速流失。对于常用汉字,国内外的输入法已达数千种,然而,面对这些生僻汉字,这些输入法却束手无策。
“唐朝有个将军,叫‘shan fu’,因为汉字不会写,关于他的故事谁都不知道。”说起这些,王子善一脸的惋惜。
现代人提笔忘字,若没有注音,如何将生僻字输入电脑?在接受采访时,王子善的弟弟、协助哥哥工作的王子意告诉记者,“关键是把储存在字库里的字如何调出,比如户籍、铁路实名输入。很多字不是生僻字,因为不常用而逐渐成了生僻字。”王子意表示,“我们解决的就是如何用最简单的方法把所有的汉字输入电脑。”
资料显示,目前中国13亿人口中,仅名字中有生僻字的就超过6000万人。这些人在办理证件、银行开户、医院就医、民航购票、购买保险及办理其他业务时,经常会因为字库系统打不出生僻字而遭遇尴尬,甚至被迫改名。
王子善透露,“现在中国有400万个网站,所有网站的字库都是2万多。”生僻字在计算机中无法输入主要有两个原因:一是计算机内置汉字字库中的汉字只有2万多,很多生冷僻字未被纳入;二是即使一些计算机执行了较新的字符集标准(含汉字70195个),虽然字库中纳入了生僻字,但由于没有相匹配的汉字输入法,同样不能直接输入。
迄今为止,在与汉字信息有关的出版、公安、外交、卫生、金融等系统中,都无法方便、快速、简明地对生冷僻汉字输入与检索,严重影响和制约了这些系统的中文信息数字化的实施。“对称码汉字输入法”的问世,有望解决这些难题。
王子善的对称码输入法,一般人半小时即能掌握,他示范了如何从字典中找到正确的棒碴粥的“碴”(字库缺字,应该是“米”加“查”),以及邦邦敲门声的“邦”字(应为“口”加“邦”),这些字在普通的电脑字库中无法找到,使用对称法输入法,一分钟不到,即悉数敲出。
“中国目前的计算机基本都停留在209 02字的字库水平上,后来加扩后,这些字还是没有录入。”对此,王子善深表遗憾。
除此之外,他还发现,目前有数百首唐诗和宋词,因为其中的生僻字而不能完整打出,他告诉记者,“唐诗总共5万多首,中国400万个网站,没有一个可以把全唐诗悉数打出,更不用谈经史子集了。”
“对称码”解决了复杂汉字的输入问题。不管认不认识,只要看到字,按着编码原则,输入几个数字就可以打出汉字,“于国家的网络安全大有好处。”王子善说。
他把自己的对称码输入法定义为“现代输入法的一种不可或缺的补充”,“不一定用得上,但是要配齐。”
下一步,王子善还打算把字音、字意编入字库中,让人们不但能打出字,还能读准音,认识它。
找规律,建字库
“It’s a long story!(说来话长)”
言谈中夹杂着英文字句,虽然语速飞快,但眼前的王子善显然是一个常年“坐得住”的人。有专家说,研究汉字输入法必须文理兼容。开始学画图,后来学外语,最后又迷上国画,这几个“知识点”凑在王子善身上,发明“对称码”水到渠成。
1990年,在体育杂志做英文编辑的王子善被安排学习汉字输入,因为熟悉画图,他很快就掌握了五笔输入法,并在单位为大家讲课。然而,细心的王子善发现,无论是五笔,还是其他汉字输入法,都存在一个共同的问题:无法输入生僻字,即使计算机字库里有这些字,也因为不知道发音,而无法找到。
“目前国内外上千种汉字输入法无非分为3类编码,即形码、音码、音形码,这3类编码都无法解决复杂汉字的输入问题。”带着困惑,王子善开始了他的“瞎琢磨”、“瞎找”,泡图书馆,找软件商,最早的愿望就是“起码要有一个字库。”
建立字库有规律可循,为了找出汉字规律,王子善开始抄写现代汉语词典第4版,厚厚一本词典,被他手抄了3遍。
“从早上8点到下午5点,中午1小时吃饭,一天8小时。”他记得有一次抄完一部用了整整14天。
“五笔是把汉字当成部件拆解出来的,除此之外,有没有别的方法呢?”自问之余,王子善把抄好的汉字建起了卡片“小库”,总共几万张,“家里铺天盖地到处都是。”
当时,只要是关于汉字输入法的书籍都被王子善翻遍,学历史的儿子不理解爸爸,劝他“别浪费时间了,因为这是一个世界性难题!”
给汉字排序确实是世界性难题。“因为汉字是无序的文字,不像英文字母有前有后,汉字无前无后。”王子善说,为了深入发现汉字规律,他买了世界上最好的4部汉字辞典中的3部,《日本大汉和辞典》(5万汉字)、《中华字海》(8.5万汉字)以及台湾出版的《中文辞典》(6万汉字),其它各类小字典,王子善买了上千本,逐一阅读。
回忆起那段日子,王子善说,他当时彻底迷进了为汉字排序的念想中,这个念头是如此执著,以致每天吃完饭,他跟太太在天坛附近遛弯,走在路上,情不自禁就会分析墙上和广告牌上的汉字,“其乐无穷。”
在王子善的世界里,没有电视电影、请客应酬,公司成立7年,每年春节,初一到初七,办公楼里只有王子善一人,电磁炉煮饭,沙发作床,很多一闪即过的念头就在这些清冷的日子里被他捕捉住,成了日后发明对称码的重要线索。
汉字是象形文字,有着自己的对称规律,开始,王子善把汉字分成30多个种类,后来是16类,最后缩小到10类。“所有的汉字都在这10类中,凭着它可以检验任何汉字。”
总结出汉字字形的特点,王子善首先提出汉字字形的对称性和非对称性的理论,经过申报,获得两项国家发明专利。他首次提出《数字键汉字结构编码规范》技术标准,于2011年11月获得了国家新闻出版总署的正式批准。
目前,王子善字库中的汉字已经达到74854个,其中包括288个字典词典没有收入的汉字,在并不豪华的办公室里,王子善的自豪溢于言表,“目前世界最大的,最标准的字库就在我们这里。”
生僻字输入的意义
王子善的办公桌被各种资料堆满,其中,很多印有生僻字。穿行在这些生僻字之间,王子善和他的同事把这些生僻字一一寻出,录入字库。
上边是“未”、“成”,下边是“人”,此字音“载”,这是古人对16岁以下未成人的称呼;左边“亻”,右边“西”、“域”、“哲”相叠组成一个极为复杂的汉字(音:佛),王子善说就是古代的“佛”字。
这些生僻字,普通人很难得见,在电脑上更是无法敲出。正是因为难以输入,这些字所承载的文化内涵,正在加速流失。对于常用汉字,国内外的输入法已达数千种,然而,面对这些生僻汉字,这些输入法却束手无策。
“唐朝有个将军,叫‘shan fu’,因为汉字不会写,关于他的故事谁都不知道。”说起这些,王子善一脸的惋惜。
现代人提笔忘字,若没有注音,如何将生僻字输入电脑?在接受采访时,王子善的弟弟、协助哥哥工作的王子意告诉记者,“关键是把储存在字库里的字如何调出,比如户籍、铁路实名输入。很多字不是生僻字,因为不常用而逐渐成了生僻字。”王子意表示,“我们解决的就是如何用最简单的方法把所有的汉字输入电脑。”
资料显示,目前中国13亿人口中,仅名字中有生僻字的就超过6000万人。这些人在办理证件、银行开户、医院就医、民航购票、购买保险及办理其他业务时,经常会因为字库系统打不出生僻字而遭遇尴尬,甚至被迫改名。
王子善透露,“现在中国有400万个网站,所有网站的字库都是2万多。”生僻字在计算机中无法输入主要有两个原因:一是计算机内置汉字字库中的汉字只有2万多,很多生冷僻字未被纳入;二是即使一些计算机执行了较新的字符集标准(含汉字70195个),虽然字库中纳入了生僻字,但由于没有相匹配的汉字输入法,同样不能直接输入。
迄今为止,在与汉字信息有关的出版、公安、外交、卫生、金融等系统中,都无法方便、快速、简明地对生冷僻汉字输入与检索,严重影响和制约了这些系统的中文信息数字化的实施。“对称码汉字输入法”的问世,有望解决这些难题。
王子善的对称码输入法,一般人半小时即能掌握,他示范了如何从字典中找到正确的棒碴粥的“碴”(字库缺字,应该是“米”加“查”),以及邦邦敲门声的“邦”字(应为“口”加“邦”),这些字在普通的电脑字库中无法找到,使用对称法输入法,一分钟不到,即悉数敲出。
“中国目前的计算机基本都停留在209 02字的字库水平上,后来加扩后,这些字还是没有录入。”对此,王子善深表遗憾。
除此之外,他还发现,目前有数百首唐诗和宋词,因为其中的生僻字而不能完整打出,他告诉记者,“唐诗总共5万多首,中国400万个网站,没有一个可以把全唐诗悉数打出,更不用谈经史子集了。”
“对称码”解决了复杂汉字的输入问题。不管认不认识,只要看到字,按着编码原则,输入几个数字就可以打出汉字,“于国家的网络安全大有好处。”王子善说。
他把自己的对称码输入法定义为“现代输入法的一种不可或缺的补充”,“不一定用得上,但是要配齐。”
下一步,王子善还打算把字音、字意编入字库中,让人们不但能打出字,还能读准音,认识它。