王子善:生僻字的简易“写”法

来源 :今日中国·中文版 | 被引量 : 0次 | 上传用户:ycs19900105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  名片就是logo。除了身份,王子善的名片上还印着他所发明的输入法。年复一年,“一根筋”跟生僻字较劲的王子善解决了一个世界难题。
  找规律,建字库
  “It’s a long story!(说来话长)”
  言谈中夹杂着英文字句,虽然语速飞快,但眼前的王子善显然是一个常年“坐得住”的人。有专家说,研究汉字输入法必须文理兼容。开始学画图,后来学外语,最后又迷上国画,这几个“知识点”凑在王子善身上,发明“对称码”水到渠成。
  1990年,在体育杂志做英文编辑的王子善被安排学习汉字输入,因为熟悉画图,他很快就掌握了五笔输入法,并在单位为大家讲课。然而,细心的王子善发现,无论是五笔,还是其他汉字输入法,都存在一个共同的问题:无法输入生僻字,即使计算机字库里有这些字,也因为不知道发音,而无法找到。
  “目前国内外上千种汉字输入法无非分为3类编码,即形码、音码、音形码,这3类编码都无法解决复杂汉字的输入问题。”带着困惑,王子善开始了他的“瞎琢磨”、“瞎找”,泡图书馆,找软件商,最早的愿望就是“起码要有一个字库。”
  建立字库有规律可循,为了找出汉字规律,王子善开始抄写现代汉语词典第4版,厚厚一本词典,被他手抄了3遍。
  “从早上8点到下午5点,中午1小时吃饭,一天8小时。”他记得有一次抄完一部用了整整14天。
  “五笔是把汉字当成部件拆解出来的,除此之外,有没有别的方法呢?”自问之余,王子善把抄好的汉字建起了卡片“小库”,总共几万张,“家里铺天盖地到处都是。”
  当时,只要是关于汉字输入法的书籍都被王子善翻遍,学历史的儿子不理解爸爸,劝他“别浪费时间了,因为这是一个世界性难题!”
  给汉字排序确实是世界性难题。“因为汉字是无序的文字,不像英文字母有前有后,汉字无前无后。”王子善说,为了深入发现汉字规律,他买了世界上最好的4部汉字辞典中的3部,《日本大汉和辞典》(5万汉字)、《中华字海》(8.5万汉字)以及台湾出版的《中文辞典》(6万汉字),其它各类小字典,王子善买了上千本,逐一阅读。
  回忆起那段日子,王子善说,他当时彻底迷进了为汉字排序的念想中,这个念头是如此执著,以致每天吃完饭,他跟太太在天坛附近遛弯,走在路上,情不自禁就会分析墙上和广告牌上的汉字,“其乐无穷。”
  在王子善的世界里,没有电视电影、请客应酬,公司成立7年,每年春节,初一到初七,办公楼里只有王子善一人,电磁炉煮饭,沙发作床,很多一闪即过的念头就在这些清冷的日子里被他捕捉住,成了日后发明对称码的重要线索。
  汉字是象形文字,有着自己的对称规律,开始,王子善把汉字分成30多个种类,后来是16类,最后缩小到10类。“所有的汉字都在这10类中,凭着它可以检验任何汉字。”
  总结出汉字字形的特点,王子善首先提出汉字字形的对称性和非对称性的理论,经过申报,获得两项国家发明专利。他首次提出《数字键汉字结构编码规范》技术标准,于2011年11月获得了国家新闻出版总署的正式批准。
  目前,王子善字库中的汉字已经达到74854个,其中包括288个字典词典没有收入的汉字,在并不豪华的办公室里,王子善的自豪溢于言表,“目前世界最大的,最标准的字库就在我们这里。”
  生僻字输入的意义
  王子善的办公桌被各种资料堆满,其中,很多印有生僻字。穿行在这些生僻字之间,王子善和他的同事把这些生僻字一一寻出,录入字库。
  上边是“未”、“成”,下边是“人”,此字音“载”,这是古人对16岁以下未成人的称呼;左边“亻”,右边“西”、“域”、“哲”相叠组成一个极为复杂的汉字(音:佛),王子善说就是古代的“佛”字。
  这些生僻字,普通人很难得见,在电脑上更是无法敲出。正是因为难以输入,这些字所承载的文化内涵,正在加速流失。对于常用汉字,国内外的输入法已达数千种,然而,面对这些生僻汉字,这些输入法却束手无策。
  “唐朝有个将军,叫‘shan fu’,因为汉字不会写,关于他的故事谁都不知道。”说起这些,王子善一脸的惋惜。
  现代人提笔忘字,若没有注音,如何将生僻字输入电脑?在接受采访时,王子善的弟弟、协助哥哥工作的王子意告诉记者,“关键是把储存在字库里的字如何调出,比如户籍、铁路实名输入。很多字不是生僻字,因为不常用而逐渐成了生僻字。”王子意表示,“我们解决的就是如何用最简单的方法把所有的汉字输入电脑。”
  资料显示,目前中国13亿人口中,仅名字中有生僻字的就超过6000万人。这些人在办理证件、银行开户、医院就医、民航购票、购买保险及办理其他业务时,经常会因为字库系统打不出生僻字而遭遇尴尬,甚至被迫改名。
  王子善透露,“现在中国有400万个网站,所有网站的字库都是2万多。”生僻字在计算机中无法输入主要有两个原因:一是计算机内置汉字字库中的汉字只有2万多,很多生冷僻字未被纳入;二是即使一些计算机执行了较新的字符集标准(含汉字70195个),虽然字库中纳入了生僻字,但由于没有相匹配的汉字输入法,同样不能直接输入。
  迄今为止,在与汉字信息有关的出版、公安、外交、卫生、金融等系统中,都无法方便、快速、简明地对生冷僻汉字输入与检索,严重影响和制约了这些系统的中文信息数字化的实施。“对称码汉字输入法”的问世,有望解决这些难题。
  王子善的对称码输入法,一般人半小时即能掌握,他示范了如何从字典中找到正确的棒碴粥的“碴”(字库缺字,应该是“米”加“查”),以及邦邦敲门声的“邦”字(应为“口”加“邦”),这些字在普通的电脑字库中无法找到,使用对称法输入法,一分钟不到,即悉数敲出。
  “中国目前的计算机基本都停留在209 02字的字库水平上,后来加扩后,这些字还是没有录入。”对此,王子善深表遗憾。
  除此之外,他还发现,目前有数百首唐诗和宋词,因为其中的生僻字而不能完整打出,他告诉记者,“唐诗总共5万多首,中国400万个网站,没有一个可以把全唐诗悉数打出,更不用谈经史子集了。”
  “对称码”解决了复杂汉字的输入问题。不管认不认识,只要看到字,按着编码原则,输入几个数字就可以打出汉字,“于国家的网络安全大有好处。”王子善说。
  他把自己的对称码输入法定义为“现代输入法的一种不可或缺的补充”,“不一定用得上,但是要配齐。”
  下一步,王子善还打算把字音、字意编入字库中,让人们不但能打出字,还能读准音,认识它。
其他文献
2014年4月15日,民进党前主席林义雄发表声明,坚持要求停建“核四”,并在4月22日为此进行无限期禁食。民进党主席苏贞昌顺势在16日提出“核四公民投票特别条例草案”,排除“公投法”高门槛,提出四分之一投票人(大约500万人)同意即可,同时将“2014终结核四”列为年底“七合一”选举宣传政见。台湾岛内部分环保团体积极响应林义雄号召,采取多种形式支持反核主张。4月27日,国民党中央召集蓝营地方县市长
介绍了用于电子储存环部分填充和非均匀填充的一种装置储存环高频剔除系统,它利用储存环中电子运动所具有的横向自由振荡和束团脉冲的结构这一特性,采用外加激励的方法使其产生
时间的长河一刻也没有停留,她承载了一代又一代的建筑人的梦想,见证着一个个国家重点项目的建成。随着地上F019层楼板混凝土浇筑完成,2015年9月28日,由中建股份—中建三局联合体施工承建的北京第一高楼—中国尊项目地上结构突破103.4米,顺利突破百米大关。  中国尊项目位于北京市朝阳区CBD核心区Z15地块,总建筑高度528米,地上108层,地下7层,集甲级写字楼、会议、商业、观光以及多种配套服务
最近的举措将向二手房交易行为收取20%的个人所得税,并进一步提高首付要求和对购买第二套住房的限制。消息传出,国内关于买卖双方近乎疯狂的加快交易的行为充斥国内各大报章媒体
“实践充分证明,我们的战略转型非常成功,我们的方向是非常正确的”,掌门人李书福自豪地对外宣称。
在人类演化研究中,不同地区早期人类及石器技术的年代问题一直是争论的焦点。对华北泥河湾翁地的小长梁和洞沟这两个平行的湖相沉积剖面作了洋细的磁性地层学研究,为20多年前在
"土木之变"后,明代宗朱祁钰在今河北怀来县土木村建显忠祠以祭祀殉难诸大臣.本文简要介绍了显忠祠的历史渊源,及历550余年风雨和战火之后的现状.
麦宿位于四川省德格县,与西藏拉萨、甘肃夏河一起并称为“藏族三大古文化中心”。德格县是格萨尔王的故乡,这里的藏族手工艺传承完整,延续至今。  从上世纪70年代末开始,国家对西藏民间文化艺术遗产进行了大规模的普查和整理,总投资达10.9亿元的“十二五”46项重点文物维修保护项目已全面启动。麦宿地处藏区深处,这里的手工艺传承正在探索进一步可持续发展的可能性。  不同手工艺集中在一个地区  十几年前,一位
2002年以来的10年,是中国经济社会发展取得举世瞩目成就的10年,是人民生活明显改善的10年。本刊从经济、工业、航天、农业等几个方面来梳理10年来国家经济社会发生的变化以及所取得的巨大成就。
第九期《“千人计划”助推强国梦》一组文章,介绍了中国三次留学与归国潮,着重报道了中国目前最高层次的海外人才引进计划-“千人计划”的实施过程和目前取得的成效。从报道中,我