基于认知机理的汉字智能造字研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:czqmip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字信息化是信息化的重要内容,现有的中文信息处理主要基于字库方式。基于字库方式的中文信息处理系统,以汉字作为信息处理的基本单元,这种方式基本满足了社会的主要需求,但还存在以下不足:(1)难以形成规模适度又长期稳定的国家标准和国际标准;(2)不符合汉字造字规律和不能很好地传承中华文明;(3)不符合汉字教学认知规律,与现行的汉字教学脱节;(4)不能全面满足社会的应用需求,(5)信息熵高,信息处理效率低。信息化智能化是时代的特征,认知科学是探究人类智能本质的学科,智能科学和认知科学的发展,为解决汉字信息处理存在的问题提供了可能的研究方法和解决途径。本文将智能化技术与认知科学的研究成果相结合,对汉字智能造字的理论和方法做了深入研究。主要研究内容和研究结果如下:(1)在对汉字传统造字理论和汉字认知机理深入分析基础上,把传统造字理论和认知心理学的原型理论结合起来,提出了基于认知机理的汉字智能造字理论,指出汉字智能造字的内容和研究任务。在上述研究基础上,以点集拓扑学为数学工具,建立了汉字智能造字模型,并设计了汉字智能造字的计算机体系架构。(2)深入分析了与汉字原型相关的研究,得出汉字部首和汉字部件是汉字原型主要来源的结论。在此基础上,提出了兼顾传承文化,方便使用和兼顾计算机处理效率的汉字原型提取原则。结合汉字原型提取原则,以独体字和《辞海》中的部首为汉字原型的初次试验集,通过汉字原型拼组实验,采用实验、分析调整、再实验的循环优化流程来研究汉字原型的提取。依照上述流程,以GB18030-2000中的27484个汉字为实验集,进行汉字原型的提取实验,得到覆盖全体实验集的汉字原型阶段性集合一个。实验结果表明本文提出的汉字原型提取流程可行并具有推广性,可推广到其它实验集的汉字原型提取研究。原型提取实验的成功,在一定程度上验证了基于认知机理的汉字智能造字的可行性。(3)在对汉字结构相关研究进行深入分析的基础上,针对现有的汉字结构分类方法的不足,提出了一种以图形层次为基础的汉字结构分类理论。根据上述汉字结构分类理论,以原有13种汉字结构类型为基础,提出18种汉字结构分类方法.以GB2312-80和GB18030-2000为实验集,进行汉字结构分类实验,实验结果表明18种汉字结构分类方法的有效性,完全覆盖实验集。从计算机信息处理的角度出发,建立了用于汉字结构的识别的网格数学模型,并以GB2312-80为实验集,结合本文提出的18种汉字结构分类方法,设计了基于网格数学模型的汉字结构的计算机识别实验,实验结果表明了汉字结构分类的正确性。(4)结合编码理论,深入分析了汉字认知机理和汉字的传统使用习惯,制定了汉字编码的研究目标。在上述研究基础上,提出“汉字结构+汉字原型”的汉字编码方案。方案采用汉字结构分级编码的方法,符合汉字学习者的“先整体后局部、先大后小,从上到下,从左到右,先外后内”的认知结构。按照上述汉字编码方案,以GB18030-2000收录的27484个汉字为实验集,结合计算机辅助实验软件,采用优化调整的实验流程进行汉字编码实验研究。实验结果表明,按本文提出的汉字编码方法进行编码,得到的汉字编码结果集无重码,汉字编码的平均码长少于5,汉字编码包含汉字的所有特征信息,达到预期的目标。(5)根据汉字智能造字实验的需求,分析了汉字智能造字实验平台的系统需求,给出了汉字智能造字实验平台的技术方案,在Linux操作系统上实现了汉字智能造字实验平台。
其他文献
巴拿马位于中美洲,它是中美和南美的联结点,又是大西洋和太平洋的交通要道。在巴拿马运河南北两端各有一座名城,南端临近太平洋的是巴拿马首都巴拿马城,北端临近大西洋的是巴拿马
1988年3、4月,陕西扶风法门寺塔地宫出土文物在北京中国历史博物馆展出期间,本刊编辑部和陕西省考古研究所约请在京部分文物考古专家以笔谈形式评述这批唐代文物珍品。现按所
股骨头坏死作为一种骨科常见疾病,拥有极高的致残率,且其发病逐年呈年轻化趋势,严重影响患者的生活质量。因此,早期防治股骨头坏死显得格外重要。外泌体是由细胞分泌的直径约
<正>急性细菌性结膜炎是眼科常见疾病之一,多发生在春夏及夏秋交替季节,主要致病菌为金黄色葡萄球菌、肺炎双球菌、流感嗜血杆菌、科—韦杆菌等[1]。急性细菌性结膜炎临床上
水体污染具有明显的复合性特征,低浓度、种类复杂的有毒有害污染物共存,研究水体复合污染对水生态系统和人体健康的影响具有重要意义。人骨髓间充质干细胞具有自我更新和多向
帮助学生发展科学本质(Nature of science简称NOS)的知情观点是科学教育的核心目标,美国科学素养基准和科学教育标准将科学本质描述为科学素养的一个关键组成部分,《科学(7-9年
语音获取过程中不可避免地会受到环境噪声或者其它竞争声源的干扰,采用语音分离技术从带噪语音信号中分离出目标语音,是语音处理领域亟待解决且非常重要的问题。人类的听觉系
<正>肠炎是指肠粘膜急性或慢性炎病。肠炎可作为仅侵害小肠的一种独立疾病,但更常见的是胃、小肠和结肠的广泛炎症。通常所说的肠炎是包括胃、小肠和结肠炎症的通称。犬的肠
<正>汉魏至两晋,"精""工"一直是判断书法优劣的重要标尺。王羲之"书意"观念的提出以及琅琊王氏的书法实践改变了这种审美认知。至南朝,"天然"作为"精""工"与"工夫"的另一面被
与普通建筑不同,大空间建筑的人员活动区域和设备集中区域的高度远远低于其建筑高度。因此,与全室空调相比,分层空调更加适合于大空间建筑。最常用的分层空调形式有喷口送风