论文部分内容阅读
朝鲜文字具有500多年的历史,拥有汉字和西方文字的共同特征,同时还具有自身独特的文字结构,是构字规则与发音规则明确、使用人口分布较广、具有较大影响力的东方文字,在中朝韩三国朝鲜民族的文化与历史发展历程中发挥了巨大作用。朝鲜文字系统是文字结构复杂、数量巨大的符号系统。运用信息论、机器学习等理论和方法研究朝鲜文字结构是朝鲜文字信息的智能化处理所面临的重要课题。本学位论文在研究朝鲜文字组成规则的基础上,研究了朝鲜文字结构的统计特性,为朝鲜文字识别的粗分类提供了决策依据。首先,基于朝鲜文字可唯一线性化的特性,根据组成文字的基本字母出现情况,提出了文字的结构距离的概念与简便的距离计算方法,描述了不同结构文字之间差异的度量方法。根据所提出的结构距离概念,把整个文字集划分为42个等价类,每个等价类对应于具有相同结构的文字子集。这种划分方法为文字识别中的粗分类提供了新的划分方案,使大大减少文字精细分类器的负担成为可能。其次,通过对大量的实际朝鲜语文档的研究,分析了文字结构的概率分布。通过统计不同文字结构在实际文档中出现的概率,揭示了不同结构文字的使用效率和构成实际朝鲜语文档的主要文字结构以及在实际文档中所出现的文字的平均复杂度。最后,通过计算在结构分类过程中不同位置上的基本字母的信息增益,利用ID3算法建立了文字结构分类决策树,为文字识别的粗分类策略提供了理论依据。通过所建立的决策树揭示了文字结构分类信息增益最大的关键基本字母类型集,并以决策树为依据对印刷体文字设计了基于12种文字结构的粗分类算法,以验证这一方法的有效性,为朝鲜文字计算机识别的粗分类提出了有效的实现方案。对实际文档的统计实验表明,现代朝鲜语文档由较简单结构的文字组成,仅靠42种结构中的17种即可表现实际文档中99%以上的内容,实际文档中平均每个文字所含基本字母个数约为2.67个。对文字结构的粗分类具有最大贡献的关键字母类型是元音字母和终声辅音字母,而以此为依据可以设计与实现有效的粗分类算法。