朝鲜文字信息结构的研究与应用

来源 :延边大学 | 被引量 : 0次 | 上传用户:movax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朝鲜文字具有500多年的历史,拥有汉字和西方文字的共同特征,同时还具有自身独特的文字结构,是构字规则与发音规则明确、使用人口分布较广、具有较大影响力的东方文字,在中朝韩三国朝鲜民族的文化与历史发展历程中发挥了巨大作用。朝鲜文字系统是文字结构复杂、数量巨大的符号系统。运用信息论、机器学习等理论和方法研究朝鲜文字结构是朝鲜文字信息的智能化处理所面临的重要课题。本学位论文在研究朝鲜文字组成规则的基础上,研究了朝鲜文字结构的统计特性,为朝鲜文字识别的粗分类提供了决策依据。首先,基于朝鲜文字可唯一线性化的特性,根据组成文字的基本字母出现情况,提出了文字的结构距离的概念与简便的距离计算方法,描述了不同结构文字之间差异的度量方法。根据所提出的结构距离概念,把整个文字集划分为42个等价类,每个等价类对应于具有相同结构的文字子集。这种划分方法为文字识别中的粗分类提供了新的划分方案,使大大减少文字精细分类器的负担成为可能。其次,通过对大量的实际朝鲜语文档的研究,分析了文字结构的概率分布。通过统计不同文字结构在实际文档中出现的概率,揭示了不同结构文字的使用效率和构成实际朝鲜语文档的主要文字结构以及在实际文档中所出现的文字的平均复杂度。最后,通过计算在结构分类过程中不同位置上的基本字母的信息增益,利用ID3算法建立了文字结构分类决策树,为文字识别的粗分类策略提供了理论依据。通过所建立的决策树揭示了文字结构分类信息增益最大的关键基本字母类型集,并以决策树为依据对印刷体文字设计了基于12种文字结构的粗分类算法,以验证这一方法的有效性,为朝鲜文字计算机识别的粗分类提出了有效的实现方案。对实际文档的统计实验表明,现代朝鲜语文档由较简单结构的文字组成,仅靠42种结构中的17种即可表现实际文档中99%以上的内容,实际文档中平均每个文字所含基本字母个数约为2.67个。对文字结构的粗分类具有最大贡献的关键字母类型是元音字母和终声辅音字母,而以此为依据可以设计与实现有效的粗分类算法。
其他文献
以普及计算为主要特征的后PC时代的到来,使信息家电、掌上电脑、远程传感器等丰富多彩的Internet新型接入模式层出不穷,它们将使信息的采集、传输、处理与利用发生重大的变化。
学位
该文研究课题的网络层技术背景是移动IP技术.Internet与移动通信的飞速发展使得人们越来越迫切地要求将Internet与移动网结合起来为移动用户提供方便自由的移动业务,移动互联
随着网络和通信技术的高速发展,大量新的协议不断被提出.但是,到目前为止,Internet的协议标准RFC仍然使用自然语言描述,Internet的协议实现也主要是采用人工编制完成,这种协
随着计算机和计算机网络技术的快速普及,我们的日常生活、学习和工作越来越离不开网络;但与此同时,信息安全、网络安全问题日益成为制约网络发展的一个重大障碍。防火墙、数据加
随着银行等许多商业金融机构在电子商务的热潮中纷纷连入Internet,网络上的关键业务越来越多地成为攻击的目标.计算机网络犯罪已经成为一种全球性的严重社会问题.因此如何采
以EJB(Enterprise Java Bean)为核心的J2EE体系结构和以XML为标准的Web Service框架近年来得到了迅猛发展,分别在企业级计算和B2B电子商务领域得到了广泛的应用.本文对这两种
XML数据库的检索是基于结点的,存放大量甚至海量数据的XML文件会导致检索速度极低.随着XML数据库的广泛应用,如何对XML数据库中的数据进行缓存以提高对XML数据库的查询效率成
对自动机学习理论的研究是伴随着机器学习理论发展起来的,自动机学习理论是机器学习理论的一个独立分支,他从另一个侧面体现了机器学习的方法.从以往研究的方法来看,自动机的
在这篇论文具体包含以下内容:作者就依据MIPv6的切换机制相应地去研究了WCDMA和WLAN相关的内容,分别整理在与课题相关的WCDMA和WLAN内容部分,以便定义体系结构,功能实体和制