朝鲜文字信息结构的研究与应用

来源 :延边大学 | 被引量 : 0次 | 上传用户：movax

【摘要】

：

朝鲜文字具有500多年的历史,拥有汉字和西方文字的共同特征,同时还具有自身独特的文字结构,是构字规则与发音规则明确、使用人口分布较广、具有较大影响力的东方文字,在中朝

【作者】

：

金世珍

【机构】

：

延边大学

【出处】

：

延边大学

【发表日期】

：

2012年期

【关键词】

：

朝鲜文字结构距离信息增益决策树文字结构分类文字粗分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

朝鲜文字具有500多年的历史,拥有汉字和西方文字的共同特征,同时还具有自身独特的文字结构,是构字规则与发音规则明确、使用人口分布较广、具有较大影响力的东方文字,在中朝韩三国朝鲜民族的文化与历史发展历程中发挥了巨大作用。朝鲜文字系统是文字结构复杂、数量巨大的符号系统。运用信息论、机器学习等理论和方法研究朝鲜文字结构是朝鲜文字信息的智能化处理所面临的重要课题。本学位论文在研究朝鲜文字组成规则的基础上,研究了朝鲜文字结构的统计特性,为朝鲜文字识别的粗分类提供了决策依据。首先,基于朝鲜文字可唯一线性化的特性,根据组成文字的基本字母出现情况,提出了文字的结构距离的概念与简便的距离计算方法,描述了不同结构文字之间差异的度量方法。根据所提出的结构距离概念,把整个文字集划分为42个等价类,每个等价类对应于具有相同结构的文字子集。这种划分方法为文字识别中的粗分类提供了新的划分方案,使大大减少文字精细分类器的负担成为可能。其次,通过对大量的实际朝鲜语文档的研究,分析了文字结构的概率分布。通过统计不同文字结构在实际文档中出现的概率,揭示了不同结构文字的使用效率和构成实际朝鲜语文档的主要文字结构以及在实际文档中所出现的文字的平均复杂度。最后,通过计算在结构分类过程中不同位置上的基本字母的信息增益,利用ID3算法建立了文字结构分类决策树,为文字识别的粗分类策略提供了理论依据。通过所建立的决策树揭示了文字结构分类信息增益最大的关键基本字母类型集,并以决策树为依据对印刷体文字设计了基于12种文字结构的粗分类算法,以验证这一方法的有效性,为朝鲜文字计算机识别的粗分类提出了有效的实现方案。对实际文档的统计实验表明,现代朝鲜语文档由较简单结构的文字组成,仅靠42种结构中的17种即可表现实际文档中99%以上的内容,实际文档中平均每个文字所含基本字母个数约为2.67个。对文字结构的粗分类具有最大贡献的关键字母类型是元音字母和终声辅音字母,而以此为依据可以设计与实现有效的粗分类算法。

其他文献

可裁减嵌入式平台技术

以普及计算为主要特征的后PC时代的到来，使信息家电、掌上电脑、远程传感器等丰富多彩的Internet新型接入模式层出不穷，它们将使信息的采集、传输、处理与利用发生重大的变化。

学位

嵌入式系统eCos组件调度

移动网络中新型传输层协议传输流媒体的性能研究

该文研究课题的网络层技术背景是移动IP技术.Internet与移动通信的飞速发展使得人们越来越迫切地要求将Internet与移动网结合起来为移动用户提供方便自由的移动业务,移动互联

学位

流控制传输协议流媒体移动IP传输控制协议SCTP协议

IPv6邻居发现协议的形式化验证

随着网络和通信技术的高速发展,大量新的协议不断被提出.但是,到目前为止,Internet的协议标准RFC仍然使用自然语言描述,Internet的协议实现也主要是采用人工编制完成,这种协

学位

消息序列表形式化验证邻居发现协议网络协议IPv6

基于数据流频繁模式挖掘的入侵检测系统设计与研究

随着计算机和计算机网络技术的快速普及，我们的日常生活、学习和工作越来越离不开网络；但与此同时，信息安全、网络安全问题日益成为制约网络发展的一个重大障碍。防火墙、数据加

学位

入侵检测系统数据流挖掘频繁模式聚类分析

基于专家系统的入侵检测方法

随着银行等许多商业金融机构在电子商务的热潮中纷纷连入Internet,网络上的关键业务越来越多地成为攻击的目标.计算机网络犯罪已经成为一种全球性的严重社会问题.因此如何采

学位

计算机安全专家系统入侵检测网络安全

基于EJB-XML的N-Tier计算模型的研究

以EJB(Enterprise Java Bean)为核心的J2EE体系结构和以XML为标准的Web Service框架近年来得到了迅猛发展,分别在企业级计算和B2B电子商务领域得到了广泛的应用.本文对这两种

学位

EJBJ2EEXMLWeb Service设计模式计算模型体系结构

XML数据库中数据缓存技术的研究

XML数据库的检索是基于结点的,存放大量甚至海量数据的XML文件会导致检索速度极低.随着XML数据库的广泛应用,如何对XML数据库中的数据进行缓存以提高对XML数据库的查询效率成

学位

XML数据库数据缓存不完全树条件树类型

环境自动机的学习

对自动机学习理论的研究是伴随着机器学习理论发展起来的,自动机学习理论是机器学习理论的一个独立分支,他从另一个侧面体现了机器学习的方法.从以往研究的方法来看,自动机的

学位

人工智能机器学习变结构随机自动机学习自动机环境自动机概率学习精确学习

应用MIPv6的WCDMA与WLAN间垂直切换

在这篇论文具体包含以下内容:作者就依据MIPv6的切换机制相应地去研究了WCDMA和WLAN相关的内容,分别整理在与课题相关的WCDMA和WLAN内容部分,以便定义体系结构,功能实体和制

学位

垂直切换MIPv6WCDMAWLAN

朝鲜文字信息结构的研究与应用

其他学术论文