论文部分内容阅读
主曲线(principal curves)是高维空间中数据集合的一维光滑曲线。主曲线的理论与应用研究已经得到了众多计算机科学工作者的关注。寻找主曲线的有效算法和进行主曲线的应用研究,已经成为模式识别领域值得关注的热点之一。 本文的工作主要分为两个部分,第一部分提出了一种自适应的简明主曲线算法,第二部分给出了主曲线在汉字骨架提取中的应用。在论文的第一部分,首先对给定的数据集设计了一种提取数据集主成分特征的算法,随后,以此为基础,提出了一种自适应的主曲线算法,给出了算法的设计思想与过程描述。主曲线算法由两个层次构成:第一层次是基于向量量化器(即GL_算法),其计算生成了离散数据集的多边形主曲线;第二层次将自组织拓扑映射与向量量化器相结合,最终生成主曲线。本文的主曲线算法继承了HS型主曲线算法和K型主曲线算法的主要优点,降低了一般主曲线算法的复杂度,使其变得更简洁明了。论文的第二部分是在总结已有汉字骨架提取的各种算法基础上,加以综合改进,同时应用第一部分的主曲线理论与算法,给出了一套完整的提取汉字骨架并将汉字骨架显示出来的算法,包括手写体汉字和各种印刷体汉字的骨架。该部分的算法可以分成三个层次:其一是对汉字进行预处理:包括细化给定的汉字、提取细化后的汉字特征和汉字笔段、完成生成汉字笔划等算法;其二是依据所提取的汉字特征,对畸形笔划进行优化处理。其三是将光学汉字骨架进行数学转换至欧氏空间上,并依据汉字笔划自身规范性,将本文第一部分的主曲线算法应用于欧氏空间的汉字骨架上,对汉字骨架进行优化处理,同时将主曲线优化模拟后的汉字骨架通过计算机屏幕输出再现出来。 主曲线理论、算法及其应用正在成为我国计算机科学界关注的研究方向之一。本文的工作将作为该项研究的起点。尤其是主曲线算法,在当前国内的计算机研究领域具有一定的先导性价值。将主曲线理论应用汉字骨架优化具有一定的实际价值。