基于规则和统计的哈萨克语词法分析和短语识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luke_lemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理已经成为世界各国和各民族信息技术发展过程中至关重要的研究课题之一,伴随着如今大数据时代的到来,更加体现了它的学科优势性,成为了每一个民族信息处理的核心问题之一;词法分析和短语识别是自然语言处理的基础研究,其研究成果的优劣直接反映在后续语义理解研究及它们相应的应用系统;由于哈萨克语语料资源稀缺且词形态的多样性,词法分析和短语识别处理中存在的问题至今没有完全地解决,仍然存在诸多方面严峻挑战。如何有效地进行哈萨克语的词法分析和短语识别处理研究成为了哈萨克语自然语言处理中迫切需要解决的核心问题。  本文重点研究哈萨克语词法分析和基本短语识别关键性的基础问题,通过分析词形态和短语结构,构建适合哈萨克语计算语言学的语言规则,再利用语言规则和统计方法构建语料库;进而研究词信息统计和形态分析、词性标注和基本短语识别方法,从而实现哈语语言学从传统的“定性研究”转入“定量研究”;不仅为进一步哈语的信息处理提供了方法和技术支撑,而且对哈语语言学研究提供了可靠的语料库数据和资源平台,同时其研究成果可应用于国内外哈语的机器翻译、语音识别、信息检索等的许多应用开发领域。特别哈语作为跨境语言,对“一带一路”的战略具有重要研究意义和实际应用价值。  哈萨克语(简称:哈语)在语言谱系上属于阿尔泰语系突厥语族,以其黏着语特性,可以通过在词根或词干前后粘连附加成分的形式来表示其语法意义。本学位论文针对中国境内阿拉伯字符的哈萨克文文字,据其独特的语言特性,研究依据规则和统计技术去解决哈萨克语词法分析和基本短语识别的难题。从以下几个方面来完成研究工作:  第一,为了解决哈语资源稀缺问题,本文首先规范化语料库的编码方式和存储格式,提出了规范化语料的加工内容,构建了语料库;针对词频问题,提出了基于语料库的词信息分析与统计方法,揭示了哈语词信息的一些语言现象和词信息相互间的语言规律,完成了基于语料库的词信息统计与分析。  第二,为了解决哈萨克语词法分析中形态分析问题,本文深入剖析了包括词形态分析、词附加成分的切分与还原、词形态的歧义分析等的哈语语言特性;针对词形态结构,提出了基于哈语规律的词法形态模型;最后针对词干提取,提出了基于语言规律的词干提取算法,提出了“全切分+哈语语言规律和语言形态模型+最大匹配算法”的实现方法,实现了词的形态分析。  第三,为了解决哈萨克语词法分析中的词性标注问题,提出了哈语词的标注内容为:词干、词性、附加成分的规范化设计。首先研究了将词、词性和附加成分为特征的适合哈语词性标注的统计模型方法,然后融入到两个统计模型处理哈语词性标注问题,提出了基于最大熵模型的基本词和基于条件随机场模型的兼类词和未登录词的哈语词性标注实现方法,实现了哈语词性标注研究。随后进一步引入哈语词干粘连不同词性属性词缀的特性,进行基于形态分析的词性标注,提出统计模型和哈萨克语语言规律相结合的词性标注方案,并获得了较理想的实验结果。  第四,为了解决哈萨克语浅层句法分析中基本短语识别问题,首先通过哈语基本短语结构和歧义分析探讨,确定了名词性等几个主要基本短语组成规则;然后进行了基于哈语语言规律的基本短语识别研究;借鉴统计模型,提出了基于最大熵模型和条件随机场模型的基本短语识别的方法策略,并构建了短语库。  总之,本文依据哈萨克语语言规则和统计信息处理的方法,借助统计语言模型和概率图模型方法,针对哈萨克语的词法分析和基本短语识别存在的问题,在语料库和短语库构建、词形态分析、词频统计、词性标注、基本短语识别的各个方面系统地进行了研究,构建了哈语的语料资源平台,提出了相应的适合哈语自然语言信息处理的解决方法,为后续哈语的句法分析和语义分析等研究打下基础。
其他文献
模糊C均值聚类算法(FCM:Fuzzy C-Means)的研究领域隶属于数据挖掘的聚类分析方向,是一种基于目标函数的无监督的聚类分析算法。它是在传统聚类分析算法的基础上引入模糊数学
本刊讯9月3日,国家经贸委发出关于公布执行安全标志管理的煤矿矿用产品种类的通知。通知指出:为贯彻“安全第一,预防为主”的安全生产方针,严格执行《煤矿安全规程》,防止伪、劣、次
瓦斯爆炸、煤与瓦斯突出和瓦斯窒息是困扰我国煤矿企业安全生产的重大灾害事故,瓦斯浓度超限则是导致瓦斯灾难事故发生的直接原因,因此,煤矿瓦斯的预测精度的高低对煤矿企业
数字图像是信息时代人们获取信息的最主要和重要的途径之一,因此对图像处理技术的研究和应用就颇具意义和价值,也一直是国内外专家和学者的重要研究方向。NSCT具有完全的平移
随着互联网技术的快速发展,互联网信息呈现爆发式的增长,数据挖掘技术正是在这一背景下发展起来的一门新兴网络技术,打破了传统的数据分析规则,可以从海量数据中快速的挖掘出各种
原平顶山朝川矿务局正式并入平煤(集团)公司。朝川矿务局为平顶山市属地方国有煤矿,现有职工6330多人,位于汝州市境内。该局1978年投产,有生产矿井3对,设计年生产能力为120
建模和仿真技术日益成为研究复杂系统的主要手段。针对科学研究和产业领域的热点问题,涌现出大量仿真框架、模型、组件和工具等,其中既有通用的底层工具集,又有面向特定领域
随着手机智能化和网络化的趋势,人们对手机的要求也在不断提高。然而智能手机技术的不断发展使得手机用户在体验多样化服务的同时,所面临的安全威胁也在不断升级。本文选择目前
基因组重组在物种进化过程中发挥重要作用。基因组重组研究中的一个基本问题是计算一个基因组转换为另一个基因组所需的重组操作的最少个数,它被称为重组距离问题。反转和移
计算机和网络技术的迅猛发展,引发了工业控制领域深刻的技术变革.CAN总线支持分布式控制和实时控制,但不适合远距离传输.工业以太网的确定性、实时性和本质安全性已经得到很