论文部分内容阅读
自然语言建模是保证计算机能够以可计算的方式对各种语言信息进行有效的处理与应用的基础,尽管基于统计的自然语言模型已经获得了成功应用,当前人们仍然面临如何更加高效、准确地获取语言学知识,同时对各种冗余信息进行有效剪切的问题。为了解决上述问题,同时考虑到粗集技术能够有效地解决信息冗余、冲突、模糊等问题,本文通过引入粗集技术,探索从大规模非结构化的自然语言文本中自动获取语言学规则的方法与模型,研究借助粗集技术来考察自然语言建模的特点以及建模过程中所面临的主要问题、相应的解决方法,在此基础上,进一步研究所建立的语言模型在自然语言处理中的应用。本文研究的主要内容包括以下四部分: 第一,本文以汉语音字转换任务所面临的问题为起点,研究文本信息的结构化方法,并在此基础上建立了一个基于粗集的从大规模文本语料库中获取汉语音字转换规则的语言学知识发现模型,研究了模型的实现方法,并通过实验评测了模型的性能。模型的主要优点在于能够针对不同应用所提供的特征来完成对规则库的约简,降低信息冗余,尽管模型所挖掘的规则是应用相关的,但由于所有规则是自动获取的,所以模型本身仍然具有很好的移植性。第二,由于传统的统计语言模型不能有效解决远距离约束问题,为解决这一问题,我们研究了将粗规则集与统计语言模型进行融合的方法。首先针对存储空间受限的应用领域,研究了基于候选剪切及基于线性插值的方法来融合粗规则集以及字tri-gram模型时的模型性能及特点,然后针对通用领域,研究了在最大熵框架下将粗规则集与基于词的tri-gram模型进行融合的方法,并在此基础上建立了一个基于最大熵和粗规则集的统计语言模型。实验结果表明,将粗规则集与统计语言模型进行融合能够有效的改进传统统计语言的性能。第三,汉语语义的量化建模是进行语义辨识以及语义相似度计算的基础,本文通过采用统计的方法来建立词空间,并将一个词语的上下文映射到该词空间来进行词语的语义量化并建立了相应的量化模型。为了减少计算语义相似度的时间复杂度,我们引入了粗集技术中的属性约简算法来进行词矢量空间的属性约简及坐标词选择,研究了对连续的属性值的离散化处理问题。通过采用伪词的方法对语义量化模型的评测结果显示模型具有较强的语义量化能力及实际