论文部分内容阅读
自然语言处理是人工智能的一个重要研究领域。它是利用计算机进行语言知识的获取、表示以及应用的技术,为人和计算机之间的信息交流提供高效、便捷的方法。自然语言处理技术已经出现于各种自然语言的计算机应用软件系统中,例如:信息抽取、信息检索、机器翻译、文本分类、语音识别等等。
在中文自然语言处理任务中,分词、命名实体识别和句法分析是机器理解汉语的基础,歧义问题是这些任务的核心。线性链条件随机场模型已经成功应用于相关的自然语言处理任务,然而容易产生过配数据的缺点成为分词和命名实体识别的巨大障碍,同时如何有效地利用线性链条件随机场模型的优点辅助中文句法分析,仍然有待于研究。针对上述问题,本文做了如下上作:
首先,本文从原理上分析了线性链条件随机场模型适合于处理线性关系的自然语言处理任务,如分词、命名实体识别、词性标注等。从图模型和自然语言处理两个角度分析了众多与线性链条件随机场模型相关的模型,如隐马尔可夫模型、最大熵模型,最大熵马尔可夫模型,重点分析线性链条件随机场模型在自然语言处理应用中的优缺点。
其次,本文提出了基于平滑特征条件随机场模型的中文分词和命名实体识别算法。线性链条件随机场模型的一个致命缺点是过配数据问题。本文通过映射线性链条件随机场模型到线性模型,详细分析了模型的过配问题,同时介绍已有的两种解决方案:参数先验和特征约减。受到隐马尔可夫模型平滑特征的启发,依据测试集中出现但未在训练集中出现的特征仍然是有用的特征这一假设,提出了平滑特征线性链条件随机场模型,类似于参数先验的方法调整特征权值缓解过配。中文分词和命名实体识别实验结果表明平滑特征线性链条件随机场模型优于未加入平滑特征的线性链条件随机场模型。
最后,本文提出了基于单独解析块的中文句法分析算法。中文句子中的标点代表不同的语义划分,标点之间的字符串可能是一个完整的句法表示。预先识别这些语法串,可以减少与标点符号相关的句法歧义。依据上面的假设,本文提出基于单独解析块的句法分析框架,采用线性链条件随机场模型识别单独解析块序列。实验结果表明基于线性链条件随机场模型的单独解析块句法分析算法不仅提高了句法解析精度,而且削减了句法分析时间代价。该框架具有良好的可扩展性,本文采用决策树模型也获得了类似的实验结果。
综上所述,本文提出的两种基于线性链条件随机场模型的算法,在各自的自然语言处理任务中取得较好的结果,实验结果表明本文提出的方法是有效的。