基于线性链条件随机场模型的中文处理关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：haozhiyan

【摘要】

：

自然语言处理是人工智能的一个重要研究领域。它是利用计算机进行语言知识的获取、表示以及应用的技术，为人和计算机之间的信息交流提供高效、便捷的方法。自然语言处理技术已

【作者】

：

毛奇

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2009年期

【关键词】

：

线性链条件句法分析平滑特征随机场模型中文处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自然语言处理是人工智能的一个重要研究领域。它是利用计算机进行语言知识的获取、表示以及应用的技术，为人和计算机之间的信息交流提供高效、便捷的方法。自然语言处理技术已经出现于各种自然语言的计算机应用软件系统中，例如：信息抽取、信息检索、机器翻译、文本分类、语音识别等等。　　在中文自然语言处理任务中，分词、命名实体识别和句法分析是机器理解汉语的基础，歧义问题是这些任务的核心。线性链条件随机场模型已经成功应用于相关的自然语言处理任务，然而容易产生过配数据的缺点成为分词和命名实体识别的巨大障碍，同时如何有效地利用线性链条件随机场模型的优点辅助中文句法分析，仍然有待于研究。针对上述问题，本文做了如下上作：　　首先，本文从原理上分析了线性链条件随机场模型适合于处理线性关系的自然语言处理任务，如分词、命名实体识别、词性标注等。从图模型和自然语言处理两个角度分析了众多与线性链条件随机场模型相关的模型，如隐马尔可夫模型、最大熵模型，最大熵马尔可夫模型，重点分析线性链条件随机场模型在自然语言处理应用中的优缺点。　　其次，本文提出了基于平滑特征条件随机场模型的中文分词和命名实体识别算法。线性链条件随机场模型的一个致命缺点是过配数据问题。本文通过映射线性链条件随机场模型到线性模型，详细分析了模型的过配问题，同时介绍已有的两种解决方案：参数先验和特征约减。受到隐马尔可夫模型平滑特征的启发，依据测试集中出现但未在训练集中出现的特征仍然是有用的特征这一假设，提出了平滑特征线性链条件随机场模型，类似于参数先验的方法调整特征权值缓解过配。中文分词和命名实体识别实验结果表明平滑特征线性链条件随机场模型优于未加入平滑特征的线性链条件随机场模型。　　最后，本文提出了基于单独解析块的中文句法分析算法。中文句子中的标点代表不同的语义划分，标点之间的字符串可能是一个完整的句法表示。预先识别这些语法串，可以减少与标点符号相关的句法歧义。依据上面的假设，本文提出基于单独解析块的句法分析框架，采用线性链条件随机场模型识别单独解析块序列。实验结果表明基于线性链条件随机场模型的单独解析块句法分析算法不仅提高了句法解析精度，而且削减了句法分析时间代价。该框架具有良好的可扩展性，本文采用决策树模型也获得了类似的实验结果。　　综上所述，本文提出的两种基于线性链条件随机场模型的算法，在各自的自然语言处理任务中取得较好的结果，实验结果表明本文提出的方法是有效的。　　

其他文献

时态信息处理中若干问题的逻辑公理化研究

随着数据库与信息技术的深入和发展，信息系统面临许多新的应用和新的需求，对时态信息处理的需求越来越迫切。时态信息处理已成为许多新一代数据库与信息系统的关键技术，其中，针对

学位

时态信息处理时态查询语言Lambek演算子结构逻辑数据库信息系统

基于SOA的货代企业信息系统设计与实现

基于SOA(Service Oriented Architecture)的架构设计把原有的功能封装成服务，以服务或服务组合的形式组成业务流程，提高了已部署系统的灵活性，同时避免了因为业务变化而重新构建

学位

SOA架构SOA架构WCF服务编程WCF服务编程货代物流行业货代物流行业业务流程业务流程信息系统信息系统软件设计软件设计

基于双目立体视觉的集装箱卡车定位系统研究

现代物流的日益增长要求集装箱码头的货物周转速度越来越快,岸吊作为操作集装箱必不可少的工具,理所当然地要提高操作速度。岸吊的主要工作是将各种规格不等的集装箱从货船上

学位

双目立体视觉运动目标目标检测目标跟踪特征提取特征匹配集装箱卡车定位系统

基于级联模型的人脸检测方法研究

人脸检测问题是计算机视觉领域的研究热点，具有十分重要的理论研究价值和实际应用价值。在理论研究与实际应用场景中，人脸检测问题还面临着不少的挑战，例如不同姿态、光照、遮挡

学位

人脸检测级联卷积神经网络联合训练图像旋转数据校准

Ad Hoc网络中AOMDV-L协议的研究与实现

Ad Hoc网络是一个多跳的、自组织、无中心的网络,由一组带有无线收发装置的移动终端组成,无需任何固定的基础设施便能实现网络的快速部署,因此适用于救援、会议、探险、军事

学位

Ad HocAOMDV负载均衡AOMDV-L

关系数据库到RDF(S)映射方法的研究

随着语义Web的发展,利用已有的数据资源构建本体受到越来越多的重视。资源描述框架(RDF)及其模式语言(RDF Schema)在语义Web中占有非常重要的地位。目前,RDF(S)已被广泛地应

学位

语义WebRDF(S)本体本体学习关系数据库

Detecting Outliers for Data Stream Under Limited Resources

数据挖掘是一个令人兴奋而且生机勃勃的研究领域，尤其是数据流挖掘，近年来也已经得到了广泛关注。由于数据流的特点是时变和实时响应，因此现有的挖掘算法无法直接应用于数据流。

学位

数据挖掘数据流实时响应离群点检测最近邻居算法

面向大规模数据分发的发布订阅系统关键技术研究

随着Internet的迅猛发展，陆续出现众多面向分发的应用，其数据源具有分布性、多样性、自治性和异构性，用户则具有大规模和数据需求的高度重叠性，数据流则呈现出从源到消费者的非对

学位

数据分发语义数据模型元数据事件匹配算法调度算法

元搜索引擎中的关键技术研究

随着网络信息的爆炸性增长,人们在网上查询自己所需要信息的难度变得越来越大,搜索引擎的出现在某种程度上缓解了这个矛盾。独立的搜索引擎分布在不同领域、不同地方为用户提

学位

元搜索引擎成员搜索引擎信息检索结果合并并行算法

数据挖掘技术在高职教师绩效考核中的应用研究

随着我国改革开放进程的不断深入和经济社会的发展,现代高等职业教育的发展已经进入了一个新的时期。高等职业学校是技术人才培养、社会服务的重要基地,高校教师是培养人才、承担科研、教改的主力军。伴随高职院校聘任制度的全面开展,高职教师岗位聘任与绩效考核成为高职院校人事改革的重要内容。而现在大部分高职院校对教师的绩效考核都是由领导或部分专家打分与学生考核简单的线性加权完成的,考核的结果直接影响着教师的职称评

学位

绩效考核数据挖掘模糊性聚类算法决策树

基于线性链条件随机场模型的中文处理关键技术研究

与本文相关的学术论文