复杂汉语概念复合块的标注与分析

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户：wyy_9715072

【摘要】

：

随着科学技术的发展，大数据时代的到来，句法分析在自然语言处理任务中所扮演的角色越来越重要。但是从近几年的句法分析发展程度来看，国内句法分析并没有达到很好的效果。原因首

【作者】

：

刘殷

【机构】

：

北京信息科技大学

【出处】

：

北京信息科技大学

【发表日期】

：

2015年期

【关键词】

：

计算机技术中文复杂句句法分析树库复合块语料标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的发展，大数据时代的到来，句法分析在自然语言处理任务中所扮演的角色越来越重要。但是从近几年的句法分析发展程度来看，国内句法分析并没有达到很好的效果。原因首先是汉语本身的特点，复杂、灵活而且多样，导致了中文句法分析较英文要费时费力;其次缺乏统一标准的，大规模、高质量的句法分析标注树库，分析器不能充分学习到汉语语言知识，使得句法分析的正确率不高;最后，目前大多数的句法分析器都是通用型的，在普通句和简单句的分析上能得到一个比较好的效果，但是遇到了复杂句，如从句、并列句以及小句中存在多个中心谓词的情况，分析效果非常不好，且国内很少有研究者研究专门针对复杂句的树库。因此本文针对以上问题展开了如下几个方面的研究:　　首先，本文提出了初始语料筛选的方法。树库的质量很大程度决定于初始语料的选择，因此本文利用两种非同源的词法分析标注库，通过统计分析，设计了基于语篇分析难度的抽样选择方法，利用该方法，本文按照树库总量的不同比例，选择形成不同体裁、不同内容的篇章文本数据库作为后续加工的基础语料。　　其次，本文提出了一种异源语料融合方法。对于已经选择好的篇章语料，由于是非同源的，所以其词法分析标注的规范是不统一的。为了保证标注树库的质量和词法信息的一致性，本文通过构建映射表，设计词性分类模型，得到推荐词性，再结合《知网》，利用概念推荐空间，进行可信度分析，确定是否采用推荐词性。实验表明，本方法很好的融合了非同源语料，保证了待标注语料词法层面的规范化和一致性。　　最后，本文提出了基于“人机共生”的复杂句标注方法。通过对中文复杂句的句法块进行切分，把筛选出来的待分析组块进行句法分析，得到了初步标注块，然后把这些离散的块进行重构和还原，使之重新成为一个整句，最后由标注者进行语料校对。本方法有效的利用了人和机器各自的优势，使“人机”进行友好和高效的互动。实验表明，本方法比传统方法在时间上节约了4倍以上，并且达到了一个较高的校对正确率，极大的节省了人力物力，得到了一个非常好的效果，提供了一个快速且高质量的建设大规模语料的新思路。同时，“人机共生”语料标注半自动方法也为句法分析流程提供了分而治之的新思路。

其他文献

基于蚂蚁自动分流的机器人路径规划新算法研究

移动机器人路径规划问题是机器人研究中的关键技术,一直以来是国内外学者们热衷的课题。然而,传统的路径规划方法都存在各自的缺陷,寻求更佳的算法就成为该领域的一个研究热

学位

移动机器人路径规划蚂蚁算法滚动规划粒子群算法遗传算法

无线传感器网络安全S-MAC协议研究

无线传感器网络综合了传感器技术,嵌入式计算技术,分布式信息处理技术和无线通信技术。它能够实时监测,感知和采集各种环境或监测对象的信息,并对其进行处理,然后把信息传送

学位

无线传感器网络安全仿真NTRUSignS-MAC

基于语义和信任的超节点P2P网络模型及其搜索算法

随着网络的飞速发展,P2P技术已经成为各国计算机网络研究的热点。在P2P系统中,每个节点既是客户机,又是服务器,所有的数据交换都是在节点间完成。相对于传统的C/S模式,P2P具

学位

P2P语义信任资源搜索

基于Spring框架实现面向中小企业的工作流引擎

在现代社会中，工作流管理技术作为一种先进的计算机应用技术，已经成为中小型企业实施管理经营和战略变化的重要手段之一。而工作流引擎是工作流管理技术的核心。当前，工作流引擎

学位

工作流管理中小企业工作流引擎企业管理

交通道口运动目标分类方法的研究

随着我国经济的迅猛发展，城市中各种机动车保有量迅速增加，城市及交通道口的交通状况也因此而变得日趋复杂，城市交通管理部门迫切需要一套行之有效的交通车辆监控系统，智能交通系

学位

城市交通管理交通车辆监控系统交通道口摄像机标定技术

面向移动环境的加密认证技术的研究及应用

本课题的项目来源于上海东方女篮--篮球队异地远程数据访问权限设置及身份加密认证。本课题所实现的系统模型--篮球队科学信息互动加密认证系统。该系统实现了篮球队内部不同

学位

加密认证远程数据访信息检索密码学公钥密码系统

高性能自组网MAC协议FPRP的研究与实现

无线自组网具有无需基础设施，组网快速灵活、鲁棒性和抗毁坏性能强等应用优势，但无线自组网是未成熟和民用化的技术。多跳信道共享方式、拓扑结构动态变化等网络特征给无线自组

学位

无线自组网无线通信系统FPRP协议仿真设计

基于RFID组网分割的大棚温度监测方法研究

随着计算机技术和无线通信技术的快速发展,信息化已经成为衡量一个国家的现代化水平和综合国力的重要标准。我国是一个农业大国,农业现代化已经成为我国社会主义现代化建设的

学位

双随机寻址DS18B20组网分割无线传输

基于粒计算的学生成绩数据库知识发现的研究

通常，不同课程之间存在一定的关联和前后次序，例如学生学习某门课程之前通常需要先修一些课程。利用学校学籍数据库中所存放的学生成绩数据，结合数据挖掘的关联规则分析，可以从大

学位

粒计算信息处理学籍管理学生成绩数据库知识发现

手持设备上整句输入系统的研究

随着手持设备的广泛应用，它对汉字输入技术的要求越来越高。整句输入技术能够提高汉字的输入速度，有效实现语句层面上的输入法效果，因此具有很强的实际应用价值。然而由于存储空

学位

汉字输入技术手持电子设备整句输入系统语言模型压缩

复杂汉语概念复合块的标注与分析

与本文相关的学术论文