复杂汉语概念复合块的标注与分析

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:wyy_9715072
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,大数据时代的到来,句法分析在自然语言处理任务中所扮演的角色越来越重要。但是从近几年的句法分析发展程度来看,国内句法分析并没有达到很好的效果。原因首先是汉语本身的特点,复杂、灵活而且多样,导致了中文句法分析较英文要费时费力;其次缺乏统一标准的,大规模、高质量的句法分析标注树库,分析器不能充分学习到汉语语言知识,使得句法分析的正确率不高;最后,目前大多数的句法分析器都是通用型的,在普通句和简单句的分析上能得到一个比较好的效果,但是遇到了复杂句,如从句、并列句以及小句中存在多个中心谓词的情况,分析效果非常不好,且国内很少有研究者研究专门针对复杂句的树库。因此本文针对以上问题展开了如下几个方面的研究:  首先,本文提出了初始语料筛选的方法。树库的质量很大程度决定于初始语料的选择,因此本文利用两种非同源的词法分析标注库,通过统计分析,设计了基于语篇分析难度的抽样选择方法,利用该方法,本文按照树库总量的不同比例,选择形成不同体裁、不同内容的篇章文本数据库作为后续加工的基础语料。  其次,本文提出了一种异源语料融合方法。对于已经选择好的篇章语料,由于是非同源的,所以其词法分析标注的规范是不统一的。为了保证标注树库的质量和词法信息的一致性,本文通过构建映射表,设计词性分类模型,得到推荐词性,再结合《知网》,利用概念推荐空间,进行可信度分析,确定是否采用推荐词性。实验表明,本方法很好的融合了非同源语料,保证了待标注语料词法层面的规范化和一致性。  最后,本文提出了基于“人机共生”的复杂句标注方法。通过对中文复杂句的句法块进行切分,把筛选出来的待分析组块进行句法分析,得到了初步标注块,然后把这些离散的块进行重构和还原,使之重新成为一个整句,最后由标注者进行语料校对。本方法有效的利用了人和机器各自的优势,使“人机”进行友好和高效的互动。实验表明,本方法比传统方法在时间上节约了4倍以上,并且达到了一个较高的校对正确率,极大的节省了人力物力,得到了一个非常好的效果,提供了一个快速且高质量的建设大规模语料的新思路。同时,“人机共生”语料标注半自动方法也为句法分析流程提供了分而治之的新思路。
其他文献
移动机器人路径规划问题是机器人研究中的关键技术,一直以来是国内外学者们热衷的课题。然而,传统的路径规划方法都存在各自的缺陷,寻求更佳的算法就成为该领域的一个研究热
无线传感器网络综合了传感器技术,嵌入式计算技术,分布式信息处理技术和无线通信技术。它能够实时监测,感知和采集各种环境或监测对象的信息,并对其进行处理,然后把信息传送
随着网络的飞速发展,P2P技术已经成为各国计算机网络研究的热点。在P2P系统中,每个节点既是客户机,又是服务器,所有的数据交换都是在节点间完成。相对于传统的C/S模式,P2P具
在现代社会中,工作流管理技术作为一种先进的计算机应用技术,已经成为中小型企业实施管理经营和战略变化的重要手段之一。而工作流引擎是工作流管理技术的核心。当前,工作流引擎
随着我国经济的迅猛发展,城市中各种机动车保有量迅速增加,城市及交通道口的交通状况也因此而变得日趋复杂,城市交通管理部门迫切需要一套行之有效的交通车辆监控系统,智能交通系
本课题的项目来源于上海东方女篮--篮球队异地远程数据访问权限设置及身份加密认证。本课题所实现的系统模型--篮球队科学信息互动加密认证系统。该系统实现了篮球队内部不同
无线自组网具有无需基础设施,组网快速灵活、鲁棒性和抗毁坏性能强等应用优势,但无线自组网是未成熟和民用化的技术。多跳信道共享方式、拓扑结构动态变化等网络特征给无线自组
随着计算机技术和无线通信技术的快速发展,信息化已经成为衡量一个国家的现代化水平和综合国力的重要标准。我国是一个农业大国,农业现代化已经成为我国社会主义现代化建设的
通常,不同课程之间存在一定的关联和前后次序,例如学生学习某门课程之前通常需要先修一些课程。利用学校学籍数据库中所存放的学生成绩数据,结合数据挖掘的关联规则分析,可以从大
随着手持设备的广泛应用,它对汉字输入技术的要求越来越高。整句输入技术能够提高汉字的输入速度,有效实现语句层面上的输入法效果,因此具有很强的实际应用价值。然而由于存储空