论文部分内容阅读
随着科学技术的发展,大数据时代的到来,句法分析在自然语言处理任务中所扮演的角色越来越重要。但是从近几年的句法分析发展程度来看,国内句法分析并没有达到很好的效果。原因首先是汉语本身的特点,复杂、灵活而且多样,导致了中文句法分析较英文要费时费力;其次缺乏统一标准的,大规模、高质量的句法分析标注树库,分析器不能充分学习到汉语语言知识,使得句法分析的正确率不高;最后,目前大多数的句法分析器都是通用型的,在普通句和简单句的分析上能得到一个比较好的效果,但是遇到了复杂句,如从句、并列句以及小句中存在多个中心谓词的情况,分析效果非常不好,且国内很少有研究者研究专门针对复杂句的树库。因此本文针对以上问题展开了如下几个方面的研究: 首先,本文提出了初始语料筛选的方法。树库的质量很大程度决定于初始语料的选择,因此本文利用两种非同源的词法分析标注库,通过统计分析,设计了基于语篇分析难度的抽样选择方法,利用该方法,本文按照树库总量的不同比例,选择形成不同体裁、不同内容的篇章文本数据库作为后续加工的基础语料。 其次,本文提出了一种异源语料融合方法。对于已经选择好的篇章语料,由于是非同源的,所以其词法分析标注的规范是不统一的。为了保证标注树库的质量和词法信息的一致性,本文通过构建映射表,设计词性分类模型,得到推荐词性,再结合《知网》,利用概念推荐空间,进行可信度分析,确定是否采用推荐词性。实验表明,本方法很好的融合了非同源语料,保证了待标注语料词法层面的规范化和一致性。 最后,本文提出了基于“人机共生”的复杂句标注方法。通过对中文复杂句的句法块进行切分,把筛选出来的待分析组块进行句法分析,得到了初步标注块,然后把这些离散的块进行重构和还原,使之重新成为一个整句,最后由标注者进行语料校对。本方法有效的利用了人和机器各自的优势,使“人机”进行友好和高效的互动。实验表明,本方法比传统方法在时间上节约了4倍以上,并且达到了一个较高的校对正确率,极大的节省了人力物力,得到了一个非常好的效果,提供了一个快速且高质量的建设大规模语料的新思路。同时,“人机共生”语料标注半自动方法也为句法分析流程提供了分而治之的新思路。