基于半监督学习的中文依存句法分析

被引量 : 0次 | 上传用户:jchangmafco
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存关系指的是句子中词与词之间支配与被支配的关系,将这种关系以计算机可接受的方式表示出来就是一个有向的依存结构图。依存关系因其直观、容易理解和简洁的结构,使得依存句法分析成为目前句法分析领域中的重要的研究方向之一。传统的句法分析的首要任务是确定句子所包含的结构,其次是确定各部分之间的内在联系,而依存句法分析的主要目的就是通过分析句子中各词之间的依存关系来识别句子的句法结构。随着计算机技术的不断发展,大规模收集语料成为可能,一些主流的语言如英文已经建立起了规模很大的语料库,并用统计的方法让计算机来处理成为可能。但是就目前来说,收集完之后的语料库需要人工的对其词性和依存关系进行标注,这将耗费大量的人力、物力和财力。对于中文的依存语料库来说,目前已建成的汉语依存树库规模很小,而且由于没有统一的标注规范,使得各研究组织机构的语料库之间存在着很大的差异。课题考虑到中文依存语料库规模较小的不足之处,利用大量的未标记语料,设计并实现了一种基于改进的Tri-training算法的半监督学习方法,并取得了较好的性能。实验采用的语料全部来自于CoNLL-2009的中文评测数据,其中共有22276个语句,利用基于两种不同方法的句法分析器MSTParser和MaltParser训练得到三种类型的分类器模型来实现改进的Tri-training算法。最初的Tri-training算法的过程过于繁琐,且其迭代的过程十分耗时。本文改进了Tri-training算法的时间复杂度,并且使用三种算法对同一标记数据进行训练。本实验根据汉语词和词形相同的特征,改进了MSTParser和MaltParser训练过程特征向量的选取维数,同时增加了三阶的特征向量。实验结果表明,利用大量的未标记的句子对实验结果的提高作用明显,克服了因依存语料库不足所带来的问题。
其他文献
1水利改革的指导思想、原则、目标1.1指导思想深入贯彻科学发展观,全面落实中央一号文件、中央水利工作会议精神和省委一号文件要求.围绕加快经济发展方式转变、推进“四化两型
随着科学技术的迅猛发展,人们对道路施工机械的要求也越来越高。不仅要求它们具有高的生产效率,而且还要能够自动控制施工质量。智能振动压路机就是在这种条件下产生的。在此本
1学习内容分析《分子》这节课是学生接触微观世界的开始,而分子、原子的概念比较抽象,学生往往难以理解。分子是初中生首次接触的微观粒子,在此之前学生只有一些零星的微观感
“郑声”是有别于雅乐的流行音乐的通称,旋律繁杂,节奏明快,抒情细腻,并常与女乐相配合,追求情感与感官的快适,极富魅力,极具娱乐性,故而被斥为“淫声”。“淫声”之“淫”与郑国的社
“颠沛必于是,造次必于是”是儒家先贤在传道过程中的感受,而新一代儒家代表人物杜维明在将儒学现代化过程中也可以以此作为总结。以杜维明为代表的新儒家不仅承担挖掘建构儒学
超声波具有机械作用、致热作用、理化作用,这是超声波治疗的理论基础。不同频率的超声波由于衰减系数的不同导致进入人体的深浅不一,相应的超声波作用也会有所不同,进而具有不同
能源危机和环境保护己经成为全球性的问题,传统内燃机的发展面临巨大挑战,研究高效、节能和环保的发动机技术是传统内燃机产业可持续发展的必由之路。本文研究一种大几何压缩比
招聘管理是人力资源管理职能中最为基础和重要的工作,在企业的发展进程中有着举足轻重的作用,能否招聘到杰出、适合的员工对企业的发展乃至兴衰成败尤为重要。因此,分析并找出企
随着全球信息化潮流的涌动,移动互联网如火如荼般流入到社会的每个角落,从话音通信向信息内容应用的技术变革,给传统电信运营商带来了巨大的机遇和挑战。在河北电信市场,联通、移
关于现代性的求索与建构,构成了近代以来中国社会历史发展的核心主题。在殖民主义现代性扩张侵略的现实境况下,近代中国以非自主性姿态被迫卷入现代性浪潮之中,催生了中国现