基于机器学习的汉语依存句法分析优化研究

被引量 : 0次 | 上传用户:yidehua_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理研究过程中的重要技术之一。近几年依存句法分析的研究也越来越被关注。但相对于英文的依存句法分析研究成果而言汉语的依存句法分析还处于初级阶段。为此本文以现有的汉语依存句法分析研究成果为指导,采用基于决策式句法分析模型和基于分类器的训练算法相结合的依存句法分析方法,结合汉语固有的语法特点,针对汉语句子中含有介词短语的句法分析问题进行了研究和探索。介词短语是一种复杂的短语结构,在汉语句子中占有很大的比例,汉语介词短语的研究主要是解决边界问题,正确识别介词短语对于汉语句子的依存关系分析具有重要的意义。本文首先对一些常见的依存句法分析方法进行了讲述,其中详细研究了Arc-eager算法和RPP算法,然后针对Arc-eager算法和RPP算法在分析过程中出现的错误问题,本文对RPP算法的介词短语边界识别策略做了相关的改进。由于Arc-eager算法只能处理邻近词之间的依存关系,所以Arc-eager算法在处理长距离右依存时会出现错误,RPP算法虽然对Arc-eager算法做了相关的改进,但是RPP算法在处理含有动词的介词短语时往往会出现错误分析的问题。为此,本文在对汉语句子进行依存关系分析时,根据汉语介词短语的固有特点,借鉴RPP算法的右边界后续词特征对介词短语进行边界识别,同时对RPP算法进行了一定的改进。经过改进后的介词短语依存关系分析算法,不但可以解决介词短语长距离分析时出现的过早依存问题,而且还可以处理含有动词的介词短语边界识别问题。通过采用哈工大的依存关系语料库作为实验数据和基于支持向量机的句法分析器作为实验工具对本文提出的汉语句法分析策略进行了全面的测试和评估。实验结果表明本文提出的策略对汉语句子中含有介词短语的句法分析是有效的,而且显著的提高了分析的准确率。
其他文献
目的分析不同CT成像方法在脑胶质瘤边界确定中的差异性。方法分析2012年6月。2016年12月于我院就诊的43例脑胶质瘤患者的CT灌注与普通增强CT的数据资料,根据所获得的网像分别
为获得良好防水性能且保持服装穿着的舒适性,通过构建具有低表面能和粗糙表面于一体的含氟聚氨酯/聚氨酯纳米纤维膜,以涤/棉斜纹机织物作为静电纺丝接收基布,制备了一种新型
在当今世界经济大融合的趋势下,国内企业虽然有更多机遇和更大的舞台登上国际市场,但也在逐渐发展的过程中意识到其会计和财务管理的工作已经无法与国际市场亦步亦趋。良好的
如今,越来越多的顾客参与到网上购物的热潮中,面对他们越来越个性化的服务需求,网上商店为了维持良好的顾客关系以追求持续的竞争优势,必须提供更符合消费者需求的高质量服务
敦煌俗字研究序饶宗颐文字之正与俗,其区别甚难言也。俗与正相对而言,然何者必为正,而何者为俗,溯洄以寻根株,资料所限,往往未易遽得其骄证。颜元孙以躬、能并为正,今则以能为异体,观
秘书职业女性化原因简析张芳莎随着社会主义市场经济体制的建立与完善,不仅促进了人们的思想观念转变,而且也加速了产业结构的变化和社会分工,从而也促进了秘书职业向女性化方向
采用原位无皂乳液聚合工艺,以丙烯酸酯为溶剂,以纳米SiO2(nano‐sio2)为功能单体,合成纳米SiO2改性含氟聚氨酯‐聚丙烯酸酯(WSFPU A )分散液.通过傅立叶红外光谱(FT‐IR)、动态激光散射
随着国家经济水平不断提高,城市化进程地不断加速,导致建设用地需求量非常急需,这也严重加剧了城镇用地和农业用地、生态保护之间无法协调的巨大矛盾。怎样在保证国土资源可
随着市场竞争的激烈,顾客已经成为企业最重要的资产,因而处理好顾客抱怨和维系客户关系越来越成为企业制胜的法宝。对企业来说,为顾客提供完美无缺的产品和服务是一种理想状
本文梳理了我国零售业全面开放几年来,海南零售业发展的环境、现状与存在的问题。接着讨论了外资零售企业在海南快速发展对海南本土零售业发展产生的积极和消极影响。本文在