存在“就是”句子的句间关系识别研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:chinasee_liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理技术的迅速发展,机器翻译、信息检索、信息抽取、自动问答、文本连贯性评价等在内的研究都有了较大的突破,但发展的同时也面临着瓶颈。在语言的语义理解方面,计算机还无法处理传统语言学中对于句群层面的一些抽象定义。自然语言处理技术要想有进一步的提升,还须在句群层面的语义分析、语义理解上提供相关的理论和技术支持。对于汉英机器翻译,信息检索,自动问答等的研究来说,理想的模型也应该是建立在语篇或者句群层面上。因为句子本身所能承载的上下文之间的信息过少,从单个句子到段落、篇章的语义过渡又太大。为了在顺应传统语言学思想的基础上,能够更好地做到对段落、篇章进行处理,句间关系这一概念被引入计算语言学中。句间关系即为两个文本单元(句与句)之间存在的关联。加强对句间关系的研究也就成了自然语言处理的新发展对语法研究提出的新要求。句间关系作为句群、语义理解的重要内容,获得了学术界越来越多的关注。查阅语言学相关资料我们发现存在“就是”的句子在句间关系的研究上具有很重要的研究价值,句间会出现传统语言学12种关系中的所有情况。于是本文在对存在“就是”句子的研究中,对存在“就是”的单句和与这个句子最靠近的单句间的关系进行了探讨,实验过程中我们使用了规则和机器学习相结合的方法。在语料的选取上,由统计一致性指标Kappa值确定出来的人员对从北京大学CCL语料库随机抽选出的句子进行标注,将标注的结果作为人工判断的结果。在规则的提取中,我们首先查阅语言学相关方面,提取出能够用来判别存在“就是”句子句间关系的一些特征,这些特征分为存在“就是”句子所特有的特征,和普适的特征,然后将特征写入特征向量。为了提高准确率,在特征的写入中,我们加强了特有特征的识别,即增加一维向量用来存储明显关系特征(特有特征),之后使用分类工具进行建模(机器学习),再使用模型来预测。将预测的结果和人工判断的结果进行比较,得出准确率、召回率、F1值,实验结果表明,对特有特征进行加强后的实验总体准确率较之加强前平均提高了两个百分点。这里分类工具我们使用的是SVM和逻辑回归,基于这两个工具进行实验,对比分析实验结果。最后本文对影响实验的因子进行了分析。
其他文献
随着互联网技术的发展,人们对于网络服务的要求越来越高,数量也越来越巨大,传统客户/服务器应用构架受到了巨大的挑战。因此在当前的技术条件下,如何构建大规模、高可扩展、
桥梁远程监测是利用有线或无线通信方式实现桥梁状态实时远程监测的方法,它改变了传统的以人工为主的监测手段,大大提高了桥梁监测的自动化程度,提高了对桥梁结构损坏和突发
随着物流产业的发展,传统的第三方物流在信息共享和资源整合上开始显得力不从心,于是第四方物流应运而生。要在第三方物流的基础上构建第四方物流管理系统,如何实现管理系统
近几年随着科技的发展,Internet技术广泛的被应用,具有松耦合、异步和多点通信的等特点的发布/订阅系统(pub/sub系统)满足了分布式系统在应用范围和应用规模等方面改变的需要
当今随着信息技术的日新月异,快速发展,人们对信息的渴望也是与日俱增。面对杂乱的海量数据,如何能从中快速得到用户想要的信息,是当前亟待解决的问题。所以对海量数据进行有效的
由于数据挖掘模式的多样性、挖掘过程的非平凡性、挖掘算法的复杂性,使得构造一个完整的知识发现流程往往是耗时的,而且需要领域专家和算法设计人员的多方参与。这些流程不仅
图编程技术是用可视化编程代替文本编程的编程方式,该技术采用构件复用的设计方式,极大程度降低了编程人员的开发难度。鉴于图编程技术的种种优势,本论文论述了基于图编程技术开
随着信息量的爆炸式增长,信息存储技术显得越来越重要。个人计算机磁盘容量也越来越大,目前几百GB已经比较常见,企业的存储容量更是以较快的速度增长。很多企业要求他们的数
随着语义网的发展,基于语义网数据的应用越来越多。由于语义网数据的开发与存储具有分布式的特点,为了促进语义网数据的重用和集成,语义网搜索引擎渐渐成为语义网的研究热点。Fa
无线传感器网络(Wireless Sensor Network,WSN)是物联网技术的重要组成部分,近年来受到广泛的讨论和关注,成为研究热点并已被应用于国家安全和国民经济等多方面。WSN由大量具有能