基于依存图的中文语义分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义依存是中文语义的深层分析,完善的语义表示体系对语义依存分析有重要作用。但是,目前公开且规范的中文语义依存标注语料还比较少。HIT语义依存是第一个被用来组织公开语义评测的语料,具备良好的规范性和可用性,但是目前来看,HIT语义依存存在一些问题,比如标签过多且某些标签出现频率过低;某些标签之间易混淆等。因此,需要进一步修订和完善。本文在HIT语义依存基础上,结合语言学理论,提出一套理论基础更强、层次更清晰、语义关系更规范的依存体系。另一方面,该体系旨在更全面地表示汉语的语义,而汉语中广泛存在词语之间的交叉修饰以及一个词与多个其他词语具有语义关联的语言现象。而依存树有树形结构限制,在某些情况下要省略一些依存弧或改变一些依存弧,这就丢失了一部分句子的语义。本文的语义体系打破依存树结构限制扩展到依存图,允许某些节点存在多个父亲,同时允许依存弧交叉,从而更加适应汉语语义的表达。语义依存分析主要包括两个问题,依存表示体系的确定和自动语义分析方法的设计。本文的另一个工作就是设计一个能够处理语义依存图的分析系统。通过对依存图的分析可以发现依存图完整包含依存树,因此本文提出一个串行系统来实现依存图的自动分析。先利用依存树分析器得到依存树的分析结果,在此基础上,用规则为句子提取依存图候选弧,并用SVM分类器分类出真正的依存弧添加到依存树上,最后为选出的依存弧通过多分类技术赋予依存标签。依存图分析系统串行工作,依存树分析是依存图分析的基础,本文从三个方面提升语义依存树的分析性能,分别是在模型中融合句法信息、词的聚类信息以及从大规模未标注语料中提取的高精度词对信息。由于语义依存和句法依存在依存弧和依存标签上存在相似性,句法依存对语义依存具有一定指导作用;词的聚类信息使得聚在同一类别中的词语带有相近的语义信息,这为训练语料中出现次数较少的词语提供了帮助信息。语义依存的实质是在具有直接语义关联的词语间建立依存弧,因此在模型中融入高精度搭配词对作为指导信息。三种方法分别对语义标签的准确率提升了0.62%、0.74%和1.65%。
其他文献
关联规则作为数据挖掘的一种重要模式,已成为数据挖掘领域的一个非常重要的研究课题,侧重于确定数据集中不同属性之间的联系,找出满足给定支持度和置信度阈值的多属性之间的依赖
伴随着移动互联等新兴技术不断发展,视频的服务质量需求也不断提高,传输环境也从传统有线向移动无线等方向发展,这对视频编码压缩和传输提出更高的要求。国际上一些标准化组
本文对面向OGSA-DQP的资源发现和选择模型进行了研究。主要研究内容有: 1.开展了网格服务元数据语义支持的研究。针对服务元数据的语义支持问题,使用Web本体语言OWL对同属一
在国内外市场上,网络视频监控主要分为两类产品,即模拟视频监控和数字视频监控。前者技术发展已经非常成熟、性能稳定,并在实际工程应用中得到广泛应用,特别是在大、中型视频
无线传感器网络(Wireless Sensor Network,WSN)是由大量造价低、体积小的传感器节点以自组织方式构成的无线网络。通过感知、采集和分析监测数据,无线传感器网络能够检测出发
缩短嵌入式系统的开发周期,降低开发成本,并使之满足执行时间、功耗等性能上的约束是目前嵌入式系统开发面临的主要问题。软硬件协同设计思想的出现加快了嵌入式系统设计的开发
本文对基于Web Services的业务流程建模进行了研究。文章以WebServices为基础创建业务流程模型,将企业的业务进行整合,以实现企业资源的优化配置,从而适应复杂多变的商务环境。
SOC技术是一种高度集成化、固件化的系统集成技术。使用SOC技术设计系统的核心思想,就是要把整个应用电子系统全部集成在一个芯片中。随着现代嵌入式系统的迅速发展,仿真器以
网络和多媒体技术在教育领域的应用,带来了教育观念、教育模式、教学方法和教学手段等的深刻变革。Internet的分布式资源环境,在知识获取方式、共享能力及协作学习等方面为远
随着信息技术和网络技术的发展、各种应用服务的普及,为了提高用户的使用效率、方便管理员的管理,集成身份认证(Single Sign-On,SSO)和安全有效的授权管理需求越来越强烈。