基于层叠条件随机场的句法语义自动标注研究

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:ancci
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种基于层叠条件随机场的CFN句法语义自动标往方法。该方法在低层条件随机场模型中解决了框架元素的识别,将识别结果传递到上层短语类型识别的条件随场模型,再将识别结果传递到上层句法功能识别的条件随机场模型,其低层模型为上层模型提供决策支持,并且在每层自动标注完成后,增加后处理规则去识别那些没有被正确标注的词语。实验选用CFN中“陈述”框架下的句子库,实现了基于层叠条件随机场句法语义自动标注的原型系统。
其他文献
初中学生语言偏误类型多种多样,归结起来主要有汉字、词语、句子、修辞、标点等五个方面的偏误。本文主要从词语方而比较分析了初中三个年级的学生偏误表现的差异,并从语言知识本身、学生自身素质与能力以及外部因素的影响等三个方面探讨了初中各年级学生之所以出现这类偏误差异的原因,继而提出了一些有针对性的对策,以期能为初中阶段的语言教学提供一份可供参考的资料。
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显著提高系统的性能。对于无法得到语义类别的名词,本文尝试利用动词的选择限制来给这类名词赋予语义类别。在对ACE2003 NWIRE中所有类型名词短语的测试表明,综合考虑语义角色、动词驱动以及动词的选择限制能显著提高系统的召回率和F值。
本文利用依存关系进行语义角色的标注,在CONLL2008提供的shared task语料库上进行训练和测试,经过相关剪枝算法处理以后,使用最大熵分类器进行学习和分类,在手工句法分析基础上取得的F1值为:84.42%(Labeled)和92.58%(Unlabeled),在基于MaltParser的自动句法分析上取得的F1值为:81.15%(Labeled)和88.73%(Unlabeled),在基
本文统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方面为从语言学的角度量化地研究联合结构提供了精确的数据。
汉语隐喻计算是一项难度很大的工作,明喻由于带有明显的比喻标志(比喻词),成为一种较理想的用于计算机自动处理的比喻类型。本文着力于对动词“像”的比喻义自动识别,首先,利用程序提取出语料库中带有动词“像”的句子,人工判断是否为比喻句;然后用CRF模型进行训练和测试,开放测试F值达到了83.3%,为隐喻计算的后续工作的展开奠定了的基础。
在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器学习技术,自动获取多词串的领域特征。实验结果表明,该方法有较好的性能,可以大大减轻人工构建的代价。
本文基于山两大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构造了词层面以及句法层面共计35个特征,并使用最大熵模型对中文阅读理解问题回答进行了建模。考虑到语料库规模较小,以1:1的比例从CRCC语料库中随机选取了5组训练/测试集。在5组测试集匕的平均HumSent准确率达到75.46%。
在汉语NP自动分析中,名词和量词的搭配问题是难点。本文在HPSG理论框架下,构建了汉语NP的形式化模型,并分析了该模型在LKB系统中的实现情况,总结了用LKB实现HPSG的优势与不足之处。
本文提出了一种基于统计和规则相结合的汉语最长名词短语识别方法。首先使用条件随机场模型进行标注识别,再结合最长名词短语的边界信息和内部结构信息对错误识别结果进行后处理。实验结果表明,本文提出的统计和规则相结合的自动识别方法是有效的,开放测试结果F值达到了90.2%。
本文研究了基于基本块信息使用条件随机场模型(CRF)对汉语功能块进行自动标注的问题,针对词和基本块的两种不同的标注策略,将汉语基本块信息分别形式化成相应的特征,通过大量的特征组合优化实验,进行特征选择和模型参数估计。实验结果表明,在CRF模型中,基本块相关特征信息的加入可以大幅度地提高功能块识别性能。开放测试表明,在以基本块为单位的标注策略下,功能块自动标注的F值达到89.12%,这是目前最好的汉