论文部分内容阅读
框架排歧研究是SemEval-2007中第19项语义分析评测"Frame Semantic Structure Extraction"中的一个子任务。该研究基于FrameNet语义知识库,针对句子中给定的歧义目标词(能够激起至少两个框架的目标词),根据目标词当前所在句子的语境,判断该目标词所能激起的多个候选框架中,哪个最能表达当前句子的语义场景。框架排歧与词义消歧有些类似,但词义消歧更侧重于静态地计算多义词在词典中的哪个释义更适合于当前句子。而框架语义学是一种动态场景语义,它更侧重的是,根据场景中的参与者及涉及的相关语义角色,来判断哪个候选框架所激起的场景语义与当前句子的场景语义是一致的。本文面向汉语框架网(Chinese FrameNet),研究汉语框架排歧技术。目前,汉语框架网中共有332个属于多个框架的词元,本文从中筛选了7个有代表性的词元进行研究,并从搜狗语料库和北大CCL现代汉语语料库中搜集了1000多条汉语句子,在经过整理精炼后作为实验的语料集。对于这些包含能够激起多个框架的目标词的汉语句子,本文在依存句法分析基础上,采用机器学习方法进行了汉语框架排歧技术的探索研究。本文的主要研究内容及成果包括:(1)基于序列标注思想,在对汉语句子进行依存句法分析基础上,采用Tree-Structured Conditional Random Fields (T-CRF)模型进行框架排歧的特征选择及参数估计,并与CRF模型的实验结果进行了对比分析。(2)基于分类思想,在依存句法分析基础上,对汉语句子中的每个目标词建立SVM分类器来实现目标词的框架排歧,模型训练过程中主要包括特征选择、参数估计、核函数选择。(3)对比实验:利用广义组配理论中的共现组配思想,本文提出了基于词元相容度计算方法来进行目标词的框架排歧,并使用了most-frequent frame方法baseline实验。实验结果表明,使用机器学习方法,在依存句法树上抽取特征,能够捕获句子中司语之间较为深层和隐含的联系,对于汉语框架排歧技术的研究很有帮助。