论文部分内容阅读
本文以型式语法为理论基础,研究了从大型语料库中以数据驱动的方式提取动词的型式,按照语义角色对型式的组成元素进行语义分类和自动标注等问题,进而建立了一个以语义为索引的英语动词句法型式知识库,实现了基于Web的语义型式检索系统。现有相关研究如StringNet, Grasp, Linggle等对型式的类型定义和型式表示较为笼统和粗泛,检索方式等也存在较多不足。并且目前也尚不存在一个按照语义角色来分类的型式检索系统,这些因素促成了本文的研究。本研究设计建立的型式检索系统的意义在于为机器辅助型式学习探索新的思路,满足学习者按照语义方式查询的需要。同时它可作为学术研究的工具,辅助相关研究,如型式和意义,语义论元等研究领域。研究使用全句法解析(full syntactic parsing)获得句子的短语树结构,然后通过监督式学习训练二元分类器对句子中型式元素所在的句法成分做边界识别,型式元素的句法成分包括动词在句子中的所有论元,动词本身和小品词。进而把识别出的型式元素按照其在句子中出现的顺序做线性排列作为型式整体候选项,对其进行组合强度和概率比重计算并以此排序。同时,研究使用有监督式训练的多元分类器,按照标准语义角色标注(SRL)的语义角色划分框架,对型式元素做语义角色分类。本文在型式语法对型式的定义基础上,把型式元素的构成范围扩展为句子中动词的左右两边,并把型式按照动词语态做了区分,即提取整句的句法型式。同时加入了包括短语中心词和小品词作为型式元素的候选类别。这种以一致的方式同时对结构和词汇偏好做自动描述,在利用数据驱动提取基于型式语法的动词型式的研究领域或属首次尝试。同时,对词汇和结构的偏好做语义归纳和描述的研究,据我们所知,本文也为首次采用SRL标准任务对语义角色的划分框架,为研究语义倾向性提供辅助。本文把型式提取和语义角色标注合并完成的方法为上述研究提出了一个可行的计算方案。NLP方面的其它研究贡献还包括,显著提高了对SRL核心论元的标注效率,探索了如何使用全句法解析对型式进行自动提取的方法;为海量数据处理设计的并行计算模型。