论文部分内容阅读
型式化语言在自然语言中广泛存在。概括和提取语言型式对语言研究、辞书编纂、语言教学等具有重要意义。传统研究中的型式提取主要采用手工分析方法,耗时费力,无法应对大规模语料。已有的为数不多的型式自动识别研究效果欠佳,适用范围有限。本研究采用相似度分析方法,尝试在索引行自动聚类的基础上实现英语动词型式的自动识别与提取。本研究重点回答以下两个研究问题:1)影响索引行聚类的因素有哪些?如何确定索引行聚类中的分组数量?2)型式自动识别与提取模型的准确率及召回率如何?影响因素有哪些?研究中基于型式语法(Hunston&Francis2000)和英语动词型式列表(Francis et al1996),归纳出型式的必要元素,构建特征集,依此进行索引行自动聚类。研究包括五个环节:1、从赋码语料库中析出相关动词的索引行;2、归纳英语动词型式列表中的型式元素,建立特征集;3、将索引行中的语言信息转换为型式元素;4、对索引行进行相似度计算,实现自动聚类;5、提取每组索引行的公共特征项,最终生成相关动词型式列表。本研究模型调试及验证语料均取自BNC的笔语部分(共约9000万词次)。模型调试阶段从动词型式列表中的常用动词索引中随机抽取了8个动词(appeal, complain,end,give,hold,insist,persuade,protect)共8000个索引行(各1000行归纳型式元素的转换方法及步骤。在验证阶段,为了便于分析型式识别的准确率,我们从PDEV网络数据库选取了不同频率的6个动词(admit.agree.argue. claim.lead.tell)共5365个索引行(均已由Patrick Hanks团队专家按型式分组,且分组数量≥5),对由每一个动词析出的索引行分别进行自动聚类,并将聚类结果与PDEV中的人工分析结果进行比对,分析自动聚类的准确率。为了探索最佳的K值确定方法,研究中先后对验证集进行了两次聚类,第一次聚类中以人工分类组数确定K值;第二次聚类中基于聚类内部效度评估指标确定K值。通过对调试阶段语料以及验证集两次分类结果的分析发现:第一检索词的不同、索引行数量及索引行内部的异质性程度三者共同影响索引行聚类的效果;基于聚类内部效度确定K值的方法更为灵活、开放,结果也更为可靠,准确率更高。第二、两次聚类中型式自动识别平均准确率分别达到90.99%和95.91%,均高于前人81%的平均准确率。插入成分及特殊句式是影响型式自动识别准确率的主要因素。本研究中提出的型式自动识别与提取方法便于对大型语料库中的动词或其他词类进行穷尽性自动分析,具有广泛的适用性。