论文部分内容阅读
中文信息处理的字处理、词处理已经相对成熟,句处理和篇章处理是现阶段中文信息处理研究的难点及重点。复句研究是句处理到篇章处理的过渡,因此是目前中文信息处理研究的重要内容。复句是由两个或两个以上的分句构成,其中用于连接分句的关系词也称关系标志,充分体现了分句间的逻辑语义关系,是分句结构的重要标志,也是本文的主要研究内容。目前关于关系词搭配的研究主要集中在分词的字面特征,并未涉及语法分析。本文在基于字面特征的关系词搭配的约束条件基础上,研究基于依存关系的约束条件,利用依存语法中依存关系的五条公理分析汉语复句中关系词搭配的依存关系,从中总结出7类约束条件,并把这7类约束条件形成规则加入规则库,运用字面特征与语法特征相结合的规则自动识别汉语复句关系词。实验结果表明,对关系词的识别率可以达到90%以上。目前关系词识别规则库中共有规则734条,主要是基于字面特征的规则,仍需补充基于依存关系的规则。本文在依存语法的基础上,运用挖掘频繁项集的FP-tree算法对复句中依存规则进行自动挖掘。首先对语料进行预处理,为避免每次重复扫描数据库,先根据关系词对复句进行分类;同时排除数据集过小的分类结果,以保证挖掘规则的质量;然后利用特征分析器分析预处理后的语料,并对分析结果进行形式化表示得到复句的依存特征集合;接着用FP-tree算法对实验语料进行规则挖掘,共挖掘规则84条。本文从依存语法角度研究汉语复句关系词搭配的依存关系及依存规则的自动挖掘。通过对复句进行依存分析,运用关系词搭配的依存关系对关系词进行自动识别,在此基础上引入FP-tree算法对关系词搭配的潜在依存关系进行自动挖掘。实验结果表明,基于依存关系的汉语复句关系词自动识别率有明显提高,并且利用FP-tree算法成功挖掘出84条依存规则,证明了该算法对依存规则进行自动挖掘的可行性和有效性。