论文部分内容阅读
改写就是用不同的方式表达相同的语义。它作为一种语言行为和活动,在知识传播和信息传递的过程中普遍存在。改写集中反映了自然语言的多样性、灵活性和重要性等特点。近年来,自然语言处理底层技术的不断发展和成熟,为改写研究的发展奠定了基础,使得改写也越来越受到研究者的关注。很多研究者对改写做了大量的研究并取得了一定的成果,尤其在日文和英文方面,改写已经成功应用于机器翻译、自动问答、自动文摘、信息抽取、文本水印等领域,并有效地推动了这些领域的发展。但是,目前对中文改写的研究不多,其还处于发展的阶段。改写的研究分为两个部分:一部分是改写资源的获取,其旨在识别不同表达方式的语义等价性;另一部分是改写的生成,其旨在生成特定语义的不同表达方式。本文以中文为研究对象,讨论其句式的改写生成算法。研究从单句和复句两个方向分别进行分析,并提出相应的改写变换算法。本文主要研究内容如下:1、基于模板的单句变换算法。针对改写难以离开对句法深层次分析的问题,设计并构建了单句改写变换模板库及约束库,提出了相应的改写模板匹配算法,实现了基于模板的单句变换算法。该算法增加了模板匹配的正确性,避免了句式变换的盲目性,提高了改写句子的有效性。2、基于关联词的复句变换算法。对于复句改写问题,提出了复句层次关系分析算法,抽象了以关联词为主的句子主干,设计了主干复句的文法描述,实现了复句层次关系分析和识别算法;以此为基础,提出了基于关联词的句式变换算法,设计了用于复句变换的关联词添加、删除、同义替换和分句移位四种运算及其变换顺序,并结合了基于模板的单句变换,进一步增加了改写语句的多样性。该算法避免了句法的深层次分析,确保了改写复句的有效性,增加了生成语句的多样性。3、设计并实现中文句式改写的原型系统,并利用规模较大的语料库进行了实验、测试,同时提出了中文句式改写算法评测的方法和评测标准。实验表明,本文所提出的算法是有效的。该原型系统也为本文所提出算法的实际应用提供了一个实现参考。