中文句式改写算法研究

被引量 : 0次 | 上传用户:woaiyan0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
改写就是用不同的方式表达相同的语义。它作为一种语言行为和活动,在知识传播和信息传递的过程中普遍存在。改写集中反映了自然语言的多样性、灵活性和重要性等特点。近年来,自然语言处理底层技术的不断发展和成熟,为改写研究的发展奠定了基础,使得改写也越来越受到研究者的关注。很多研究者对改写做了大量的研究并取得了一定的成果,尤其在日文和英文方面,改写已经成功应用于机器翻译、自动问答、自动文摘、信息抽取、文本水印等领域,并有效地推动了这些领域的发展。但是,目前对中文改写的研究不多,其还处于发展的阶段。改写的研究分为两个部分:一部分是改写资源的获取,其旨在识别不同表达方式的语义等价性;另一部分是改写的生成,其旨在生成特定语义的不同表达方式。本文以中文为研究对象,讨论其句式的改写生成算法。研究从单句和复句两个方向分别进行分析,并提出相应的改写变换算法。本文主要研究内容如下:1、基于模板的单句变换算法。针对改写难以离开对句法深层次分析的问题,设计并构建了单句改写变换模板库及约束库,提出了相应的改写模板匹配算法,实现了基于模板的单句变换算法。该算法增加了模板匹配的正确性,避免了句式变换的盲目性,提高了改写句子的有效性。2、基于关联词的复句变换算法。对于复句改写问题,提出了复句层次关系分析算法,抽象了以关联词为主的句子主干,设计了主干复句的文法描述,实现了复句层次关系分析和识别算法;以此为基础,提出了基于关联词的句式变换算法,设计了用于复句变换的关联词添加、删除、同义替换和分句移位四种运算及其变换顺序,并结合了基于模板的单句变换,进一步增加了改写语句的多样性。该算法避免了句法的深层次分析,确保了改写复句的有效性,增加了生成语句的多样性。3、设计并实现中文句式改写的原型系统,并利用规模较大的语料库进行了实验、测试,同时提出了中文句式改写算法评测的方法和评测标准。实验表明,本文所提出的算法是有效的。该原型系统也为本文所提出算法的实际应用提供了一个实现参考。
其他文献
“空巢老人”,一般是指由于子女离家后独守在家的中老年夫妇,或单独的老人。随着社会老龄化程度的不断加深,空巢老人也越来越多,无论从比重还是数量上,都已经成为一个不容忽
God译为“上帝”涉及两种主要翻译策略:归化法和拟古法。由于东西方文化差异的存在,这两种翻译策略的使用必然跟文化因素密切相关。因此,就有必要谈谈God和上帝各自的文化内
目的:观察头针结合高电位治疗脑卒中后肩痛的临床疗效。方法:将40例患者随机分为针灸结合高电位组和药物对照组,每组20例。结果:治愈率及有效率药物组分别为40%和75%,针灸结合高电位
变则通,通则达。传统的酒店营销是从客房的角度出发,满足一种基本的顾客需求。但是,随着社会经济的不断发展,酒店间的竞争程度不断加剧。旅游酒店要想在市场经济中立于不败之
基础隔震结构是指通过在建筑物上部结构与基础之间设置隔震层,来延长结构体系的自振周期、增大阻尼从而减小地震反应的结构。它是一种被动控制体系,与传统的抗震结构相比,主
<正> 便秘指的是大便次数减少或粪便干燥难解,排便时间延长,欲大便而艰辛不畅的一种症状。一般48小时不排便提示存在便秘称为食挂。便秘作为一种症状,可见于各种急慢性病中。
会议
在信息化浪潮的冲击下 ,文书、档案管理工作向文档一体化方向发展已成为一种必然趋势。本文阐述了文档一体化的概念、其理论依据和特点 ,指出了当前文档一体化存在的主要问题
人力资源成本会计符合配比原则,但没有真正的计量出人力资源所能创造出来的价值;人力资源价值会计对价值进行了充分的计量,但计量方法和报告方式还需要改进。对人力资源会计
我国目前实行“统账结合”的医疗保险模式,其医疗个人账户的设计与统筹账户中设定的起付线、封顶线以及患者自付比例等限制性参数都是为了控制医患双方的“道德风险”及其“
76集长篇电视剧《后宫甄嬛传》改编自流潋紫所著的同名小说《后宫·甄嬛传》,郑晓龙导演,北京电视艺术中心制作,孙俪、陈建斌、蔡少芬等人主演,。剧中女主角甄嬛无疑是千百年