抽取式作文生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shengyan1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国家在2015年展开了“高考答题机器人”项目的深度研究。而在高考中,语文的作文部分占了很大的分值,想要取得满意的分数,优秀的作文是必不可少的。为此,我们对抽取式作文生成方法展开了如下的深度研究。1.我们提出了先基于语义抽取再基于相关性扩展的作文候选句获取方法。在该方法中,我们首先通过语义信息,获取和主题语义紧密联系的句子,但是如果仅仅使用这些句子来生成作文,那么生成的作文语义范围太过狭窄,会让人感觉是同一种语义的反复堆砌。因而我们在句子抽取的结果上,还进行了相关句的扩展。具体地,我们提出了基于关联规则的句子扩展方法以及基于LDA的句子扩展方法。通过实验,两种句子扩展方法都能有效抽取和原句子相关的句子。尤其是LDA方法,能够抽取数量较丰富的相关句解决仅仅抽取带来的语义狭窄的问题,不仅如此,LDA句子扩展得到的结果,大大丰富了候选句集的句子类型,在仅仅抽取的方法中,候选句几乎都是阐述、总结类型的语句,而LDA扩展方法能够扩展得到其他类型的句子,比如论证句,包含典故的句子等。2.在得到候选句的基础上,我们需要针对各个段落进行段落内的文本组合生成。在这个模块中,我们使用句子排序的方法来生成我们段落内的文本。我们使用了基于统计机器学习的Learning to Rank方法作为我们的baseline方法,并使用了pair wise的深度学习方法和Ptr-Net的深度学习方法。两种深度学习方法可以很好规避复杂的特征工程。通过实验结果,我们可以发现,两种深度学习方法取得了不错的成果,其中Ptr-Net由于其原理的先进性,更是在正确率上领先baseline方法5个百分点。3.在得到各个段落的文本内容后,我们需要进行篇章级别的谋篇布局,因此我们提出了基于篇章的段落排序。我们使用了基于层次化的Ptr-Net段落排序模型和基于skip-thought的Ptr-Net段落排序模型作为我们的baseline方法,提出了更接近人类真实写作状态的基于关键句抽取的段落排序方法,该方法相对两种baseline方法有了质的提升。同时在作文生成的过程中,我们没有办法直接使用讯飞的标注工具,因而我们将文摘任务上的Summ Ru NNer模型迁移到了关键句提取任务上,并使用基于Hierarchical Attention的关键句抽取方法作为我们的baseline方法,结果显示,我们使用Summ Ru NNer方法结果好于baseline方法,在正确率指标上提高了接近3个百分点,在准正确率指标上提高了4个百分点。
其他文献
目的:观察桂枝龙骨牡蛎汤加味配合耳穴治疗绝经期综合征的临床疗效。方法:90例患者随机分为中药组、耳穴组、中药联合耳穴组(简称结合组)各30例,治疗3疗程。结果:中药组总有
在竞争激烈的市场环境中,商业银行不断创新试图寻找新的利润增长点。从曾经的一味专注存贷差到如今的资产负债业务与中间业务双手抓的现实情况看,商业银行已经越来越重视中间业
沙章图矿副井基岩段掘砌施工中,遇到厚度6m的全孔状粗砂岩含水层,单孔最大涌水量达28m3/h,采用工作面预注浆法堵水。由于粗砂岩致密,不吃浆,升压快,只得改用超细水泥浆和脲醛
旅游资源整合的目标是实现区域旅游资源市场价值的最大化和综合效益的最大化,对旅游地经济社会的可持续发展具有重要的意义.在考察辽宁旅游资源基本状况及空间结构、分析辽宁
电热混凝土是通过在普通混凝土中掺入导电发热组分而制成的一种功能性水泥基复合材料,既能保持结构材料的性能,又可具备电热材料的特性。电热混凝土不仅可以应用于冬季道路和
本文介绍了一种基于VFP5.0开发环境的运动员训练测评及管理系统的设计,该系统可与运动队的日常事务进行综合管理,包括运动员的选材、训练监测、运动训练的生理机能监测比赛成
国有企业实施公司制改制,按照现行政策对拟改制企业拥有的资产、负债价值经由资产评估机构评估确认,是一项必备的操作程序。资产、负债的账面价值一般是以历史成本为基础确认
为了探究在超高喷射压力下GDI(gasoline direct injection)喷油器喷雾的宏观特性,采用阴影法对喷射压力为5~60 MPa的喷雾进行测量,分析喷射压力对油束发展历程、贯穿距离、喷雾