论文部分内容阅读
国家在2015年展开了“高考答题机器人”项目的深度研究。而在高考中,语文的作文部分占了很大的分值,想要取得满意的分数,优秀的作文是必不可少的。为此,我们对抽取式作文生成方法展开了如下的深度研究。1.我们提出了先基于语义抽取再基于相关性扩展的作文候选句获取方法。在该方法中,我们首先通过语义信息,获取和主题语义紧密联系的句子,但是如果仅仅使用这些句子来生成作文,那么生成的作文语义范围太过狭窄,会让人感觉是同一种语义的反复堆砌。因而我们在句子抽取的结果上,还进行了相关句的扩展。具体地,我们提出了基于关联规则的句子扩展方法以及基于LDA的句子扩展方法。通过实验,两种句子扩展方法都能有效抽取和原句子相关的句子。尤其是LDA方法,能够抽取数量较丰富的相关句解决仅仅抽取带来的语义狭窄的问题,不仅如此,LDA句子扩展得到的结果,大大丰富了候选句集的句子类型,在仅仅抽取的方法中,候选句几乎都是阐述、总结类型的语句,而LDA扩展方法能够扩展得到其他类型的句子,比如论证句,包含典故的句子等。2.在得到候选句的基础上,我们需要针对各个段落进行段落内的文本组合生成。在这个模块中,我们使用句子排序的方法来生成我们段落内的文本。我们使用了基于统计机器学习的Learning to Rank方法作为我们的baseline方法,并使用了pair wise的深度学习方法和Ptr-Net的深度学习方法。两种深度学习方法可以很好规避复杂的特征工程。通过实验结果,我们可以发现,两种深度学习方法取得了不错的成果,其中Ptr-Net由于其原理的先进性,更是在正确率上领先baseline方法5个百分点。3.在得到各个段落的文本内容后,我们需要进行篇章级别的谋篇布局,因此我们提出了基于篇章的段落排序。我们使用了基于层次化的Ptr-Net段落排序模型和基于skip-thought的Ptr-Net段落排序模型作为我们的baseline方法,提出了更接近人类真实写作状态的基于关键句抽取的段落排序方法,该方法相对两种baseline方法有了质的提升。同时在作文生成的过程中,我们没有办法直接使用讯飞的标注工具,因而我们将文摘任务上的Summ Ru NNer模型迁移到了关键句提取任务上,并使用基于Hierarchical Attention的关键句抽取方法作为我们的baseline方法,结果显示,我们使用Summ Ru NNer方法结果好于baseline方法,在正确率指标上提高了接近3个百分点,在准正确率指标上提高了4个百分点。