论文部分内容阅读
古诗是中华民族两千年多来思想、文化、精神、情感的一种艺术表现。随着新一轮人工智能及深度学习技术的发展,古诗自动生成研究近年来得到了相当多的关注,出现了大量的在线计算系统用于实现古诗的自动创作。现有的研究大多集中于给定关键词或者文本序列生成古诗。受图像描述最新进展的启发,从图像输入中生成古诗描述实现传统文化的数字化体验,将是一项有趣且极具挑战性的任务。这项任务作为一个跨模态问题包含多个挑战:从图像中获取意象信息、依据意象信息生成古诗、同时还需要考虑生成古诗的文学效果。基于上述挑战,本文依据图像信息的复杂程度,提出了两种针对不同图像输入的古诗生成方法。同时针对现有古诗生成模型中诗句语义连贯性弱化问题进行优化。本文的主要工作如下:(1)提出适用于单目标图像输入的图像古诗生成方法,建立单目标图像古诗生成模型。该模型通过控制行首词将图像和古诗联系起来,包含两个模块:图像关键词提取以及基于关键词的古诗生成。模型通过图像特征提取器获得图像的目标信息,将目标信息作为古诗的写作大纲,而后基于字符级循环神经网络逐行生成古诗。设计实验分析不同层数模型对实验结果有效性的影响。实验结果表明使用3层网络结构生成的古诗获得的认可度更高。同时,相比于七言诗句,模型在五言诗句上的效果表现更好。(2)针对单目标图像古诗生成模型只能识别单一目标信息的问题,提出适用于复杂图像输入的图像古诗生成方法,建立基于场景的图像生成古诗模型。考虑到场景信息在古诗创作中的重要性,模型在图像处理模块加入对图像场景信息的识别。模型通过两个图像特征提取器获得图像的目标信息和场景信息,并基于这些信息进行扩展,生成四个主题词用于指导后续古诗的生成。在古诗生成模块,采用基于注意力机制的编码-解码模型逐行生成古诗,并以主题词作为外部输入,每个主题词对应生成一行诗句。同时,针对现有研究中古诗前后连贯性较弱问题,模型当前行诗句的输出只与前两行诗句信息相关。设计图灵测试对模型进行有效性评估。(3)设计对比实验对单目标图像古诗生成模型和基于场景的图像古诗模型进行评估。对比实验从两个方面展开,其一是对古诗生成结果的对比分析,其二是对图像古诗生成模型的相关性进行对比分析。采用困惑度和人工打分作为评价指标。将上述两个模型生成的古诗与SMT模型、RNNPG模型、以及PPG模型生成的古诗进行对比。实验结果表明相比字符级循环网络结构,编码-解码框架在解决古诗生成问题时得到的结果更好。同时,相比于选择前文所有信息,选择前两行诗句作为参考信息更有利于生成效果较好的古诗。设计两个对比实验对上述两个模型的图像和古诗相关性进行评估。实验结果表明当输入图像的信息较为单一时,单目标图像古诗生成模型效果更好,当图像信息量增多时,基于场景的图像生成古诗模型经由两个图像特征提取器生成的古诗更贴合图像内容表达。