论文部分内容阅读
在高速发展的当今社会,每日产生的数据量呈爆发式增长,我们已经全面进入大数据时代。而大量的数据也为人工智能相关技术的发展提供了宝贵的土壤和原料。从数据中发现和挖掘出其所蕴含的相关模式,并进行新任务的预测是人工智能的核心。而各种不同来源的数据,包括视频、音频、图像、文本等构成了庞大且复杂的多模态数据。如何充分利用这些繁复的多模态数据,并从中挖掘出有用的信息也是弱人工智能向强人工智能进化的必经之路。多模态数据的模式识别与关联关系挖掘也成为了众多研究机构和学者的研究课题,也是目前的研究热点之一,这一领域的进展对于直接推动人工智能的发展有重大的意义。
而图像标题生成则是当前人工智能在大数据背景下聚焦多模态数据的典型问题。该问题涉及到的是图像和文本两个模态之间的数据,本章针对这个问题在如下两个方面进行了探索:
1)构建一个完全基于CNN的深度学习模型来解决该问题。基于CNN的深度学习模型在图像处理的多个问题,如分类问题,识别问题上都取得了显著的成果,同时CNN也逐渐的被采用到自然语言处理的任务中来,包括文本分类、文本理解等任务,也达到了目前最优,所以自然而然的本章则考虑采用一个完整的基于CNN的模型来处理图像标题生成问题。
2)我们将ConvLSTM网络单元引入到自己的模型中,这样该模型既可以较好的学习到图像数据空间特征的同时也能够进一步的把握住句子以及单词间彼此的依赖关系。本章将这不同的处理问题的方式都在公开数据集上进行了多次试验,并取得了较好的效果。
3)在模型中引入对抗学习机制。通过将图像标题生成任务作为一个两阶段任务,第一阶段先得到较为粗糙的图像标题句子,第二阶段通过对抗学习,让第一阶段的结果更加的靠近真实的图像标题,来实现模型结果质量的提升。
综上所述,图像标题生成问题是大数据人工智能时代一个典型的科学问题,将它应用于现实世界中的推荐系统、检索系统等存在的大量无监督数据的任务中,可以很好的提升各系统的运行效率,而且该技术也可以帮助盲人来识别存储设备中的图像,做到“看图说话”,这些都说明该问题的研究和发展对于惠及人们的生活有重大的意义。
而图像标题生成则是当前人工智能在大数据背景下聚焦多模态数据的典型问题。该问题涉及到的是图像和文本两个模态之间的数据,本章针对这个问题在如下两个方面进行了探索:
1)构建一个完全基于CNN的深度学习模型来解决该问题。基于CNN的深度学习模型在图像处理的多个问题,如分类问题,识别问题上都取得了显著的成果,同时CNN也逐渐的被采用到自然语言处理的任务中来,包括文本分类、文本理解等任务,也达到了目前最优,所以自然而然的本章则考虑采用一个完整的基于CNN的模型来处理图像标题生成问题。
2)我们将ConvLSTM网络单元引入到自己的模型中,这样该模型既可以较好的学习到图像数据空间特征的同时也能够进一步的把握住句子以及单词间彼此的依赖关系。本章将这不同的处理问题的方式都在公开数据集上进行了多次试验,并取得了较好的效果。
3)在模型中引入对抗学习机制。通过将图像标题生成任务作为一个两阶段任务,第一阶段先得到较为粗糙的图像标题句子,第二阶段通过对抗学习,让第一阶段的结果更加的靠近真实的图像标题,来实现模型结果质量的提升。
综上所述,图像标题生成问题是大数据人工智能时代一个典型的科学问题,将它应用于现实世界中的推荐系统、检索系统等存在的大量无监督数据的任务中,可以很好的提升各系统的运行效率,而且该技术也可以帮助盲人来识别存储设备中的图像,做到“看图说话”,这些都说明该问题的研究和发展对于惠及人们的生活有重大的意义。