论文部分内容阅读
人脑视觉系统是一个复杂的智能系统,在处理外部视觉信息时,具备现有机器无法比拟的高效性和鲁棒性。功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)是目前观测大脑活动的最主要的研究工具,可以对人脑以较高的时空分辨率进行三维无损成像。基于fMRI的视觉信息解析旨在从视皮层信息表征特性出发,构建视觉计算模型,探究视觉刺激与对应的大脑功能响应之间的关系。近年来的研究成果表明,深度神经网络模型基于一定的大脑视觉信息加工机制,可以实现丰富且具有层次性的特征提取,在进行基于fMRI的视觉信息解析方面具有显著的优势。研究基于fMRI的视觉信息表征深度网络模型,对于理解深度网络模型对人脑视皮层信息的表征,提升神经信号的视觉信息解析水平,具有重要的意义和价值。本文以“拓展视觉解析深度网络模型对人脑视皮层信息表征的维度”为目标,结合深度神经网络模型在计算机视觉信息处理上的优势,从人脑视觉皮层的“多任务”、“空间连接”、“连续语义表征”等信息表征特性出发构建深度网络模型,探索了新的fMRI视觉信息解析方法。主要开展的工作如下:1.面向视觉编码的视皮层多任务信息表征深度网络模型。目前,针对fMRI视觉编码开展研究的深度网络大都限于分类任务,为了探究由其它任务驱动的卷积神经网络(Convolutional Neural Network,CNN)对编码性能的影响,本文依据视觉皮层体素的任务多样性表征,利用不同任务驱动的CNN,构建了面向视觉编码的视皮层多任务信息表征深度网络模型。本文基于预训练好的分类网络、分割网络提取自然刺激图像的特征,并将分类特征、分割特征线性映射到体素响应,实现了编码模型的构建。实验结果表明,基于分割网络的编码模型在35.05%的体素上表现出了更好的性能,基于分类网络的编码模型在64.95%的体素上具备更好的性能,这表明了人脑视觉皮层的任务多样性表征特性,同时为CNN特征表达与人脑视觉加工机制的异同提供了依据。2.面向视觉分类的视皮层连接信息表征图卷积网络模型。人脑视觉神经系统是一个复杂的网络化结构,脑区之间的连接关系对于视觉信息的表征具有重要作用,但这类信息未能在现有的视觉分类模型中有效表征出来。本文引入视皮层体素之间的连接关系,构建了一种面向视觉分类的视皮层连接信息表征图卷积网络(Graph Convolutional Network,GCN)模型。首先,基于视皮层各视觉区的解剖学连接,将fMRI数据转换为图数据,然后利用具有三层卷积层的GCN建立端到端的视觉信息分类模型,实现从图数据到视觉刺激类别的解码。实验结果表明,基于解剖结构构建的图数据分类性能显著优于无连接、随机连接以及基于视觉区内部连接的图数据(双样本t检验,P值分别为6.96×10-6、0.0017、0.0135)。分析表明该模型能够有效利用视皮层体素的连接信息表征,也说明了将连接信息表征应用于大脑视觉信息解析的潜力。3.面向视觉重构的视皮层语义表征CGAN模型。人脑视觉皮层接受外部刺激信息之后,经过视皮层加工会形成对视觉刺激的“理解”,并在视皮层中产生对刺激的低级特征和高级语义等各种信息表征,但是如何有效提取和利用语义高级信息构建重构模型仍然是难点问题。本文将视皮层体素的响应看作一种大脑对于外部视觉刺激加工的高级语言,基于该语义先验,引入用于文本生成图像的条件生成对抗网络(Conditional Generative Adversarial Network,CGAN),构建一种视皮层语义信息表征的CGAN模型,实现了自然图像重构。本文构建的CGAN模型中,生成模型将预处理后的视皮层体素响应映射到语义描述空间作为条件先验,与噪声向量拼接生成重构图像;判别模型鉴别输入图像是自然图像还是生成图像,并判断图像与视皮层体素响应是否匹配。实验结果表明,本文构建的模型能够以端到端的方式从fMRI响应中重构出视觉刺激,主观评价的平均正确率为75.88%,客观评价的平均正确率为68%。