【摘 要】
:
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述。图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分。图像描述任务中,一般采用由编码器和解码器组成的基本架构。改进编码器或解码器,应用生成对抗网络、强化学习、无监督学习以及图卷积神经网络等方法能有效提高图像描述算法的性能。对每类方法的代表模型算法的效果以及优缺点进行分析,并介绍适用的公开数据集,在此基础上进行对比实验。对图像描述面临的挑战以
【机 构】
:
上海电力大学计算机科学与技术学院,国家电网公司上海电器科学研究院
【基金项目】
:
国家自然科学基金(61872230,61802248,61802249,61702321),上海高校青年教师培养资助计划(ZZsdl18006)。
论文部分内容阅读
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述。图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分。图像描述任务中,一般采用由编码器和解码器组成的基本架构。改进编码器或解码器,应用生成对抗网络、强化学习、无监督学习以及图卷积神经网络等方法能有效提高图像描述算法的性能。对每类方法的代表模型算法的效果以及优缺点进行分析,并介绍适用的公开数据集,在此基础上进行对比实验。对图像描述面临的挑战以
其他文献
当跟踪对象被严重遮挡或者离开相机视野范围时,机器人的跟踪目标往往会丢失。为了实现准确跟踪,提出了目标丢失判别跟踪YOLO-RTM算法。该方法通过YOLOv3检测视频第一帧中的目标。利用实时多域卷积神经网络(Real-Time MDNet,RT-MDNet)跟踪算法预测目标边界框的变化。计算重叠度,根据重叠度与预设阈值的比较结果决定模型更新方式,当重叠度高于阈值时,采用RT-MDNet更新外观模型,当重叠度低于阈值时,采用YOLOv3重新搜索目标并更新外观模型。在Turtlebot2机器人上的实验结果表明,
准确地预测城市蜂窝交通流量对未来大数据驱动下的智能蜂窝网络的管理和公共安全非常重要,同时也非常具有挑战。提出了一种基于深度学习的方法——ST-FCCNet来预测城市范围内的蜂窝流量。设计了一种STFCCNet单元结构,来捕捉城市中任意区域间的空间依赖。通过部署ST-FCCNet网络框架来对蜂窝流量的时间邻近性和周期性进行建模,以此来捕获时间依赖。结合外部因素(时间、天气、假期等)得到最终的预测结果。实验部分,通过实际的蜂窝数据集验证ST-FCCNet的有效性和现有的4种方法进行了对比。结果表明,ST-FC
师生关系是学校教育教学过程中最为重要的关系,这一关系的处理直接关系到教育教学的效果,关系到学生的心理健康,关系到学校培养目标的实现。传统的师生关系中,学生的主体性被否认
针对传统基于单分类的推荐算法容易陷入“单指标最优”的困境和推荐精度低的问题,提出一种融合K-最近邻(KNN)和Gradient Boosting(GBDT)的协同过滤推荐算法。该算法利用K-最近邻法过滤出目标用户的多组候选最近邻居集,并综合集成学习的优点,采用多分类器对多组推荐结果进行集成。在相似度计算公式中引入了若只有单个用户评价的物品权重,以此获得更多目标用户的潜在信息。实验结果表明,该算法有效缓解了目标用户与候选最近邻居集之间的数据集稀疏性,提升了推荐精度。
社交媒体是当前人们获取信息的重要渠道,但是社交媒体中不实信息大量传播造成社会危害的问题一直困扰着管理者。为了减轻不实信息造成的不良社会影响,对不实信息的传播规律进行研究。划分出强关系型社交媒体,通过Multi-Agent建模的方法,引入用户个体异质性和决策行为不确定性,建立不实信息传播模型。用控制变量法,在多种网络中进行仿真模拟。研究表明:不实信息传播的初始节点不完全能够决定不实信息的传播范围;不实信息传播过程的缓解期长短与网络的随机性有关;用户观点共鸣度分布会对不实信息传播产生影响。
针对目标的三维姿态估计,结合基于深度学习的目标检测模型,提出一种基于改进YOLO V2的6D目标姿态估计算法。通过卷积神经网络提取一幅RGB图像中目标的特征信息;在2D检测的基础上将目标的位置信息映射到三维空间;利用点到点的映射关系在三维空间匹配并计算目标的自由度,进而估计目标的6D姿态。该算法不仅能检测单幅RGB图像中的目标,还可以预测目标的6D姿态,同时不需要额外的后处理过程。实验表明,该算法在LineMod和Occlusion LineMod数据集上的性能优于最近提出的其他基于CNN的方法,在Tit
为提高图像目标多种多值属性的识别速度,提出一种端到端的识别算法。采用修正的YoloV3网络作为主网络,确定目标的boundingbox;依据属性独立特性构造子网络,多个子网络共享由boundingbox确定的主网络深层次特征,进行推断,并采用多值输出满足多值属性的识别。在训练过程中,采用了三阶段分目标训练。实验结果验证了该算法在识别准确度和时间效率上的优良性能。
膝关节磁共振成像(MRI)是诊断膝关节损伤的首选方法。然而,MRI影像的人工诊断是费时的,而且容易出现诊断错误。为了更准确地预测膝关节损伤,辅助临床医生做出诊断,提出一种多模态特征融合的深度学习模型,用于检测一般异常、前交叉韧带撕裂和半月板撕裂。提取梯度方向直方图(Histogram of Oriented Gradients,HOG)特征和局部二值模式(Local Binary Pattern,LBP)特征,经contact融合后利用PCA选取特征贡献度超过95%的特征作为传统特征;在VGG16模型的基
从内容和形式上阐述了中学班会课在主题的选择和确定方面的一些基本要求和基本方法,告诉读者一个班级从形成到发展在不同阶段班会课主题内容的侧重点.列举了100多个富有针对
针对井式强对流退火炉存在的工艺周期长和砌体内的蓄热在冷却过程中被浪费的弊端,提出了采用脉冲水冷却系统的设想,对井式强对流退火炉进行改造。应用脉冲水冷却系统,不仅提