视觉语言对齐相关论文
现有的目标识别技术大多采用单一的目标图像数据。然而在现实环境中,图像往往不是唯一的目标信息来源,目标的属性数据、语义描述等......
视觉语言导航是涉及视觉信息和语言信息的复杂多模态任务,导航智能体遵循语言指令引导,在视觉环境中移动,以到达指定目的地。视觉......
图像描述生成是计算机视觉与自然语言处理的交叉任务,该任务的完成需建立在图像理解与抽象推理的基础上,巨大的挑战吸引了越来越多......