N步长距离视觉语言模型的图像分类方法

来源 :信息工程大学学报 | 被引量 : 26次 | 上传用户:a734266739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法。实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率。
其他文献
根据遥感影像质量改进在提高设备精度与实际条件之间存在矛盾的问题,提出一种基于双线数幅度调制半色调的遥感影像图质量改进方法。该方法根据设备精度和图像精度要求,确定了半色调单元精度,并对其进行拆分,建立了二分法等算法模型。通过对莫尔条纹与线数极值关系的解析,确定了该算法的线数极值,并利用线数极值设计实验。实验表明,该方法提高了半色调图像输出线数,控制了莫尔条纹影响,对遥感影像图输出质量有较大改进。
多面体模型具有规范化、健壮性、灵活性等特点,被认为是最有前途的编译优化技术之一,SIMD优化是重要应用领域之一。由于静态编译技术的限制,大量非规则循环无法建立多面体模型,例
极化合成孔径雷达数据蕴含了丰富的极化信息,目前已经被应用到海上舰船检测研究.针对现有算法检测过程中存在虚警、漏警和目标分裂等问题,采用非局部均值结合最优极化检测,提
恶意代码所采用的各式各样的"壳"给安全分析带来了很多困难,加壳代码的自动脱壳技术对提高安全分析工作的效率有很大作用。根据加壳程序在运行过程中的特点,设计并实现了基于内