Meta提出用向量检索来改进图像描述模型

出品人：Towhee 技术团队

作者：王翔宇顾梦佳

随着深度神经网络的发展，自动图像描述技术取得了令人瞩目的进展。然而，现有的方法主要注重生成的描述与人类参考描述之间的相似性，却忽视了描述在实际应用中的特定目标。Meta FAIR实验室一项最新研究提出了一种改进方法，通过引入判别性目标和强化学习，使得神经网络生成的图像描述更具信息量和可理解性，为实际应用带来了新的希望。

论文认为，图像描述的一个基本目标是正确地描述一个物体，使得听者能够将其与其他环境元素区分开来。为了实现这一目标，论文提出了一种使用强化学习的自监督判别通信目标来微调预训练的图像描述模型的方法。论文通过让图像描述模型与一个图像检索模型进行判别博弈来进行微调。

具体而言，给定一个目标图像，图像描述模型生成一段描述，而图像检索模型则使用这个描述从候选图像集合中选择出目标图像。这种微调方法不需要标注数据，且独立于底层的图像描述模型和图像检索模型。

该研究采用了一种称为DiscriTune的微调方法，通过强化学习，对预训练的图像描述模型进行微调，生成的描述作为输入传递给一个固定的判别器。判别器的任务是在一组干扰图像中找到原始图像。通过这种微调方法，模型逐渐学会生成更具辨识度和可区分性的描述，更好地传达图像的特征和内容。

研究团队使用了两种不同的图像描述模型进行实验：ClipCap和BLIP。ClipCap是一个基于GPT-2模型的图像条件模型，它使用一个可训练的映射网络将图像的视觉特征与GPT-2嵌入空间进行关联，从而生成图像描述。BLIP是一个由文本Transformer和视觉Transformer组成的大型图像描述模型，它通过跨模态注意力机制将视觉信息引入到生成的描述中。这些模型经过微调后，生成的描述更具信息量和可理解性。

为了评估改进方法的效果，研究团队还使用了一个神经检索模型CLIP来进行实验。CLIP是一个多模态双编码器模型，通过对比损失最大化文本和图像之间的相似性。通过计算描述与图像之间的匹配分数，可以判断图像是否被正确检索出来。

在优化过程中，由于解码过程具有离散性，无法直接使用损失函数进行端到端的反向传播。因此，研究团队采用了强化学习中的REINFORCE算法来优化图像描述模型。通过计算匹配分数的奖励作为反馈信号，模型逐步调整生成的描述，以最大化目标图像的匹配分数。

这个表格里列了一些重要结果。ClipCap和DiscriTune在从包含100个候选图像的集合中检索目标图像时的准确率（P@1），这些图像来自于COCO、Conceptual Captions和Concadida测试集以及nocaps验证集。可以看出来DiscriTune能带来较大的收益。

相关资料：

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用