出品人:Towhee 技术团队
作者:王翔宇 顾梦佳
随着深度神经网络的发展,自动图像描述技术取得了令人瞩目的进展。然而,现有的方法主要注重生成的描述与人类参考描述之间的相似性,却忽视了描述在实际应用中的特定目标。Meta FAIR实验室一项最新研究提出了一种改进方法,通过引入判别性目标和强化学习,使得神经网络生成的图像描述更具信息量和可理解性,为实际应用带来了新的希望。
论文认为,图像描述的一个基本目标是正确地描述一个物体,使得听者能够将其与其他环境元素区分开来。为了实现这一目标,论文提出了一种使用强化学习的自监督判别通信目标来微调预训练的图像描述模型的方法。论文通过让图像描述模型与一个图像检索模型进行判别博弈来进行微调。
具体而言,给定一个目标图像,图像描述模型生成一段描述,而图像检索模型则使用这个描述从候选图像集合中选择出目标图像。这种微调方法不需要标注数据,且独立于底层的图像描述模型和图像检索模型。
该研究采用了一种称为DiscriTune的微调方法,通过强化学习,对预训练的图像描述模型进行微调,生成的描述作为输入传递给一个固定的判别器。判别器的任务是在一组干扰图像中找到原始图像。通过这种微调方法,模型逐渐学会生成更具辨识度和可区分性的描述,更好地传达图像的特征和内容。
研究团队使用了两种不同的图像描述模型进行实验:ClipCap和BLIP。ClipCap是一个基于GPT-2模型的图像条件模型,它使用一个可训练的映射网络将图像的视觉特征与GPT-2嵌入空间进行关联,从而生成图像描述。BLIP是一个由文本Transformer和视觉Transformer组成的大型图像描述模型,它通过跨模态注意力机制将视觉信息引入到生成的描述中。这些模型经过微调后,生成的描述更具信息量和可理解性。
为了评估改进方法的效果,研究团队还使用了一个神经检索模型CLIP来进行实验。CLIP是一个多模态双编码器模型,通过对比损失最大化文本和图像之间的相似性。通过计算描述与图像之间的匹配分数,可以判断图像是否被正确检索出来。
在优化过程中,由于解码过程具有离散性,无法直接使用损失函数进行端到端的反向传播。因此,研究团队采用了强化学习中的REINFORCE算法来优化图像描述模型。通过计算匹配分数的奖励作为反馈信号,模型逐步调整生成的描述,以最大化目标图像的匹配分数。
这个表格里列了一些重要结果。ClipCap和DiscriTune在从包含100个候选图像的集合中检索目标图像时的准确率(P@1),这些图像来自于COCO、Conceptual Captions和Concadida测试集以及nocaps验证集。可以看出来DiscriTune能带来较大的收益。
相关资料:
- 论文:https://arxiv.org/pdf/2304.01662.pdf
🌟全托管 Milvus SaaS/PaaS 即将上线,由 Zilliz 原厂打造!覆盖阿里云、百度智能云、腾讯云、金山云。目前已支持申请试用,企业用户 PoC 申请或其他商务合作请联系 business@zilliz.com。
- 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。
- 欢迎关注微信公众号“Zilliz”,了解最新资讯。
本文由mdnice多平台发布
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
相关推荐: 频频刷屏朋友圈,白酒如何越来越年轻化?来聊聊白酒企业数字化
最近,某白酒品牌频频吸引大众眼球,白酒与咖啡、巧克力等联名衍生品一经推出便掀起热潮。某商品由于太过火爆,甚至一度售罄下架。 不得不说,我国拥有超大规模内需市场,消费潜力巨大。 当前,创新消费场景加上数字化融合转型,成为酒企品牌开疆扩土、逆势增长的重要途径。 如…