大家好,这里是Goodnote(好评笔记)。本文详细介绍这几年AIGC火爆的隐藏功臣,多模态模型:CLIP,通过对比学习进行图像-文本联合学习。
文章目录
* CLIP(Contrastive Language-Image Pre-training)
* 1. CLIP 的核心思想
* 2. CLIP 的模型架构
* 2.1 图像编码器
* 2.2 文本编码器
* 2.3 对比学习机制
* 2.4 对比损失(Contrastive Loss)
* InfoNCE
* 图像编码器损失函数
* 文本编码器损失函数
* 总损失函数
* 2.5 共享嵌入空间
* 3. CLIP 的训练方式
* 4. CLIP 的推理过程
* 4.1 图像分类
* 4.2