多模态论文 - 李歘歘的朋友圈

李歘歘的朋友圈

多模态论文

A collection of 2 posts

多模态论文

多模态论文笔记——CLIP

大家好，这里是Goodnote（好评笔记）。本文详细介绍这几年AIGC火爆的隐藏功臣，多模态模型：CLIP，通过对比学习进行图像-文本联合学习。文章目录 * CLIP（Contrastive Language-Image Pre-training） * 1. CLIP 的核心思想 * 2. CLIP 的模型架构 * 2.1 图像编码器 * 2.2 文本编码器 * 2.3 对比学习机制 * 2.4 对比损失（Contrastive Loss） * InfoNCE * 图像编码器损失函数 * 文本编码器损失函数 * 总损失函数 * 2.5 共享嵌入空间 * 3. CLIP 的训练方式 * 4. CLIP 的推理过程 * 4.1 图像分类 * 4.2

多模态论文笔记——ViT、ViLT

多模态论文

多模态论文笔记——ViT、ViLT

大家好，这里是Goodnote（好评笔记）。本文详细介绍Transformer架构在计算机视觉方面的成功模型，将Transformer引入图像领域：ViT、ViLT。文章目录 * ViT * 1. ViT的基本概念 * 2. ViT的结构与工作流程 * 1. 图像分块（Image Patch Tokenization） * 2. 位置编码（Positional Encoding） * 3. Transformer 编码器（Transformer Encoder） * 4. 分类标记（Classification Token） * 3. ViT的关键组件 * 1. 图像分块（Patch Embedding） * 2. 多头自注意力机制（Multi-Head Self-Attention） * 3. 位置编码（Positional Encoding） * 4. ViT与CNN的对比 * 5. V