李歘歘的朋友圈
  • 首页
  • 编程 Cookbook【开发面试】
  • Goodnote【算法面试】
  • TAG
  • 关于作者

多模态论文

A collection of 2 posts
多模态论文笔记——CLIP
多模态论文

多模态论文笔记——CLIP

大家好,这里是Goodnote(好评笔记)。本文详细介绍这几年AIGC火爆的隐藏功臣,多模态模型:CLIP,通过对比学习进行图像-文本联合学习。 文章目录 * CLIP(Contrastive Language-Image Pre-training) * 1. CLIP 的核心思想 * 2. CLIP 的模型架构 * 2.1 图像编码器 * 2.2 文本编码器 * 2.3 对比学习机制 * 2.4 对比损失(Contrastive Loss) * InfoNCE * 图像编码器损失函数 * 文本编码器损失函数 * 总损失函数 * 2.5 共享嵌入空间 * 3. CLIP 的训练方式 * 4. CLIP 的推理过程 * 4.1 图像分类 * 4.2
03 May 2025 12 min read
多模态论文笔记——ViT、ViLT
多模态论文

多模态论文笔记——ViT、ViLT

大家好,这里是Goodnote(好评笔记)。本文详细介绍Transformer架构在计算机视觉方面的成功模型,将Transformer引入图像领域:ViT、ViLT。 文章目录 * ViT * 1. ViT的基本概念 * 2. ViT的结构与工作流程 * 1. 图像分块(Image Patch Tokenization) * 2. 位置编码(Positional Encoding) * 3. Transformer 编码器(Transformer Encoder) * 4. 分类标记(Classification Token) * 3. ViT的关键组件 * 1. 图像分块(Patch Embedding) * 2. 多头自注意力机制(Multi-Head Self-Attention) * 3. 位置编码(Positional Encoding) * 4. ViT与CNN的对比 * 5. V
03 May 2025 18 min read
Page 1 of 1
李歘歘的朋友圈 © 2025
  • Copyright © 2019--2025 www.lichuachua.cn All Rights Reserved
  • 晋ICP备19005181号-2
  • 公众号「编程Cookbook」
  • 公众号「Gooodnote」
Powered by Ghost
Copyright © 2019--2025 李歘歘 All Rights Reserved
晋ICP备19005181号-2
「编程Cookbook」公众号二维码
「Goodnote」公众号二维码