机器学习

机器学习笔记——损失函数、代价函数和KL散度

Goodnote

01 May 2025 • 24 min read

机器学习笔记——损失函数、代价函数和KL散度

大家好，这里是Goodnote（好评笔记）。本笔记介绍机器学习中常见的损失函数和代价函数，各函数的使用场景。

文章目录
损失函数
一、回归问题中的损失函数
1. 均方误差（Mean Squared Error, MSE）
2. 平均绝对误差（Mean Absolute Error, MAE）
3. 对数余弦损失（Log-Cosh Loss）
4. Huber 损失（Huber Loss）
5. 平均平方对数误差（Mean Squared Logarithmic Error, MSLE）
总结
二、分类问题中的损失函数
1. 0-1 损失（0-1 Loss）
2. 对数损失（Log Loss）或交叉熵损失（Cross-Entropy Loss）
二分类问题
多分类问题
3. Focal 损失（Focal Loss）
4. Hinge 损失（合页损失）
5. Kullback-Leibler 散度（KL Divergence）
总结
代价函数
1. 回归问题中的代价函数
2. 分类问题中的代价函数
损失函数和代价函数的选择
1. 如何选择适当的损失函数？
2. 损失函数和代价函数的优化
KL散度
描述
KL散度的特点
KL散度的常见应用场景
1. 变分自编码器（Variational Autoencoder, VAE）中的损失函数
2. 分类问题中的交叉熵损失
3. 强化学习中的策略优化
4. 生成模型中的正则化项
5. 多任务学习中的权衡损失
6. T-SNE
总结

损失函数

一、回归问题中的损失函数

1. 均方误差（Mean Squared Error, MSE）

定义：

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

描述：MSE 衡量的是预测值和真实值之间的平方误差的平均值。对较大的误差会进行更大的惩罚，因此它对异常值（outliers）非常敏感。
应用场景：线性回归、岭回归等模型的损失函数。
优点：简单易于理解，容易求导和计算。
缺点：对异常值敏感，可能导致模型被少数异常样本主导。

2. 平均绝对误差（Mean Absolute Error, MAE）

定义：
$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

描述：MAE 衡量的是预测值和真实值之间的绝对误差的平均值。它对每个误差的惩罚是线性的，因此对异常值的惩罚不如 MSE 严重。
应用场景：在对异常值不敏感的回归任务中使用。
优点：对异常值不敏感，能够更加稳定地反映模型性能。
缺点：在优化过程中，绝对值函数不可导，求解困难。

3. 对数余弦损失（Log-Cosh Loss）

定义：
$\text{Log-Cosh Loss} = \frac{1}{n} \sum_{i=1}^{n} \log\left(\cosh\left(y_i - \hat{y}_i\right)\right)$

说明： $\cosh(x)$ : 双曲余弦函数，公式为 $\cosh(x) = \frac{e^x + e^{-x}}{2}$ 。

描述：对数余弦损失是Huber 损失的变体，它的行为类似于 MAE，同时对大误差有更小的增长率。
应用场景：适用于异常值影响较大的回归任务。
优点：具有平滑性，易于求导，对小误差敏感而对大误差鲁棒。
缺点：相比其他损失函数计算复杂度较高。

4. Huber 损失（Huber Loss）

定义：
$L(y_i, \hat{y}_i) = \begin{cases} \frac{1}{2} (y_i - \hat{y}_i)^2 & \text{if } |y_i - \hat{y}_i| \leq \delta, \\ \delta \cdot |y_i - \hat{y}_i| - \frac{1}{2} \delta^2 & \text{if } |y_i - \hat{y}_i| > \delta. \end{cases}$

$\delta$ : 超参数，定义切换 MSE 和 MAE 的阈值。

$|y_i - \hat{y}_i|$ : 误差的绝对值。

描述：Huber 损失是MSE 和 MAE 的折中。对于小误差，使用 MSE；对于大误差，使用 MAE，从而对异常值有一定的鲁棒性。
应用场景：回归问题中存在异常值，但又不希望过于忽略异常值的场景。
优点：对小误差敏感，同时对大误差具有一定的抗干扰性。
缺点：参数 ( $\delta$ ) 需要手动调节，不同数据集效果不同。

5. 平均平方对数误差（Mean Squared Logarithmic Error, MSLE）

定义：
$\text{MSLE} = \frac{1}{n} \sum_{i=1}^{n} \left( \log(1 + y_i) - \log(1 + \hat{y}_i) \right)^2$

$n$ : 数据点的总数。

$y_i$ : 第 $i$ 个真实值（必须为非负数）。

$\hat{y}_i$ : 第 $i$ 个预测值（必须为非负数）。

$\log(1 + x)$ : 对 $x$ 加 1 后取自然对数，用于平滑较小的值和避免对 0 的对数操作。

描述：MSLE 用于处理目标值差异较大且有显著指数增长趋势的情况。它更关注相对误差，而非绝对误差。
应用场景：如人口增长预测、市场销量预测等场景。
优点：对大数值的预测更稳定，对目标值的比例关系有更好的衡量。
缺点：当目标值非常小时，惩罚效果不明显。

总结

损失函数	描述	应用场景	优点	缺点
均方误差 (MSE)	衡量预测值和真实值之间平方误差的平均值，对较大误差进行更大惩罚。	线性回归、岭回归等	简单易于理解，容易求导。	对异常值敏感。
平均绝对误差 (MAE)	衡量预测值和真实值之间绝对误差的平均值。	对异常值不敏感的回归任务	对异常值不敏感，反映模型性能更稳定。	优化困难，绝对值函数不可导。
对数余弦损失 (Log-Cosh)	Huber 损失的变体，既能捕捉小误差，也对大误差有更小的增长率。	异常值影响较大的回归任务	平滑性好，易于求导，适应大误差和小误差。	计算复杂度高。
Huber 损失 (Huber Loss)	结合MSE和MAE，小误差时使用 MSE，大误差时使用 MAE，平衡异常值的影响。	存在异常值但不希望完全忽略的场景	对小误差敏感，对大误差有抗干扰性。	需调节参数 (delta)。
平均平方对数误差 (MSLE)	衡量目标值差异大且有指数增长趋势的情况，关注相对误差而非绝对误差。	人口增长预测、市场销量预测等	对大数值预测更稳定，适应有比例关系的数据。	对极小值目标效果不佳。

二、分类问题中的损失函数

1. 0-1 损失（0-1 Loss）

定义：

$L_(y, \hat{y}) = \begin{cases} 0, & \text{if } y = \hat{y}, \\ 1, & \text{if } y \neq \hat{y}. \end{cases}$

描述：0-1 损失表示分类是否正确，0 为正确分类，1 为错误分类。它无法直接用于模型优化，只能用于评价模型性能。
应用场景：模型性能的评估，如准确率（Accuracy）的计算。
优点：简单直观，能够清晰判断分类是否正确。
缺点：不可导，无法用于梯度优化。

2. 对数损失（Log Loss）或交叉熵损失（Cross-Entropy Loss）

描述：交叉熵损失衡量的是预测分布和真实分布之间的距离。在二分类与 Sigmoid 函数结合；在多分类与 Softmax 函数结合。
应用场景：广泛用于逻辑回归、神经网络等分类任务。
优点：能够很好地度量概率分布之间的差异，梯度计算简单。
缺点：对数据不平衡较为敏感。

二分类问题

在二分类问题中，交叉熵损失衡量真实标签 ( $y$ ) 和预测概率 ( $\hat{y}$ ) 之间的差异。公式为：

$L(y, \hat{y}) = - \left[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \right]$
符号说明

$y \in \{0, 1\}$ ：真实标签（0 表示负类，1 表示正类）。
$\hat{y} \in [0, 1]$ ：预测为正类的概率。

多分类问题

对于 $k$ 个类别的多分类问题，交叉熵损失扩展为多个输出类的加权损失，公式为：

$L(y, \hat{y}) = - \sum_{i=1}^{k} y_i \log(\hat{y}_i)$

符号说明

$k$ ：类别数量。
$y_i \in \{0, 1\}$ ：第 $i$ 类的真实标签，使用独热编码表示（只有一个值为 1，其余为 0）。
$\hat{y}_i \in [0, 1]$ ：模型预测的第 $i$ 类的概率，通常通过 softmax 函数获得。

Sigmoid 函数：

公式：
$\sigma(z)=\frac1{1+e^{-z}}$

其中， $z$ 是模型的线性输出，即预测值。

Sigmoid 函数将模型的线性输出 $z$ 转化为一个介于 0 和 1 之间的值，表示属于类别 1 的概率。

交叉熵损失：

在二分类任务中，真实标签 $y$ 通常取 0(负类)或1(正类)。

交叉熵损失的公式为： $\mathrm{Loss}=-\left[y\cdot\log(p)+(1-y)\cdot\log(1-p)\right]$

其中， $p=\sigma(z)$ 是经过 Sigmoid 函数后模型预测属于类别 1 的概率。

Softmax 函数：

公式： $\mathrm{Softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$

其中， $z_i$ 是第 $i$ 个类别的得分， $\sum_j e^{z_j}$ 是所有类别的得分的指数和。

Softmax 函数将每个类别的得分 $z_i$ 转化为一个概率 $p_i$ ，即样本属于第 $i$ 个类别的概率。

交叉熵损失：

在多分类任务中，真实标签 $y$ 是一个 one-hot 编码向量，即样本的真实类别的概率是 1，其他类别的概率是 0。

交叉熵损失的公式： $\text{Loss} = -\sum_i y_i \cdot \log(p_i)$

其中， $p_i$ 是 Softmax 函数输出的属于类别 $i$ 的概率， $y_i$ 是真实的类别标签，通常为 0 或 1。

3. Focal 损失（Focal Loss）

定义：
$\text{Focal Loss} = -\alpha_t (1 - \hat{p}_t)^\gamma \log(\hat{p}_t)$

其中：
- $\hat{p}_t$ 是模型对正确类别的预测概率。
- $\alpha_t$ 是类别平衡权重，用来调整类别不平衡问题， $\alpha_t \in [0, 1]$ ，通常用于为不同类别分配不同的权重。
- $\gamma$ 是调节因子，控制模型对难分类样本的关注程度，常取值为 0 到 5 之间，通常选取 $\gamma = 2$ 效果较好。

注：t 是该样本的真实类别标签

$\hat{p}_{t}$ : 这是模型对样本真实类别 $t$ 的预测概率。假设样本属于类别 $t$ ，则 $\hat{p}_{t}$ 就是模型对类别 $t$ 的预测概率。如果是二分类任务， $t$ 为 1 代表正类，为 0 代表负类；如果是多分类任务， $t$ 是类别的索引。

$\alpha_{t}$ : 这是类别 $t$ 的权重系数。通过 $t$ ，可以为当前样本所属类别 $t$ 分配一个权重 $\alpha_{t}$ 。对于不平衡数据集来说， $\alpha_{t}$ 通常设置为少数类的权重大，主要用来调整损失函数对不同类别样本的关注程度。

描述：Focal 损失是对交叉熵损失的改进，用于解决类别不平衡问题。通过调节参数 ( $\gamma$ ) 和 ( $\alpha$ )，它增加了对困难样本的关注，降低了对易分类样本的影响。
应用场景：目标检测中的单阶段检测器（如 RetinaNet），以及其他类别不平衡的分类问题。
优点：有效解决类别不平衡问题，增强模型对困难样本的关注。
缺点：参数选择复杂，训练时间较长。

4. Hinge 损失（合页损失）

定义：对于二分类问题：
$L(y, \hat{y}) = \max(0, 1 - y \cdot \hat{y})$

其中， $y \in \{ -1, 1 \}$ ， $\hat{y}$ 是模型的预测输出。

描述：Hinge 损失用于支持向量机（SVM）中。它在样本被正确分类且间隔大于 1 时，损失为 0；否则损失为 1。旨在最大化样本的分类间隔。
应用场景：线性支持向量机、核支持向量机等。
优点：有助于最大化分类间隔，提高模型的泛化能力。
缺点：对于误差大的样本损失增长过快。

5. Kullback-Leibler 散度（KL Divergence）

定义：
$KL(p \parallel q) = \sum_i p(x_i) \log \frac{p(x_i)}{q(x_i)}$

描述：KL 散度衡量两个概率分布之间的差异，常用于无监督学习中的聚类分析。
应用场景：概率模型的优化，如变分自编码器（VAE）、生成对抗网络（GAN）中的判别模型。
优点：对概率分布之间的微小差异非常敏感。
缺点：对稀疏分布的概率模型不稳定。

总结

损失函数	描述	应用场景	优点	缺点
0-1 损失 (0-1 Loss)	分类正确为 0，错误为 1，用于衡量分类是否正确。	准确率等分类性能评估	简单直观。	不可导，无法用于优化。
交叉熵损失 (Cross-Entropy)	衡量预测分布和真实分布之间的距离，二分类结合 Sigmoid，多分类结合 Softmax。	逻辑回归、神经网络等分类任务	很好地衡量概率分布差异，梯度计算简单。	对数据不平衡敏感。
Focal 损失 (Focal Loss)	交叉熵的改进，通过调节 ( gamma ) 和 ( alpha )，增加对困难样本的关注，减少易分类样本影响，解决类别不平衡问题。	类别不平衡问题，如目标检测 (RetinaNet)	增强对困难样本的关注，解决类别不平衡。	参数选择复杂，训练时间较长。
Hinge 损失 (合页损失)	用于 SVM，正确分类且间隔大于 1 时损失为 0，旨在最大化分类间隔。	线性 SVM、核 SVM	提高泛化能力，有助于最大化分类间隔。	对误差大的样本损失增长快。
KL 散度 (KL Divergence)	衡量两个概率分布的差异，常用于无监督学习中的聚类分析。	概率模型优化，如 VAE、GAN	对概率分布的差异敏感。	对稀疏分布不稳定。

代价函数

代价函数是损失函数在整个训练集上的平均或总和，用于衡量模型在整个数据集上的表现。

代价函数 = 所有样本的损失函数的平均值或总和。因此，代价函数通常是通过对每个样本的损失函数进行求和或求平均得到的。

1. 回归问题中的代价函数

均方误差代价函数（Cost Function for MSE）：
$J(\theta) = \frac{1}{2m} \sum_{i = 1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2$

描述：均方误差代价函数用于衡量模型预测值与真实值之间的总体误差。
应用场景：线性回归、岭回归等回归任务。

2. 分类问题中的代价函数

对数损失代价函数（Cost Function for Log Loss）：
$J(\theta) = - \frac{1}{m} \sum_{i = 1}^m [y^{(i)} \log(h_{\theta}(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_{\theta}(x^{(i)}))]$

描述：对数损失代价函数用于二分类任务，衡量模型预测概率与真实分布之间的差异。
应用场景：逻辑回归、神经网络的二分类问题。

损失函数和代价函数的选择

1. 如何选择适当的损失函数？

回归问题：
- 数据中存在异常值时，可以选择 MAE 或 Huber 损失。
- 如果异常值较少、误差分布相对均匀，【对大误差容忍度低时】可以选择 MSE。
- 数据有显著的指数增长趋势时，选择 MSLE。

MAE 和 Huber 损失减少异常值对损失和模型的过度影响，所以适合存在较多异常值的情况。它们的目标是在存在异常值的情况下，保持模型对大多数数据的稳定性和准确性。

分类问题：
- 二分类问题：常用 交叉熵损失。
- 多分类问题：使用 Softmax + 交叉熵损失。
- 类别不平衡时：选择 Focal 损失。

2. 损失函数和代价函数的优化

梯度下降法：用于最小化代价函数，找到模型参数的最优解。
正则化：在代价函数中加入正则化项（L1 或 L2）防止模型过拟合。

总结来说，损失函数和代价函数是机器学习模型优化的核心工具，选择合适的损失函数能够帮助模型更好地学习数据的特性，并提高模型的性能和鲁棒性。

KL散度

描述

KL散度是一种用于衡量两个概率分布之间差异的度量。在信息论中，它也称为相对熵，用于表达当我们用分布 ( $Q$ ) 来近似真实分布 ( $P$ ) 时，所损失的信息量。

给定两个概率分布P和Q：

P：是真实分布（或目标分布）。
Q：是模型预测的分布（或近似分布）。

KL散度定义为：
$D_{KL}(P \parallel Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}$
或者在连续的情况下：
$D_{KL}(P \parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx$

其中：
- $P(i)$ 是真实分布P在i位置的概率。
- $Q(i)$ 是模型预测的概率分布Q在i位置的概率。
- $D_{KL}(P \parallel Q)$ 表示P和Q的KL散度。

KL散度的特点

KL 散度的三个性质：非负性、非对称性和无界性。

非负性：
KL 散度始终非负，( $D_{KL}(P \parallel Q) \geq 0$ )，并且仅当 ( $P = Q$ ) 时，KL 散度为 0。这意味着两个分布越相似，KL 散度越小。当两个分布完全相同时，KL 散度为零，即没有信息损失。
非对称性：
KL 散度不是对称的，( $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P$ ) )，因此它并不是一个真正的距离度量。KL 散度衡量的是使用分布 ( $Q$ ) 来近似分布 ( $P$ ) 的信息损失，因此方向性很重要，交换两个分布后，信息损失会不同。
无界性：
KL 散度可以趋向无穷大，特别是在 ( $Q(i) = 0$ ) 且 ( $P(i) > 0$ ) 的情况下。因为 ( $\log(0)$ ) 趋于负无穷，这意味着如果 ( $Q$ ) 对某个事件的概率估计为零，而 ( $P$ ) 认为这个事件是可能的，那么使用 ( $Q$ ) 来近似 ( $P$ ) 的信息损失会非常大，导致 KL 散度无限大。

KL散度的常见应用场景

KL散度常在处理概率分布的模型中作为损失函数的一部分。通过在损失函数中加入KL散度，模型可以在多个任务中有效地优化预测分布与真实分布之间的差异。以下是KL散度作为损失函数一部分的几种常见应用：

1. 变分自编码器（Variational Autoencoder, VAE）中的损失函数

在VAE中，损失函数包含两部分：

重构误差：衡量重建的输出和输入数据的差异（通常是均方误差或二元交叉熵）。
KL散度：衡量潜在变量的后验分布与先验分布（通常是标准正态分布） 之间的差异。

VAE的损失函数可以表示为：
$Loss = Reconstruction Loss + D_{KL}(q(z|x) \parallel p(z))$

其中：

$q(z|x)$ 是编码器生成的潜在变量的后验分布。
$p(z)$ 是先验分布，通常假设为标准正态分布 $N(0, 1)$ 。

KL散度项确保潜在空间的分布接近于标准正态分布，从而提高生成数据的连续性和多样性。

2. 分类问题中的交叉熵损失

分类问题中的交叉熵损失实际上可以看作是KL散度的一种形式。在分类问题中，真实标签通常表示为one-hot向量，模型输出的则是一个预测概率分布。最小化交叉熵损失就是最小化真实分布和预测分布之间的KL散度。

交叉熵损失函数：
$H(P, Q) = - \sum_x P(x) \log Q(x)$

等价于KL散度中的部分形式：
$D_{KL}(P \parallel Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}$

由于真实分布 ( P ) 是one-hot形式，所以 H( P ) 是常数，最小化交叉熵损失等价于最小化KL散度。

3. 强化学习中的策略优化

在强化学习中，KL散度可以作为策略更新中的约束，确保新策略 ( π’ ) 和旧策略 ( π ) 不偏离太远。这种方法通过将KL散度作为损失函数的一部分进行优化，以确保策略的平稳更新。

在这种情况下，目标是通过最小化以下损失函数进行策略更新：

$Loss = \mathbb{E}_{\tau \sim \pi'}[reward(\tau)] - \alpha D_{KL}(\pi \parallel \pi')$

其中α是一个平衡系数， $D_{KL}(\pi \parallel \pi')$ 控制新旧策略的差异，避免策略更新过快或过激。

4. 生成模型中的正则化项

KL散度也常用于生成对抗网络（GAN）和其他生成模型中的正则化项。通过引入KL散度，模型可以保持生成分布与某个目标分布的接近度。这通常用于引导生成样本的多样性和稳定性。

5. 多任务学习中的权衡损失

在某些多任务学习场景中，KL散度可以用来衡量某一任务的输出分布与其他任务输出分布的差异，从而引入额外的正则化约束，以便各任务在共享网络中的学习互不冲突。

6. T-SNE

总结

KL散度是一种广泛应用于机器学习和深度学习中的度量工具，尤其是在涉及概率分布的场景中。其主要用于衡量模型预测的分布与真实分布的差异，并通过最小化KL散度来优化模型表现。具体应用场景包括：

变分自编码器中的潜在分布优化
分类任务中的交叉熵损失
强化学习中的策略更新约束
生成模型中的分布正则化

通过将KL散度引入损失函数，模型可以在复杂任务中更好地平衡生成质量、分布匹配以及策略优化的需求。