模型训练中的一些名词解释
一、泛化能力
模型在训练数据上学习到的规律和模式,能否有效地应用到未见过的新数据(测试数据或实际应用中的数据)上,并做出准确预测或判断的能力。
用更通俗的话解释:
想象你在准备一场考试:
训练数据 就像是你做过的练习题(你已经看过了题目和答案,进行了学习)。
测试数据 就像是真正的考试题(你之前没见过,需要靠你学到的知识来解答)。
泛化能力强的模型,就像是一个学生通过做练习题,真正掌握了知识点,因此面对新考题时也能答得很好。
泛化能力差的模型,就像是一个学生只是死记硬背了练习题的答案,当题目稍微变化或者新题出现时,就束手无策,表现很差。
二、过拟合
泛化能力差就是过拟合
也就是模型在训练数据上表现很好,但在新数据上表现差
三、loss
训练数据集的模型误差值
模型的预测结果 和 真实正确结果(标签)之间的差距有多大。
训练集 loss 的作用
1. 衡量当前模型的训练误差
loss 越小 → 模型在训练数据上预测越准。
loss 越大 → 模型预测还很不准确。
2. 指导模型优化(通过反向传播)
训练的本质就是不断调整模型参数,使训练 loss 越来越小。
通过 loss 计算梯度 → 反向传播 → 更新权重(比如使用 SGD / Adam 等优化器)。
3. 监控训练过程是否正常
我们通常会观察训练集 loss 随 epoch / step 的变化曲线:
正常情况:随着训练进行,loss 应该逐步下降。
异常情况:loss 不降反升,或者震荡严重,可能意味着训练出了问题(比如学习率太大、模型结构不合理等)。
情况 | Cross Entropy Loss 可能范围 | 说明 |
---|---|---|
初始阶段 | 2.0 ~ 5.0+ | 正常,模型刚开始学习 |
训练中期 | 1.0 ~ 2.5 | 模型开始收敛 |
训练较好 | 0.5 ~ 1.5 | 比较理想,token 预测较准 |
很好 / 接近收敛 | 0.3 ~ 0.8 | 表现优秀 |
四、acc
准确率(accuracy)是指:模型在所有预测中,预测正确的样本数 占总预测样本数的比例。
假设你做一个猫狗图片分类器(二分类):
你给模型看了 100 张图片,其中:
模型正确预测了 85 张(比如确实是猫预测为猫,是狗预测为狗)
模型错误预测了 15 张
那么:
\text{acc} = \frac{85}{100} = 0.85 \quad \text{(即 85% 的准确率)}
这表示模型在这 100 张图片上的预测,有 85% 是正确的。
五、ppl
Perplexity(困惑度)是衡量语言模型在预测下一个词(或字符、token)时“不确定性”或“困难程度”的指标。
PPL 越低,说明模型对文本的预测越有信心、越准确,语言模型越好;PPL 越高,说明模型越“困惑”、越不确定,预测能力越差。
PPL 值范围 | 含义 | 模型表现 |
---|---|---|
接近 1 | 理想情况,几乎不可能达到 | 模型对下一个词预测极其准确 |
2 ~ 10 | 很好 | 模型对语言的建模能力较强,预测较准 |
10 ~ 50 | 中等 | 模型有一定能力,但还有提升空间 |
50 ~ 100+ | 较差 | 模型预测能力弱,语言建模不佳 |
100+ | 很差 | 模型几乎无法有效预测下一个词 |
PPL 是越低越好!越低代表模型对文本的预测越准,语言建模能力越强。
PPL 常用于什么场景?
1. 语言模型训练与评估
比如 GPT、BERT(LM head)、Transformer LM、RNN LM 等,在训练和验证时都会计算 PPL。
用来判断模型对自然语言的建模能力强不强。
2. 文本生成任务
比如机器翻译、文本续写、对话生成等,生成质量与语言模型的困惑度密切相关。
3. 语音识别中的语言模型部分
语音识别系统通常包含声学模型 + 语言模型,语言模型的 PPL 可以衡量其本身对词序列的建模能力。
4. 不适用于非语言类任务
比如图像分类、目标检测、回归任务等,不会使用 PPL。
六、lr
学习率(learning rate)是控制模型在训练过程中,每次参数更新(优化)时“走多大步长”的一个超参数。
它决定了模型在优化损失函数(loss)时,每次根据梯度调整模型参数的幅度大小。
打个比方:
想象你正在下山(寻找损失函数的最低点,也就是模型最优的状态):
你每一步往哪个方向走,是由梯度(gradient)决定的(即往损失下降最快的方向);
但每一步走多远,就是由学习率(lr)来控制的!
学习率(lr)的情况 | 比喻 | 对训练的影响 |
---|---|---|
lr 太大 | 你每一步跨得特别大,可能直接跨过了山谷最低点,甚至掉下山崖 | 模型 loss 震荡、不收敛,甚至发散 |
lr 太小 | 你每一步迈得特别小,虽然方向对,但下山太慢,训练极其缓慢 | 收敛速度极慢,训练效率低 |
lr 合适 | 你每一步大小刚好,稳步朝着最低点前进 | loss 稳定下降,模型收敛良好 |
学习率的重要性
学习率可以说是模型训练中最重要的超参数之一,没有之一!它直接影响:
方面 | 影响 |
---|---|
✅ 模型能否收敛 | 学习率太大可能不收敛,太小可能学不到东西 |
✅ 训练速度 | 学习率大,收敛快;小则慢 |
✅ 模型最终效果 | 合适的学习率才能让模型学到最优或接近最优的参数 |
✅ 是否稳定训练 | 学习率设置不当可能导致 loss 震荡、发散等 |