模型训练中的一些名词解释

1周前 (08-07)学习83

一、泛化能力 

​模型在训练数据上学习到的规律和模式,能否有效地应用到未见过的新数据(测试数据或实际应用中的数据)上,并做出准确预测或判断的能力。​​

用更通俗的话解释:
想象你在准备一场考试:

​训练数据​ 就像是你做过的练习题​(你已经看过了题目和答案,进行了学习)。
​测试数据​ 就像是真正的考试题​(你之前没见过,需要靠你学到的知识来解答)。

 ​泛化能力强的模型,就像是一个学生通过做练习题,真正掌握了知识点,因此面对新考题时也能答得很好。

 ​泛化能力差的模型,就像是一个学生只是死记硬背了练习题的答案,当题目稍微变化或者新题出现时,就束手无策,表现很差。

二、过拟合

泛化能力差就是过拟合

也就是模型在训练数据上表现很好,但在新数据上表现差

三、loss

训练数据集的模型误差值

模型的预测结果 和 真实正确结果(标签)之间的差距有多大。

训练集 loss 的作用
1. 衡量当前模型的训练误差
loss 越小 → 模型在训练数据上预测越准。
loss 越大 → 模型预测还很不准确。
2. 指导模型优化(通过反向传播)
训练的本质就是不断调整模型参数,使训练 loss 越来越小。
通过 loss 计算梯度 → 反向传播 → 更新权重(比如使用 SGD / Adam 等优化器)。
3. 监控训练过程是否正常
我们通常会观察训练集 loss 随 epoch / step 的变化曲线:
正常情况:随着训练进行,loss 应该逐步下降。
异常情况:loss 不降反升,或者震荡严重,可能意味着训练出了问题(比如学习率太大、模型结构不合理等)。

情况 Cross Entropy Loss 可能范围 说明
初始阶段 2.0 ~ 5.0+​ 正常,模型刚开始学习
训练中期 1.0 ~ 2.5 模型开始收敛
训练较好 0.5 ~ 1.5 比较理想,token 预测较准
很好 / 接近收敛 0.3 ~ 0.8 表现优秀

四、acc

​准确率(accuracy)是指:模型在所有预测中,预测正确的样本数 占总预测样本数的比例。​​

假设你做一个猫狗图片分类器(二分类):
你给模型看了 100 张图片,其中:
模型正确预测了 85 张(比如确实是猫预测为猫,是狗预测为狗)
模型错误预测了 15 张
那么:
\text{acc} = \frac{85}{100} = 0.85 \quad \text{(即 85% 的准确率)}
这表示模型在这 100 张图片上的预测,有 ​85% 是正确的。

五、ppl

​Perplexity(困惑度)是衡量语言模型在预测下一个词(或字符、token)时“不确定性”或“困难程度”的指标。​​

​PPL 越低,说明模型对文本的预测越有信心、越准确,语言模型越好;PPL 越高,说明模型越“困惑”、越不确定,预测能力越差。

PPL 值范围 含义 模型表现
接近 1 理想情况,几乎不可能达到 模型对下一个词预测极其准确
2 ~ 10 很好 模型对语言的建模能力较强,预测较准
10 ~ 50 中等 模型有一定能力,但还有提升空间
50 ~ 100+​ 较差 模型预测能力弱,语言建模不佳
100+​ 很差 模型几乎无法有效预测下一个词

​PPL 是越低越好!越低代表模型对文本的预测越准,语言建模能力越强。​​

PPL 常用于什么场景?
1. ​语言模型训练与评估​
比如 GPT、BERT(LM head)、Transformer LM、RNN LM 等,在训练和验证时都会计算 PPL。
用来判断模型对自然语言的建模能力强不强。
2. ​文本生成任务​
比如机器翻译、文本续写、对话生成等,生成质量与语言模型的困惑度密切相关。
3. ​语音识别中的语言模型部分​
语音识别系统通常包含声学模型 + 语言模型,语言模型的 PPL 可以衡量其本身对词序列的建模能力。
4. ​不适用于非语言类任务​
比如图像分类、目标检测、回归任务等,​不会使用 PPL。

六、lr

​学习率(learning rate)是控制模型在训练过程中,每次参数更新(优化)时“走多大步长”的一个超参数。​​

它决定了模型在优化损失函数(loss)时,​每次根据梯度调整模型参数的幅度大小。

打个比方:
想象你正在下山(寻找损失函数的最低点,也就是模型最优的状态):
​你每一步往哪个方向走,是由梯度(gradient)决定的​(即往损失下降最快的方向);
​但每一步走多远,就是由学习率(lr)来控制的​!

学习率(lr)的情况 比喻 对训练的影响
lr 太大 你每一步跨得特别大,可能直接跨过了山谷最低点,甚至掉下山崖 模型 loss 震荡、不收敛,甚至发散
lr 太小 你每一步迈得特别小,虽然方向对,但下山太慢,训练极其缓慢 收敛速度极慢,训练效率低
lr 合适 你每一步大小刚好,稳步朝着最低点前进 loss 稳定下降,模型收敛良好

学习率的重要性

学习率可以说是模型训练中最重要的超参数之一,没有之一!它直接影响:

方面 影响
✅ 模型能否收敛 学习率太大可能不收敛,太小可能学不到东西
✅ 训练速度 学习率大,收敛快;小则慢
✅ 模型最终效果 合适的学习率才能让模型学到最优或接近最优的参数
✅ 是否稳定训练 学习率设置不当可能导致 loss 震荡、发散等

扫描二维码推送至手机访问。

版权声明:本文由星光下的赶路人发布,如需转载请注明出处。

本文链接:https://forstyle.cc/zblog/post/86.html

分享给朋友: