模型训练中的一些名词解释

2个月前 (08-07)学习286

一、泛化能力

模型在训练数据上学习到的规律和模式，能否有效地应用到未见过的新数据（测试数据或实际应用中的数据）上，并做出准确预测或判断的能力。

用更通俗的话解释：
想象你在准备一场考试：

训练数据就像是你做过的练习题（你已经看过了题目和答案，进行了学习）。
测试数据就像是真正的考试题（你之前没见过，需要靠你学到的知识来解答）。

泛化能力强的模型，就像是一个学生通过做练习题，真正掌握了知识点，因此面对新考题时也能答得很好。

泛化能力差的模型，就像是一个学生只是死记硬背了练习题的答案，当题目稍微变化或者新题出现时，就束手无策，表现很差。

二、过拟合

泛化能力差就是过拟合

也就是模型在训练数据上表现很好，但在新数据上表现差

三、loss

训练数据集的模型误差值

模型的预测结果和真实正确结果（标签）之间的差距有多大。

训练集 loss 的作用
1. 衡量当前模型的训练误差
loss 越小 → 模型在训练数据上预测越准。
loss 越大 → 模型预测还很不准确。
2. 指导模型优化（通过反向传播）
训练的本质就是不断调整模型参数，使训练 loss 越来越小。
通过 loss 计算梯度 → 反向传播 → 更新权重（比如使用 SGD / Adam 等优化器）。
3. 监控训练过程是否正常
我们通常会观察训练集 loss 随 epoch / step 的变化曲线：
正常情况：随着训练进行，loss 应该逐步下降。
异常情况：loss 不降反升，或者震荡严重，可能意味着训练出了问题（比如学习率太大、模型结构不合理等）。

情况	Cross Entropy Loss 可能范围	说明
初始阶段	2.0 ~ 5.0+	正常，模型刚开始学习
训练中期	1.0 ~ 2.5	模型开始收敛
训练较好	0.5 ~ 1.5	比较理想，token 预测较准
很好 / 接近收敛	0.3 ~ 0.8	表现优秀

四、acc

准确率（accuracy）是指：模型在所有预测中，预测正确的样本数占总预测样本数的比例。

假设你做一个猫狗图片分类器（二分类）：
你给模型看了 100 张图片，其中：
模型正确预测了 85 张（比如确实是猫预测为猫，是狗预测为狗）
模型错误预测了 15 张
那么：
\text{acc} = \frac{85}{100} = 0.85 \quad \text{（即 85% 的准确率）}
这表示模型在这 100 张图片上的预测，有 85% 是正确的。

五、ppl

Perplexity（困惑度）是衡量语言模型在预测下一个词（或字符、token）时“不确定性”或“困难程度”的指标。

PPL 越低，说明模型对文本的预测越有信心、越准确，语言模型越好；PPL 越高，说明模型越“困惑”、越不确定，预测能力越差。

PPL 值范围	含义	模型表现
接近 1	理想情况，几乎不可能达到	模型对下一个词预测极其准确
2 ~ 10	很好	模型对语言的建模能力较强，预测较准
10 ~ 50	中等	模型有一定能力，但还有提升空间
50 ~ 100+	较差	模型预测能力弱，语言建模不佳
100+	很差	模型几乎无法有效预测下一个词

PPL 是越低越好！越低代表模型对文本的预测越准，语言建模能力越强。

PPL 常用于什么场景？
1. 语言模型训练与评估
比如 GPT、BERT（LM head）、Transformer LM、RNN LM 等，在训练和验证时都会计算 PPL。
用来判断模型对自然语言的建模能力强不强。
2. 文本生成任务
比如机器翻译、文本续写、对话生成等，生成质量与语言模型的困惑度密切相关。
3. 语音识别中的语言模型部分
语音识别系统通常包含声学模型 + 语言模型，语言模型的 PPL 可以衡量其本身对词序列的建模能力。
4. 不适用于非语言类任务
比如图像分类、目标检测、回归任务等，不会使用 PPL。

六、lr

学习率（learning rate）是控制模型在训练过程中，每次参数更新（优化）时“走多大步长”的一个超参数。

它决定了模型在优化损失函数（loss）时，每次根据梯度调整模型参数的幅度大小。

打个比方：
想象你正在下山（寻找损失函数的最低点，也就是模型最优的状态）：
你每一步往哪个方向走，是由梯度（gradient）决定的（即往损失下降最快的方向）；
但每一步走多远，就是由学习率（lr）来控制的！

学习率（lr）的情况	比喻	对训练的影响
lr 太大	你每一步跨得特别大，可能直接跨过了山谷最低点，甚至掉下山崖	模型 loss 震荡、不收敛，甚至发散
lr 太小	你每一步迈得特别小，虽然方向对，但下山太慢，训练极其缓慢	收敛速度极慢，训练效率低
lr 合适	你每一步大小刚好，稳步朝着最低点前进	loss 稳定下降，模型收敛良好

学习率的重要性

学习率可以说是模型训练中最重要的超参数之一，没有之一！它直接影响：

方面	影响
✅ 模型能否收敛	学习率太大可能不收敛，太小可能学不到东西
✅ 训练速度	学习率大，收敛快；小则慢
✅ 模型最终效果	合适的学习率才能让模型学到最优或接近最优的参数
✅ 是否稳定训练	学习率设置不当可能导致 loss 震荡、发散等

扫描二维码推送至手机访问。

本文链接：https://forstyle.cc/zblog/post/86.html

分享给朋友：

返回列表

上一篇：FUNASR语音识别模型训练及使用

下一篇：对funasr微调的模型进行压缩

搜索: Search

« 2025年10月 »
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

标签列表

最新文章

Funasr的speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型训练
6天前
通过label-studio标柱FUNasr语音识别模型训练所需的数据
1周前 (09-08)
PaddleSpeech tts语音合成模型训练
2周前 (09-04)
Ubuntu下命令行显示路径配置
3周前 (08-26)
通过QwenCoder+pg数据库实现文本转sql
4周前 (08-21)

热门阅读

一部手机如何配置内网电脑同时访问内外网
1239 浏览科技
seatunnel各类型数据库同步配置
1019 浏览学习
window系统annaconda中同时安装paddle和pytorch环境
981 浏览学习
服务器交换区占用量查看
911 浏览学习
$pip命令报错Script file 'D:\conda\Scripts\pip-script.py' is not present.$
pip命令报错Script file 'D:\conda\Scripts\pip-script.py' is not present.
893 浏览学习

模型训练中的一些名词解释

一、泛化能力

二、过拟合

三、loss

四、acc

五、ppl

六、lr

方向比速度重要，智能比吃苦重要，学习比学历重要，机遇比关系重要，要什么比做什么重要!
晋ICP备2024040319号-1 晋公网安备14010802080384号

Powered By Z-BlogPHP. Theme by TOYEAN.

模型训练中的一些名词解释

一、泛化能力

二、过拟合

三、loss

四、acc

五、ppl

六、lr

方向比速度重要，智能比吃苦重要，学习比学历重要，机遇比关系重要，要什么比做什么重要! 晋ICP备2024040319号-1 晋公网安备14010802080384号

Powered By Z-BlogPHP. Theme by TOYEAN.

方向比速度重要，智能比吃苦重要，学习比学历重要，机遇比关系重要，要什么比做什么重要!
晋ICP备2024040319号-1 晋公网安备14010802080384号