LLM介绍
本页面为AI爱好者提供从基础到应用的大型语言模型(LLM)指南。
共有1篇文章。 |
当前在第1页,共1页。
第10章 — 后训练与对齐的数学
LLM Primer II 章节走读第十篇。后训练那一整套机器 — 监督微调、奖励模型、RLHF 上的 KL 缰绳,以及 DPO 那个把整条流水线塌成一条监督损失的漂亮推导。
2026-03-12