LLM介绍

本页面为AI爱好者提供从基础到应用的大型语言模型(LLM)指南。


共有1篇文章。 | 当前在第1页,共1页。

第10章 — 后训练与对齐的数学

LLM Primer II 章节走读第十篇。后训练那一整套机器 — 监督微调、奖励模型、RLHF 上的 KL 缰绳,以及 DPO 那个把整条流水线塌成一条监督损失的漂亮推导。

2026-03-12