Introducción a LLM

Esta página proporciona una guía sencilla sobre los modelos de lenguaje de gran escala (LLM), desde lo básico hasta las aplicaciones para los entusiastas de la IA.


Total de 2 artículos disponibles. | Actualmente en la página 1 de 1.

Capítulo 10 — Matemáticas del post-entrenamiento y la alineación

Capítulo 10 de la serie LLM Primer II. Cómo un predictor de siguiente token genial pero salvaje se civiliza hasta convertirse en un asistente útil — ajuste fino supervisado, modelado de recompensas con Bradley–Terry, RLHF con correa KL y la elegante derivación de DPO que colapsa toda la cañería en una sola pérdida supervisada.

2026-03-12

Capítulo 6 — Ajuste fino y adaptación: del modelo crudo al asistente útil

Capítulo 6 de la serie LLM Primer I. La pila completa de adaptación — desde el direccionamiento barato basado en prompts, pasando por el ajuste fino eficiente en parámetros, hasta la alineación completa con RLHF y sus sucesores modernos como DPO. Por qué el post-entrenamiento es ahora donde las APIs de modelos cerrados realmente se diferencian.

2026-02-23