Capítulo 6 — Ajuste fino y adaptación: del modelo crudo al asistente útil

Publicado el: 2026-02-23 Última actualización el: 2026-06-04 Versión: 1

Capítulo 6 — Ajuste fino y adaptación

Esta es la Parte 6 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer vimos cómo se entrena un modelo base. Hoy vemos qué pasa después: cómo un modelo preentrenado se convierte en un producto útil, y por qué las técnicas para hacerlo se han vuelto más importantes que el modelo subyacente en muchos casos.


El preentrenamiento es amplio. La adaptación es específica.

Un modelo de lenguaje grande recién preentrenado es una bestia extraña. Ha absorbido una vasta cantidad de estructura del texto — gramática, hechos, modismos, patrones de código, estilos de citación, chistes, errores, ideologías, toda la sopa — pero no tiene opinión sobre cuál de esas cosas debería producir y cuándo. Pregúntale "¿cuál es la capital de Francia?" y podría responder "París" o podría continuar como si fuera un libro de preguntas ("¿Cuál es la capital de Alemania? ¿Cuál es la capital de Italia?"). No se le ha dicho que querías una respuesta directa.

La adaptación es la familia de técnicas que arreglan esto. El modelo preentrenado ya sabe casi todo lo que sabrá en cualquier sentido útil; la adaptación remodela cómo y cuándo se expresa ese conocimiento. El Capítulo 6 recorre el espectro de adaptación desde el toque más ligero hasta el más pesado.

Idea clave: La adaptación no añade conocimiento nuevo al modelo. Remodela la distribución de probabilidad para favorecer los tipos de respuestas que quieres. Las habilidades ya están ahí; la adaptación solo decide cuándo salen.

La jugada más barata: escribir un mejor prompt

La forma más ligera de adaptación no cuesta nada y no cambia ningún parámetro. Simplemente proporcionas contexto en el prompt que empuja al modelo hacia el tipo de salida que quieres. Muéstrale dos o tres ejemplos de la tarea y pídele que haga otra. Establece las reglas explícitamente. Define el rol que quieres que el modelo desempeñe.

Esto se llama adaptación basada en prompts, y cuando funciona, es la respuesta correcta. Sin tubería de entrenamiento, sin factura de GPU, sin riesgo de romper algo. El libro explica cuándo la adaptación basada en prompts alcanza sus límites — que los tiene — y cómo reconocer cuando la has superado.

Ajuste por instrucciones: enseñarle al modelo a seguirte

El ajuste por instrucciones es la forma más ligera de ajuste fino real, y es la que convirtió a los modelos preentrenados crudos en los asistentes responsivos que realmente usas. La idea es simple: le muestras al modelo muchos ejemplos de pares instrucción-respuesta ("Resume este párrafo en una oración: …"), y entrenas con esos ejemplos durante un tiempo relativamente corto.

Después del ajuste por instrucciones, el modelo ha internalizado la habilidad general de "seguir lo que está en el prompt". Ya no necesita ejemplos explícitos. Esto es lo que hace que un chatbot se sienta como un chatbot en lugar de un autocompletado sobre una máquina de escribir.

Ajuste fino eficiente en parámetros

El ajuste fino completo — actualizar cada parámetro del modelo — es caro y arriesga degradar las capacidades generales del modelo. Los últimos años han producido una familia de técnicas que te permiten adaptar un modelo grande entrenando solo una pequeña fracción de los parámetros, a menudo menos del 1%.

La técnica más popular se llama LoRA (Low-Rank Adaptation). Funciona insertando pequeñas matrices junto a los pesos congelados del modelo y entrenando solo esas matrices. El resultado es un pequeño archivo adaptador — a menudo de unos pocos megabytes — que, combinado con el modelo base, produce el comportamiento ajustado. Variantes como QLoRA empujan esto aún más allá también cuantizando el modelo base para que todo quepa en un solo acelerador.

Esta es la técnica que hace que el ajuste fino específico de dominio sea práctico para organizaciones que no entrenan sus propios modelos base. El libro incluye una tabla que compara las principales técnicas eficientes en parámetros lado a lado, para que puedas elegir la correcta para tu caso de uso.

Alineación: el post-entrenamiento que realmente importa

Esta es la sección de la que estoy más orgulloso en la edición de 2026, porque la alineación es donde el campo se ha movido más rápido y donde la mayoría de los lectores tiene la comprensión más borrosa. La idea central es esta: incluso después del ajuste por instrucciones, un modelo a veces producirá salidas que no quieres — incorrectas, inseguras, fuera de política, poco útiles. La alineación es la familia de técnicas que da forma a la distribución de probabilidad del modelo para favorecer las salidas que los humanos preferirían.

El primer enfoque ampliamente desplegado fue el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF). Los revisores humanos comparan pares de salidas del modelo e indican cuál es mejor. Esos juicios entrenan un modelo de recompensa que predice la preferencia humana. Luego se ajusta el modelo base con aprendizaje por refuerzo, usando el modelo de recompensa como señal de entrenamiento. Esto produjo mejoras dramáticas pero fue famosamente inestable y caro.

Una segunda generación de métodos — optimización directa de preferencias (DPO) y sus variantes — simplificó la tubería. Tratan las preferencias por pares como una señal directa supervisada, eliminando el modelo de recompensa separado y el paso de aprendizaje por refuerzo. El resultado es más estable, más barato y reproducible.

Una tercera familia — métodos constitucionales y variantes con retroalimentación de IA — reemplaza parte del trabajo de revisión humana con comparaciones generadas por un modelo más fuerte que juzga las salidas contra un conjunto escrito de principios. Esto escala los datos de alineación mucho más allá de lo que la revisión humana sola puede producir.

Importante: Si alguna vez te has preguntado por qué dos LLM con conteos de parámetros similares se comportan tan diferente — por qué uno se niega a responder una pregunta que otro responde alegremente, por qué uno es verboso donde el otro es conciso — la respuesta es casi siempre el post-entrenamiento, no el preentrenamiento. La alineación es donde los proveedores modernos de APIs realmente se diferencian.

Lo que prepara el Capítulo 6

Al final del Capítulo 6, entiendes toda la tubería de adaptación: desde trucos de prompt hasta alineación. Puedes leer anuncios sobre nuevos modelos y distinguir correctamente entre "entrenaron una nueva base" (raro y caro) y "actualizaron el post-entrenamiento" (común e impactante). Y tienes un marco para decidir qué técnica de adaptación usar para tu propio trabajo.


Próximamente — Capítulo 7: Más allá de la predicción del siguiente token. Mañana vamos más allá del bucle básico de generación. Embeddings, búsqueda semántica, generación aumentada con recuperación (RAG) y las extensiones multimodales que permiten a los modelos trabajar con imágenes y audio.

¿Quieres el panorama completo? El libro incluye una sección dedicada a la alineación — RLHF, DPO y métodos constitucionales — que es nueva en la edición de 2026 y trata el post-entrenamiento con la seriedad que merece. Consigue LLM Primer I en Amazon →

SHO
SHO
CTO y Fundador de RECEIPTROLLER. Enfocado en datos, impulsado por la innovación, siempre curioso.