Capítulo 8 — Usando LLM en aplicaciones

Esta es la Parte 8 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer cubrimos embeddings, RAG y multimodalidad. Hoy miramos cómo los LLM aparecen realmente en productos en producción — los patrones que funcionan, los que no, y la nueva ola de sistemas agénticos donde el modelo es el conductor.

Un chatbot no es solo un modelo

El error más común que la gente comete sobre los chatbots es pensar que el modelo es el producto. No lo es. El modelo es un componente. El producto es el sistema que envuelve al modelo: plantillas de prompt, gestión del historial de conversación, filtros de seguridad, capas de recuperación, integraciones de herramientas, políticas de respaldo, interfaz de usuario.

La mayor parte del esfuerzo de ingeniería en un chatbot de producción va al sistema circundante, no al modelo. Un chatbot bien diseñado usando un modelo de gama media generalmente supera a un chatbot mal diseñado usando un modelo de frontera. El libro recorre los patrones arquitectónicos que realmente funcionan, incluyendo cómo gestionar el estado de la conversación, cuándo resumir turnos antiguos frente a mantenerlos textualmente, y cómo escalonar los controles de seguridad.

Idea clave: El modelo rara vez es el cuello de botella. El cuello de botella suele ser la gestión del contexto, la calidad de la recuperación o el rigor de la evaluación. El esfuerzo de ingeniería gastado en estos casi siempre rinde más que actualizarse a un modelo más grande.

Resumen y búsqueda

Dos de los casos de uso de LLM de mayor impacto se tratan ambos de condensar información. El resumen reduce un texto largo a una versión más corta preservando el significado. La búsqueda semántica encuentra material relevante en un corpus grande por intención en lugar de por palabra clave.

El patrón moderno interesante es combinarlas. Un usuario hace una pregunta. El sistema recupera documentos relevantes. El modelo resume el material recuperado en una respuesta enfocada. Esto es lo que la mayoría de los productos de "búsqueda IA" realmente hacen por debajo. Cuando funciona, se siente mágico. Cuando falla, casi siempre es porque el paso de recuperación no encontró el material relevante, no porque el modelo no pudiera resumirlo.

Generación de código

Los lenguajes de programación son lenguajes formales con gramática estricta y retroalimentación clara. Eso los hace especialmente adecuados para los LLM. Un modelo que ha visto grandes cantidades de código aprende a predecir compleciones que compilan, firmas de funciones que coinciden con convenciones, y modismos que se parecen al código circundante.

Los asistentes modernos de código son un tipo particular de sistema RAG: recuperan contexto relevante del código base que se está editando y lo alimentan al modelo junto con la solicitud del usuario. El modelo es genuinamente bueno en esto. El libro es realista tanto sobre el beneficio (ganancias reales de productividad en tareas bien delimitadas) como sobre el inconveniente (problemas sutiles de corrección que son difíciles de detectar en código que se ve fluido).

Extracción de conocimiento

El reverso de escribir es leer. La extracción de conocimiento es el patrón donde le das al modelo un documento no estructurado y le pides que produzca datos estructurados — extrae el número de factura, fecha y total de este PDF; extrae el historial laboral del candidato de este currículum; identifica los compuestos químicos mencionados en este artículo.

Esta es una de las aplicaciones empresariales más directamente útiles de los LLM, y es relativamente segura porque la salida puede validarse contra un esquema. El libro recorre cómo diseñar el prompt y la capa de validación juntos para que las salidas mal formadas del modelo se atrapen y reintenten en lugar de corromper silenciosamente sistemas posteriores.

Evaluación, en producción

Como las salidas de los LLM son probabilísticas, no puedes probarlas como pruebas software determinista. No hay una sola respuesta correcta para comparar. La evaluación mezcla varias técnicas: métricas automatizadas donde sean posibles, puntuación por un modelo más fuerte, revisión humana estructurada, pruebas A/B en producción y monitoreo continuo de drift.

Esta sección también introduce los benchmarks nombrados que aparecen por todas partes en la investigación y los anuncios de productos LLM: MMLU, GPQA-Diamond, HumanEval, SWE-bench, MMMU, LiveBench, GSM8K, MATH, ARC-AGI, BFCL, IFEval. El libro incluye una referencia de un párrafo para cada uno, para que puedas leer cualquier comparación de modelos y saber qué se está midiendo realmente.

El nuevo patrón: sistemas agénticos

Esta sección es nueva en la edición de 2026, porque es donde el campo se ha movido más rápido. En un sistema agéntico, el modelo está al volante. En lugar de solo producir texto, decide cuándo llamar a una calculadora, cuándo consultar una base de datos, cuándo invocar una herramienta de búsqueda, cuándo hacer una pregunta aclaratoria — y qué hacer con los resultados.

El mecanismo es la invocación estructurada de herramientas. Cada herramienta disponible se describe al modelo como una firma de función con una descripción y un esquema para sus argumentos. El modelo puede emitir una invocación estructurada de herramienta en lugar de prosa plana. El sistema circundante parsea la invocación, ejecuta la herramienta, devuelve el resultado, y el modelo decide qué hacer a continuación. El bucle continúa hasta que el modelo declara la tarea completa.

Este patrón plantea nuevas preocupaciones de ingeniería que el libro se toma en serio. Los bucles agénticos pueden consumir recursos de forma impredecible. Los fallos de herramientas se propagan al comportamiento del modelo. Las consideraciones de seguridad se amplifican, porque el modelo ahora influye en el mundo en lugar de solo describirlo. El libro recorre cómo diseñar inventarios de herramientas, evaluar la corrección paso a paso y contener bucles fuera de control.

Importante: El paso de los chatbots a los sistemas agénticos no es solo arquitectónico — es un cambio en lo que confías que haga el modelo. Un chatbot genera texto que puedes revisar antes de actuar. Un agente toma acciones en el mundo antes de que veas el resultado. Las propiedades de seguridad son categóricamente diferentes.

Lo que prepara el Capítulo 8

Al final del Capítulo 8, tienes un libro de jugadas práctico para los principales patrones de aplicación de LLM. Sabes qué tipo de sistema construir para cada tipo de problema, cómo se ve la evaluación en cada caso y cómo leer los números de benchmarks que los proveedores publican sobre sus modelos. El próximo capítulo da el siguiente paso natural: ¿cuánto cuesta operar todo esto a escala?

Próximamente — Capítulo 9: Rendimiento, escalado y costos. Mañana miramos las realidades operativas. Latencia, throughput, costo por solicitud, cuantización, despliegue en el dispositivo, y cómo pensar en el tamaño del modelo cuando la mayoría de tu negocio no se beneficiará realmente del modelo más grande disponible.

¿Quieres el panorama completo? El libro incluye una referencia dedicada a benchmarks y un tratamiento profundo de los patrones agénticos, ambos nuevos en la edición de 2026. Consigue LLM Primer I en Amazon →

Capítulo 8 — Usando LLM en aplicaciones: chatbots, código, extracción y agentes