Capítulo 10 — Seguridad, ética y confianza

Esta es la Parte 10 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer hablamos de costo y rendimiento operativo. Hoy hablamos del tipo de costo más difícil — el que se paga en confianza del usuario, daño accidental y daño reputacional cuando un sistema LLM falla gravemente.

Alucinaciones, mecánicamente

El modo de fallo más comentado de los LLM es la alucinación — cuando el modelo produce texto fluido y de sonido seguro que resulta ser incorrecto. La narrativa popular de esto — "la IA está mintiendo", "la IA se está inventando cosas" — es engañosa. Antropomorfiza un proceso que no tiene nada que ver con la intención.

Una alucinación es el modelo haciendo exactamente lo que fue entrenado para hacer: producir la continuación más probable de su entrada. Si la distribución de entrenamiento sugiere que el texto de sonido seguro suele aparecer en esta posición, el modelo producirá texto de sonido seguro — sea o no verdadero ese texto. No hay un sentido interno de "saber" frente a "adivinar". El modelo produce distribuciones de probabilidad sobre tokens; la verdad no es una de las dimensiones.

Idea clave: Las alucinaciones no son un error que arreglar en el modelo. Son una consecuencia del diseño del modelo. Reducirlas es un problema de sistemas — anclaje con recuperación, capas de validación, salidas estructuradas — no un problema del modelo.

Este encuadre cambia cómo diseñas la seguridad. No puedes simplemente entrenar al modelo para "decir la verdad". Puedes darle acceso a fuentes verificables en tiempo de inferencia, validar sus salidas contra esquemas, enrutar consultas de alto riesgo a sistemas que puedan verificar, y comunicar claramente la incertidumbre al usuario. El libro recorre qué funciona en producción.

De dónde viene realmente el sesgo

Un LLM entrenado con texto humano hereda los sesgos en ese texto. Esto es mecánicamente obvio y moralmente importante. El modelo no fue programado para tener sesgo; absorbió patrones de datos que reflejaban a la sociedad humana, con todas sus asimetrías.

La pregunta interesante es qué puedes hacer al respecto. Algunas intervenciones son anteriores: curar datos de entrenamiento para reducir el sesgo, equilibrar la representación, eliminar material dañino. Algunas son intermedias: alineación que enseña al modelo a manejar temas sensibles con cuidado, rechazar ciertas solicitudes o usar encuadres neutrales. Algunas son posteriores: monitorear salidas por patrones sesgados, evaluar modelos en benchmarks de sesgo, post-procesar salidas de alto riesgo.

Ninguna de estas elimina el sesgo por completo. El libro es honesto sobre esto. El objetivo es la mitigación, la medición y la responsabilidad — no la perfección.

Barreras de seguridad, en capas

La seguridad moderna en los sistemas LLM es defensa en profundidad, no una sola barrera. El filtrado de entrada captura prompts que intentan jailbreaks o contienen solicitudes dañinas antes de que lleguen al modelo. Los prompts del sistema establecen límites de comportamiento que condicionan cada respuesta del modelo. La decodificación restringida limita el espacio de tokens para hacer cumplir reglas estructurales. Los clasificadores posteriores a la generación evalúan la salida del modelo antes de que llegue al usuario, marcando o bloqueando respuestas que violan la política.

Cada uno de estos es imperfecto por sí solo. Juntos crean una defensa en capas que es mucho más difícil de derrotar. El libro recorre cómo diseñar cada capa, dónde tienden a estar los huecos y cómo probar el sistema de extremo a extremo. Una preocupación particular es la inyección de prompt — ataques donde el contenido adversarial incrustado en documentos recuperados o entradas de usuario intenta anular el prompt del sistema. Esta es ahora una preocupación de producción seria, y el libro la toma en serio.

Importante: La inyección de prompt es una vulnerabilidad estructural en los sistemas LLM actuales, no un bug. Mientras el modelo trate todo el texto en su ventana de contexto con una confianza similar, un atacante que pueda meter texto en el contexto puede intentar manipular el modelo. La defensa requiere tanto controles técnicos como disciplina de diseño.

Explicabilidad, de forma realista

Los interesados a menudo quieren saber por qué un modelo produjo una respuesta particular. La respuesta honesta es que la explicación mecanística genuina — rastrear una salida hasta patrones específicos en los datos de entrenamiento — sigue siendo principalmente un problema de investigación, no una capacidad de producción. Lo que puedes hacer, y de lo que dependen los despliegues serios, es la transparencia operativa: citar fuentes cuando se usa recuperación, expresar incertidumbre cuando el modelo no está seguro, registrar entradas y salidas para auditoría y documentar las limitaciones conocidas con claridad.

El libro tiene cuidado aquí. La brecha entre lo que los usuarios asumen sobre las explicaciones de IA y lo que es realmente posible es grande, y fingir lo contrario lleva a confianza rota.

Gobernanza: la capa que no es código

La sección final del Capítulo 10 trata de lo que sucede por encima de los controles técnicos. La gobernanza es el marco institucional que define quién es responsable de un modelo desplegado, cómo se evalúan los riesgos antes del lanzamiento, cómo se escalan los incidentes cuando ocurren y cómo se hacen cumplir las políticas a lo largo del tiempo.

La gobernanza es donde la seguridad de la IA se encuentra con la realidad organizacional. El libro trata esto con la seriedad que merece porque cada despliegue responsable de IA depende de ella. Sin gobernanza, incluso los sistemas bien diseñados pueden ser mal usados. Con ella, incluso los sistemas imperfectos pueden desplegarse de forma responsable.

Lo que prepara el Capítulo 10

Al final del Capítulo 10, tienes una visión clara y no-marketing de la seguridad de los LLM. Sabes qué es un problema técnico, qué es un problema de política y qué es una propiedad fundamental de los sistemas probabilísticos. Puedes diseñar controles que coincidan con tu perfil de riesgo, y puedes explicar los compromisos honestamente a los interesados que necesitan tomar decisiones de despliegue.

Próximamente — Capítulo 11: Investigación de vanguardia. Mañana nos movemos hacia la frontera. Mixture-of-experts, mecanismos de recuperación y memoria, multimodalidad nativa, aprendizaje continuo y el nuevo patrón arquitectónico que ha definido 2024–2026 con más fuerza — escalado en tiempo de inferencia y modelos de razonamiento.

¿Quieres el panorama completo? El Capítulo 10 del libro recorre cada capa de seguridad con diagramas y ejemplos trabajados, incluyendo los marcos de gobernanza usados por despliegues empresariales serios. Consigue LLM Primer I en Amazon →

Capítulo 10 — Seguridad, ética y confianza: más allá del marketing