Facsímil 11 · Completo

Producto, UX y cierre

Decisiones de producto, experiencia de usuario, apéndices y cierre del volumen para llevar el criterio técnico a decisiones reales.

Contenido disponible
3 de 3 capítulos listos
Contenido completo, pendiente de revisión editorial final.
Estado editorial
Completo
Lectura web generada desde los capítulos Markdown originales.

Sobre esta edición

Esta página se genera desde capítulos Markdown propios del facsímil. Las fórmulas se renderizan con KaTeX, los mapas con Mermaid y las notas al pie se mantienen junto al texto para leer el facsímil como una pieza autónoma, no como una exportación del taller.

Capítulo 01

Facsímil 11 · Producto, UX y cierre

Capítulo 01: Producto con IA: problema, métrica, coste y riesgo

El último error caro

Después de diez facsímiles, ya sabemos hablar de modelos, tokens, RAG, agentes, trazas, evaluación, datos, gobernanza y refuerzo. Ahora viene una pregunta menos vistosa, pero más decisiva: ¿merece la pena construir esta función con IA?

Parece una pregunta de producto. En realidad es una pregunta de ingeniería. Una mala decisión de producto se convierte en deuda de arquitectura. Una promesa demasiado amplia se convierte en una evaluación imposible. Una experiencia sin límites se convierte en soporte, frustración y coste. Y una métrica bonita, si mide lo equivocado, empuja al equipo a mejorar justo lo que no debía mejorar.

Este facsímil cierra el libro porque la IA útil no empieza al elegir modelo. Empieza antes: cuando sabemos formular un problema, acotarlo, medirlo, operarlo y decidir cuándo no construir.

Qué no es una función de IA

Una función de IA no es un botón con una palabra moderna. Tampoco es una caja de texto libre pegada a una pantalla. Y, sobre todo, no es una excusa para no diseñar el flujo normal de trabajo.

Si el usuario ya sabe exactamente qué quiere, los datos están estructurados y la respuesta correcta sale con una consulta SQL, un modelo generativo puede añadir coste y variabilidad sin aportar valor. Si la tarea exige modificar un sistema externo, necesitas permisos, contratos, trazas y política de retorno. Si el problema es que la pantalla es confusa, un asistente conversacional puede taparlo durante una demo y empeorarlo en uso real.

Un buen criterio de producto empieza comparando alternativas:

PreguntaSi la respuesta es síPosible alternativa antes de IA
¿La regla cabe en una condición clara?La lógica es determinista.Regla, validación, flujo guiado.
¿La consulta está en datos estructurados?La verdad vive en tablas.SQL, API, dashboard, filtro.
¿La tarea es clasificar pocos casos estables?Hay etiquetas y ejemplos.Clasificador clásico o reglas con revisión.
¿El usuario necesita decidir con evidencia?Hay documentos o políticas.RAG con citas y abstención.
¿El valor está en actuar?Hay sistemas externos.Tool con permisos y contrato.
¿El problema es navegar una interfaz mala?La IA compensa fricción artificial.Rediseño de flujo, formularios, defaults.

La IA entra cuando su variabilidad resuelve una variabilidad real del problema: lenguaje natural, ambigüedad razonable, evidencia dispersa, síntesis, priorización, traducción entre formatos, búsqueda semántica o asistencia en tareas donde la persona conserva criterio.

El AI-fit como contrato de producto

Llamaremos AI-fit al encaje entre necesidad, capacidad, evidencia y operación. No basta con que un modelo pueda producir una respuesta. Tiene que existir una razón para usar IA, una forma de medir mejora, una forma de limitar coste y una forma de mantener el sistema cuando cambien datos, modelo o usuario.

La norma ISO 9241-210 define el diseño centrado en las personas como un enfoque que considera usuarios, tareas y entornos durante el ciclo de vida de sistemas interactivos.1 Traducido a IA: no diseñamos “una respuesta”; diseñamos una tarea completa donde una persona entiende qué puede pedir, qué obtiene, cuándo dudar, cómo corregir y qué queda registrado.

El NIST AI RMF propone gestionar riesgos de IA durante diseño, desarrollo, despliegue y uso mediante funciones como gobernar, mapear, medir y gestionar.2 Para producto, eso significa que una idea no pasa a roadmap por sonar moderna. Pasa si podemos mapear contexto, medir calidad, gestionar límites y gobernar cambios.

El AI-fit, por tanto, tiene cinco contratos:

ContratoPregunta que respondeArtefacto
Problema¿Qué tarea mejora y para quién?Brief de producto.
Alternativa¿Qué haríamos si no usamos IA?Baseline explícito.
Métrica¿Cómo sabremos si mejora?Árbol de métricas y guardrails.
Sistema¿Cómo se ejecuta y se observa?Arquitectura, trazas, SLO y gates.
Decisión¿Cuándo pilotar, limitar, retirar o no construir?Release decision versionada.

Si falta uno, no tenemos producto con IA. Tenemos una promesa.

Fecha de corte y fuentes consultadas

Fecha de corte: 10 de junio de 2026.

Para este capítulo usamos marcos estables de diseño centrado en personas, interacción humano-IA, gestión de riesgos y experimentación de producto. Lo cambiante no es la idea de medir valor, coste y experiencia; lo cambiante son herramientas, proveedores, precios, modelos y límites de cada plataforma.

Las fuentes consultadas ese día incluyen NIST AI RMF, Microsoft HAX Toolkit y People + AI Guidebook de Google. Microsoft HAX describe herramientas para equipos que construyen productos de IA orientados a usuarios, incluyendo guías, patrones, workbook y playbook para anticipar fallos de interacción.3 Google PAIR organiza el diseño de IA alrededor de necesidades humanas, datos, modelos mentales, feedback, control y evaluación.4

El patrón común es simple y exigente: no diseñes una capacidad aislada; diseña una tarea, sus límites, su medición y su recuperación.

De idea a decisión: una taxonomía útil

Antes de entrar en métricas, conviene clasificar la función. No es lo mismo una sugerencia que una acción. No es lo mismo buscar evidencia que modificar un expediente. Tampoco es lo mismo ayudar a redactar que cerrar una solicitud.

Tipo de funciónQué haceRiesgo típicoCriterio de producto
Asistencia de lecturaResume, traduce, explica, compara.Resumen incompleto o sin contexto.Útil si ahorra tiempo sin esconder fuente.
Búsqueda sustentadaRecupera evidencia y responde con citas.Cita débil, fuente caducada, abstención pobre.Útil si mejora precisión frente a buscador.
Decisión asistidaRecomienda siguiente paso.Confianza excesiva o sesgo por datos incompletos.Útil si la persona conserva control.
Acción con toolConsulta, calcula o modifica sistemas.Permisos, payload incorrecto, coste operativo.Útil solo con contrato y revisión.
Workflow agenticEncadena pasos y decide orden.Trayectoria difícil de evaluar.Útil si el flujo variable justifica autonomía.
Optimización de políticaAjusta conducta por recompensa o feedback.Recompensa mal especificada.Útil si el objetivo y los límites son medibles.

Esta tabla evita una trampa habitual: llamar “agente” a todo. Producto debe elegir la intervención mínima que resuelve la tarea con suficiente calidad y coste aceptable.

Un caso completo: matrícula, normativa y respuesta sustentada

Veamos una situación concreta. Un equipo académico recibe solicitudes de matrícula con dudas repetidas: ampliaciones, pagos pendientes, plazos, excepciones y documentación que falta. El equipo quiere reducir tiempo de resolución, pero no puede perder evidencia: cada respuesta debe apoyarse en normativa vigente o en datos del expediente.

La propuesta inicial suele sonar así:

“Pongamos un asistente de IA para resolver solicitudes.”

Eso todavía no es un producto. Es una dirección. Para convertirlo en producto tenemos que comparar alternativas, medirlas y decidir qué versión merece piloto.

OpciónQué construiríamosQué mejoraQué puede salir malDecisión razonable
Buscador mejorado sin IABúsqueda textual, filtros por curso, plantillas de respuesta.Menor coste, comportamiento estable, fácil de explicar.La persona sigue leyendo y redactando casi todo.Baseline obligatorio.
RAG con citasRecuperar normativa, contestar con fuentes y salida estructurada.Ahorra lectura y redacción sin perder evidencia.Puede recuperar fuente débil o responder cuando debería abstenerse.Buen candidato a piloto limitado.
Tool de cierre automáticoConsultar expediente y cerrar la solicitud si parece simple.Ahorro alto en casos repetidos.Acción prematura, baja recuperación, peor trazabilidad si falta evidencia.No pilotar todavía; rediseñar como propuesta revisable.

Fíjate en la diferencia. Las tres opciones hablan del mismo problema, pero no tienen el mismo riesgo ni la misma evaluación. El buscador compite contra la IA. El RAG entra si realmente mejora tiempo y evidencia. La tool de cierre automático no se rechaza porque “la IA sea mala”; se rechaza porque la acción tiene más consecuencia que la evidencia disponible.

La primera decisión madura sería:

Piloto limitado del RAG con citas para solicitudes con evidencia documental recuperable. Mantener buscador como baseline, no cerrar solicitudes automáticamente, registrar trazas, medir abstención y revisar casos incompletos.

Ese párrafo ya huele a producto. Tiene alcance, alternativa, intervención, límites y evidencia.

Decisiones malas, mejores versiones

Una forma rápida de mejorar una propuesta de IA es obligarla a decir qué tarea resuelve, qué no promete y cómo se revisa. La tabla siguiente recoge patrones que aparecen mucho en proyectos reales.

Propuesta inicialPor qué seduceQué fallaMejor versión
“Chatbot para todo el portal”Parece flexible y fácil de vender.No tiene tarea, métrica ni límite.Asistente para tres tareas concretas, con rutas manuales visibles.
“Cerrar solicitudes automáticamente”Ahorra mucho tiempo en una hoja de cálculo.Mezcla recomendación y acción; exige evidencia muy fuerte.Proponer cierre con justificación y aprobación humana.
“Resumen de normativa”Demo rápida y vistosa.Puede esconder qué fuente sostiene cada frase.Resumen con citas, fecha de fuente y límites.
“Clasificar tickets con IA”Parece barato y medible.Si las etiquetas son malas, automatiza confusión.Redefinir taxonomía, medir acuerdo y permitir revisión.
“Agente que lo haga todo”Promete autonomía.La trayectoria es difícil de evaluar y recuperar.Workflow con pasos conocidos y tools autorizadas.

Este tipo de tabla no es burocracia. Es diseño de producto en modo ingeniería: transforma una intuición en una decisión revisable.

Ejemplo de fórmula: valor esperado de producto

Una cuenta útil para decidir no es perfecta, pero obliga a pensar. Esto es un ejemplo de fórmula de producto, no una ley universal: sirve para hacer explícitas hipótesis de valor, coste y riesgo antes de enamorarnos de una demo.

VE=pokVCusoCopsCriesgoVE = p_{ok}\cdot V - C_{uso} - C_{ops} - C_{riesgo}
SímboloQué significaEjemplo
VEVEValor esperado por uso o por tarea.+0,42 euros por solicitud resuelta.
pokp_{ok}Probabilidad de resultado aceptable según eval y uso real.0,78 en casos de matrícula.
VVValor si el resultado es aceptable.1,10 euros de tiempo ahorrado.
CusoC_{uso}Coste directo por inferencia, tools, almacenamiento y red.0,18 euros por interacción.
CopsC_{ops}Coste de operar: observabilidad, revisión, soporte y mantenimiento.0,12 euros por interacción estimada.
CriesgoC_{riesgo}Coste esperado de errores relevantes.0,14 euros por reintentos, escalado o corrección.

Con números:

VE=0.781.100.180.120.14=0.418VE = 0.78\cdot 1.10 - 0.18 - 0.12 - 0.14 = 0.418

El resultado no dice “publica”. Dice: hay margen si las hipótesis son reales. Ahora toca probar pokp_{ok}, revisar el coste, acotar tareas y comprobar si los errores son reversibles.

Ejemplo de fórmula: en ingeniería de producto conviene calcular el valor por slice:

VEs=pok,sVsCuso,sCops,sCriesgo,sVE_s = p_{ok,s}\cdot V_s - C_{uso,s} - C_{ops,s} - C_{riesgo,s}
SímboloQué añade
ssSegmento, slice, caso de uso o tipo de solicitud.
pok,sp_{ok,s}Probabilidad de éxito en ese slice, no en promedio global.
VsV_sValor de resolver ese slice.
Criesgo,sC_{riesgo,s}Coste esperado si se equivoca en ese slice.

La media global puede ocultar que el producto funciona muy bien en consultas simples y muy mal en solicitudes críticas. Esa es una lección que viene de evaluación, datos y refuerzo: las decisiones no deberían apoyarse solo en promedios cómodos.

La unidad económica completa

El coste real de una función de IA no es el precio de una llamada al modelo. Esa llamada es una línea de una cuenta más amplia. Ejemplo de fórmula: en un producto con RAG, tools y revisión, el coste por tarea útil debería parecerse más a esto:

Ctarea=Cmodelo+Cretrieval+Ctools+Cobs+Crev+Csoporte+CmantNC_{tarea} = C_{modelo} + C_{retrieval} + C_{tools} + C_{obs} + C_{rev} + C_{soporte} + \frac{C_{mant}}{N}
TérminoQué incluyeEjemplo por tarea
CmodeloC_{modelo}Tokens de entrada, salida, razonamiento y reintentos.0,09 EUR
CretrievalC_{retrieval}Embeddings, búsqueda, reranking y almacenamiento del índice.0,04 EUR
CtoolsC_{tools}Llamadas a APIs internas o servicios externos.0,03 EUR
CobsC_{obs}Logs, métricas, trazas, almacenamiento y dashboards.0,02 EUR
CrevC_{rev}Revisión humana esperada por probabilidad de escalado.0,08 EUR
CsoporteC_{soporte}Recontactos, aclaraciones y correcciones.0,03 EUR
Cmant/NC_{mant}/NMantenimiento repartido entre tareas del periodo.0,02 EUR

Con esos números:

Ctarea=0.09+0.04+0.03+0.02+0.08+0.03+0.02=0.31C_{tarea}=0.09+0.04+0.03+0.02+0.08+0.03+0.02=0.31

Esta cifra cambia la conversación. Un asistente que parece barato por llamada puede ser caro por tarea útil si necesita demasiados reintentos, revisión o soporte. Y al revés: un modelo más caro puede ser mejor producto si reduce errores, herramientas innecesarias y revisión.

La unidad económica también debe distinguir coste medio y coste de cola. Si el 80 % de solicitudes cuesta 0,18 EUR pero el 5 % complejo cuesta 2,40 EUR por retrieval, herramientas y revisión, el promedio puede ocultar el problema operativo. Por eso el gate no debería mirar solo media: debería mirar P50, P95 y coste por slice.

Análisis de sensibilidad: cuándo deja de compensar

Una unidad económica no está completa hasta que sabes qué variable la rompe. El número final tranquiliza demasiado: parece una verdad, pero normalmente es una mezcla de hipótesis. En un producto con IA, algunas hipótesis cambian rápido: el coste por token, el número de reintentos, la tasa de recuperación, la revisión humana, la latencia, la calidad del retrieval o el porcentaje de casos que realmente quedan resueltos.

La primera pregunta práctica es: qué probabilidad mínima de éxito necesito para que la función tenga sentido económico. Ejemplo de fórmula: si el valor por tarea es VV y los costes completos por tarea son CusoC_{uso}, CopsC_{ops} y CriesgoC_{riesgo}, el umbral mínimo queda:

pok,min=Cuso+Cops+CriesgoVp_{ok,min} = \frac{C_{uso}+C_{ops}+C_{riesgo}}{V}
SímboloLectura de ingenieríaEjemplo
VVValor estimado de resolver una tarea correctamente.1,10 EUR
CusoC_{uso}Modelo, retrieval, tools y observabilidad.0,18 EUR
CopsC_{ops}Revisión humana, soporte y operación esperada.0,12 EUR
CriesgoC_{riesgo}Coste esperado de errores, correcciones o retrabajo.0,14 EUR
pok,minp_{ok,min}Probabilidad mínima para no destruir valor.0,40

Con esos números:

pok,min=0.18+0.12+0.141.10=0.40p_{ok,min} = \frac{0.18+0.12+0.14}{1.10}=0.40

Eso no significa que 0,41 sea suficiente para publicar. Significa que por debajo de 0,40 ni siquiera aguanta la cuenta básica. En un sistema real pediríamos más margen porque las estimaciones son imperfectas, los casos no son idénticos y la cola operativa suele aparecer tarde.

Si usamos la candidata del kit matricula_rag_assistant, cuyo coste completo estimado es 0,31 EUR por tarea y cuyo valor por tarea es 1,10 EUR:

pok,min=0.311.10=0.282p_{ok,min} = \frac{0.31}{1.10}=0.282

La lectura correcta es: la función tiene margen económico si mantiene calidad y coste bajo control, pero todavía debe pasar guardrails de evidencia, recuperación, privacidad y operación. La unidad económica no sustituye al release gate; lo alimenta.

Escenariopokp_{ok}Coste totalValor esperado aproximadoLectura
Base medido en el kit0,810,31 EUR0,581 EURHay margen para piloto limitado si pasan los guardrails.
Coste sube por reintentos0,810,55 EUR0,341 EURSigue habiendo margen, pero hay que optimizar prompts, retrieval y tools.
Calidad baja en slices críticos0,700,31 EUR0,460 EUREl promedio puede valer; los slices deciden si se publica.
Calidad baja y coste sube0,600,55 EUR0,110 EURPiloto muy condicionado o rediseño antes de escalar.
Escenario de ruptura0,500,70 EUR-0,150 EURNo compensa: la función consume más valor del que crea.

Este análisis convierte una opinión en una hipótesis falsable. En vez de decir “parece útil”, el equipo puede decir: “si el coste P95 supera 0,55 EUR o pokp_{ok} cae por debajo de 0,70 en pagos pendientes, no escalamos”. Esa frase es ingeniería de producto: una decisión con umbral, observación y consecuencia.

Métrica norte y guardrails

Una métrica norte es útil cuando concentra una decisión de valor. Es peligrosa cuando se vuelve el único número. Goodhart resumió el problema en política monetaria: cuando una medida se convierte en objetivo, puede dejar de ser buena medida.5

En IA pasa constantemente. Si optimizas “uso del asistente”, puedes empujar a la gente a usarlo aunque no resuelva. Si optimizas “respuestas largas”, puedes premiar texto sin evidencia. Si optimizas “menos escalados”, puedes esconder casos que deberían revisarse.

Por eso necesitamos métricas por capas:

CapaMétricaQué respondeEjemplo de gate
ValorTarea completada correctamente¿Resuelve algo real?>= 75 % en casos críticos del dataset.
CalidadExactitud, groundedness, abstención¿La respuesta está sostenida?>= 0,85 groundedness y abstención correcta.
UXÉxito de tarea, recuperación, claridad¿La persona puede usarlo y corregirlo?8 de 10 sesiones completan el flujo sin ayuda.
CosteEuros por tarea útil¿La unidad económica aguanta?P95 por debajo del presupuesto definido.
OperaciónLatencia, errores, fallback¿Vive bien en producción?P95 < 4 s, fallback probado.
GobernanzaEvidencias, permisos, retención¿Podemos defenderlo?Paquete de evidencias completo.

Kohavi y coautores explican que los experimentos controlados en web exigen métricas bien definidas y protocolo para evitar conclusiones débiles.6 Las plataformas de experimentación a escala añaden otra lección: no basta con lanzar pruebas; hay que gestionar asignación, métricas, análisis, calidad de datos y comunicación de resultados.7

En funciones de IA esto es todavía más importante: una mejora en satisfacción puede esconder más coste, una reducción de tiempo puede esconder más errores, y una respuesta más rápida puede ser peor si el usuario pierde capacidad de recuperación.

Métricas buenas y antimétricas

Una métrica buena representa una tarea valiosa. Una antimétrica parece útil, pero puede empujar al sistema hacia una conducta pobre. Conviene escribir ambas antes del piloto.

ContextoMétrica norte razonableAntimétrica tentadoraPor qué sería peligrosa
Soporte académicoSolicitudes resueltas con evidencia suficiente y sin recontacto en 7 días.Número de conversaciones con el asistente.Más uso puede significar más confusión.
Documentación internaTiempo hasta encontrar respuesta validada.Respuestas más largas.Longitud no equivale a evidencia.
Ingeniería de softwareTickets clasificados correctamente con trazabilidad.Porcentaje de tickets autoetiquetados.Automatizar más no significa clasificar mejor.
RAG corporativoRespuestas con cita válida y abstención correcta.Top-k siempre lleno.Recuperar más documentos puede añadir ruido.
Agente con toolsTareas completadas con coste y permisos dentro de presupuesto.Número de tools llamadas.Más acción puede significar peor planificación.
Producto educativoAlumnos que explican correctamente el concepto después de usarlo.Minutos dentro de la herramienta.Más tiempo puede ser atasco, no aprendizaje.

Esta tabla debería existir en cualquier PRD serio de IA. No hace falta que sea perfecta desde el día uno; hace falta que evite optimizar lo que se mide por comodidad.

Criterios de no construir

Una cultura sana de producto no solo sabe justificar por qué construir. Sabe justificar por qué no.

No construir si...Por qué
La alternativa sin IA resuelve con menor coste y menor variabilidad.La IA no es premio por modernidad.
No puedes definir tarea, usuario y contexto.No podrás evaluar ni diseñar UX.
No hay forma de saber si la respuesta es aceptable.Sin evaluación, solo queda opinión.
La unidad económica depende de supuestos no medidos.El coste aparece tarde y con intereses.
El usuario no puede corregir, rechazar o escalar.La experiencia traslada incertidumbre a la persona.
Falta trazabilidad de datos, modelo, prompt o tool.No podrás depurar ni defender decisiones.
El caso sensible falla por slice aunque el promedio pase.El promedio no paga las consecuencias del caso concreto.

El criterio de no construir debe estar escrito antes del piloto. Si lo escribimos después, será muy fácil mover la portería para salvar una idea que ya nos gusta.

Ejemplo defendido: no pilotar el cierre automático

Volvamos al caso de matrícula. En el kit del capítulo aparece una candidata llamada auto_close_request: una tool que cerraría solicitudes automáticamente cuando el sistema detecta un caso simple.

Sobre el papel seduce. Tiene valor esperado alto y margen útil aparente. Pero una decisión de producto no puede quedarse en “ahorra tiempo”. En los datos del kit, esta candidata falla en éxito mínimo, groundedness, abstención, recuperación UX y evidencias obligatorias. También queda por debajo en cobertura de trazas y preparación operativa.

La decisión defendible sería:

CapaLectura
ValorPuede ahorrar tiempo, pero el éxito observado no alcanza el mínimo.
CalidadGroundedness y abstención quedan por debajo del umbral.
UXSi se equivoca, la persona no tiene recuperación suficiente.
GobernanzaFaltan evidencias de privacidad, plan de retorno y caminos de recuperación.
OperaciónLas trazas y preparación operativa no sostienen una acción automática.
DecisiónNo pilotar como cierre automático. Rediseñar como “propuesta de cierre revisable”.

Esto no es una derrota del producto. Es una decisión madura. El equipo conserva el valor de la idea, pero baja el nivel de autonomía hasta que la evidencia acompañe. En vez de “la IA cierra”, la versión razonable sería: “la IA propone cierre, muestra evidencia, explica límites y una persona confirma”.

Plan de piloto: publicar poco para aprender bien

Un piloto no es una versión pequeña de producción. Es un experimento operacional con alcance, duración, población, métricas y condiciones de parada. Si no escribimos esas condiciones antes, el piloto se convierte en una demo larga: genera anécdotas, pero no una decisión.

Para el caso matricula_rag_assistant, un plan defendible podría ser:

ElementoDecisión concretaPor qué importa
AlcanceSolicitudes con evidencia documental recuperable y sin escritura en expediente.Reduce ambigüedad y evita mezclar acciones de distinto riesgo.
Duración2 semanas o 200 solicitudes, lo que ocurra antes.Da volumen mínimo sin convertir el piloto en producción encubierta.
PoblaciónPersonal académico voluntario y usuarios internos.Permite observar uso real con capacidad de feedback rápido.
Métrica norteSolicitudes resueltas con evidencia suficiente y sin recontacto en 7 días.Mide valor, no solo actividad.
GuardrailsGroundedness >= 0,85; abstención >= 0,70; recovery >= 0,75; coste <= 0,45 EUR; trace coverage >= 0,95.Impide que una mejora aparente rompa calidad, coste u operación.
Criterios de paradaDos ventanas consecutivas bajo umbral, coste P95 fuera de presupuesto, evidencias ausentes o aumento de recontactos.Hace que parar sea una decisión profesional, no emocional.
RevisiónProducto, ingeniería, datos/evaluación, operación académica y privacidad.Evita que una sola mirada confunda valor con viabilidad.

La regla de publicación debería poder escribirse como contrato:

publicar=valor_okcalidad_okcoste_okux_okevidencia_okpublicar = valor\_ok \land calidad\_ok \land coste\_ok \land ux\_ok \land evidencia\_ok

Y las responsabilidades deberían quedar claras:

RolResponsabilidad mínima en el piloto
ProductoDefinir problema, métrica norte, alcance, criterios de parada y decisión final.
IngenieríaImplementar trazas, gates, coste por tarea, fallback y versión reproducible.
Datos / evaluaciónConstruir dataset de prueba, slices críticos, métricas y lectura de resultados.
UXRevisar estados, copy, recuperación, confirmaciones y claridad de límites.
Privacidad / gobernanzaValidar permisos, retención, evidencias y revisión documental.
Operación / soporteMedir recontactos, incidencias, escalados y carga real de trabajo.

La frase “lo probamos con usuarios” se queda corta. Una versión de ingeniería sería: “lo probamos con 200 solicitudes, sin acciones automáticas, con trazas obligatorias, umbrales publicados, revisión semanal y retirada si falla calidad, coste o recuperación”. Esa diferencia cambia la conversación.

Árbol rápido de decisión

flowchart TD
  P["¿La tarea está definida sin nombrar IA?"] -->|no| STOP1["No construir todavía<br/>redactar tarea y usuario"]
  P -->|sí| B["¿Existe baseline sin IA?"]
  B -->|no| STOP2["No construir todavía<br/>crear alternativa comparable"]
  B -->|sí| V["¿La IA mejora una métrica de valor?"]
  V -->|no| STOP3["No usar IA<br/>mantener baseline"]
  V -->|sí| G["¿Pasan calidad, coste, UX y operación?"]
  G -->|no| COND["Piloto condicionado<br/>cerrar huecos y repetir gate"]
  G -->|sí| E["¿Hay evidencias y política de retorno?"]
  E -->|no| COND
  E -->|sí| PILOT["Piloto limitado<br/>alcance, métricas y revisión"]

  classDef stop fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef go fill:#111,stroke:#111,color:#fff;
  class STOP1,STOP2,STOP3,COND stop;
  class PILOT go;

Este árbol no sustituye al análisis. Sirve para ordenar una conversación que, de otro modo, se dispersa enseguida entre modelos, demos y deseos.

Anatomía de una decisión de producto con IA

AI-fit: decidir si una función merece IA Una idea empieza como hipótesis; para publicarse debe terminar como contrato medible. 1 · Problema usuario · tarea · contexto dolor observable 2 · Baseline regla · SQL · UI · proceso competidor real de la IA 3 · Intervención RAG · tool · workflow mínima capacidad suficiente 4 · Métrica valor + guardrails por slice y por tarea 5 · Release pilotar · limitar · parar decisión versionada Contrato de valor qué cuenta como éxito qué no se promete cuándo no construir Contrato técnico modelo · prompt · RAG schema · tools · trazas SLO y presupuesto Contrato UX estados visibles corrección y recuperación control de la persona Decisión piloto limitado piloto condicionado no construir todavía Regla de cierre Si no puedes medir valor, coste, calidad, riesgo, trazas y recuperación, la función todavía no está lista. IA para gente curiosa / Facsímil 11 / Capítulo 01 / 686f6c61
La decisión de producto con IA une problema, baseline, intervención, métrica, contratos y release. Sin esa cadena, la IA queda flotando.

Manos a la obra

Vamos a usar el kit real del facsímil 11 para puntuar funciones candidatas. El entregable no es una presentación: es una decisión de producto que puede revisar ingeniería.

Ruta:

kit/

Ejecuta:

# Descomprime el ZIP del capítulo y ejecuta estos comandos dentro de esa carpeta
python3 ops/score_product_readiness.py --write
python3 -m json.tool output/product_readiness_report.json
cat output/product_release_decision.md
cat output/metric_tree.md
cat output/unit_economics.csv
cp templates/ai_product_decision.md output/nota_de_decision.md

El kit compara tres candidatas:

CandidataIntervenciónBaseline
matricula_rag_assistantRAG con citas y salida estructurada.Buscador de normativa + plantilla manual.
auto_close_requestTool con escritura directa.Regla de estado + revisión administrativa.
policy_search_copilotBúsqueda híbrida + resumen con límites.Buscador por palabra clave.

La gracia del ejercicio es que una candidata puede tener margen económico aparente y aun así no pasar. Por ejemplo, cerrar solicitudes automáticamente puede ahorrar tiempo, pero si falla abstención, privacidad, UX o operación, no merece piloto. El producto no se decide por promesa; se decide por evidencia.

Qué deberías mirar

ArchivoPregunta
output/product_readiness_report.json¿Qué candidata pasa, cuál queda condicionada y cuál no debería pilotarse?
output/unit_economics.csv¿Cuánto margen útil queda por tarea?
output/metric_tree.md¿Qué métrica norte y guardrails sostienen la decisión?
output/product_release_decision.md¿La decisión explica alcance, condiciones y bloqueos?
templates/ai_product_decision.md¿Puedes rellenar un PRD/ADR mínimo con criterio propio?

Cómo adaptarlo a tu proyecto

Cambia data/feature_candidates.csv con tus candidatas. Mantén una fila para la alternativa sin IA o descríbela claramente en baseline. Después ajusta contracts/product_ai_release_policy.json con tus umbrales. Si usas palabras normativas como MUST, SHOULD o MAY, RFC 2119 es la referencia clásica para indicar niveles de requisito en documentos técnicos.8

Una entrega útil para clase o equipo debería contener:

product-release-review/
  product_readiness_report.json
  product_release_decision.md
  metric_tree.md
  unit_economics.csv
  nota_de_decision.md

nota_de_decision.md debe responder en castellano claro:

  1. Qué función merece piloto.
  2. Qué alternativa sin IA compite.
  3. Qué métrica norte usarías.
  4. Qué guardrail bloquearía la publicación.
  5. Qué análisis de sensibilidad cambia la decisión.
  6. Qué plan de piloto usarías.
  7. Qué condición te haría retirar la función.

La plantilla del kit no está para rellenarla mecánicamente. Está para obligarte a escribir una decisión que otra persona pueda discutir. Si no puedes completar una sección, eso no es un fallo de redacción: es una señal de producto.

Cómo encaja todo

Este mapa responde a tres preguntas: qué hereda este capítulo, qué decisión enseña y dónde se reutiliza. La idea central es que producto no vive después de la ingeniería: define qué ingeniería merece existir.

flowchart TD
  subgraph prev["Lo que ya traemos"]
    F04["F04 · Intervención correcta<br/>prompt · RAG · tool · ajuste"]:::external
    F06["F06 · Operación<br/>contratos · SLO · gates · runbooks"]:::external
    F07["F07 · Evaluación<br/>métricas que permiten decidir"]:::external
    F08["F08 · Datos<br/>slices · experimentos · causalidad"]:::external
    F09["F09 · Gobernanza<br/>riesgo · privacidad · evidencias"]:::external
    F10["F10 · Refuerzo<br/>políticas · recompensa · consecuencias"]:::external
  end

  subgraph now["Capítulo 11.01 · Producto con IA"]
    P["problema de usuario"]:::chapter
    B["baseline sin IA"]:::chapter
    I["intervención mínima suficiente"]:::chapter
    M["métrica norte + guardrails"]:::chapter
    E["unidad económica por tarea"]:::chapter
    S["sensibilidad<br/>umbrales que rompen la cuenta"]:::chapter
    R["release decision"]:::decision
  end

  subgraph next["Lo que prepara"]
    UX["11.02 · UX<br/>control, confianza y recuperación"]:::future
    LAB["11.03 · laboratorio final<br/>paquete de producto"]:::future
    VIDA["producto vivo<br/>medir, revisar, retirar"]:::future
  end

  F04 -->|"comparar intervención"| B
  F06 -->|"definir operación"| M
  F07 -->|"medir calidad"| M
  F08 -->|"leer slices"| E
  F09 -->|"exigir evidencias"| R
  F10 -->|"pensar consecuencias"| R
  P -->|"se compara con"| B
  B -->|"elige"| I
  I -->|"se evalúa con"| M
  M -->|"alimenta"| E
  E -->|"se tensiona con"| S
  S -->|"condiciona"| R
  R -->|"diseña experiencia"| UX
  R -->|"se entrega como"| LAB
  LAB -->|"se convierte en"| VIDA

  classDef external fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef chapter fill:#fff,stroke:#111,color:#111;
  classDef decision fill:#111,stroke:#111,color:#fff;
  classDef future fill:#f7f7f7,stroke:#111,color:#111;

Vocabulario aprendido

TérminoDefinición
AI-fitEncaje medible entre problema, capacidad de IA, evidencia y operación.
BaselineAlternativa sin IA contra la que debe competir la función.
Métrica norteMedida principal que representa valor real para usuario o negocio.
Guardrail de productoLímite que impide mejorar una métrica rompiendo otra.
AntimétricaMedida que parece útil pero puede incentivar una conducta equivocada.
Unidad económicaCoste completo por tarea útil, incluyendo inferencia, tools, operación y revisión.
Análisis de sensibilidadRevisión de qué hipótesis rompen la decisión si cambian: coste, calidad, volumen o cola operativa.
Plan de pilotoContrato de alcance, duración, población, métricas, responsables y criterios de parada.
SliceSegmento de casos donde la función puede comportarse distinto.
Criterio de no construirCondición documentada que evita meter IA donde no aporta.
ADR de IARegistro breve que justifica intervención, baseline, métricas, riesgos y decisión.
Release decisionDecisión versionada de pilotar, condicionar, no publicar o retirar.

Dónde solía tropezar yo

TropiezoPor qué ocurreAntídoto
Empezar por el modeloElegir modelo parece avanzar.Redactar primero tarea, baseline y métrica norte.
Medir solo satisfacciónEs fácil preguntar si “gusta”.Combinar valor, calidad, coste, operación y recuperación.
Prometer demasiadoLa demo responde a casos felices.Escribir explícitamente “no construir si...” y casos fuera de alcance.
Ignorar unidad económicaEl coste por token parece pequeño.Medir coste por tarea útil, no solo coste por llamada.
Confundir piloto con publicaciónUn piloto controlado parece producción.Definir alcance, duración, política de retorno y evidencia mínima.
Mirar solo el promedioEl promedio da tranquilidad.Revisar slices críticos antes de decidir.

Antes de pasar página

  • ¿Puedes explicar el problema sin nombrar IA?
  • ¿Has escrito una alternativa sin IA que compita de verdad?
  • ¿Tu métrica norte mide valor o solo uso?
  • ¿Has escrito al menos una antimétrica que no quieres optimizar?
  • ¿Qué guardrails evitarían optimizar una métrica equivocada?
  • ¿Sabes cuánto cuesta una tarea útil completa?
  • ¿Puedes separar coste por llamada, coste por tarea útil y coste de cola?
  • ¿Has calculado valor esperado por slice?
  • ¿Sabes qué variable rompe antes la unidad económica?
  • ¿Has escrito duración, población y criterios de parada del piloto?
  • ¿Quién revisa cada guardrail y quién decide si se continúa?
  • ¿Tienes un criterio explícito para parar, no publicar o retirar la función?
  • ¿Puedes conectar la decisión con evaluación, operación, UX y gobernanza?

Para saber más

En resumen

IdeaQué debes recordar
Producto empieza antes del modelo.La primera decisión técnica es saber qué problema merece IA y cuál es su baseline.
La métrica única engaña.Necesitas valor, calidad, coste, operación, UX y gobernanza.
El coste real es por tarea útil.Tokens, tools, revisión y mantenimiento forman la unidad económica.
La sensibilidad evita autoengaños.Una decisión seria dice qué coste, calidad o slice la rompería.
Un piloto es un contrato.Alcance, duración, población, métricas, responsables y parada van por escrito.
Los slices deciden más que el promedio.Una función puede pasar globalmente y fallar donde más importa.
No construir también es criterio.Un buen equipo sabe decir que la IA no encaja todavía.

Notas

  1. International Organization for Standardization. (2019). ISO 9241-210:2019. Ergonomics of human-system interaction -- Human-centred design for interactive systems. https://www.iso.org/standard/77520.html. Consultado el 10 de junio de 2026.

  2. National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1. Consultado el 10 de junio de 2026.

  3. Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/. Consultado el 10 de junio de 2026.

  4. Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/. Consultado el 10 de junio de 2026.

  5. Goodhart, C. A. E. (1975). Problems of monetary management: The U.K. experience. En Papers in Monetary Economics. Reserve Bank of Australia. https://www.rba.gov.au/publications/confs/1975/. Consultado el 10 de junio de 2026.

  6. Kohavi, R., Longbotham, R., Sommerfield, D., & Henne, R. M. (2009). Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18(1), 140-181. https://doi.org/10.1007/s10618-008-0114-1.

  7. Gupta, S., Ulanova, L., Bhardwaj, S., Dmitriev, P., Raff, P., & Fabijan, A. (2018). The anatomy of a large-scale experimentation platform. 2018 IEEE International Conference on Software Architecture, 1-109. https://doi.org/10.1109/ICSA.2018.00009.

  8. Bradner, S. (1997). Key words for use in RFCs to indicate requirement levels. RFC 2119. https://www.rfc-editor.org/rfc/rfc2119.

Capítulo 02

Facsímil 11 · Producto, UX y cierre

Capítulo 02: UX de IA: control, confianza, recuperación y entrega

Una interfaz que cambia de humor no es una interfaz

La UX de un sistema de IA no empieza en el color del botón ni termina en una caja de chat. Empieza en una pregunta más concreta: cuando el sistema no está seguro, cuando tarda, cuando cita mal, cuando necesita permiso, cuando no tiene evidencia o cuando produce una salida incompleta, ¿qué ve la persona y qué puede hacer?

Un software clásico puede fallar, claro. Pero suele fallar dentro de estados más delimitados: error de red, campo obligatorio, permiso insuficiente, validación rota. Un sistema con IA introduce otro tipo de variabilidad: puede responder distinto ante entradas parecidas, puede sonar seguro sin estarlo, puede pedir una herramienta, puede abstenerse, puede necesitar revisión o puede mezclar evidencia correcta con una conclusión débil.

La UX de IA es la disciplina de hacer visible esa variabilidad sin convertir la pantalla en una tesis doctoral.

Qué no es confianza

Confianza no significa que el usuario “crea” al sistema. Tampoco significa decorar la respuesta con una puntuación misteriosa. Y no significa enseñar todos los detalles internos como si la transparencia total fuera automáticamente útil.

Una experiencia confiable permite calibrar expectativas. La persona entiende qué puede pedir, por qué la respuesta está sustentada, qué límites tiene, qué datos se usaron, qué acción se propone y cómo corregirla. Si el sistema debe decir “no lo sé”, lo dice sin castigar al usuario. Si necesita permisos, los pide con objeto, alcance y efecto. Si hay una acción irreversible, no la ejecuta como si fuera una sugerencia de texto.

Amershi y coautores sintetizaron guías para interacción humano-IA que cubren etapas como mostrar qué puede hacer el sistema, explicar durante la interacción, permitir corrección, apoyar aprendizaje gradual y ayudar a recuperarse de errores.1 Microsoft HAX convierte esas guías en herramientas de diseño como workbook, patrones y playbook para planificar comportamientos de sistemas de IA.2 Google People + AI Guidebook propone diseñar alrededor de necesidades humanas, datos, modelos mentales, feedback, control y evaluación.3

La lectura común es clara: una buena UX de IA no intenta que la IA parezca humana. Intenta que la persona pueda trabajar mejor con un sistema probabilístico.

Estados mínimos de una experiencia con IA

Una interfaz de IA seria debe diseñar estados, no solo respuestas.

EstadoQué debe ver la personaQué debe poder hacer
PreparandoQué tarea se está intentando resolver.Cancelar o ajustar entrada.
Recuperando evidenciaQué fuentes o sistemas se consultan.Limitar, ampliar o cambiar fuente.
GenerandoQue la salida aún no es definitiva.Detener si el coste o tiempo no compensa.
ValidandoQué contrato o regla se está comprobando.Ver motivo de fallo o repetir con cambios.
Resultado sustentadoRespuesta, evidencia, límites y siguiente paso.Copiar, editar, citar, ejecutar o guardar.
Resultado insuficienteQué falta para responder bien.Aportar dato, pedir revisión o cambiar tarea.
Acción pendienteQué acción se ejecutaría y con qué alcance.Aprobar, editar payload, rechazar o delegar.
Incidencia de experienciaQué se rompió y qué alternativa existe.Reintentar, usar flujo manual o contactar soporte.

La UX se vuelve ingeniería cuando cada estado tiene entrada, salida, evento de traza, copy, acción permitida y criterio de aceptación.

La UX como máquina de estados

Una forma práctica de diseñar UX de IA es tratar la interfaz como una máquina de estados. No porque todo tenga que ser rígido, sino porque cada estado obliga a responder preguntas verificables: qué sabe el sistema, qué no sabe, qué está intentando, qué puede hacer la persona y qué evento quedará registrado.

Un estado mínimo debería declararse así:

CampoPregunta que respondeEjemplo
state_id¿Qué momento de la interacción estamos nombrando?retrieving_evidence
entry_condition¿Cuándo entra el flujo en este estado?Hay pregunta válida y permisos de lectura.
visible_copy¿Qué ve la persona?“Buscando normativa y expediente”.
available_actions¿Qué puede hacer ahora?Cancelar, limitar fuente, continuar manualmente.
blocked_actions¿Qué no puede hacer todavía?Cerrar caso, enviar respuesta definitiva.
trace_event¿Qué evento se guarda?ux.state.entered con trace_id.
exit_condition¿Cuándo salimos de este estado?Evidencia recuperada o timeout.
acceptance_criteria¿Cómo sabemos que está bien diseñado?8 de 10 usuarios entienden qué ocurre sin ayuda.

En forma de contrato, podría verse así:

state_id: insufficient_evidence
entry_condition: "retrieval devuelve menos de dos fuentes válidas o la fuente principal no cubre la pregunta"
visible_copy: "No tengo evidencia suficiente para responder con seguridad."
available_actions:
  - aportar_documento
  - cambiar_pregunta
  - escalar_revision
blocked_actions:
  - enviar_respuesta_final
  - cerrar_solicitud
trace_event:
  name: ux.insufficient_evidence_shown
  required_fields:
    - trace_id
    - user_role
    - missing_evidence_reason
    - retrieval_run_id
acceptance_criteria:
  - "la persona entiende qué falta"
  - "existe camino manual"
  - "la respuesta no se maquilla como certeza"

Esta especificación parece pequeña, pero cambia el trabajo. Ya no estamos escribiendo “hacer UX de error”. Estamos definiendo un comportamiento observable, revisable y testeable. Si mañana cambia el modelo, el contrato sigue diciendo qué debe pasar cuando la evidencia no basta.

stateDiagram-v2
  [*] --> EntradaValida
  EntradaValida --> RecuperandoEvidencia: permisos de lectura OK
  EntradaValida --> PedirPermiso: falta permiso
  PedirPermiso --> RecuperandoEvidencia: permiso aprobado
  PedirPermiso --> FlujoManual: permiso rechazado
  RecuperandoEvidencia --> EvidenciaSuficiente: fuentes válidas
  RecuperandoEvidencia --> EvidenciaInsuficiente: fuentes incompletas
  RecuperandoEvidencia --> FlujoManual: timeout o sistema externo no disponible
  EvidenciaSuficiente --> RespuestaRevisable: generar salida con citas
  EvidenciaInsuficiente --> Recuperacion: pedir dato, documento o revisión
  RespuestaRevisable --> Aprobacion: hay acción externa
  RespuestaRevisable --> GuardarBorrador: solo redacta texto
  Aprobacion --> EjecutarAccion: payload revisado
  Aprobacion --> EditarPayload: cambios necesarios
  EditarPayload --> Aprobacion
  EjecutarAccion --> [*]
  GuardarBorrador --> [*]
  Recuperacion --> [*]
  FlujoManual --> [*]

Fíjate en la separación: redactar, aprobar y ejecutar no son el mismo estado. En sistemas con tools, esa separación es una línea de seguridad operativa y también una línea de UX: la persona debe saber cuándo está leyendo una sugerencia y cuándo está a punto de cambiar un sistema real.

Calibrar confianza con números y comportamiento

La confianza se calibra con dos piezas: comportamiento del sistema y diseño visible.

Podemos modelar riesgo de experiencia de forma simple:

Rux=P(error)I(error)(1Rec)R_{ux}=P(error)\cdot I(error)\cdot (1 - Rec)
SímboloQué significaEjemplo
RuxR_{ux}Riesgo de experiencia.0,12 en un flujo revisable.
P(error)P(error)Probabilidad de error observado en eval o piloto.0,20 respuestas incompletas.
I(error)I(error)Impacto del error para la tarea.0,80 si afecta a decisión importante.
RecRecCapacidad de recuperación entre 0 y 1.0,25 si la persona puede corregir rápido.

Con estos valores:

Rux=0.200.80(10.25)=0.12R_{ux}=0.20\cdot0.80\cdot(1-0.25)=0.12

El número no es una verdad física. Es una herramienta de conversación. Si aumenta la recuperación, baja el riesgo. Si aumenta el impacto, necesitas más control antes de publicar. Si no puedes estimar P(error)P(error), no tienes UX lista: tienes una pantalla esperando datos.

Diseño de recuperación

La recuperación debe estar diseñada antes de enseñar la función. En sistemas de IA, recuperar no es solo “volver atrás”. Puede significar:

SituaciónRecuperación útilEvidencia necesaria
Respuesta sin fuente suficienteMostrar hueco y pedir documento o permiso.Contexto recuperado y razón de abstención.
JSON inválidoReintento con schema y error visible para ingeniería.Payload, schema, error y versión.
Acción con coste altoRequerir aprobación y mostrar coste estimado.Tool, payload, presupuesto y owner.
Resumen demasiado amplioPermitir fijar secciones y nivel de detalle.Documento original y prompt de resumen.
Recomendación con baja confianzaPresentar opciones y criterio, no una única salida.Score, umbral y explicación breve.
Datos sensibles en entradaRedactar, avisar y registrar política aplicada.Política de privacidad y traza redaccionada.

El capítulo 05 del facsímil de agentes ya trabajó permisos; el facsímil 09 trabajó privacidad y evidencias. Aquí lo unimos desde el punto de vista de la persona: no basta con que haya un control en backend; tiene que existir un camino comprensible para usarlo.

Tarjeta de aprobación: cuando la IA propone una acción

La tarjeta de aprobación es una pieza central en productos con IA que pueden actuar. Su objetivo no es poner un botón de “aceptar”. Su objetivo es convertir una acción en una decisión informada.

Una tarjeta defendible debe responder:

BloqueQué muestraPor qué importa
Acción propuestaVerbo concreto, sistema afectado y objeto.“Enviar respuesta” no es lo mismo que “cerrar expediente”.
MotivoPor qué el sistema propone esa acción.Evita que la acción parezca autoridad automática.
EvidenciaFuentes, datos y límites usados.La persona puede comprobar antes de aprobar.
Payload editableCampos que se enviarán o modificarán.La aprobación no debe ocultar detalles técnicos.
AlcanceQué cambia y qué no cambia.Reduce malentendidos sobre efectos secundarios.
Coste y latenciaTiempo estimado, coste o consumo de presupuesto.Hace visible el impacto operativo.
PermisosQué rol puede aprobar y bajo qué política.Conecta UX con gobernanza.
RecuperaciónDeshacer, corregir, escalar o registrar incidencia.La acción no queda como callejón sin salida.

Ejemplo:

{
  "approval_card": {
    "action": "enviar_respuesta_revisada",
    "system": "gestor_solicitudes",
    "object_id": "solicitud-2026-1042",
    "reason": "la normativa recuperada cubre la pregunta y el expediente contiene justificante pendiente de revisión",
    "evidence": [
      {"source": "normativa_matricula_2026", "section": "pagos_pendientes"},
      {"source": "expediente", "field": "justificante_subido"}
    ],
    "editable_payload": {
      "response_text": "Antes de cerrar la solicitud, revise el justificante subido el 03/06.",
      "next_status": "revision_humana"
    },
    "blocked_without": ["role:coordinacion_academica", "trace_id", "evidence_visible"],
    "recovery": ["editar_texto", "pedir_mas_evidencia", "escalar_revision", "cancelar"]
  }
}

Esta tarjeta obliga a ingeniería, producto y UX a ponerse de acuerdo. Si no sabes rellenar system, object_id, evidence, editable_payload o blocked_without, la acción todavía no está lista para vivir en una interfaz.

Copy técnico: decir lo justo, no sonar seguro de más

El texto de la interfaz es parte del sistema. En IA, una frase puede calibrar o descalibrar. “He encontrado la respuesta” no significa lo mismo que “He encontrado dos fuentes que parecen sostener esta respuesta”. “No puedo ayudarte” no significa lo mismo que “Falta una fuente obligatoria para responder sin inventar”.

SituaciónCopy pobreCopy mejor
Evidencia suficiente“Respuesta generada.”“Respuesta basada en normativa 2026 y expediente. Revísala antes de enviar.”
Evidencia incompleta“No se puede responder.”“Falta una fuente que confirme el estado del pago. Puedes adjuntarla o escalar revisión.”
Baja confianza“Quizá sea correcto.”“La evidencia recuperada no cubre toda la pregunta. Te muestro opciones, no una conclusión final.”
Acción externa“Aceptar.”“Enviar respuesta al expediente” o “Cambiar estado a revisión”.
Error recuperable“Error.”“No se pudo consultar pagos. Puedes reintentar, continuar manualmente o guardar la respuesta como pendiente.”

El patrón es sencillo: verbo concreto, objeto concreto, límite concreto y siguiente paso concreto. En productos profesionales, el copy no debe tranquilizar artificialmente. Debe permitir decidir.

Accesibilidad y carga cognitiva

Diseñar UX de IA también implica diseñar para personas con distintos niveles de atención, contexto, cansancio, visión, experiencia técnica o familiaridad con el sistema. WCAG 2.2 ofrece criterios de accesibilidad para contenido web, interacción por teclado, contraste, foco visible, identificación de errores y ayuda en entradas.4

En IA hay una capa adicional: carga cognitiva por incertidumbre. La persona no solo interpreta una interfaz; interpreta un sistema que puede equivocarse con buena gramática. Por eso conviene aplicar reglas muy concretas:

ReglaAplicación en IA
Un estado principal por pantallaNo mezclar “generando”, “validando” y “listo” sin jerarquía visual.
Evidencia antes que confianza abstractaMostrar fuentes y límites antes que una puntuación aislada.
Acciones irreversibles con verbo explícito“Cerrar expediente” mejor que “Aceptar”.
Foco y teclado revisadosLa aprobación, edición y cancelación deben ser operables sin ratón.
Mensajes de error recuperablesTodo error debe ofrecer siguiente paso, no solo diagnóstico.
Lenguaje de límitesLa abstención no debe parecer avería si es comportamiento correcto.

La accesibilidad no es un anexo. Si una persona no puede percibir, navegar, entender o corregir la salida, el sistema no está listo.

Medir UX en IA

El System Usability Scale (SUS), presentado por Brooke, es una escala breve y muy extendida para medir usabilidad percibida.5 Estudios posteriores lo han usado y analizado en contextos comerciales y de investigación.6

Pero en IA necesitamos combinar SUS con métricas propias:

MétricaQué midePor qué importa
Éxito de tareaSi la persona logra lo que venía a hacer.Evita medir solo satisfacción.
Tiempo hasta valorCuánto tarda en obtener algo utilizable.La IA puede parecer útil y ser lenta.
Corrección recuperadaCasos donde el usuario corrige y termina bien.Mide recuperación, no solo acierto inicial.
Abstención entendidaSi el usuario comprende por qué no hay respuesta.Evita frustración ante límites sanos.
Acción seguraAcciones aprobadas con payload entendido.Conecta UX con permisos y operación.
Confianza calibradaSi el usuario sabe cuándo dudar.Reduce dependencia ciega y abandono.

Una UX buena no maximiza confianza. Maximiza confianza merecida.

Protocolo de medición para una revisión UX de IA

Una revisión útil no se limita a “cinco personas lo probaron”. Debe tener escenarios, tareas, observaciones y criterios de salida.

PiezaQué escribir antes de probarEjemplo
EscenarioSituación real que activa variabilidad.Fuente incompleta, permiso pendiente, error recuperable.
TareaAcción observable que la persona debe completar.Redactar respuesta sustentada sin cerrar expediente.
Señal principalQué demuestra que funcionó.La persona identifica fuente, límite y siguiente paso.
Señal de recuperaciónQué pasa si algo no sale bien.Cambia a flujo manual sin perder trazas.
MétricaCómo se mide.Éxito, tiempo, clics, recuperación, comprensión, coste.
Criterio de salidaQué decisión permite.pass, review, block.

Ejemplo de matriz:

EscenarioEstado esperadoAcción de usuarioGate
Evidencia completaResultado sustentado con fuentes.Editar y guardar respuesta.Pass si entiende fuente y límite.
Fuente incompletaAbstención explicada.Aportar documento o escalar.Pass si no fuerza respuesta.
Permiso pendienteTarjeta de aprobación.Revisar payload y rechazar o aprobar.Pass si acción y efecto son inequívocos.
Error recuperableAlternativa manual visible.Reintentar o continuar manualmente.Pass si termina tarea sin perder contexto.
Caso fuera de alcanceDerivación clara.Cambiar tarea o escalar.Pass si no se promete capacidad inexistente.

El kit del capítulo usa exactamente esta idea: cada fila de ux_review_sessions.csv representa un escenario, y el script comprueba si aparecen estados, evidencia, límites, separación de acción, recuperación, accesibilidad, trazas y fallback manual.

Anatomía de una pantalla de IA que se puede defender

UX de IA: estados, evidencia, control y recuperación La pantalla debe hacer visible lo que el sistema sabe, lo que no sabe y qué puede hacer la persona. Asistente de revisión de expediente versión f11-demo · trazas activas Estado visible Recuperando normativa y expediente 2 fuentes consultadas · 1 pendiente Alcance de respuesta Solo informa, no modifica expediente No sustituye revisión administrativa Respuesta sustentada El pago aparece pendiente. Antes de cerrar el caso, revisa el justificante subido el 03/06. Evidencia: normativa de matrícula · expediente · registro de pagos Límite: no se ha consultado contabilidad central. Editar texto no ejecuta acciones Pedir evidencia recuperar otra fuente Escalar revisión con motivo y trazas Recuperación: si falta fuente, no se fuerza respuesta; se pide dato o se cambia de flujo. Checklist UX ✓ tarea y alcance visibles ✓ fuentes y límites visibles ✓ acción separada de texto ✓ edición antes de ejecutar ✓ fallback manual ✓ trazas para soporte ✓ copia accesible ✓ coste y latencia medidos El checklist no es estética. Es criterio de publicación. IA para gente curiosa / Facsímil 11 / Capítulo 02 / 686f6c61
Una pantalla de IA publicable no es solo una respuesta. Es estado visible, evidencia, límites, control, recuperación y trazas.

Manos a la obra

Convierte una función de IA en un contrato UX:

kit/templates/ux_contract.md
ux_contract.md
states.csv
recovery_paths.csv
copy_review.md
ux_gate.json

Incluye:

PiezaPregunta que debe responder
Estados¿Qué ve la persona mientras el sistema trabaja?
Fuentes¿Qué evidencia se muestra y con qué límite?
Permisos¿Qué acciones requieren aprobación o edición?
Recuperación¿Cómo corrige, repite, deshace o escala?
Métricas¿Cómo medimos éxito de tarea, tiempo, recuperación y confianza calibrada?

En este repositorio tienes una plantilla en:

kit/templates/ux_contract.md

Úsala para escribir el contrato de una función concreta. Después ejecuta:

# Descomprime el ZIP del capítulo y ejecuta estos comandos dentro de esa carpeta
python3 ops/review_ux_flows.py --write
cat output/ux_decision.md
cat output/ux_release_gate.json

El script no decide si la pantalla es bonita. Decide si la experiencia tiene lo mínimo para publicarse: estados visibles, evidencia, límites, separación entre sugerencia y acción, recuperación, accesibilidad, trazas y fallback manual. Si el gate queda en review, no es un suspenso: es una lista de trabajo antes del piloto.

Cómo encaja todo

Este mapa conecta UX con producto, RAG, agentes, evaluación y privacidad. La UX no es una capa final: es donde las decisiones técnicas se vuelven visibles para quien usa el sistema.

flowchart TD
  subgraph prev["Lo que ya traemos"]
    C01["11.01 · AI-fit<br/>valor, coste y piloto"]:::external
    RAG["04.09 · RAG<br/>evidencia, citas y abstención"]:::external
    AG["05.08 · Agentes<br/>permisos y autonomía"]:::external
    CAL["07.05 · Calibración<br/>incertidumbre y umbrales"]:::external
    GOV["09.02 · Privacidad<br/>datos, memoria y trazas"]:::external
  end

  subgraph now["Capítulo 11.02 · UX de IA"]
    ST["máquina de estados<br/>qué está ocurriendo"]:::chapter
    EV["evidencia y límites<br/>por qué se sostiene"]:::chapter
    AP["tarjeta de aprobación<br/>qué acción se ejecutaría"]:::chapter
    RC["recuperación<br/>cómo corregir o escalar"]:::chapter
    MX["medición UX<br/>éxito, comprensión y control"]:::chapter
  end

  subgraph next["Lo que prepara"]
    LAB["11.03 · laboratorio final<br/>paquete de producto"]:::future
    REL["release defendible<br/>producto + UX + operación"]:::future
    VIDA["producto vivo<br/>revisar, retirar, mejorar"]:::future
  end

  C01 -->|"define alcance"| ST
  RAG -->|"aporta fuentes"| EV
  AG -->|"separa sugerir y actuar"| AP
  CAL -->|"calibra límites"| RC
  GOV -->|"exige trazas y permisos"| AP
  ST -->|"ordena pantalla"| EV
  EV -->|"habilita decisión"| AP
  AP -->|"si no procede"| RC
  RC -->|"se comprueba con"| MX
  MX -->|"alimenta"| LAB
  LAB -->|"decide"| REL
  REL -->|"entra en ciclo de"| VIDA

  classDef external fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef chapter fill:#fff,stroke:#111,color:#111;
  classDef future fill:#111,stroke:#111,color:#fff;

Dónde solía tropezar yo

TropiezoPor qué ocurreAntídoto
Pensar que UX es copy finalSe deja para el final.Diseñar estados, permisos y recuperación desde el contrato técnico.
Mostrar confianza como número absoluto sin contextoParece científico.Explicar evidencia, límites y siguiente acción.
No diseñar abstenciónQueremos que siempre responda.Tratar “no hay evidencia suficiente” como un resultado válido.
Mezclar sugerencia y acciónEl texto parece inocuo.Separar generar, revisar, aprobar y ejecutar.
Medir solo SUSSUS ayuda, pero no diagnostica todo.Añadir éxito de tarea, recuperación, coste, latencia y trazas.

Vocabulario aprendido

TérminoDefinición
Estado visibleMomento de la interacción que la interfaz nombra y hace comprensible.
RecuperaciónCamino para corregir, repetir, deshacer, escalar o cambiar de flujo.
Confianza calibradaAjuste entre expectativas del usuario y capacidad real del sistema.
Máquina de estados UXEspecificación de estados visibles, entradas, salidas, acciones permitidas y trazas.
Tarjeta de aprobaciónInterfaz que convierte una acción propuesta por IA en una decisión revisable.
Copy de límitesTexto que explica alcance, evidencia faltante o incertidumbre sin sonar más seguro de lo que es.
Acción pendienteAcción que el sistema propone pero no ejecuta hasta pasar permisos y revisión.
Métrica UX de IAMedida de experiencia que incluye variabilidad, límites y recuperación.

Antes de pasar página

  • ¿Puedes enumerar los estados de tu función de IA?
  • ¿La persona ve qué evidencia sostiene la respuesta?
  • ¿Hay un camino claro cuando la respuesta es insuficiente?
  • ¿Las acciones externas están separadas de las sugerencias?
  • ¿Tienes una tarjeta de aprobación con acción, evidencia, payload y recuperación?
  • ¿El copy distingue entre certeza, evidencia parcial y abstención?
  • ¿Mides recuperación, no solo satisfacción?
  • ¿El usuario conserva control cuando el sistema duda?

Para saber más

  • Amershi, S., Weld, D., Vorvoreanu, M., Fourney, A., Nushi, B., Collisson, P., Suh, J., Iqbal, S., Bennett, P. N., Inkpen, K., Teevan, J., Kikin-Gil, R., & Horvitz, E. (2019). Guidelines for human-AI interaction. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. https://doi.org/10.1145/3290605.3300233
  • Brooke, J. (1996). SUS: A quick and dirty usability scale. En P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. L. McClelland (Eds.), Usability Evaluation in Industry (pp. 189-194). Taylor & Francis.
  • Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/
  • Grier, R. A., Bangor, A., Kortum, P., & Peres, S. C. (2013). The System Usability Scale: beyond standard usability testing. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 57(1), 187-191. https://doi.org/10.1177/1541931213571042
  • International Organization for Standardization. (2019). ISO 9241-210:2019. Ergonomics of human-system interaction -- Human-centred design for interactive systems. https://www.iso.org/standard/77520.html
  • Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/
  • National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1
  • World Wide Web Consortium. (2023). Web Content Accessibility Guidelines (WCAG) 2.2. https://www.w3.org/TR/WCAG22/

En resumen

IdeaQué debes recordar
La UX de IA diseña variabilidad.Estados, límites y recuperación importan tanto como la respuesta.
Confianza no es creer.Es saber cuándo usar, dudar, corregir o escalar.
La acción necesita contrato.Generar texto no es ejecutar una tool.
El copy también es ingeniería.Verbo, objeto, límite y siguiente paso calibran mejor que una frase bonita.
Medir UX exige más que satisfacción.Hay que medir éxito, recuperación, latencia, coste y comprensión.

Notas

  1. Amershi, S. et al. (2019). Guidelines for human-AI interaction. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. https://doi.org/10.1145/3290605.3300233.

  2. Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/. Consultado el 7 de junio de 2026.

  3. Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/. Consultado el 7 de junio de 2026.

  4. World Wide Web Consortium. (2023). Web Content Accessibility Guidelines (WCAG) 2.2. https://www.w3.org/TR/WCAG22/. Consultado el 10 de junio de 2026.

  5. Brooke, J. (1996). SUS: A quick and dirty usability scale. En P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. L. McClelland (eds.), Usability Evaluation in Industry (pp. 189-194). Taylor & Francis.

  6. Grier, R. A., Bangor, A., Kortum, P., & Peres, S. C. (2013). The System Usability Scale: beyond standard usability testing. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 57(1), 187-191. https://doi.org/10.1177/1541931213571042.

Capítulo 03

Facsímil 11 · Producto, UX y cierre

Capítulo 03: Cierre del libro y laboratorio de producto

Qué queda cuando quitamos la novedad

Llegamos al final del volumen. Si este libro ha funcionado, la IA debería parecerte menos inexplicable y más interesante. Menos “un modelo responde” y más “un sistema con datos, contratos, herramientas, evaluación, operación, experiencia y consecuencias”. Esa diferencia no es estética: cambia cómo diseñas, cómo presupuestas, cómo publicas y cómo paras una función cuando deja de sostenerse.

El objetivo no era que memorizaras nombres. Era construir criterio. Saber cuándo una neurona artificial es una suma con activación. Saber que un token no es una palabra. Saber que una búsqueda puede necesitar heurísticas, que una herramienta necesita contrato, que un agente necesita límites, que un dataset condiciona todo, que una evaluación decide algo, que una recompensa puede torcer una conducta y que una interfaz debe ayudar a la persona a trabajar con incertidumbre.

Este cierre convierte ese criterio en una entrega final: un paquete de producto para decidir si una función de IA puede pasar a piloto. No es un ejercicio de estilo. Es una simulación pequeña de una conversación real: producto quiere publicar, ingeniería pide evidencia, datos preguntan por calidad, operación pide rollback, gobernanza pide trazas y la persona usuaria necesita una experiencia que no la deje sola ante una respuesta incierta.

La pregunta final del libro no es “¿qué modelo usarías?”. La pregunta final es más incómoda y más útil:

¿Publicarías esta función, en este alcance, con estas métricas, estos costes, esta UX y estas evidencias?

Si puedes responder sin esconderte en frases generales, has empezado a pensar como alguien que construye IA de verdad.

Lo que hemos construido en el libro

FacsímilQué te dejaCómo aparece en producto
01 · CimientosVocabulario técnico mínimo.No compras promesas si entiendes tokens, modelos, inferencia y error.
02 · IA clásicaEstados, búsqueda, restricciones y planificación.Puedes modelar tareas, límites y decisiones antes del LLM.
03 · ArquitecturasTransformers, atención, MoE, inferencia y modelos.Eliges modelo por mecanismo y coste, no por fama.
04 · HerramientasAPIs, RAG, embeddings, local, cloud y SQL.Diseñas la intervención adecuada.
05 · AgentesEstado, tools, memoria, permisos y orquestación.Separas asistencia, acción y autonomía.
06 · OperaciónSLO, trazas, gates, runbooks y continuidad.Publicas sistemas que se pueden mantener.
07 · EvaluaciónMétricas, calibración, interpretabilidad y gates.Decides con evidencia, no con impresiones.
08 · DatosDatasets, calidad, splits, sesgos, DataOps y experimentos.Sabes si la materia prima sostiene la función.
09 · GobernanzaRiesgo, privacidad, cumplimiento y evidencias.Preparas un expediente revisable.
10 · RefuerzoPolítica, recompensa, preferencias y consecuencias.Mides qué conducta induce el sistema.
11 · Producto y UXAI-fit, control, recuperación y release.Decides qué merece existir y cómo debe vivirse.

La lectura profesional de esta tabla no es “hemos visto muchas cosas”. Es esta: cada facsímil te permite hacer una pregunta que evita publicar por entusiasmo.

Pregunta de cierreDónde se aprendióQué evita
¿El problema necesita IA o bastaba un workflow?F04 y F11.Construir una demo cara para una tarea simple.
¿El modelo entiende el contexto o solo suena convincente?F01, F03 y F07.Confundir fluidez con calidad.
¿La información recuperada es suficiente y verificable?F04, F07 y F08.Responder con documentos incompletos o mal citados.
¿La tool tiene permiso real para actuar?F05, F06 y F09.Convertir sugerencias en cambios sin contrato.
¿El sistema deja evidencias cuando falla?F06, F07 y F09.Depender de relatos posteriores en vez de trazas.
¿La recompensa o métrica empuja una conducta indeseada?F10 y F11.Optimizar el número cómodo y perder el objetivo.
¿La persona puede entender, corregir y recuperar?F11.Diseñar una interfaz que parece inteligente pero no ayuda.

Fecha de corte y fuentes consultadas

Fecha de corte: 7 de junio de 2026.

Este cierre usa marcos de diseño centrado en personas, interacción humano-IA, evaluación de producto y gestión de riesgos: ISO 9241-210, guías de Amershi et al., Microsoft HAX, People + AI Guidebook de Google, NIST AI RMF y literatura sobre experimentación controlada.123456

También toma una lección de las plataformas de experimentación: una decisión de producto no se sostiene solo con una métrica final; necesita instrumentación, calidad de datos, asignación, análisis y comunicación de resultados.7

La idea común es exigente y útil: una función de IA debe diseñarse, medirse, operarse y revisarse como sistema interactivo, no como una respuesta aislada.

Cómo encaja todo

Este mapa no intenta resumir los once facsímiles capítulo a capítulo. Está construido como un mapa de release: qué hereda el producto, qué decisiones exige y qué evidencias deja. Se lee de izquierda a derecha: primero entendemos el mecanismo, después construimos el sistema, luego lo medimos y gobernamos, y finalmente decidimos si merece vivir como producto.

flowchart LR
  subgraph know["Entender el mecanismo"]
    F01["F01 · Cimientos<br/>tokens · error · inferencia"]:::external
    F02["F02 · IA clásica<br/>búsqueda · restricciones · planificación"]:::external
    F03["F03 · Arquitecturas<br/>Transformer · MoE · serving"]:::external
  end

  subgraph build["Construir el sistema"]
    F04["F04 · Herramientas<br/>API · RAG · embeddings · SQL"]:::external
    F05["F05 · Agentes<br/>tools · memoria · permisos"]:::external
    F06["F06 · Operación<br/>SLO · trazas · gates · runbooks"]:::external
  end

  subgraph proof["Probar y limitar"]
    F07["F07 · Evaluación<br/>métricas · calibración · gates"]:::external
    F08["F08 · Datos<br/>linaje · calidad · slices · DataOps"]:::external
    F09["F09 · Gobernanza<br/>privacidad · evidencias · AI-BOM"]:::external
    F10["F10 · Refuerzo<br/>política · recompensa · consecuencias"]:::external
  end

  subgraph product["Facsímil 11 · Producto y UX"]
    C01["11.01 · AI-fit<br/>problema · métrica · coste · riesgo"]:::chapter
    C02["11.02 · UX de IA<br/>control · confianza · recuperación"]:::chapter
    C03["11.03 · Cierre<br/>paquete final · laboratorio"]:::lab
  end

  subgraph packet["Paquete final"]
    P1["nota_de_decision.md<br/>PRD/ADR de IA"]:::artifact
    P2["eval + data + cost<br/>métricas y sensibilidad"]:::artifact
    P3["ux_contract.md<br/>estados, aprobación y recuperación"]:::artifact
    P4["release_gate.json<br/>decisión ejecutable"]:::artifact
    OUT["final_product_packet.md<br/>decisión defendible"]:::decision
  end

  F01 -->|"entender bases"| F04
  F02 -->|"modelar decisión"| F05
  F03 -->|"elegir mecanismo"| F04
  F04 -->|"construir intervención"| F06
  F05 -->|"dar capacidad con límites"| F06
  F06 -->|"hacer operable"| F07
  F08 -->|"dar datos y slices"| F07
  F09 -->|"exigir evidencia"| F06
  F10 -->|"leer conducta inducida"| C01
  F07 -->|"decidir con pruebas"| C01
  F08 -->|"validar materia prima"| P2
  F09 -->|"preparar expediente"| P4
  C01 -->|"definir si merece existir"| P1
  C02 -->|"hacerlo usable y corregible"| P3
  C03 -->|"integrar entrega"| OUT
  P1 --> OUT
  P2 --> OUT
  P3 --> OUT
  P4 --> OUT

  classDef external fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef chapter fill:#fff,stroke:#111,color:#111;
  classDef lab fill:#111,stroke:#111,color:#fff;
  classDef artifact fill:#fff,stroke:#111,stroke-width:1.5px,color:#111;
  classDef decision fill:#fff,stroke:#111,stroke-width:2px,color:#111;

El mapa final responde a tres preguntas. Qué hereda este cierre: fundamentos, herramientas, operación, evaluación, datos, gobernanza y refuerzo. Qué enseña: convertir todo eso en decisión de producto. Dónde se reutiliza después: en cualquier proyecto donde haya que defender una función de IA ante usuarios, ingeniería, negocio o revisión.

Anatomía del paquete final

El paquete final no es una carpeta de informes sueltos. Es una cadena de decisión. Cada pieza responde a una pregunta distinta y ninguna sustituye a las demás.

Paquete final: de idea de IA a decisión de piloto Cada bloque deja una evidencia revisable. Si falta uno, la decisión se queda coja. 1 · Problema usuario · tarea · baseline por qué IA y no workflow 2 · Evidencia eval snapshot · slices groundedness · abstención 3 · Economía coste por tarea útil sensibilidad y P95 4 · UX contrato de estados aprobación y recuperación 5 · Operación trazas · runbook · fallback SLO · rollback · owner 6 · Gobernanza privacidad · permisos retención · auditoría 7 · Piloto alcance · duración · población criterios de parada Decisión versionada pilot_limited · pilot_with_conditions · do_not_pilot · withdraw La decisión debe poder discutirse, ejecutarse y revisarse con evidencias. IA para gente curiosa / Facsímil 11 / Capítulo 03 / 686f6c61
El paquete final une producto, evidencia, economía, UX, operación, gobernanza y piloto. No intenta vender la función; intenta hacerla revisable.

Tres niveles de cierre

Hay tres formas de cerrar un proyecto de IA. Solo una es suficiente para publicar con tranquilidad.

NivelQué pareceQué le faltaQué exigiría este libro
DemoUna pantalla responde bien a tres ejemplos.No hay baseline, slices, coste, trazas ni retirada.No se considera release. Sirve para aprender o explorar.
PrototipoHay flujo, datos de prueba, prompt, RAG o tool y una evaluación inicial.Falta sensibilidad, operación, UX de recuperación y gobernanza completa.Puede pasar a revisión técnica, no a piloto con usuarios.
Piloto limitadoHay alcance, población, duración, métricas, guardrails, UX, owner, rollback y evidencias.Puede fallar, pero falla dentro de límites definidos.Es el primer nivel publicable.

Este capítulo trabaja el tercer nivel. No porque todo deba ser perfecto, sino porque un piloto serio no es “lo ponemos y ya vemos”. Un piloto serio es una hipótesis acotada: creemos que esta función mejora esta tarea, en esta población, durante esta ventana, bajo estas condiciones, y sabremos retirarla si los datos contradicen la hipótesis.

Qué debe contener una entrega defendible

Una entrega final no debería depender de una explicación oral. Si el equipo no está presente, otra persona debe poder abrir la carpeta y entender qué se propone, qué se midió, qué falta y qué decisión se toma.

PiezaArchivo del kitPregunta que responde
Decisión PRD/ADRoutput/nota_de_decision.md¿Qué problema, baseline, intervención, métrica, sensibilidad y piloto se defienden?
Readinessoutput/product_readiness_report.json¿Qué candidata pasa, cuál queda condicionada y cuál no debería pilotarse?
Decisión de productooutput/product_release_decision.md¿Cuál es el alcance recomendado y qué bloqueos existen?
Árbol de métricasoutput/metric_tree.md¿Qué métrica norte y guardrails impiden medir solo uso?
Unidad económicaoutput/unit_economics.csv¿Cuánto cuesta una tarea útil y dónde puede romperse la cuenta?
Contrato UXoutput/ux_contract.md¿Qué estados, evidencias, acciones y recuperaciones ve la persona?
Gate UXoutput/ux_release_gate.json¿La experiencia pasa, queda en revisión o bloquea?
Decisión UXoutput/ux_decision.md¿Qué cambios concretos necesita la interfaz antes del piloto?
Paquete finaloutput/final_product_packet.md¿Qué se entrega a producto, ingeniería y operación para decidir?

La carpeta buena no es la que tiene más archivos. Es la que permite tomar una decisión sin inventar contexto.

Un buen paquete final también separa tres tipos de lenguaje:

LenguajeQuién lo necesitaCómo se ve en el paquete
ProductoQuien decide prioridad, alcance y valor.Problema, usuario, baseline, métrica norte, coste por tarea útil.
IngenieríaQuien debe construir, operar y depurar.Contratos, trazas, SLO, rollback, gates, versiones y dependencias.
RevisiónQuien debe comprobar límites, privacidad y responsabilidad.Evidencias fuente, AI-BOM, permisos, retención, matriz de riesgos y condiciones.

Si una entrega solo habla uno de esos idiomas, la discusión se rompe. Producto puede aprobar algo que ingeniería no puede operar. Ingeniería puede construir algo que nadie necesita. Revisión puede pedir controles que no están conectados con el flujo real. El paquete final existe para que esas conversaciones se encuentren en los mismos artefactos.

Laboratorio

Un laboratorio, dentro de este libro, es una práctica guiada para llevar el temario a una entrega real. Este laboratorio final no te pide inventar un producto brillante. Te pide algo más profesional: evaluar una función de IA candidata y decidir si puede pasar a piloto.

Los dos retos se leen como una única historia. En el primero decides si la función merece piloto desde producto, evidencia y coste. En el segundo decides si la experiencia visible permite usarla sin perder control. Si separas esas dos decisiones, el sistema queda incompleto: una función con métricas buenas puede ser peligrosa si la UX no deja corregir; una UX preciosa no salva una función sin evidencia.

Vamos a trabajar con una función concreta:

Un asistente interno que ayuda a personal académico a revisar solicitudes de matrícula, recuperar normativa, redactar una respuesta sustentada y escalar casos incompletos.

Toca temas de todo el libro:

TemaDónde lo vimos
AI-fit y alternativa sin IAF11.01 y F04.01.
RAG y evidenciaF04.09 y F07.03.
Tools y permisosF05.03 y F05.08.
Trazas, SLO y release gatesF06.02, F06.06 y F06.10.
Datos, sesgos y calidadF08.01 a F08.06.
Gobernanza y privacidadF09.01 a F09.05.
Política y recompensaF10.01 a F10.04.
UX, control y recuperaciónF11.02.

Ruta del kit:

kit/

Antes de ejecutar nada, abre mentalmente el expediente. Un equipo profesional no empieza por el script: empieza por leer qué se está intentando publicar, qué política gobierna la salida y qué evidencias hay.

Archivo de entradaQué deberías buscar
contracts/product_ai_release_policy.jsonUmbrales, bloqueos y condiciones de publicación.
data/feature_candidates.csvCandidatas, alcance, valor esperado, coste y riesgo.
data/eval_snapshot.jsonCalidad, groundedness, abstención, slices y señales de evidencia.
data/ux_review_sessions.csvEstados de interfaz, recuperación, permisos, accesibilidad y comprensión.
templates/ai_product_decision.mdEstructura de decisión que tendrás que completar.
templates/ux_contract.mdContrato de experiencia que tendrás que volver verificable.

Ejecuta:

# Descomprime el ZIP del capítulo y ejecuta estos comandos dentro de esa carpeta
python3 ops/score_product_readiness.py --write
python3 ops/review_ux_flows.py --write
cp templates/ai_product_decision.md output/nota_de_decision.md
cp templates/ux_contract.md output/ux_contract.md
python3 ops/check_student_submission.py --submission-dir solutions/reference --write --fail-on-missing

Qué produce:

ArchivoQué demuestra
output/product_readiness_report.jsonScore por valor, calidad, coste, operación y gobernanza.
output/product_release_decision.mdDecisión razonada: pilotar, condicionar o parar.
output/metric_tree.mdÁrbol de métricas para no medir solo uso.
output/unit_economics.csvCoste por tarea útil, no solo por llamada.
output/nota_de_decision.mdPlantilla PRD/ADR que debes completar con criterio propio.
output/ux_contract.mdPlantilla de contrato UX que debes completar con estados y recuperación.
output/ux_review_report.jsonRevisión de estados, recuperación, permisos y copy.
output/ux_release_gate.jsonGate máquina de UX.
output/ux_decision.mdDecisión de experiencia y cambios obligatorios.
output/final_product_packet.mdResumen integrador del paquete final.

Reto 1: decidir si una función de IA merece piloto

Contexto

Tu equipo recibe una propuesta: añadir un asistente de IA al flujo de solicitudes de matrícula. El problema real no es “poner un asistente”. El problema es reducir tiempo de resolución sin perder evidencia, privacidad ni control operativo.

Este reto usa una tensión muy habitual. La función parece razonable: hay normativa, casos repetidos, mucho texto y presión operativa. Pero esas mismas razones pueden engañarnos. Que una tarea tenga texto no significa que necesite IA. Que un asistente responda con buen tono no significa que esté sustentado. Que el coste por llamada sea bajo no significa que el coste por caso resuelto sea aceptable.

Objetivo

Construir una decisión de producto que pueda leer dirección de ingeniería, producto y docencia. Debe decir qué se publica, con qué alcance, con qué métricas y por qué.

Temas que usa

TemaDónde aparece
Baseline y AI-fitF11.01 y F04.01.
Evaluación y slicesF07.01, F07.03 y F08.05.
Coste por tarea útilF04.03, F06.05 y F11.01.
Release gateF06.06 y F09.05.
Piloto limitadoF06.07 y F11.01.

Enunciado

  1. Lee data/feature_candidates.csv, data/eval_snapshot.json y contracts/product_ai_release_policy.json.
  2. Ejecuta ops/score_product_readiness.py --write.
  3. Revisa output/product_release_decision.md.
  4. Completa templates/ai_product_decision.md como nota_de_decision.md.
  5. Explica si la función pasa a piloto, queda condicionada o debe parar.
  6. Calcula qué variable rompe antes la decisión: coste, calidad, slice, trazas o UX.
  7. Ajusta un umbral de la política y explica qué cambia.

Resolución paso a paso

Primero lee la propuesta como si no existiera IA. ¿Qué tarea resuelve? ¿Qué alternativa sin IA compite? Después mira evaluación: groundedness, abstención, éxito de tarea y coste por tarea útil. Por último, mira operación: latencia, trazas, rollback y evidencia de privacidad.

La solución modelo no acepta una función solo porque tenga buen score de respuesta. Exige que el valor esté conectado a una tarea concreta, que el coste sea defendible, que exista recuperación y que los riesgos principales tengan evidencia.

Para que la decisión sea defendible, escribe explícitamente el umbral de ruptura. Por ejemplo: “si el coste P95 supera 0,55 EUR o la groundedness cae por debajo de 0,85 en pagos pendientes, el piloto no escala”. Esa frase demuestra que no estás enamorándote de la demo; estás diseñando una decisión que puede cambiar con datos.

Después mira el coste como sistema, no como precio de API. La unidad relevante no es coste_por_llamada; es coste_por_tarea_util. Si una solicitud necesita tres recuperaciones, una tool, una revisión humana y un segundo intento por falta de fuente, el coste real no cabe en una tabla de precios del proveedor. El laboratorio fuerza esa lectura porque una función barata por token puede ser cara por caso resuelto.

Por último, escribe una decisión con verbo. No “la función es prometedora”, sino “pasa a piloto limitado”, “pasa con condiciones” o “no pasa todavía”. Cada verbo debe arrastrar alcance, duración, población, owner, métricas de parada y próxima revisión.

Respuesta esperada

La entrega debe contener:

product-release-review/
  product_readiness_report.json
  product_release_decision.md
  metric_tree.md
  unit_economics.csv
  nota_de_decision.md
  final_product_packet.md

Una respuesta buena dice algo parecido a esto: “La función puede pasar a piloto limitado si se acota a solicitudes con normativa recuperable, si se mantiene revisión para casos incompletos, si el P95 de latencia no supera el umbral y si se monitoriza coste por tarea útil. No se publica como automatización completa”. Después añade plan de piloto: duración, población, responsables, métricas, guardrails y condición de retirada.

Por qué funciona

Funciona porque obliga a juntar producto, evaluación, operación y gobernanza. Un producto de IA no se valida con una demo ni con un benchmark aislado. Se valida conectando tarea, evidencia, coste, UX, datos, riesgo y capacidad de mantenimiento.

Cómo explicarlo a otra persona

No estamos preguntando si la IA “puede responder”. Estamos preguntando si ayuda a resolver una tarea real mejor que una alternativa sencilla, con coste controlado y con límites visibles.

Reto 2: diseñar la experiencia de control y recuperación

Contexto

La misma función pasa a revisión UX. El equipo descubre que una buena respuesta no basta: la pantalla debe mostrar fuentes, límites, estado, permisos, recuperación y escalado.

Aquí aparece una idea central del facsímil 11: la UX de IA no es una capa visual al final del trabajo. Es el lugar donde el sistema muestra su incertidumbre, sus límites y sus opciones de recuperación. Si la persona no puede distinguir sugerencia de acción, si no sabe de dónde sale una fuente o si no tiene una salida manual, la IA puede aumentar trabajo aunque técnicamente responda bien.

Objetivo

Construir un contrato UX y un gate de experiencia para decidir si la función se entiende y se puede corregir.

Temas que usa

TemaDónde aparece
Estados de experienciaF11.02.
Separar sugerencia, aprobación y ejecuciónF05.08 y F11.02.
Recuperación y fallbackF06.05, F06.08 y F11.02.
Trazas de interacciónF06.04 y F09.01.
Accesibilidad y comprensiónF11.02 y las guías HAX/PAIR.

Enunciado

  1. Lee data/ux_review_sessions.csv.
  2. Ejecuta ops/review_ux_flows.py --write.
  3. Revisa output/ux_decision.md y output/ux_release_gate.json.
  4. Identifica los cambios obligatorios antes de piloto.
  5. Completa templates/ux_contract.md como ux_contract.md.
  6. Ejecuta el checker contra solutions/reference.

Resolución paso a paso

El script no mide belleza visual. Mide si hay estados visibles, fuentes, acción separada de sugerencia, recuperación, accesibilidad, copy de límites y trazas. Cada sesión representa un uso concreto: caso con evidencia completa, caso con fuente incompleta, caso con permiso pendiente, caso con error recuperable y caso fuera de alcance.

La solución modelo falla cualquier experiencia que no explique límites o que permita ejecutar una acción sin separar revisión y aprobación. También penaliza que no haya camino manual cuando la IA no puede sostener la respuesta.

Completa el contrato UX como si lo fuera a leer una persona de ingeniería. No basta con “mostrar error”. Especifica state_id, entrada, salida, copy exacto, acciones bloqueadas, evento de traza, tarjeta de aprobación y criterio de recuperación. La interfaz es parte del sistema; si no se puede especificar, no se puede probar.

Una buena revisión UX separa cinco estados mínimos:

EstadoQué debe ver la personaQué debe registrar el sistema
Evidencia suficienteRespuesta, fuentes, confianza operativa y siguiente paso.Fuentes usadas, versión del prompt, decisión y coste.
Evidencia insuficienteAbstención clara y alternativa manual.Motivo de abstención, documentos recuperados y ruta de escalado.
Acción pendienteQué se propone hacer y qué requiere aprobación.Tool propuesta, argumentos, permisos y usuario que aprueba.
Error recuperableQué falló y cómo continuar sin IA.Error, fallback, tiempo de recuperación y estado final.
Fuera de alcancePor qué no se puede resolver en este flujo.Categoría, derivación y evento para mejorar cobertura.

Respuesta esperada

ux-release-review/
  ux_review_report.json
  ux_release_gate.json
  ux_contract.md
  ux_decision.md
  final_product_packet.md

Una entrega buena no dice “mejorar UX” en abstracto. Dice qué estado falta, qué texto debe cambiar, qué botón separa sugerencia de acción, qué traza se guarda y qué métrica comprobará que la recuperación funciona.

Por qué funciona

Funciona porque trata UX como ingeniería del comportamiento visible. La persona no ve embeddings, gates, prompts ni políticas de privacidad. Ve una pantalla que le permite entender, corregir y decidir. Si esa pantalla no existe, el sistema no está completo.

Cómo explicarlo a otra persona

Un sistema de IA publicable no solo responde bien cuando todo va bien. También ayuda cuando falta información, cuando hay que pedir permiso, cuando debe abstenerse y cuando alguien necesita corregirlo.

Cómo se evalúa la entrega final

CriterioSeñal de una entrega fuerteSeñal débil
ProblemaTarea, usuario, baseline y límite escritos sin vender IA.“Crear un asistente” como objetivo.
EvidenciaMétricas, slices y bloqueos conectados con datos del kit.Solo copiar el score final.
EconomíaCoste por tarea útil y sensibilidad explicados.Hablar solo de coste por llamada.
UXEstados, aprobación, recuperación y fallback especificados.Decir “mejorar interfaz”.
OperaciónTrazas, rollback, owner y criterio de parada.Piloto sin retirada.
GobernanzaPrivacidad, permisos y evidencias revisables.Confiar en que “está controlado”.
ComunicaciónDecisión clara: pilotar, condicionar o no pilotar.Conclusión ambigua.

Esta rúbrica es deliberadamente práctica. El objetivo es que alguien pueda llevarla a un proyecto interno y usarla como lista de revisión antes de enseñar una función de IA a usuarios reales.

La forma más dura de corregir este laboratorio es pedir una defensa oral de cinco minutos:

  1. Qué problema resuelve.
  2. Qué alternativa sin IA se comparó.
  3. Qué evidencia permite piloto.
  4. Qué condición lo pararía.
  5. Qué verá una persona cuando el sistema no pueda responder.

Si esa defensa necesita “confía en mí”, el paquete todavía no está listo.

Qué puedes construir ahora

El libro no termina en una idea general sobre IA. Termina en rutas de construcción. Si has seguido los facsímiles con calma, ya puedes elegir una línea de trabajo y convertirla en un proyecto defendible. Esta tabla está pensada como mapa de portfolio: no “cosas que sé”, sino entregables que podrías enseñar.

Ruta profesionalQué construiríasFacsímiles que la sostienenArtefacto finalCómo defenderlo
Buscador RAG serioUn sistema que indexa documentos, recupera contexto, cita fuentes, mide groundedness y separa memoria de conocimiento documental.F04, F07, F08, F09 y F11.rag_release_packet.md con evaluación, trazas, privacidad, coste y UX.“Estas preguntas se responden con estas fuentes; estas otras se abstienen”.
Agente con toolsUn asistente que propone acciones, llama tools con contrato, pide aprobación cuando toca y deja trazas revisables.F05, F06, F07, F09 y F11.agent_boundary_review.md y tool_contract_matrix.csv.“El modelo propone; el sistema autoriza; la persona aprueba lo sensible”.
Evaluación de IA generativaUna suite de casos con métricas, slices, revisión humana, errores etiquetados y gates de release.F06, F07, F08 y F11.eval_suite_report.md con umbrales, fallos y decisión.“No digo que va bien: enseño dónde pasa, dónde falla y qué decisión permite”.
Auditoría de datosUna revisión de contrato, linaje, calidad, splits, leakage, slices y drift antes de entrenar o publicar.F08, F07 y F09.data_readiness_report.json y data_release_decision.md.“La métrica no se interpreta sin procedencia, split y segmentos críticos”.
Sistema local o privadoUn despliegue con modelo, cuantización, servidor de inferencia, observabilidad, límites de contexto y plan de coste.F03, F04, F06 y F09.inference_runbook.md con capacidad, latencia y rollback.“Sé qué cabe, qué tarda, qué cuesta y cómo se degrada”.
Paquete de gobernanzaUn expediente con AI-BOM, privacidad, controles, evidencias, owners y decisión versionada.F06, F08, F09 y F11.governance_release_decision.md y evidence_package_index.md.“Cada control tiene evidencia, owner, versión y condición de revisión”.
Producto AI-fitUna función donde la IA mejora una tarea real, no una demo, con baseline, métrica, coste y experiencia de recuperación.F04, F06, F07, F10 y F11.nota_de_decision.md y ux_contract.md.“Sé por qué IA, qué mejora, qué cuesta y cuándo se retira”.
Optimización por preferenciasUn sistema que define política, recompensa, comparaciones, validación offline y límites antes de optimizar conducta.F07, F08, F10 y F11.reward_card.md, ope_decision.md y serving_decision.md.“No optimizo una señal cómoda sin comprobar la conducta inducida”.

La tabla también sirve como brújula para seguir estudiando. Si una ruta te atrae, no empieces por una herramienta. Empieza por el artefacto final: qué decisión quieres poder defender y qué evidencia necesitarías para que otra persona confíe en ella.

Una buena continuación del libro sería escoger dos rutas: una de construcción y otra de revisión. Por ejemplo, construir un RAG y auditar sus datos; o construir un agente con tools y preparar su paquete de gobernanza. La combinación importa porque la IA aplicada no se domina solo creando sistemas, sino aprendiendo a discutir sus límites.

Dónde solía tropezar yo

TropiezoPor qué ocurreAntídoto
Cerrar con una conclusión bonitaDa sensación de final.Cerrar con una entrega revisable y ejecutable.
Separar producto y evaluaciónEquipos distintos hablan idiomas distintos.Usar un paquete común: brief, métricas, UX, coste, gate y evidencias.
Llamar “piloto” a publicar sin límitesSuena prudente aunque no lo sea.Definir alcance, duración, usuarios, rollback y criterios de salida.
Olvidar retiradaPensamos solo en lanzar.Escribir cuándo se apaga, se revierte o se reemplaza la función.
No enseñar la soluciónSe confunde práctica con examen.Mostrar resolución para aprender criterio, no solo resultado.
Entregar archivos sin decisiónParece completo por volumen.Cada archivo debe responder una pregunta de release.
Separar UX del paquete finalSe trata como acabado visual.Incluir ux_contract.md y gate UX en la decisión de piloto.

Vocabulario aprendido

TérminoDefinición
Paquete finalCarpeta de evidencias, decisiones y contratos que permite revisar si una función de IA merece piloto.
Piloto limitadoPublicación acotada por población, duración, métricas, responsables, rollback y criterios de parada.
ReadinessPreparación técnica y de producto para pasar de demo a piloto con riesgos explícitos.
Gate UXRegla ejecutable que decide si la experiencia visible tiene estados, evidencia, límites y recuperación suficientes.
Nota de decisiónDocumento tipo PRD/ADR que explica problema, baseline, intervención, métricas, sensibilidad y decisión.
Unidad económicaCoste y margen por tarea útil, no solo precio por llamada o por token.
Contrato UXEspecificación de estados, acciones, evidencia, permisos, fallback, accesibilidad y trazas.
Criterio de retiradaCondición que obliga a parar, revertir o rediseñar una función ya pilotada.
Evidencia mínimaConjunto de métricas, trazas, contratos y revisiones necesarias antes de decidir.
Defensa técnicaExplicación breve que permite discutir la decisión sin depender de una demo.

Antes de pasar página

Antes de cerrar el volumen, deberías poder responder sin consultar el texto:

  1. ¿Puedes defender por qué esta función merece IA y qué alternativa sin IA compite con ella?
  2. ¿Has separado demo, prototipo, piloto limitado, publicación y retirada?
  3. ¿Tu paquete final tiene métricas, costes, UX, operación, datos y evidencias?
  4. ¿Has escrito sensibilidad, plan de piloto y criterios de parada?
  5. ¿Tu contrato UX separa sugerencia, aprobación y ejecución?
  6. ¿La persona conserva control cuando la respuesta no basta?
  7. ¿El gate puede ejecutarse sin depender de opiniones?
  8. ¿Qué slice, coste, latencia o fallo de evidencia bloquearía el avance?
  9. ¿Qué traza enseñarías si alguien pregunta por qué el sistema hizo lo que hizo?
  10. ¿Puedes explicar el sistema completo a una persona curiosa sin esconder la técnica?

Si dudas en las preguntas 1, 3 o 8, vuelve a F11.01. Si dudas en 5 o 6, vuelve a F11.02. Si dudas en 7 o 9, vuelve a F06 y F09. No es retroceder: es cerrar bien.

Para saber más

En resumen

IdeaQué debes recordar
El cierre del libro es una decisión.Todo lo aprendido sirve para decidir si un sistema merece existir.
El producto de IA es un sistema.Modelo, datos, tools, UX, operación, evaluación y gobernanza viajan juntos.
El laboratorio final es entregable.Produce informes, contratos, gates y un paquete que se puede revisar.
El piloto se diseña antes de publicar.Alcance, duración, responsables y parada forman parte de la ingeniería.
El criterio se practica.La mejor forma de entender IA es construir algo medible, limitado y defendible.

Notas

  1. International Organization for Standardization. (2019). ISO 9241-210:2019. https://www.iso.org/standard/77520.html. Consultado el 7 de junio de 2026.

  2. Amershi, S. et al. (2019). Guidelines for human-AI interaction. Proceedings of CHI 2019, 1-13. https://doi.org/10.1145/3290605.3300233.

  3. Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/. Consultado el 7 de junio de 2026.

  4. Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/. Consultado el 7 de junio de 2026.

  5. National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1. Consultado el 7 de junio de 2026.

  6. Kohavi, R. et al. (2009). Controlled experiments on the web. Data Mining and Knowledge Discovery, 18(1), 140-181. https://doi.org/10.1007/s10618-008-0114-1.

  7. Gupta, S., Ulanova, L., Bhardwaj, S., Dmitriev, P., Raff, P., & Fabijan, A. (2018). The anatomy of a large-scale experimentation platform. 2018 IEEE International Conference on Software Architecture, 1-109. https://doi.org/10.1109/ICSA.2018.00009.