Facsímil 11 · Completo

Producto, UX y cierre

Decisiones de producto, experiencia de usuario, apéndices y cierre del volumen para llevar el criterio técnico a decisiones reales.

Empezar lectura Ver índice

Contenido disponible: 3 de 3 capítulos listos
Estado editorial: Completo

Sobre esta edición

Esta página se genera desde capítulos Markdown propios del facsímil. Las fórmulas se renderizan con KaTeX, los mapas con Mermaid y las notas al pie se mantienen junto al texto para leer el facsímil como una pieza autónoma, no como una exportación del taller.

Capítulo 01

Facsímil 11 · Producto, UX y cierre

Capítulo 01: Producto con IA: problema, métrica, coste y riesgo

El último error caro

Después de diez facsímiles, ya sabemos hablar de modelos, tokens, RAG, agentes, trazas, evaluación, datos, gobernanza y refuerzo. Ahora viene una pregunta menos vistosa, pero más decisiva: ¿merece la pena construir esta función con IA?

Parece una pregunta de producto. En realidad es una pregunta de ingeniería. Una mala decisión de producto se convierte en deuda de arquitectura. Una promesa demasiado amplia se convierte en una evaluación imposible. Una experiencia sin límites se convierte en soporte, frustración y coste. Y una métrica bonita, si mide lo equivocado, empuja al equipo a mejorar justo lo que no debía mejorar.

Este facsímil cierra el libro porque la IA útil no empieza al elegir modelo. Empieza antes: cuando sabemos formular un problema, acotarlo, medirlo, operarlo y decidir cuándo no construir.

Qué no es una función de IA

Una función de IA no es un botón con una palabra moderna. Tampoco es una caja de texto libre pegada a una pantalla. Y, sobre todo, no es una excusa para no diseñar el flujo normal de trabajo.

Si el usuario ya sabe exactamente qué quiere, los datos están estructurados y la respuesta correcta sale con una consulta SQL, un modelo generativo puede añadir coste y variabilidad sin aportar valor. Si la tarea exige modificar un sistema externo, necesitas permisos, contratos, trazas y política de retorno. Si el problema es que la pantalla es confusa, un asistente conversacional puede taparlo durante una demo y empeorarlo en uso real.

Un buen criterio de producto empieza comparando alternativas:

Pregunta	Si la respuesta es sí	Posible alternativa antes de IA
¿La regla cabe en una condición clara?	La lógica es determinista.	Regla, validación, flujo guiado.
¿La consulta está en datos estructurados?	La verdad vive en tablas.	SQL, API, dashboard, filtro.
¿La tarea es clasificar pocos casos estables?	Hay etiquetas y ejemplos.	Clasificador clásico o reglas con revisión.
¿El usuario necesita decidir con evidencia?	Hay documentos o políticas.	RAG con citas y abstención.
¿El valor está en actuar?	Hay sistemas externos.	Tool con permisos y contrato.
¿El problema es navegar una interfaz mala?	La IA compensa fricción artificial.	Rediseño de flujo, formularios, defaults.

La IA entra cuando su variabilidad resuelve una variabilidad real del problema: lenguaje natural, ambigüedad razonable, evidencia dispersa, síntesis, priorización, traducción entre formatos, búsqueda semántica o asistencia en tareas donde la persona conserva criterio.

El AI-fit como contrato de producto

Llamaremos AI-fit al encaje entre necesidad, capacidad, evidencia y operación. No basta con que un modelo pueda producir una respuesta. Tiene que existir una razón para usar IA, una forma de medir mejora, una forma de limitar coste y una forma de mantener el sistema cuando cambien datos, modelo o usuario.

La norma ISO 9241-210 define el diseño centrado en las personas como un enfoque que considera usuarios, tareas y entornos durante el ciclo de vida de sistemas interactivos.¹ Traducido a IA: no diseñamos “una respuesta”; diseñamos una tarea completa donde una persona entiende qué puede pedir, qué obtiene, cuándo dudar, cómo corregir y qué queda registrado.

El NIST AI RMF propone gestionar riesgos de IA durante diseño, desarrollo, despliegue y uso mediante funciones como gobernar, mapear, medir y gestionar.² Para producto, eso significa que una idea no pasa a roadmap por sonar moderna. Pasa si podemos mapear contexto, medir calidad, gestionar límites y gobernar cambios.

El AI-fit, por tanto, tiene cinco contratos:

Contrato	Pregunta que responde	Artefacto
Problema	¿Qué tarea mejora y para quién?	Brief de producto.
Alternativa	¿Qué haríamos si no usamos IA?	Baseline explícito.
Métrica	¿Cómo sabremos si mejora?	Árbol de métricas y guardrails.
Sistema	¿Cómo se ejecuta y se observa?	Arquitectura, trazas, SLO y gates.
Decisión	¿Cuándo pilotar, limitar, retirar o no construir?	Release decision versionada.

Si falta uno, no tenemos producto con IA. Tenemos una promesa.

Fecha de corte y fuentes consultadas

Fecha de corte: 10 de junio de 2026.

Para este capítulo usamos marcos estables de diseño centrado en personas, interacción humano-IA, gestión de riesgos y experimentación de producto. Lo cambiante no es la idea de medir valor, coste y experiencia; lo cambiante son herramientas, proveedores, precios, modelos y límites de cada plataforma.

Las fuentes consultadas ese día incluyen NIST AI RMF, Microsoft HAX Toolkit y People + AI Guidebook de Google. Microsoft HAX describe herramientas para equipos que construyen productos de IA orientados a usuarios, incluyendo guías, patrones, workbook y playbook para anticipar fallos de interacción.³ Google PAIR organiza el diseño de IA alrededor de necesidades humanas, datos, modelos mentales, feedback, control y evaluación.⁴

El patrón común es simple y exigente: no diseñes una capacidad aislada; diseña una tarea, sus límites, su medición y su recuperación.

De idea a decisión: una taxonomía útil

Antes de entrar en métricas, conviene clasificar la función. No es lo mismo una sugerencia que una acción. No es lo mismo buscar evidencia que modificar un expediente. Tampoco es lo mismo ayudar a redactar que cerrar una solicitud.

Tipo de función	Qué hace	Riesgo típico	Criterio de producto
Asistencia de lectura	Resume, traduce, explica, compara.	Resumen incompleto o sin contexto.	Útil si ahorra tiempo sin esconder fuente.
Búsqueda sustentada	Recupera evidencia y responde con citas.	Cita débil, fuente caducada, abstención pobre.	Útil si mejora precisión frente a buscador.
Decisión asistida	Recomienda siguiente paso.	Confianza excesiva o sesgo por datos incompletos.	Útil si la persona conserva control.
Acción con tool	Consulta, calcula o modifica sistemas.	Permisos, payload incorrecto, coste operativo.	Útil solo con contrato y revisión.
Workflow agentic	Encadena pasos y decide orden.	Trayectoria difícil de evaluar.	Útil si el flujo variable justifica autonomía.
Optimización de política	Ajusta conducta por recompensa o feedback.	Recompensa mal especificada.	Útil si el objetivo y los límites son medibles.

Esta tabla evita una trampa habitual: llamar “agente” a todo. Producto debe elegir la intervención mínima que resuelve la tarea con suficiente calidad y coste aceptable.

Un caso completo: matrícula, normativa y respuesta sustentada

Veamos una situación concreta. Un equipo académico recibe solicitudes de matrícula con dudas repetidas: ampliaciones, pagos pendientes, plazos, excepciones y documentación que falta. El equipo quiere reducir tiempo de resolución, pero no puede perder evidencia: cada respuesta debe apoyarse en normativa vigente o en datos del expediente.

La propuesta inicial suele sonar así:

“Pongamos un asistente de IA para resolver solicitudes.”

Eso todavía no es un producto. Es una dirección. Para convertirlo en producto tenemos que comparar alternativas, medirlas y decidir qué versión merece piloto.

Opción	Qué construiríamos	Qué mejora	Qué puede salir mal	Decisión razonable
Buscador mejorado sin IA	Búsqueda textual, filtros por curso, plantillas de respuesta.	Menor coste, comportamiento estable, fácil de explicar.	La persona sigue leyendo y redactando casi todo.	Baseline obligatorio.
RAG con citas	Recuperar normativa, contestar con fuentes y salida estructurada.	Ahorra lectura y redacción sin perder evidencia.	Puede recuperar fuente débil o responder cuando debería abstenerse.	Buen candidato a piloto limitado.
Tool de cierre automático	Consultar expediente y cerrar la solicitud si parece simple.	Ahorro alto en casos repetidos.	Acción prematura, baja recuperación, peor trazabilidad si falta evidencia.	No pilotar todavía; rediseñar como propuesta revisable.

Fíjate en la diferencia. Las tres opciones hablan del mismo problema, pero no tienen el mismo riesgo ni la misma evaluación. El buscador compite contra la IA. El RAG entra si realmente mejora tiempo y evidencia. La tool de cierre automático no se rechaza porque “la IA sea mala”; se rechaza porque la acción tiene más consecuencia que la evidencia disponible.

La primera decisión madura sería:

Piloto limitado del RAG con citas para solicitudes con evidencia documental recuperable. Mantener buscador como baseline, no cerrar solicitudes automáticamente, registrar trazas, medir abstención y revisar casos incompletos.

Ese párrafo ya huele a producto. Tiene alcance, alternativa, intervención, límites y evidencia.

Decisiones malas, mejores versiones

Una forma rápida de mejorar una propuesta de IA es obligarla a decir qué tarea resuelve, qué no promete y cómo se revisa. La tabla siguiente recoge patrones que aparecen mucho en proyectos reales.

Propuesta inicial	Por qué seduce	Qué falla	Mejor versión
“Chatbot para todo el portal”	Parece flexible y fácil de vender.	No tiene tarea, métrica ni límite.	Asistente para tres tareas concretas, con rutas manuales visibles.
“Cerrar solicitudes automáticamente”	Ahorra mucho tiempo en una hoja de cálculo.	Mezcla recomendación y acción; exige evidencia muy fuerte.	Proponer cierre con justificación y aprobación humana.
“Resumen de normativa”	Demo rápida y vistosa.	Puede esconder qué fuente sostiene cada frase.	Resumen con citas, fecha de fuente y límites.
“Clasificar tickets con IA”	Parece barato y medible.	Si las etiquetas son malas, automatiza confusión.	Redefinir taxonomía, medir acuerdo y permitir revisión.
“Agente que lo haga todo”	Promete autonomía.	La trayectoria es difícil de evaluar y recuperar.	Workflow con pasos conocidos y tools autorizadas.

Este tipo de tabla no es burocracia. Es diseño de producto en modo ingeniería: transforma una intuición en una decisión revisable.

Ejemplo de fórmula: valor esperado de producto

Una cuenta útil para decidir no es perfecta, pero obliga a pensar. Esto es un ejemplo de fórmula de producto, no una ley universal: sirve para hacer explícitas hipótesis de valor, coste y riesgo antes de enamorarnos de una demo.

VE = p_{ok}\cdot V - C_{uso} - C_{ops} - C_{riesgo}

Símbolo	Qué significa	Ejemplo
$VE$	Valor esperado por uso o por tarea.	+0,42 euros por solicitud resuelta.
$p_{ok}$	Probabilidad de resultado aceptable según eval y uso real.	0,78 en casos de matrícula.
$V$	Valor si el resultado es aceptable.	1,10 euros de tiempo ahorrado.
$C_{uso}$	Coste directo por inferencia, tools, almacenamiento y red.	0,18 euros por interacción.
$C_{ops}$	Coste de operar: observabilidad, revisión, soporte y mantenimiento.	0,12 euros por interacción estimada.
$C_{riesgo}$	Coste esperado de errores relevantes.	0,14 euros por reintentos, escalado o corrección.

Con números:

VE = 0.78\cdot 1.10 - 0.18 - 0.12 - 0.14 = 0.418

El resultado no dice “publica”. Dice: hay margen si las hipótesis son reales. Ahora toca probar $p_{ok}$ , revisar el coste, acotar tareas y comprobar si los errores son reversibles.

Ejemplo de fórmula: en ingeniería de producto conviene calcular el valor por slice:

VE_s = p_{ok,s}\cdot V_s - C_{uso,s} - C_{ops,s} - C_{riesgo,s}

Símbolo	Qué añade
$s$	Segmento, slice, caso de uso o tipo de solicitud.
$p_{ok,s}$	Probabilidad de éxito en ese slice, no en promedio global.
$V_s$	Valor de resolver ese slice.
$C_{riesgo,s}$	Coste esperado si se equivoca en ese slice.

La media global puede ocultar que el producto funciona muy bien en consultas simples y muy mal en solicitudes críticas. Esa es una lección que viene de evaluación, datos y refuerzo: las decisiones no deberían apoyarse solo en promedios cómodos.

La unidad económica completa

El coste real de una función de IA no es el precio de una llamada al modelo. Esa llamada es una línea de una cuenta más amplia. Ejemplo de fórmula: en un producto con RAG, tools y revisión, el coste por tarea útil debería parecerse más a esto:

C_{tarea} = C_{modelo} + C_{retrieval} + C_{tools} + C_{obs} + C_{rev} + C_{soporte} + \frac{C_{mant}}{N}

Término	Qué incluye	Ejemplo por tarea
$C_{modelo}$	Tokens de entrada, salida, razonamiento y reintentos.	0,09 EUR
$C_{retrieval}$	Embeddings, búsqueda, reranking y almacenamiento del índice.	0,04 EUR
$C_{tools}$	Llamadas a APIs internas o servicios externos.	0,03 EUR
$C_{obs}$	Logs, métricas, trazas, almacenamiento y dashboards.	0,02 EUR
$C_{rev}$	Revisión humana esperada por probabilidad de escalado.	0,08 EUR
$C_{soporte}$	Recontactos, aclaraciones y correcciones.	0,03 EUR
$C_{mant}/N$	Mantenimiento repartido entre tareas del periodo.	0,02 EUR

Con esos números:

C_{tarea}=0.09+0.04+0.03+0.02+0.08+0.03+0.02=0.31

Esta cifra cambia la conversación. Un asistente que parece barato por llamada puede ser caro por tarea útil si necesita demasiados reintentos, revisión o soporte. Y al revés: un modelo más caro puede ser mejor producto si reduce errores, herramientas innecesarias y revisión.

La unidad económica también debe distinguir coste medio y coste de cola. Si el 80 % de solicitudes cuesta 0,18 EUR pero el 5 % complejo cuesta 2,40 EUR por retrieval, herramientas y revisión, el promedio puede ocultar el problema operativo. Por eso el gate no debería mirar solo media: debería mirar P50, P95 y coste por slice.

Análisis de sensibilidad: cuándo deja de compensar

Una unidad económica no está completa hasta que sabes qué variable la rompe. El número final tranquiliza demasiado: parece una verdad, pero normalmente es una mezcla de hipótesis. En un producto con IA, algunas hipótesis cambian rápido: el coste por token, el número de reintentos, la tasa de recuperación, la revisión humana, la latencia, la calidad del retrieval o el porcentaje de casos que realmente quedan resueltos.

La primera pregunta práctica es: qué probabilidad mínima de éxito necesito para que la función tenga sentido económico. Ejemplo de fórmula: si el valor por tarea es $V$ y los costes completos por tarea son $C_{uso}$ , $C_{ops}$ y $C_{riesgo}$ , el umbral mínimo queda:

p_{ok,min} = \frac{C_{uso}+C_{ops}+C_{riesgo}}{V}

Símbolo	Lectura de ingeniería	Ejemplo
$V$	Valor estimado de resolver una tarea correctamente.	1,10 EUR
$C_{uso}$	Modelo, retrieval, tools y observabilidad.	0,18 EUR
$C_{ops}$	Revisión humana, soporte y operación esperada.	0,12 EUR
$C_{riesgo}$	Coste esperado de errores, correcciones o retrabajo.	0,14 EUR
$p_{ok,min}$	Probabilidad mínima para no destruir valor.	0,40

Con esos números:

p_{ok,min} = \frac{0.18+0.12+0.14}{1.10}=0.40

Eso no significa que 0,41 sea suficiente para publicar. Significa que por debajo de 0,40 ni siquiera aguanta la cuenta básica. En un sistema real pediríamos más margen porque las estimaciones son imperfectas, los casos no son idénticos y la cola operativa suele aparecer tarde.

Si usamos la candidata del kit matricula_rag_assistant, cuyo coste completo estimado es 0,31 EUR por tarea y cuyo valor por tarea es 1,10 EUR:

p_{ok,min} = \frac{0.31}{1.10}=0.282

La lectura correcta es: la función tiene margen económico si mantiene calidad y coste bajo control, pero todavía debe pasar guardrails de evidencia, recuperación, privacidad y operación. La unidad económica no sustituye al release gate; lo alimenta.

Escenario	$p_{ok}$	Coste total	Valor esperado aproximado	Lectura
Base medido en el kit	0,81	0,31 EUR	0,581 EUR	Hay margen para piloto limitado si pasan los guardrails.
Coste sube por reintentos	0,81	0,55 EUR	0,341 EUR	Sigue habiendo margen, pero hay que optimizar prompts, retrieval y tools.
Calidad baja en slices críticos	0,70	0,31 EUR	0,460 EUR	El promedio puede valer; los slices deciden si se publica.
Calidad baja y coste sube	0,60	0,55 EUR	0,110 EUR	Piloto muy condicionado o rediseño antes de escalar.
Escenario de ruptura	0,50	0,70 EUR	-0,150 EUR	No compensa: la función consume más valor del que crea.

Este análisis convierte una opinión en una hipótesis falsable. En vez de decir “parece útil”, el equipo puede decir: “si el coste P95 supera 0,55 EUR o $p_{ok}$ cae por debajo de 0,70 en pagos pendientes, no escalamos”. Esa frase es ingeniería de producto: una decisión con umbral, observación y consecuencia.

Métrica norte y guardrails

Una métrica norte es útil cuando concentra una decisión de valor. Es peligrosa cuando se vuelve el único número. Goodhart resumió el problema en política monetaria: cuando una medida se convierte en objetivo, puede dejar de ser buena medida.⁵

En IA pasa constantemente. Si optimizas “uso del asistente”, puedes empujar a la gente a usarlo aunque no resuelva. Si optimizas “respuestas largas”, puedes premiar texto sin evidencia. Si optimizas “menos escalados”, puedes esconder casos que deberían revisarse.

Por eso necesitamos métricas por capas:

Capa	Métrica	Qué responde	Ejemplo de gate
Valor	Tarea completada correctamente	¿Resuelve algo real?	>= 75 % en casos críticos del dataset.
Calidad	Exactitud, groundedness, abstención	¿La respuesta está sostenida?	>= 0,85 groundedness y abstención correcta.
UX	Éxito de tarea, recuperación, claridad	¿La persona puede usarlo y corregirlo?	8 de 10 sesiones completan el flujo sin ayuda.
Coste	Euros por tarea útil	¿La unidad económica aguanta?	P95 por debajo del presupuesto definido.
Operación	Latencia, errores, fallback	¿Vive bien en producción?	P95 < 4 s, fallback probado.
Gobernanza	Evidencias, permisos, retención	¿Podemos defenderlo?	Paquete de evidencias completo.

Kohavi y coautores explican que los experimentos controlados en web exigen métricas bien definidas y protocolo para evitar conclusiones débiles.⁶ Las plataformas de experimentación a escala añaden otra lección: no basta con lanzar pruebas; hay que gestionar asignación, métricas, análisis, calidad de datos y comunicación de resultados.⁷

En funciones de IA esto es todavía más importante: una mejora en satisfacción puede esconder más coste, una reducción de tiempo puede esconder más errores, y una respuesta más rápida puede ser peor si el usuario pierde capacidad de recuperación.

Métricas buenas y antimétricas

Una métrica buena representa una tarea valiosa. Una antimétrica parece útil, pero puede empujar al sistema hacia una conducta pobre. Conviene escribir ambas antes del piloto.

Contexto	Métrica norte razonable	Antimétrica tentadora	Por qué sería peligrosa
Soporte académico	Solicitudes resueltas con evidencia suficiente y sin recontacto en 7 días.	Número de conversaciones con el asistente.	Más uso puede significar más confusión.
Documentación interna	Tiempo hasta encontrar respuesta validada.	Respuestas más largas.	Longitud no equivale a evidencia.
Ingeniería de software	Tickets clasificados correctamente con trazabilidad.	Porcentaje de tickets autoetiquetados.	Automatizar más no significa clasificar mejor.
RAG corporativo	Respuestas con cita válida y abstención correcta.	Top-k siempre lleno.	Recuperar más documentos puede añadir ruido.
Agente con tools	Tareas completadas con coste y permisos dentro de presupuesto.	Número de tools llamadas.	Más acción puede significar peor planificación.
Producto educativo	Alumnos que explican correctamente el concepto después de usarlo.	Minutos dentro de la herramienta.	Más tiempo puede ser atasco, no aprendizaje.

Esta tabla debería existir en cualquier PRD serio de IA. No hace falta que sea perfecta desde el día uno; hace falta que evite optimizar lo que se mide por comodidad.

Criterios de no construir

Una cultura sana de producto no solo sabe justificar por qué construir. Sabe justificar por qué no.

No construir si...	Por qué
La alternativa sin IA resuelve con menor coste y menor variabilidad.	La IA no es premio por modernidad.
No puedes definir tarea, usuario y contexto.	No podrás evaluar ni diseñar UX.
No hay forma de saber si la respuesta es aceptable.	Sin evaluación, solo queda opinión.
La unidad económica depende de supuestos no medidos.	El coste aparece tarde y con intereses.
El usuario no puede corregir, rechazar o escalar.	La experiencia traslada incertidumbre a la persona.
Falta trazabilidad de datos, modelo, prompt o tool.	No podrás depurar ni defender decisiones.
El caso sensible falla por slice aunque el promedio pase.	El promedio no paga las consecuencias del caso concreto.

El criterio de no construir debe estar escrito antes del piloto. Si lo escribimos después, será muy fácil mover la portería para salvar una idea que ya nos gusta.

Ejemplo defendido: no pilotar el cierre automático

Volvamos al caso de matrícula. En el kit del capítulo aparece una candidata llamada auto_close_request: una tool que cerraría solicitudes automáticamente cuando el sistema detecta un caso simple.

Sobre el papel seduce. Tiene valor esperado alto y margen útil aparente. Pero una decisión de producto no puede quedarse en “ahorra tiempo”. En los datos del kit, esta candidata falla en éxito mínimo, groundedness, abstención, recuperación UX y evidencias obligatorias. También queda por debajo en cobertura de trazas y preparación operativa.

La decisión defendible sería:

Capa	Lectura
Valor	Puede ahorrar tiempo, pero el éxito observado no alcanza el mínimo.
Calidad	Groundedness y abstención quedan por debajo del umbral.
UX	Si se equivoca, la persona no tiene recuperación suficiente.
Gobernanza	Faltan evidencias de privacidad, plan de retorno y caminos de recuperación.
Operación	Las trazas y preparación operativa no sostienen una acción automática.
Decisión	No pilotar como cierre automático. Rediseñar como “propuesta de cierre revisable”.

Esto no es una derrota del producto. Es una decisión madura. El equipo conserva el valor de la idea, pero baja el nivel de autonomía hasta que la evidencia acompañe. En vez de “la IA cierra”, la versión razonable sería: “la IA propone cierre, muestra evidencia, explica límites y una persona confirma”.

Plan de piloto: publicar poco para aprender bien

Un piloto no es una versión pequeña de producción. Es un experimento operacional con alcance, duración, población, métricas y condiciones de parada. Si no escribimos esas condiciones antes, el piloto se convierte en una demo larga: genera anécdotas, pero no una decisión.

Para el caso matricula_rag_assistant, un plan defendible podría ser:

Elemento	Decisión concreta	Por qué importa
Alcance	Solicitudes con evidencia documental recuperable y sin escritura en expediente.	Reduce ambigüedad y evita mezclar acciones de distinto riesgo.
Duración	2 semanas o 200 solicitudes, lo que ocurra antes.	Da volumen mínimo sin convertir el piloto en producción encubierta.
Población	Personal académico voluntario y usuarios internos.	Permite observar uso real con capacidad de feedback rápido.
Métrica norte	Solicitudes resueltas con evidencia suficiente y sin recontacto en 7 días.	Mide valor, no solo actividad.
Guardrails	Groundedness >= 0,85; abstención >= 0,70; recovery >= 0,75; coste <= 0,45 EUR; trace coverage >= 0,95.	Impide que una mejora aparente rompa calidad, coste u operación.
Criterios de parada	Dos ventanas consecutivas bajo umbral, coste P95 fuera de presupuesto, evidencias ausentes o aumento de recontactos.	Hace que parar sea una decisión profesional, no emocional.
Revisión	Producto, ingeniería, datos/evaluación, operación académica y privacidad.	Evita que una sola mirada confunda valor con viabilidad.

La regla de publicación debería poder escribirse como contrato:

publicar = valor\_ok \land calidad\_ok \land coste\_ok \land ux\_ok \land evidencia\_ok

Y las responsabilidades deberían quedar claras:

Rol	Responsabilidad mínima en el piloto
Producto	Definir problema, métrica norte, alcance, criterios de parada y decisión final.
Ingeniería	Implementar trazas, gates, coste por tarea, fallback y versión reproducible.
Datos / evaluación	Construir dataset de prueba, slices críticos, métricas y lectura de resultados.
UX	Revisar estados, copy, recuperación, confirmaciones y claridad de límites.
Privacidad / gobernanza	Validar permisos, retención, evidencias y revisión documental.
Operación / soporte	Medir recontactos, incidencias, escalados y carga real de trabajo.

La frase “lo probamos con usuarios” se queda corta. Una versión de ingeniería sería: “lo probamos con 200 solicitudes, sin acciones automáticas, con trazas obligatorias, umbrales publicados, revisión semanal y retirada si falla calidad, coste o recuperación”. Esa diferencia cambia la conversación.

Árbol rápido de decisión

flowchart TD
  P["¿La tarea está definida sin nombrar IA?"] -->|no| STOP1["No construir todavía<br/>redactar tarea y usuario"]
  P -->|sí| B["¿Existe baseline sin IA?"]
  B -->|no| STOP2["No construir todavía<br/>crear alternativa comparable"]
  B -->|sí| V["¿La IA mejora una métrica de valor?"]
  V -->|no| STOP3["No usar IA<br/>mantener baseline"]
  V -->|sí| G["¿Pasan calidad, coste, UX y operación?"]
  G -->|no| COND["Piloto condicionado<br/>cerrar huecos y repetir gate"]
  G -->|sí| E["¿Hay evidencias y política de retorno?"]
  E -->|no| COND
  E -->|sí| PILOT["Piloto limitado<br/>alcance, métricas y revisión"]

  classDef stop fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef go fill:#111,stroke:#111,color:#fff;
  class STOP1,STOP2,STOP3,COND stop;
  class PILOT go;

Este árbol no sustituye al análisis. Sirve para ordenar una conversación que, de otro modo, se dispersa enseguida entre modelos, demos y deseos.

Anatomía de una decisión de producto con IA

La decisión de producto con IA une problema, baseline, intervención, métrica, contratos y release. Sin esa cadena, la IA queda flotando.

Manos a la obra

Vamos a usar el kit real del facsímil 11 para puntuar funciones candidatas. El entregable no es una presentación: es una decisión de producto que puede revisar ingeniería.

Ruta:

kit/

Ejecuta:

# Descomprime el ZIP del capítulo y ejecuta estos comandos dentro de esa carpeta
python3 ops/score_product_readiness.py --write
python3 -m json.tool output/product_readiness_report.json
cat output/product_release_decision.md
cat output/metric_tree.md
cat output/unit_economics.csv
cp templates/ai_product_decision.md output/nota_de_decision.md

El kit compara tres candidatas:

Candidata	Intervención	Baseline
`matricula_rag_assistant`	RAG con citas y salida estructurada.	Buscador de normativa + plantilla manual.
`auto_close_request`	Tool con escritura directa.	Regla de estado + revisión administrativa.
`policy_search_copilot`	Búsqueda híbrida + resumen con límites.	Buscador por palabra clave.

La gracia del ejercicio es que una candidata puede tener margen económico aparente y aun así no pasar. Por ejemplo, cerrar solicitudes automáticamente puede ahorrar tiempo, pero si falla abstención, privacidad, UX o operación, no merece piloto. El producto no se decide por promesa; se decide por evidencia.

Qué deberías mirar

Archivo	Pregunta
`output/product_readiness_report.json`	¿Qué candidata pasa, cuál queda condicionada y cuál no debería pilotarse?
`output/unit_economics.csv`	¿Cuánto margen útil queda por tarea?
`output/metric_tree.md`	¿Qué métrica norte y guardrails sostienen la decisión?
`output/product_release_decision.md`	¿La decisión explica alcance, condiciones y bloqueos?
`templates/ai_product_decision.md`	¿Puedes rellenar un PRD/ADR mínimo con criterio propio?

Cómo adaptarlo a tu proyecto

Cambia data/feature_candidates.csv con tus candidatas. Mantén una fila para la alternativa sin IA o descríbela claramente en baseline. Después ajusta contracts/product_ai_release_policy.json con tus umbrales. Si usas palabras normativas como MUST, SHOULD o MAY, RFC 2119 es la referencia clásica para indicar niveles de requisito en documentos técnicos.⁸

Una entrega útil para clase o equipo debería contener:

product-release-review/
  product_readiness_report.json
  product_release_decision.md
  metric_tree.md
  unit_economics.csv
  nota_de_decision.md

nota_de_decision.md debe responder en castellano claro:

Qué función merece piloto.
Qué alternativa sin IA compite.
Qué métrica norte usarías.
Qué guardrail bloquearía la publicación.
Qué análisis de sensibilidad cambia la decisión.
Qué plan de piloto usarías.
Qué condición te haría retirar la función.

La plantilla del kit no está para rellenarla mecánicamente. Está para obligarte a escribir una decisión que otra persona pueda discutir. Si no puedes completar una sección, eso no es un fallo de redacción: es una señal de producto.

Cómo encaja todo

Este mapa responde a tres preguntas: qué hereda este capítulo, qué decisión enseña y dónde se reutiliza. La idea central es que producto no vive después de la ingeniería: define qué ingeniería merece existir.

flowchart TD
  subgraph prev["Lo que ya traemos"]
    F04["F04 · Intervención correcta<br/>prompt · RAG · tool · ajuste"]:::external
    F06["F06 · Operación<br/>contratos · SLO · gates · runbooks"]:::external
    F07["F07 · Evaluación<br/>métricas que permiten decidir"]:::external
    F08["F08 · Datos<br/>slices · experimentos · causalidad"]:::external
    F09["F09 · Gobernanza<br/>riesgo · privacidad · evidencias"]:::external
    F10["F10 · Refuerzo<br/>políticas · recompensa · consecuencias"]:::external
  end

  subgraph now["Capítulo 11.01 · Producto con IA"]
    P["problema de usuario"]:::chapter
    B["baseline sin IA"]:::chapter
    I["intervención mínima suficiente"]:::chapter
    M["métrica norte + guardrails"]:::chapter
    E["unidad económica por tarea"]:::chapter
    S["sensibilidad<br/>umbrales que rompen la cuenta"]:::chapter
    R["release decision"]:::decision
  end

  subgraph next["Lo que prepara"]
    UX["11.02 · UX<br/>control, confianza y recuperación"]:::future
    LAB["11.03 · laboratorio final<br/>paquete de producto"]:::future
    VIDA["producto vivo<br/>medir, revisar, retirar"]:::future
  end

  F04 -->|"comparar intervención"| B
  F06 -->|"definir operación"| M
  F07 -->|"medir calidad"| M
  F08 -->|"leer slices"| E
  F09 -->|"exigir evidencias"| R
  F10 -->|"pensar consecuencias"| R
  P -->|"se compara con"| B
  B -->|"elige"| I
  I -->|"se evalúa con"| M
  M -->|"alimenta"| E
  E -->|"se tensiona con"| S
  S -->|"condiciona"| R
  R -->|"diseña experiencia"| UX
  R -->|"se entrega como"| LAB
  LAB -->|"se convierte en"| VIDA

  classDef external fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef chapter fill:#fff,stroke:#111,color:#111;
  classDef decision fill:#111,stroke:#111,color:#fff;
  classDef future fill:#f7f7f7,stroke:#111,color:#111;

Vocabulario aprendido

Término	Definición
AI-fit	Encaje medible entre problema, capacidad de IA, evidencia y operación.
Baseline	Alternativa sin IA contra la que debe competir la función.
Métrica norte	Medida principal que representa valor real para usuario o negocio.
Guardrail de producto	Límite que impide mejorar una métrica rompiendo otra.
Antimétrica	Medida que parece útil pero puede incentivar una conducta equivocada.
Unidad económica	Coste completo por tarea útil, incluyendo inferencia, tools, operación y revisión.
Análisis de sensibilidad	Revisión de qué hipótesis rompen la decisión si cambian: coste, calidad, volumen o cola operativa.
Plan de piloto	Contrato de alcance, duración, población, métricas, responsables y criterios de parada.
Slice	Segmento de casos donde la función puede comportarse distinto.
Criterio de no construir	Condición documentada que evita meter IA donde no aporta.
ADR de IA	Registro breve que justifica intervención, baseline, métricas, riesgos y decisión.
Release decision	Decisión versionada de pilotar, condicionar, no publicar o retirar.

Dónde solía tropezar yo

Tropiezo	Por qué ocurre	Antídoto
Empezar por el modelo	Elegir modelo parece avanzar.	Redactar primero tarea, baseline y métrica norte.
Medir solo satisfacción	Es fácil preguntar si “gusta”.	Combinar valor, calidad, coste, operación y recuperación.
Prometer demasiado	La demo responde a casos felices.	Escribir explícitamente “no construir si...” y casos fuera de alcance.
Ignorar unidad económica	El coste por token parece pequeño.	Medir coste por tarea útil, no solo coste por llamada.
Confundir piloto con publicación	Un piloto controlado parece producción.	Definir alcance, duración, política de retorno y evidencia mínima.
Mirar solo el promedio	El promedio da tranquilidad.	Revisar slices críticos antes de decidir.

Antes de pasar página

¿Puedes explicar el problema sin nombrar IA?
¿Has escrito una alternativa sin IA que compita de verdad?
¿Tu métrica norte mide valor o solo uso?
¿Has escrito al menos una antimétrica que no quieres optimizar?
¿Qué guardrails evitarían optimizar una métrica equivocada?
¿Sabes cuánto cuesta una tarea útil completa?
¿Puedes separar coste por llamada, coste por tarea útil y coste de cola?
¿Has calculado valor esperado por slice?
¿Sabes qué variable rompe antes la unidad económica?
¿Has escrito duración, población y criterios de parada del piloto?
¿Quién revisa cada guardrail y quién decide si se continúa?
¿Tienes un criterio explícito para parar, no publicar o retirar la función?
¿Puedes conectar la decisión con evaluación, operación, UX y gobernanza?

Para saber más

Amershi, S., Weld, D., Vorvoreanu, M., Fourney, A., Nushi, B., Collisson, P., Suh, J., Iqbal, S., Bennett, P. N., Inkpen, K., Teevan, J., Kikin-Gil, R., & Horvitz, E. (2019). Guidelines for human-AI interaction. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. https://doi.org/10.1145/3290605.3300233
Bradner, S. (1997). Key words for use in RFCs to indicate requirement levels. RFC 2119. https://www.rfc-editor.org/rfc/rfc2119
Goodhart, C. A. E. (1975). Problems of monetary management: The U.K. experience. En Papers in Monetary Economics. Reserve Bank of Australia. https://www.rba.gov.au/publications/confs/1975/
Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/
Gupta, S., Ulanova, L., Bhardwaj, S., Dmitriev, P., Raff, P., & Fabijan, A. (2018). The anatomy of a large-scale experimentation platform. 2018 IEEE International Conference on Software Architecture, 1-109. https://doi.org/10.1109/ICSA.2018.00009
International Organization for Standardization. (2019). ISO 9241-210:2019. Ergonomics of human-system interaction -- Human-centred design for interactive systems. https://www.iso.org/standard/77520.html
Kohavi, R., Longbotham, R., Sommerfield, D., & Henne, R. M. (2009). Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18(1), 140-181. https://doi.org/10.1007/s10618-008-0114-1
Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1

En resumen

Idea	Qué debes recordar
Producto empieza antes del modelo.	La primera decisión técnica es saber qué problema merece IA y cuál es su baseline.
La métrica única engaña.	Necesitas valor, calidad, coste, operación, UX y gobernanza.
El coste real es por tarea útil.	Tokens, tools, revisión y mantenimiento forman la unidad económica.
La sensibilidad evita autoengaños.	Una decisión seria dice qué coste, calidad o slice la rompería.
Un piloto es un contrato.	Alcance, duración, población, métricas, responsables y parada van por escrito.
Los slices deciden más que el promedio.	Una función puede pasar globalmente y fallar donde más importa.
No construir también es criterio.	Un buen equipo sabe decir que la IA no encaja todavía.

Notas

International Organization for Standardization. (2019). ISO 9241-210:2019. Ergonomics of human-system interaction -- Human-centred design for interactive systems. https://www.iso.org/standard/77520.html. Consultado el 10 de junio de 2026. ↩
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1. Consultado el 10 de junio de 2026. ↩
Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/. Consultado el 10 de junio de 2026. ↩
Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/. Consultado el 10 de junio de 2026. ↩
Goodhart, C. A. E. (1975). Problems of monetary management: The U.K. experience. En Papers in Monetary Economics. Reserve Bank of Australia. https://www.rba.gov.au/publications/confs/1975/. Consultado el 10 de junio de 2026. ↩
Kohavi, R., Longbotham, R., Sommerfield, D., & Henne, R. M. (2009). Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18(1), 140-181. https://doi.org/10.1007/s10618-008-0114-1. ↩
Gupta, S., Ulanova, L., Bhardwaj, S., Dmitriev, P., Raff, P., & Fabijan, A. (2018). The anatomy of a large-scale experimentation platform. 2018 IEEE International Conference on Software Architecture, 1-109. https://doi.org/10.1109/ICSA.2018.00009. ↩
Bradner, S. (1997). Key words for use in RFCs to indicate requirement levels. RFC 2119. https://www.rfc-editor.org/rfc/rfc2119. ↩

Capítulo 02

Facsímil 11 · Producto, UX y cierre

Capítulo 02: UX de IA: control, confianza, recuperación y entrega

Una interfaz que cambia de humor no es una interfaz

La UX de un sistema de IA no empieza en el color del botón ni termina en una caja de chat. Empieza en una pregunta más concreta: cuando el sistema no está seguro, cuando tarda, cuando cita mal, cuando necesita permiso, cuando no tiene evidencia o cuando produce una salida incompleta, ¿qué ve la persona y qué puede hacer?

Un software clásico puede fallar, claro. Pero suele fallar dentro de estados más delimitados: error de red, campo obligatorio, permiso insuficiente, validación rota. Un sistema con IA introduce otro tipo de variabilidad: puede responder distinto ante entradas parecidas, puede sonar seguro sin estarlo, puede pedir una herramienta, puede abstenerse, puede necesitar revisión o puede mezclar evidencia correcta con una conclusión débil.

La UX de IA es la disciplina de hacer visible esa variabilidad sin convertir la pantalla en una tesis doctoral.

Qué no es confianza

Confianza no significa que el usuario “crea” al sistema. Tampoco significa decorar la respuesta con una puntuación misteriosa. Y no significa enseñar todos los detalles internos como si la transparencia total fuera automáticamente útil.

Una experiencia confiable permite calibrar expectativas. La persona entiende qué puede pedir, por qué la respuesta está sustentada, qué límites tiene, qué datos se usaron, qué acción se propone y cómo corregirla. Si el sistema debe decir “no lo sé”, lo dice sin castigar al usuario. Si necesita permisos, los pide con objeto, alcance y efecto. Si hay una acción irreversible, no la ejecuta como si fuera una sugerencia de texto.

Amershi y coautores sintetizaron guías para interacción humano-IA que cubren etapas como mostrar qué puede hacer el sistema, explicar durante la interacción, permitir corrección, apoyar aprendizaje gradual y ayudar a recuperarse de errores.¹ Microsoft HAX convierte esas guías en herramientas de diseño como workbook, patrones y playbook para planificar comportamientos de sistemas de IA.² Google People + AI Guidebook propone diseñar alrededor de necesidades humanas, datos, modelos mentales, feedback, control y evaluación.³

La lectura común es clara: una buena UX de IA no intenta que la IA parezca humana. Intenta que la persona pueda trabajar mejor con un sistema probabilístico.

Estados mínimos de una experiencia con IA

Una interfaz de IA seria debe diseñar estados, no solo respuestas.

Estado	Qué debe ver la persona	Qué debe poder hacer
Preparando	Qué tarea se está intentando resolver.	Cancelar o ajustar entrada.
Recuperando evidencia	Qué fuentes o sistemas se consultan.	Limitar, ampliar o cambiar fuente.
Generando	Que la salida aún no es definitiva.	Detener si el coste o tiempo no compensa.
Validando	Qué contrato o regla se está comprobando.	Ver motivo de fallo o repetir con cambios.
Resultado sustentado	Respuesta, evidencia, límites y siguiente paso.	Copiar, editar, citar, ejecutar o guardar.
Resultado insuficiente	Qué falta para responder bien.	Aportar dato, pedir revisión o cambiar tarea.
Acción pendiente	Qué acción se ejecutaría y con qué alcance.	Aprobar, editar payload, rechazar o delegar.
Incidencia de experiencia	Qué se rompió y qué alternativa existe.	Reintentar, usar flujo manual o contactar soporte.

La UX se vuelve ingeniería cuando cada estado tiene entrada, salida, evento de traza, copy, acción permitida y criterio de aceptación.

La UX como máquina de estados

Una forma práctica de diseñar UX de IA es tratar la interfaz como una máquina de estados. No porque todo tenga que ser rígido, sino porque cada estado obliga a responder preguntas verificables: qué sabe el sistema, qué no sabe, qué está intentando, qué puede hacer la persona y qué evento quedará registrado.

Un estado mínimo debería declararse así:

Campo	Pregunta que responde	Ejemplo
`state_id`	¿Qué momento de la interacción estamos nombrando?	`retrieving_evidence`
`entry_condition`	¿Cuándo entra el flujo en este estado?	Hay pregunta válida y permisos de lectura.
`visible_copy`	¿Qué ve la persona?	“Buscando normativa y expediente”.
`available_actions`	¿Qué puede hacer ahora?	Cancelar, limitar fuente, continuar manualmente.
`blocked_actions`	¿Qué no puede hacer todavía?	Cerrar caso, enviar respuesta definitiva.
`trace_event`	¿Qué evento se guarda?	`ux.state.entered` con `trace_id`.
`exit_condition`	¿Cuándo salimos de este estado?	Evidencia recuperada o timeout.
`acceptance_criteria`	¿Cómo sabemos que está bien diseñado?	8 de 10 usuarios entienden qué ocurre sin ayuda.

En forma de contrato, podría verse así:

state_id: insufficient_evidence
entry_condition: "retrieval devuelve menos de dos fuentes válidas o la fuente principal no cubre la pregunta"
visible_copy: "No tengo evidencia suficiente para responder con seguridad."
available_actions:
  - aportar_documento
  - cambiar_pregunta
  - escalar_revision
blocked_actions:
  - enviar_respuesta_final
  - cerrar_solicitud
trace_event:
  name: ux.insufficient_evidence_shown
  required_fields:
    - trace_id
    - user_role
    - missing_evidence_reason
    - retrieval_run_id
acceptance_criteria:
  - "la persona entiende qué falta"
  - "existe camino manual"
  - "la respuesta no se maquilla como certeza"

Esta especificación parece pequeña, pero cambia el trabajo. Ya no estamos escribiendo “hacer UX de error”. Estamos definiendo un comportamiento observable, revisable y testeable. Si mañana cambia el modelo, el contrato sigue diciendo qué debe pasar cuando la evidencia no basta.

stateDiagram-v2
  [*] --> EntradaValida
  EntradaValida --> RecuperandoEvidencia: permisos de lectura OK
  EntradaValida --> PedirPermiso: falta permiso
  PedirPermiso --> RecuperandoEvidencia: permiso aprobado
  PedirPermiso --> FlujoManual: permiso rechazado
  RecuperandoEvidencia --> EvidenciaSuficiente: fuentes válidas
  RecuperandoEvidencia --> EvidenciaInsuficiente: fuentes incompletas
  RecuperandoEvidencia --> FlujoManual: timeout o sistema externo no disponible
  EvidenciaSuficiente --> RespuestaRevisable: generar salida con citas
  EvidenciaInsuficiente --> Recuperacion: pedir dato, documento o revisión
  RespuestaRevisable --> Aprobacion: hay acción externa
  RespuestaRevisable --> GuardarBorrador: solo redacta texto
  Aprobacion --> EjecutarAccion: payload revisado
  Aprobacion --> EditarPayload: cambios necesarios
  EditarPayload --> Aprobacion
  EjecutarAccion --> [*]
  GuardarBorrador --> [*]
  Recuperacion --> [*]
  FlujoManual --> [*]

Fíjate en la separación: redactar, aprobar y ejecutar no son el mismo estado. En sistemas con tools, esa separación es una línea de seguridad operativa y también una línea de UX: la persona debe saber cuándo está leyendo una sugerencia y cuándo está a punto de cambiar un sistema real.

Calibrar confianza con números y comportamiento

La confianza se calibra con dos piezas: comportamiento del sistema y diseño visible.

Podemos modelar riesgo de experiencia de forma simple:

R_{ux}=P(error)\cdot I(error)\cdot (1 - Rec)

Símbolo	Qué significa	Ejemplo
$R_{ux}$	Riesgo de experiencia.	0,12 en un flujo revisable.
$P(error)$	Probabilidad de error observado en eval o piloto.	0,20 respuestas incompletas.
$I(error)$	Impacto del error para la tarea.	0,80 si afecta a decisión importante.
$Rec$	Capacidad de recuperación entre 0 y 1.	0,25 si la persona puede corregir rápido.

Con estos valores:

R_{ux}=0.20\cdot0.80\cdot(1-0.25)=0.12

El número no es una verdad física. Es una herramienta de conversación. Si aumenta la recuperación, baja el riesgo. Si aumenta el impacto, necesitas más control antes de publicar. Si no puedes estimar $P(error)$ , no tienes UX lista: tienes una pantalla esperando datos.

Diseño de recuperación

La recuperación debe estar diseñada antes de enseñar la función. En sistemas de IA, recuperar no es solo “volver atrás”. Puede significar:

Situación	Recuperación útil	Evidencia necesaria
Respuesta sin fuente suficiente	Mostrar hueco y pedir documento o permiso.	Contexto recuperado y razón de abstención.
JSON inválido	Reintento con schema y error visible para ingeniería.	Payload, schema, error y versión.
Acción con coste alto	Requerir aprobación y mostrar coste estimado.	Tool, payload, presupuesto y owner.
Resumen demasiado amplio	Permitir fijar secciones y nivel de detalle.	Documento original y prompt de resumen.
Recomendación con baja confianza	Presentar opciones y criterio, no una única salida.	Score, umbral y explicación breve.
Datos sensibles en entrada	Redactar, avisar y registrar política aplicada.	Política de privacidad y traza redaccionada.

El capítulo 05 del facsímil de agentes ya trabajó permisos; el facsímil 09 trabajó privacidad y evidencias. Aquí lo unimos desde el punto de vista de la persona: no basta con que haya un control en backend; tiene que existir un camino comprensible para usarlo.

Tarjeta de aprobación: cuando la IA propone una acción

La tarjeta de aprobación es una pieza central en productos con IA que pueden actuar. Su objetivo no es poner un botón de “aceptar”. Su objetivo es convertir una acción en una decisión informada.

Una tarjeta defendible debe responder:

Bloque	Qué muestra	Por qué importa
Acción propuesta	Verbo concreto, sistema afectado y objeto.	“Enviar respuesta” no es lo mismo que “cerrar expediente”.
Motivo	Por qué el sistema propone esa acción.	Evita que la acción parezca autoridad automática.
Evidencia	Fuentes, datos y límites usados.	La persona puede comprobar antes de aprobar.
Payload editable	Campos que se enviarán o modificarán.	La aprobación no debe ocultar detalles técnicos.
Alcance	Qué cambia y qué no cambia.	Reduce malentendidos sobre efectos secundarios.
Coste y latencia	Tiempo estimado, coste o consumo de presupuesto.	Hace visible el impacto operativo.
Permisos	Qué rol puede aprobar y bajo qué política.	Conecta UX con gobernanza.
Recuperación	Deshacer, corregir, escalar o registrar incidencia.	La acción no queda como callejón sin salida.

Ejemplo:

{
  "approval_card": {
    "action": "enviar_respuesta_revisada",
    "system": "gestor_solicitudes",
    "object_id": "solicitud-2026-1042",
    "reason": "la normativa recuperada cubre la pregunta y el expediente contiene justificante pendiente de revisión",
    "evidence": [
      {"source": "normativa_matricula_2026", "section": "pagos_pendientes"},
      {"source": "expediente", "field": "justificante_subido"}
    ],
    "editable_payload": {
      "response_text": "Antes de cerrar la solicitud, revise el justificante subido el 03/06.",
      "next_status": "revision_humana"
    },
    "blocked_without": ["role:coordinacion_academica", "trace_id", "evidence_visible"],
    "recovery": ["editar_texto", "pedir_mas_evidencia", "escalar_revision", "cancelar"]
  }
}

Esta tarjeta obliga a ingeniería, producto y UX a ponerse de acuerdo. Si no sabes rellenar system, object_id, evidence, editable_payload o blocked_without, la acción todavía no está lista para vivir en una interfaz.

Copy técnico: decir lo justo, no sonar seguro de más

El texto de la interfaz es parte del sistema. En IA, una frase puede calibrar o descalibrar. “He encontrado la respuesta” no significa lo mismo que “He encontrado dos fuentes que parecen sostener esta respuesta”. “No puedo ayudarte” no significa lo mismo que “Falta una fuente obligatoria para responder sin inventar”.

Situación	Copy pobre	Copy mejor
Evidencia suficiente	“Respuesta generada.”	“Respuesta basada en normativa 2026 y expediente. Revísala antes de enviar.”
Evidencia incompleta	“No se puede responder.”	“Falta una fuente que confirme el estado del pago. Puedes adjuntarla o escalar revisión.”
Baja confianza	“Quizá sea correcto.”	“La evidencia recuperada no cubre toda la pregunta. Te muestro opciones, no una conclusión final.”
Acción externa	“Aceptar.”	“Enviar respuesta al expediente” o “Cambiar estado a revisión”.
Error recuperable	“Error.”	“No se pudo consultar pagos. Puedes reintentar, continuar manualmente o guardar la respuesta como pendiente.”

El patrón es sencillo: verbo concreto, objeto concreto, límite concreto y siguiente paso concreto. En productos profesionales, el copy no debe tranquilizar artificialmente. Debe permitir decidir.

Accesibilidad y carga cognitiva

Diseñar UX de IA también implica diseñar para personas con distintos niveles de atención, contexto, cansancio, visión, experiencia técnica o familiaridad con el sistema. WCAG 2.2 ofrece criterios de accesibilidad para contenido web, interacción por teclado, contraste, foco visible, identificación de errores y ayuda en entradas.⁴

En IA hay una capa adicional: carga cognitiva por incertidumbre. La persona no solo interpreta una interfaz; interpreta un sistema que puede equivocarse con buena gramática. Por eso conviene aplicar reglas muy concretas:

Regla	Aplicación en IA
Un estado principal por pantalla	No mezclar “generando”, “validando” y “listo” sin jerarquía visual.
Evidencia antes que confianza abstracta	Mostrar fuentes y límites antes que una puntuación aislada.
Acciones irreversibles con verbo explícito	“Cerrar expediente” mejor que “Aceptar”.
Foco y teclado revisados	La aprobación, edición y cancelación deben ser operables sin ratón.
Mensajes de error recuperables	Todo error debe ofrecer siguiente paso, no solo diagnóstico.
Lenguaje de límites	La abstención no debe parecer avería si es comportamiento correcto.

La accesibilidad no es un anexo. Si una persona no puede percibir, navegar, entender o corregir la salida, el sistema no está listo.

Medir UX en IA

El System Usability Scale (SUS), presentado por Brooke, es una escala breve y muy extendida para medir usabilidad percibida.⁵ Estudios posteriores lo han usado y analizado en contextos comerciales y de investigación.⁶

Pero en IA necesitamos combinar SUS con métricas propias:

Métrica	Qué mide	Por qué importa
Éxito de tarea	Si la persona logra lo que venía a hacer.	Evita medir solo satisfacción.
Tiempo hasta valor	Cuánto tarda en obtener algo utilizable.	La IA puede parecer útil y ser lenta.
Corrección recuperada	Casos donde el usuario corrige y termina bien.	Mide recuperación, no solo acierto inicial.
Abstención entendida	Si el usuario comprende por qué no hay respuesta.	Evita frustración ante límites sanos.
Acción segura	Acciones aprobadas con payload entendido.	Conecta UX con permisos y operación.
Confianza calibrada	Si el usuario sabe cuándo dudar.	Reduce dependencia ciega y abandono.

Una UX buena no maximiza confianza. Maximiza confianza merecida.

Protocolo de medición para una revisión UX de IA

Una revisión útil no se limita a “cinco personas lo probaron”. Debe tener escenarios, tareas, observaciones y criterios de salida.

Pieza	Qué escribir antes de probar	Ejemplo
Escenario	Situación real que activa variabilidad.	Fuente incompleta, permiso pendiente, error recuperable.
Tarea	Acción observable que la persona debe completar.	Redactar respuesta sustentada sin cerrar expediente.
Señal principal	Qué demuestra que funcionó.	La persona identifica fuente, límite y siguiente paso.
Señal de recuperación	Qué pasa si algo no sale bien.	Cambia a flujo manual sin perder trazas.
Métrica	Cómo se mide.	Éxito, tiempo, clics, recuperación, comprensión, coste.
Criterio de salida	Qué decisión permite.	`pass`, `review`, `block`.

Ejemplo de matriz:

Escenario	Estado esperado	Acción de usuario	Gate
Evidencia completa	Resultado sustentado con fuentes.	Editar y guardar respuesta.	Pass si entiende fuente y límite.
Fuente incompleta	Abstención explicada.	Aportar documento o escalar.	Pass si no fuerza respuesta.
Permiso pendiente	Tarjeta de aprobación.	Revisar payload y rechazar o aprobar.	Pass si acción y efecto son inequívocos.
Error recuperable	Alternativa manual visible.	Reintentar o continuar manualmente.	Pass si termina tarea sin perder contexto.
Caso fuera de alcance	Derivación clara.	Cambiar tarea o escalar.	Pass si no se promete capacidad inexistente.

El kit del capítulo usa exactamente esta idea: cada fila de ux_review_sessions.csv representa un escenario, y el script comprueba si aparecen estados, evidencia, límites, separación de acción, recuperación, accesibilidad, trazas y fallback manual.

Anatomía de una pantalla de IA que se puede defender

Una pantalla de IA publicable no es solo una respuesta. Es estado visible, evidencia, límites, control, recuperación y trazas.

Manos a la obra

Convierte una función de IA en un contrato UX:

kit/templates/ux_contract.md
ux_contract.md
states.csv
recovery_paths.csv
copy_review.md
ux_gate.json

Incluye:

Pieza	Pregunta que debe responder
Estados	¿Qué ve la persona mientras el sistema trabaja?
Fuentes	¿Qué evidencia se muestra y con qué límite?
Permisos	¿Qué acciones requieren aprobación o edición?
Recuperación	¿Cómo corrige, repite, deshace o escala?
Métricas	¿Cómo medimos éxito de tarea, tiempo, recuperación y confianza calibrada?

En este repositorio tienes una plantilla en:

kit/templates/ux_contract.md

Úsala para escribir el contrato de una función concreta. Después ejecuta:

# Descomprime el ZIP del capítulo y ejecuta estos comandos dentro de esa carpeta
python3 ops/review_ux_flows.py --write
cat output/ux_decision.md
cat output/ux_release_gate.json

El script no decide si la pantalla es bonita. Decide si la experiencia tiene lo mínimo para publicarse: estados visibles, evidencia, límites, separación entre sugerencia y acción, recuperación, accesibilidad, trazas y fallback manual. Si el gate queda en review, no es un suspenso: es una lista de trabajo antes del piloto.

Cómo encaja todo

Este mapa conecta UX con producto, RAG, agentes, evaluación y privacidad. La UX no es una capa final: es donde las decisiones técnicas se vuelven visibles para quien usa el sistema.

flowchart TD
  subgraph prev["Lo que ya traemos"]
    C01["11.01 · AI-fit<br/>valor, coste y piloto"]:::external
    RAG["04.09 · RAG<br/>evidencia, citas y abstención"]:::external
    AG["05.08 · Agentes<br/>permisos y autonomía"]:::external
    CAL["07.05 · Calibración<br/>incertidumbre y umbrales"]:::external
    GOV["09.02 · Privacidad<br/>datos, memoria y trazas"]:::external
  end

  subgraph now["Capítulo 11.02 · UX de IA"]
    ST["máquina de estados<br/>qué está ocurriendo"]:::chapter
    EV["evidencia y límites<br/>por qué se sostiene"]:::chapter
    AP["tarjeta de aprobación<br/>qué acción se ejecutaría"]:::chapter
    RC["recuperación<br/>cómo corregir o escalar"]:::chapter
    MX["medición UX<br/>éxito, comprensión y control"]:::chapter
  end

  subgraph next["Lo que prepara"]
    LAB["11.03 · laboratorio final<br/>paquete de producto"]:::future
    REL["release defendible<br/>producto + UX + operación"]:::future
    VIDA["producto vivo<br/>revisar, retirar, mejorar"]:::future
  end

  C01 -->|"define alcance"| ST
  RAG -->|"aporta fuentes"| EV
  AG -->|"separa sugerir y actuar"| AP
  CAL -->|"calibra límites"| RC
  GOV -->|"exige trazas y permisos"| AP
  ST -->|"ordena pantalla"| EV
  EV -->|"habilita decisión"| AP
  AP -->|"si no procede"| RC
  RC -->|"se comprueba con"| MX
  MX -->|"alimenta"| LAB
  LAB -->|"decide"| REL
  REL -->|"entra en ciclo de"| VIDA

  classDef external fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef chapter fill:#fff,stroke:#111,color:#111;
  classDef future fill:#111,stroke:#111,color:#fff;

Dónde solía tropezar yo

Tropiezo	Por qué ocurre	Antídoto
Pensar que UX es copy final	Se deja para el final.	Diseñar estados, permisos y recuperación desde el contrato técnico.
Mostrar confianza como número absoluto sin contexto	Parece científico.	Explicar evidencia, límites y siguiente acción.
No diseñar abstención	Queremos que siempre responda.	Tratar “no hay evidencia suficiente” como un resultado válido.
Mezclar sugerencia y acción	El texto parece inocuo.	Separar generar, revisar, aprobar y ejecutar.
Medir solo SUS	SUS ayuda, pero no diagnostica todo.	Añadir éxito de tarea, recuperación, coste, latencia y trazas.

Vocabulario aprendido

Término	Definición
Estado visible	Momento de la interacción que la interfaz nombra y hace comprensible.
Recuperación	Camino para corregir, repetir, deshacer, escalar o cambiar de flujo.
Confianza calibrada	Ajuste entre expectativas del usuario y capacidad real del sistema.
Máquina de estados UX	Especificación de estados visibles, entradas, salidas, acciones permitidas y trazas.
Tarjeta de aprobación	Interfaz que convierte una acción propuesta por IA en una decisión revisable.
Copy de límites	Texto que explica alcance, evidencia faltante o incertidumbre sin sonar más seguro de lo que es.
Acción pendiente	Acción que el sistema propone pero no ejecuta hasta pasar permisos y revisión.
Métrica UX de IA	Medida de experiencia que incluye variabilidad, límites y recuperación.

Antes de pasar página

¿Puedes enumerar los estados de tu función de IA?
¿La persona ve qué evidencia sostiene la respuesta?
¿Hay un camino claro cuando la respuesta es insuficiente?
¿Las acciones externas están separadas de las sugerencias?
¿Tienes una tarjeta de aprobación con acción, evidencia, payload y recuperación?
¿El copy distingue entre certeza, evidencia parcial y abstención?
¿Mides recuperación, no solo satisfacción?
¿El usuario conserva control cuando el sistema duda?

Para saber más

Amershi, S., Weld, D., Vorvoreanu, M., Fourney, A., Nushi, B., Collisson, P., Suh, J., Iqbal, S., Bennett, P. N., Inkpen, K., Teevan, J., Kikin-Gil, R., & Horvitz, E. (2019). Guidelines for human-AI interaction. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. https://doi.org/10.1145/3290605.3300233
Brooke, J. (1996). SUS: A quick and dirty usability scale. En P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. L. McClelland (Eds.), Usability Evaluation in Industry (pp. 189-194). Taylor & Francis.
Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/
Grier, R. A., Bangor, A., Kortum, P., & Peres, S. C. (2013). The System Usability Scale: beyond standard usability testing. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 57(1), 187-191. https://doi.org/10.1177/1541931213571042
International Organization for Standardization. (2019). ISO 9241-210:2019. Ergonomics of human-system interaction -- Human-centred design for interactive systems. https://www.iso.org/standard/77520.html
Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1
World Wide Web Consortium. (2023). Web Content Accessibility Guidelines (WCAG) 2.2. https://www.w3.org/TR/WCAG22/

En resumen

Idea	Qué debes recordar
La UX de IA diseña variabilidad.	Estados, límites y recuperación importan tanto como la respuesta.
Confianza no es creer.	Es saber cuándo usar, dudar, corregir o escalar.
La acción necesita contrato.	Generar texto no es ejecutar una tool.
El copy también es ingeniería.	Verbo, objeto, límite y siguiente paso calibran mejor que una frase bonita.
Medir UX exige más que satisfacción.	Hay que medir éxito, recuperación, latencia, coste y comprensión.

Notas

Amershi, S. et al. (2019). Guidelines for human-AI interaction. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. https://doi.org/10.1145/3290605.3300233. ↩
Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/. Consultado el 7 de junio de 2026. ↩
Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/. Consultado el 7 de junio de 2026. ↩
World Wide Web Consortium. (2023). Web Content Accessibility Guidelines (WCAG) 2.2. https://www.w3.org/TR/WCAG22/. Consultado el 10 de junio de 2026. ↩
Brooke, J. (1996). SUS: A quick and dirty usability scale. En P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. L. McClelland (eds.), Usability Evaluation in Industry (pp. 189-194). Taylor & Francis. ↩
Grier, R. A., Bangor, A., Kortum, P., & Peres, S. C. (2013). The System Usability Scale: beyond standard usability testing. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 57(1), 187-191. https://doi.org/10.1177/1541931213571042. ↩

Capítulo 03

Facsímil 11 · Producto, UX y cierre

Capítulo 03: Cierre del libro y laboratorio de producto

Qué queda cuando quitamos la novedad

Llegamos al final del volumen. Si este libro ha funcionado, la IA debería parecerte menos inexplicable y más interesante. Menos “un modelo responde” y más “un sistema con datos, contratos, herramientas, evaluación, operación, experiencia y consecuencias”. Esa diferencia no es estética: cambia cómo diseñas, cómo presupuestas, cómo publicas y cómo paras una función cuando deja de sostenerse.

El objetivo no era que memorizaras nombres. Era construir criterio. Saber cuándo una neurona artificial es una suma con activación. Saber que un token no es una palabra. Saber que una búsqueda puede necesitar heurísticas, que una herramienta necesita contrato, que un agente necesita límites, que un dataset condiciona todo, que una evaluación decide algo, que una recompensa puede torcer una conducta y que una interfaz debe ayudar a la persona a trabajar con incertidumbre.

Este cierre convierte ese criterio en una entrega final: un paquete de producto para decidir si una función de IA puede pasar a piloto. No es un ejercicio de estilo. Es una simulación pequeña de una conversación real: producto quiere publicar, ingeniería pide evidencia, datos preguntan por calidad, operación pide rollback, gobernanza pide trazas y la persona usuaria necesita una experiencia que no la deje sola ante una respuesta incierta.

La pregunta final del libro no es “¿qué modelo usarías?”. La pregunta final es más incómoda y más útil:

¿Publicarías esta función, en este alcance, con estas métricas, estos costes, esta UX y estas evidencias?

Si puedes responder sin esconderte en frases generales, has empezado a pensar como alguien que construye IA de verdad.

Lo que hemos construido en el libro

Facsímil	Qué te deja	Cómo aparece en producto
01 · Cimientos	Vocabulario técnico mínimo.	No compras promesas si entiendes tokens, modelos, inferencia y error.
02 · IA clásica	Estados, búsqueda, restricciones y planificación.	Puedes modelar tareas, límites y decisiones antes del LLM.
03 · Arquitecturas	Transformers, atención, MoE, inferencia y modelos.	Eliges modelo por mecanismo y coste, no por fama.
04 · Herramientas	APIs, RAG, embeddings, local, cloud y SQL.	Diseñas la intervención adecuada.
05 · Agentes	Estado, tools, memoria, permisos y orquestación.	Separas asistencia, acción y autonomía.
06 · Operación	SLO, trazas, gates, runbooks y continuidad.	Publicas sistemas que se pueden mantener.
07 · Evaluación	Métricas, calibración, interpretabilidad y gates.	Decides con evidencia, no con impresiones.
08 · Datos	Datasets, calidad, splits, sesgos, DataOps y experimentos.	Sabes si la materia prima sostiene la función.
09 · Gobernanza	Riesgo, privacidad, cumplimiento y evidencias.	Preparas un expediente revisable.
10 · Refuerzo	Política, recompensa, preferencias y consecuencias.	Mides qué conducta induce el sistema.
11 · Producto y UX	AI-fit, control, recuperación y release.	Decides qué merece existir y cómo debe vivirse.

La lectura profesional de esta tabla no es “hemos visto muchas cosas”. Es esta: cada facsímil te permite hacer una pregunta que evita publicar por entusiasmo.

Pregunta de cierre	Dónde se aprendió	Qué evita
¿El problema necesita IA o bastaba un workflow?	F04 y F11.	Construir una demo cara para una tarea simple.
¿El modelo entiende el contexto o solo suena convincente?	F01, F03 y F07.	Confundir fluidez con calidad.
¿La información recuperada es suficiente y verificable?	F04, F07 y F08.	Responder con documentos incompletos o mal citados.
¿La tool tiene permiso real para actuar?	F05, F06 y F09.	Convertir sugerencias en cambios sin contrato.
¿El sistema deja evidencias cuando falla?	F06, F07 y F09.	Depender de relatos posteriores en vez de trazas.
¿La recompensa o métrica empuja una conducta indeseada?	F10 y F11.	Optimizar el número cómodo y perder el objetivo.
¿La persona puede entender, corregir y recuperar?	F11.	Diseñar una interfaz que parece inteligente pero no ayuda.

Fecha de corte y fuentes consultadas

Fecha de corte: 7 de junio de 2026.

Este cierre usa marcos de diseño centrado en personas, interacción humano-IA, evaluación de producto y gestión de riesgos: ISO 9241-210, guías de Amershi et al., Microsoft HAX, People + AI Guidebook de Google, NIST AI RMF y literatura sobre experimentación controlada.¹²³⁴⁵⁶

También toma una lección de las plataformas de experimentación: una decisión de producto no se sostiene solo con una métrica final; necesita instrumentación, calidad de datos, asignación, análisis y comunicación de resultados.⁷

La idea común es exigente y útil: una función de IA debe diseñarse, medirse, operarse y revisarse como sistema interactivo, no como una respuesta aislada.

Cómo encaja todo

Este mapa no intenta resumir los once facsímiles capítulo a capítulo. Está construido como un mapa de release: qué hereda el producto, qué decisiones exige y qué evidencias deja. Se lee de izquierda a derecha: primero entendemos el mecanismo, después construimos el sistema, luego lo medimos y gobernamos, y finalmente decidimos si merece vivir como producto.

flowchart LR
  subgraph know["Entender el mecanismo"]
    F01["F01 · Cimientos<br/>tokens · error · inferencia"]:::external
    F02["F02 · IA clásica<br/>búsqueda · restricciones · planificación"]:::external
    F03["F03 · Arquitecturas<br/>Transformer · MoE · serving"]:::external
  end

  subgraph build["Construir el sistema"]
    F04["F04 · Herramientas<br/>API · RAG · embeddings · SQL"]:::external
    F05["F05 · Agentes<br/>tools · memoria · permisos"]:::external
    F06["F06 · Operación<br/>SLO · trazas · gates · runbooks"]:::external
  end

  subgraph proof["Probar y limitar"]
    F07["F07 · Evaluación<br/>métricas · calibración · gates"]:::external
    F08["F08 · Datos<br/>linaje · calidad · slices · DataOps"]:::external
    F09["F09 · Gobernanza<br/>privacidad · evidencias · AI-BOM"]:::external
    F10["F10 · Refuerzo<br/>política · recompensa · consecuencias"]:::external
  end

  subgraph product["Facsímil 11 · Producto y UX"]
    C01["11.01 · AI-fit<br/>problema · métrica · coste · riesgo"]:::chapter
    C02["11.02 · UX de IA<br/>control · confianza · recuperación"]:::chapter
    C03["11.03 · Cierre<br/>paquete final · laboratorio"]:::lab
  end

  subgraph packet["Paquete final"]
    P1["nota_de_decision.md<br/>PRD/ADR de IA"]:::artifact
    P2["eval + data + cost<br/>métricas y sensibilidad"]:::artifact
    P3["ux_contract.md<br/>estados, aprobación y recuperación"]:::artifact
    P4["release_gate.json<br/>decisión ejecutable"]:::artifact
    OUT["final_product_packet.md<br/>decisión defendible"]:::decision
  end

  F01 -->|"entender bases"| F04
  F02 -->|"modelar decisión"| F05
  F03 -->|"elegir mecanismo"| F04
  F04 -->|"construir intervención"| F06
  F05 -->|"dar capacidad con límites"| F06
  F06 -->|"hacer operable"| F07
  F08 -->|"dar datos y slices"| F07
  F09 -->|"exigir evidencia"| F06
  F10 -->|"leer conducta inducida"| C01
  F07 -->|"decidir con pruebas"| C01
  F08 -->|"validar materia prima"| P2
  F09 -->|"preparar expediente"| P4
  C01 -->|"definir si merece existir"| P1
  C02 -->|"hacerlo usable y corregible"| P3
  C03 -->|"integrar entrega"| OUT
  P1 --> OUT
  P2 --> OUT
  P3 --> OUT
  P4 --> OUT

  classDef external fill:#f2f2f2,stroke:#111,stroke-dasharray:5 4,color:#111;
  classDef chapter fill:#fff,stroke:#111,color:#111;
  classDef lab fill:#111,stroke:#111,color:#fff;
  classDef artifact fill:#fff,stroke:#111,stroke-width:1.5px,color:#111;
  classDef decision fill:#fff,stroke:#111,stroke-width:2px,color:#111;

El mapa final responde a tres preguntas. Qué hereda este cierre: fundamentos, herramientas, operación, evaluación, datos, gobernanza y refuerzo. Qué enseña: convertir todo eso en decisión de producto. Dónde se reutiliza después: en cualquier proyecto donde haya que defender una función de IA ante usuarios, ingeniería, negocio o revisión.

Anatomía del paquete final

El paquete final no es una carpeta de informes sueltos. Es una cadena de decisión. Cada pieza responde a una pregunta distinta y ninguna sustituye a las demás.

El paquete final une producto, evidencia, economía, UX, operación, gobernanza y piloto. No intenta vender la función; intenta hacerla revisable.

Tres niveles de cierre

Hay tres formas de cerrar un proyecto de IA. Solo una es suficiente para publicar con tranquilidad.

Nivel	Qué parece	Qué le falta	Qué exigiría este libro
Demo	Una pantalla responde bien a tres ejemplos.	No hay baseline, slices, coste, trazas ni retirada.	No se considera release. Sirve para aprender o explorar.
Prototipo	Hay flujo, datos de prueba, prompt, RAG o tool y una evaluación inicial.	Falta sensibilidad, operación, UX de recuperación y gobernanza completa.	Puede pasar a revisión técnica, no a piloto con usuarios.
Piloto limitado	Hay alcance, población, duración, métricas, guardrails, UX, owner, rollback y evidencias.	Puede fallar, pero falla dentro de límites definidos.	Es el primer nivel publicable.

Este capítulo trabaja el tercer nivel. No porque todo deba ser perfecto, sino porque un piloto serio no es “lo ponemos y ya vemos”. Un piloto serio es una hipótesis acotada: creemos que esta función mejora esta tarea, en esta población, durante esta ventana, bajo estas condiciones, y sabremos retirarla si los datos contradicen la hipótesis.

Qué debe contener una entrega defendible

Una entrega final no debería depender de una explicación oral. Si el equipo no está presente, otra persona debe poder abrir la carpeta y entender qué se propone, qué se midió, qué falta y qué decisión se toma.

Pieza	Archivo del kit	Pregunta que responde
Decisión PRD/ADR	`output/nota_de_decision.md`	¿Qué problema, baseline, intervención, métrica, sensibilidad y piloto se defienden?
Readiness	`output/product_readiness_report.json`	¿Qué candidata pasa, cuál queda condicionada y cuál no debería pilotarse?
Decisión de producto	`output/product_release_decision.md`	¿Cuál es el alcance recomendado y qué bloqueos existen?
Árbol de métricas	`output/metric_tree.md`	¿Qué métrica norte y guardrails impiden medir solo uso?
Unidad económica	`output/unit_economics.csv`	¿Cuánto cuesta una tarea útil y dónde puede romperse la cuenta?
Contrato UX	`output/ux_contract.md`	¿Qué estados, evidencias, acciones y recuperaciones ve la persona?
Gate UX	`output/ux_release_gate.json`	¿La experiencia pasa, queda en revisión o bloquea?
Decisión UX	`output/ux_decision.md`	¿Qué cambios concretos necesita la interfaz antes del piloto?
Paquete final	`output/final_product_packet.md`	¿Qué se entrega a producto, ingeniería y operación para decidir?

La carpeta buena no es la que tiene más archivos. Es la que permite tomar una decisión sin inventar contexto.

Un buen paquete final también separa tres tipos de lenguaje:

Lenguaje	Quién lo necesita	Cómo se ve en el paquete
Producto	Quien decide prioridad, alcance y valor.	Problema, usuario, baseline, métrica norte, coste por tarea útil.
Ingeniería	Quien debe construir, operar y depurar.	Contratos, trazas, SLO, rollback, gates, versiones y dependencias.
Revisión	Quien debe comprobar límites, privacidad y responsabilidad.	Evidencias fuente, AI-BOM, permisos, retención, matriz de riesgos y condiciones.

Si una entrega solo habla uno de esos idiomas, la discusión se rompe. Producto puede aprobar algo que ingeniería no puede operar. Ingeniería puede construir algo que nadie necesita. Revisión puede pedir controles que no están conectados con el flujo real. El paquete final existe para que esas conversaciones se encuentren en los mismos artefactos.

Laboratorio

Un laboratorio, dentro de este libro, es una práctica guiada para llevar el temario a una entrega real. Este laboratorio final no te pide inventar un producto brillante. Te pide algo más profesional: evaluar una función de IA candidata y decidir si puede pasar a piloto.

Los dos retos se leen como una única historia. En el primero decides si la función merece piloto desde producto, evidencia y coste. En el segundo decides si la experiencia visible permite usarla sin perder control. Si separas esas dos decisiones, el sistema queda incompleto: una función con métricas buenas puede ser peligrosa si la UX no deja corregir; una UX preciosa no salva una función sin evidencia.

Vamos a trabajar con una función concreta:

Un asistente interno que ayuda a personal académico a revisar solicitudes de matrícula, recuperar normativa, redactar una respuesta sustentada y escalar casos incompletos.

Toca temas de todo el libro:

Tema	Dónde lo vimos
AI-fit y alternativa sin IA	F11.01 y F04.01.
RAG y evidencia	F04.09 y F07.03.
Tools y permisos	F05.03 y F05.08.
Trazas, SLO y release gates	F06.02, F06.06 y F06.10.
Datos, sesgos y calidad	F08.01 a F08.06.
Gobernanza y privacidad	F09.01 a F09.05.
Política y recompensa	F10.01 a F10.04.
UX, control y recuperación	F11.02.

Ruta del kit:

kit/

Antes de ejecutar nada, abre mentalmente el expediente. Un equipo profesional no empieza por el script: empieza por leer qué se está intentando publicar, qué política gobierna la salida y qué evidencias hay.

Archivo de entrada	Qué deberías buscar
`contracts/product_ai_release_policy.json`	Umbrales, bloqueos y condiciones de publicación.
`data/feature_candidates.csv`	Candidatas, alcance, valor esperado, coste y riesgo.
`data/eval_snapshot.json`	Calidad, groundedness, abstención, slices y señales de evidencia.
`data/ux_review_sessions.csv`	Estados de interfaz, recuperación, permisos, accesibilidad y comprensión.
`templates/ai_product_decision.md`	Estructura de decisión que tendrás que completar.
`templates/ux_contract.md`	Contrato de experiencia que tendrás que volver verificable.

Ejecuta:

# Descomprime el ZIP del capítulo y ejecuta estos comandos dentro de esa carpeta
python3 ops/score_product_readiness.py --write
python3 ops/review_ux_flows.py --write
cp templates/ai_product_decision.md output/nota_de_decision.md
cp templates/ux_contract.md output/ux_contract.md
python3 ops/check_student_submission.py --submission-dir solutions/reference --write --fail-on-missing

Qué produce:

Archivo	Qué demuestra
`output/product_readiness_report.json`	Score por valor, calidad, coste, operación y gobernanza.
`output/product_release_decision.md`	Decisión razonada: pilotar, condicionar o parar.
`output/metric_tree.md`	Árbol de métricas para no medir solo uso.
`output/unit_economics.csv`	Coste por tarea útil, no solo por llamada.
`output/nota_de_decision.md`	Plantilla PRD/ADR que debes completar con criterio propio.
`output/ux_contract.md`	Plantilla de contrato UX que debes completar con estados y recuperación.
`output/ux_review_report.json`	Revisión de estados, recuperación, permisos y copy.
`output/ux_release_gate.json`	Gate máquina de UX.
`output/ux_decision.md`	Decisión de experiencia y cambios obligatorios.
`output/final_product_packet.md`	Resumen integrador del paquete final.

Reto 1: decidir si una función de IA merece piloto

Contexto

Tu equipo recibe una propuesta: añadir un asistente de IA al flujo de solicitudes de matrícula. El problema real no es “poner un asistente”. El problema es reducir tiempo de resolución sin perder evidencia, privacidad ni control operativo.

Este reto usa una tensión muy habitual. La función parece razonable: hay normativa, casos repetidos, mucho texto y presión operativa. Pero esas mismas razones pueden engañarnos. Que una tarea tenga texto no significa que necesite IA. Que un asistente responda con buen tono no significa que esté sustentado. Que el coste por llamada sea bajo no significa que el coste por caso resuelto sea aceptable.

Objetivo

Construir una decisión de producto que pueda leer dirección de ingeniería, producto y docencia. Debe decir qué se publica, con qué alcance, con qué métricas y por qué.

Temas que usa

Tema	Dónde aparece
Baseline y AI-fit	F11.01 y F04.01.
Evaluación y slices	F07.01, F07.03 y F08.05.
Coste por tarea útil	F04.03, F06.05 y F11.01.
Release gate	F06.06 y F09.05.
Piloto limitado	F06.07 y F11.01.

Enunciado

Lee data/feature_candidates.csv, data/eval_snapshot.json y contracts/product_ai_release_policy.json.
Ejecuta ops/score_product_readiness.py --write.
Revisa output/product_release_decision.md.
Completa templates/ai_product_decision.md como nota_de_decision.md.
Explica si la función pasa a piloto, queda condicionada o debe parar.
Calcula qué variable rompe antes la decisión: coste, calidad, slice, trazas o UX.
Ajusta un umbral de la política y explica qué cambia.

Resolución paso a paso

Primero lee la propuesta como si no existiera IA. ¿Qué tarea resuelve? ¿Qué alternativa sin IA compite? Después mira evaluación: groundedness, abstención, éxito de tarea y coste por tarea útil. Por último, mira operación: latencia, trazas, rollback y evidencia de privacidad.

La solución modelo no acepta una función solo porque tenga buen score de respuesta. Exige que el valor esté conectado a una tarea concreta, que el coste sea defendible, que exista recuperación y que los riesgos principales tengan evidencia.

Para que la decisión sea defendible, escribe explícitamente el umbral de ruptura. Por ejemplo: “si el coste P95 supera 0,55 EUR o la groundedness cae por debajo de 0,85 en pagos pendientes, el piloto no escala”. Esa frase demuestra que no estás enamorándote de la demo; estás diseñando una decisión que puede cambiar con datos.

Después mira el coste como sistema, no como precio de API. La unidad relevante no es coste_por_llamada; es coste_por_tarea_util. Si una solicitud necesita tres recuperaciones, una tool, una revisión humana y un segundo intento por falta de fuente, el coste real no cabe en una tabla de precios del proveedor. El laboratorio fuerza esa lectura porque una función barata por token puede ser cara por caso resuelto.

Por último, escribe una decisión con verbo. No “la función es prometedora”, sino “pasa a piloto limitado”, “pasa con condiciones” o “no pasa todavía”. Cada verbo debe arrastrar alcance, duración, población, owner, métricas de parada y próxima revisión.

Respuesta esperada

La entrega debe contener:

product-release-review/
  product_readiness_report.json
  product_release_decision.md
  metric_tree.md
  unit_economics.csv
  nota_de_decision.md
  final_product_packet.md

Una respuesta buena dice algo parecido a esto: “La función puede pasar a piloto limitado si se acota a solicitudes con normativa recuperable, si se mantiene revisión para casos incompletos, si el P95 de latencia no supera el umbral y si se monitoriza coste por tarea útil. No se publica como automatización completa”. Después añade plan de piloto: duración, población, responsables, métricas, guardrails y condición de retirada.

Por qué funciona

Funciona porque obliga a juntar producto, evaluación, operación y gobernanza. Un producto de IA no se valida con una demo ni con un benchmark aislado. Se valida conectando tarea, evidencia, coste, UX, datos, riesgo y capacidad de mantenimiento.

Cómo explicarlo a otra persona

No estamos preguntando si la IA “puede responder”. Estamos preguntando si ayuda a resolver una tarea real mejor que una alternativa sencilla, con coste controlado y con límites visibles.

Reto 2: diseñar la experiencia de control y recuperación

Contexto

La misma función pasa a revisión UX. El equipo descubre que una buena respuesta no basta: la pantalla debe mostrar fuentes, límites, estado, permisos, recuperación y escalado.

Aquí aparece una idea central del facsímil 11: la UX de IA no es una capa visual al final del trabajo. Es el lugar donde el sistema muestra su incertidumbre, sus límites y sus opciones de recuperación. Si la persona no puede distinguir sugerencia de acción, si no sabe de dónde sale una fuente o si no tiene una salida manual, la IA puede aumentar trabajo aunque técnicamente responda bien.

Objetivo

Construir un contrato UX y un gate de experiencia para decidir si la función se entiende y se puede corregir.

Temas que usa

Tema	Dónde aparece
Estados de experiencia	F11.02.
Separar sugerencia, aprobación y ejecución	F05.08 y F11.02.
Recuperación y fallback	F06.05, F06.08 y F11.02.
Trazas de interacción	F06.04 y F09.01.
Accesibilidad y comprensión	F11.02 y las guías HAX/PAIR.

Enunciado

Lee data/ux_review_sessions.csv.
Ejecuta ops/review_ux_flows.py --write.
Revisa output/ux_decision.md y output/ux_release_gate.json.
Identifica los cambios obligatorios antes de piloto.
Completa templates/ux_contract.md como ux_contract.md.
Ejecuta el checker contra solutions/reference.

Resolución paso a paso

El script no mide belleza visual. Mide si hay estados visibles, fuentes, acción separada de sugerencia, recuperación, accesibilidad, copy de límites y trazas. Cada sesión representa un uso concreto: caso con evidencia completa, caso con fuente incompleta, caso con permiso pendiente, caso con error recuperable y caso fuera de alcance.

La solución modelo falla cualquier experiencia que no explique límites o que permita ejecutar una acción sin separar revisión y aprobación. También penaliza que no haya camino manual cuando la IA no puede sostener la respuesta.

Completa el contrato UX como si lo fuera a leer una persona de ingeniería. No basta con “mostrar error”. Especifica state_id, entrada, salida, copy exacto, acciones bloqueadas, evento de traza, tarjeta de aprobación y criterio de recuperación. La interfaz es parte del sistema; si no se puede especificar, no se puede probar.

Una buena revisión UX separa cinco estados mínimos:

Estado	Qué debe ver la persona	Qué debe registrar el sistema
Evidencia suficiente	Respuesta, fuentes, confianza operativa y siguiente paso.	Fuentes usadas, versión del prompt, decisión y coste.
Evidencia insuficiente	Abstención clara y alternativa manual.	Motivo de abstención, documentos recuperados y ruta de escalado.
Acción pendiente	Qué se propone hacer y qué requiere aprobación.	Tool propuesta, argumentos, permisos y usuario que aprueba.
Error recuperable	Qué falló y cómo continuar sin IA.	Error, fallback, tiempo de recuperación y estado final.
Fuera de alcance	Por qué no se puede resolver en este flujo.	Categoría, derivación y evento para mejorar cobertura.

Respuesta esperada

ux-release-review/
  ux_review_report.json
  ux_release_gate.json
  ux_contract.md
  ux_decision.md
  final_product_packet.md

Una entrega buena no dice “mejorar UX” en abstracto. Dice qué estado falta, qué texto debe cambiar, qué botón separa sugerencia de acción, qué traza se guarda y qué métrica comprobará que la recuperación funciona.

Por qué funciona

Funciona porque trata UX como ingeniería del comportamiento visible. La persona no ve embeddings, gates, prompts ni políticas de privacidad. Ve una pantalla que le permite entender, corregir y decidir. Si esa pantalla no existe, el sistema no está completo.

Cómo explicarlo a otra persona

Un sistema de IA publicable no solo responde bien cuando todo va bien. También ayuda cuando falta información, cuando hay que pedir permiso, cuando debe abstenerse y cuando alguien necesita corregirlo.

Cómo se evalúa la entrega final

Criterio	Señal de una entrega fuerte	Señal débil
Problema	Tarea, usuario, baseline y límite escritos sin vender IA.	“Crear un asistente” como objetivo.
Evidencia	Métricas, slices y bloqueos conectados con datos del kit.	Solo copiar el score final.
Economía	Coste por tarea útil y sensibilidad explicados.	Hablar solo de coste por llamada.
UX	Estados, aprobación, recuperación y fallback especificados.	Decir “mejorar interfaz”.
Operación	Trazas, rollback, owner y criterio de parada.	Piloto sin retirada.
Gobernanza	Privacidad, permisos y evidencias revisables.	Confiar en que “está controlado”.
Comunicación	Decisión clara: pilotar, condicionar o no pilotar.	Conclusión ambigua.

Esta rúbrica es deliberadamente práctica. El objetivo es que alguien pueda llevarla a un proyecto interno y usarla como lista de revisión antes de enseñar una función de IA a usuarios reales.

La forma más dura de corregir este laboratorio es pedir una defensa oral de cinco minutos:

Qué problema resuelve.
Qué alternativa sin IA se comparó.
Qué evidencia permite piloto.
Qué condición lo pararía.
Qué verá una persona cuando el sistema no pueda responder.

Si esa defensa necesita “confía en mí”, el paquete todavía no está listo.

Qué puedes construir ahora

El libro no termina en una idea general sobre IA. Termina en rutas de construcción. Si has seguido los facsímiles con calma, ya puedes elegir una línea de trabajo y convertirla en un proyecto defendible. Esta tabla está pensada como mapa de portfolio: no “cosas que sé”, sino entregables que podrías enseñar.

Ruta profesional	Qué construirías	Facsímiles que la sostienen	Artefacto final	Cómo defenderlo
Buscador RAG serio	Un sistema que indexa documentos, recupera contexto, cita fuentes, mide groundedness y separa memoria de conocimiento documental.	F04, F07, F08, F09 y F11.	`rag_release_packet.md` con evaluación, trazas, privacidad, coste y UX.	“Estas preguntas se responden con estas fuentes; estas otras se abstienen”.
Agente con tools	Un asistente que propone acciones, llama tools con contrato, pide aprobación cuando toca y deja trazas revisables.	F05, F06, F07, F09 y F11.	`agent_boundary_review.md` y `tool_contract_matrix.csv`.	“El modelo propone; el sistema autoriza; la persona aprueba lo sensible”.
Evaluación de IA generativa	Una suite de casos con métricas, slices, revisión humana, errores etiquetados y gates de release.	F06, F07, F08 y F11.	`eval_suite_report.md` con umbrales, fallos y decisión.	“No digo que va bien: enseño dónde pasa, dónde falla y qué decisión permite”.
Auditoría de datos	Una revisión de contrato, linaje, calidad, splits, leakage, slices y drift antes de entrenar o publicar.	F08, F07 y F09.	`data_readiness_report.json` y `data_release_decision.md`.	“La métrica no se interpreta sin procedencia, split y segmentos críticos”.
Sistema local o privado	Un despliegue con modelo, cuantización, servidor de inferencia, observabilidad, límites de contexto y plan de coste.	F03, F04, F06 y F09.	`inference_runbook.md` con capacidad, latencia y rollback.	“Sé qué cabe, qué tarda, qué cuesta y cómo se degrada”.
Paquete de gobernanza	Un expediente con AI-BOM, privacidad, controles, evidencias, owners y decisión versionada.	F06, F08, F09 y F11.	`governance_release_decision.md` y `evidence_package_index.md`.	“Cada control tiene evidencia, owner, versión y condición de revisión”.
Producto AI-fit	Una función donde la IA mejora una tarea real, no una demo, con baseline, métrica, coste y experiencia de recuperación.	F04, F06, F07, F10 y F11.	`nota_de_decision.md` y `ux_contract.md`.	“Sé por qué IA, qué mejora, qué cuesta y cuándo se retira”.
Optimización por preferencias	Un sistema que define política, recompensa, comparaciones, validación offline y límites antes de optimizar conducta.	F07, F08, F10 y F11.	`reward_card.md`, `ope_decision.md` y `serving_decision.md`.	“No optimizo una señal cómoda sin comprobar la conducta inducida”.

La tabla también sirve como brújula para seguir estudiando. Si una ruta te atrae, no empieces por una herramienta. Empieza por el artefacto final: qué decisión quieres poder defender y qué evidencia necesitarías para que otra persona confíe en ella.

Una buena continuación del libro sería escoger dos rutas: una de construcción y otra de revisión. Por ejemplo, construir un RAG y auditar sus datos; o construir un agente con tools y preparar su paquete de gobernanza. La combinación importa porque la IA aplicada no se domina solo creando sistemas, sino aprendiendo a discutir sus límites.

Dónde solía tropezar yo

Tropiezo	Por qué ocurre	Antídoto
Cerrar con una conclusión bonita	Da sensación de final.	Cerrar con una entrega revisable y ejecutable.
Separar producto y evaluación	Equipos distintos hablan idiomas distintos.	Usar un paquete común: brief, métricas, UX, coste, gate y evidencias.
Llamar “piloto” a publicar sin límites	Suena prudente aunque no lo sea.	Definir alcance, duración, usuarios, rollback y criterios de salida.
Olvidar retirada	Pensamos solo en lanzar.	Escribir cuándo se apaga, se revierte o se reemplaza la función.
No enseñar la solución	Se confunde práctica con examen.	Mostrar resolución para aprender criterio, no solo resultado.
Entregar archivos sin decisión	Parece completo por volumen.	Cada archivo debe responder una pregunta de release.
Separar UX del paquete final	Se trata como acabado visual.	Incluir `ux_contract.md` y gate UX en la decisión de piloto.

Vocabulario aprendido

Término	Definición
Paquete final	Carpeta de evidencias, decisiones y contratos que permite revisar si una función de IA merece piloto.
Piloto limitado	Publicación acotada por población, duración, métricas, responsables, rollback y criterios de parada.
Readiness	Preparación técnica y de producto para pasar de demo a piloto con riesgos explícitos.
Gate UX	Regla ejecutable que decide si la experiencia visible tiene estados, evidencia, límites y recuperación suficientes.
Nota de decisión	Documento tipo PRD/ADR que explica problema, baseline, intervención, métricas, sensibilidad y decisión.
Unidad económica	Coste y margen por tarea útil, no solo precio por llamada o por token.
Contrato UX	Especificación de estados, acciones, evidencia, permisos, fallback, accesibilidad y trazas.
Criterio de retirada	Condición que obliga a parar, revertir o rediseñar una función ya pilotada.
Evidencia mínima	Conjunto de métricas, trazas, contratos y revisiones necesarias antes de decidir.
Defensa técnica	Explicación breve que permite discutir la decisión sin depender de una demo.

Antes de pasar página

Antes de cerrar el volumen, deberías poder responder sin consultar el texto:

¿Puedes defender por qué esta función merece IA y qué alternativa sin IA compite con ella?
¿Has separado demo, prototipo, piloto limitado, publicación y retirada?
¿Tu paquete final tiene métricas, costes, UX, operación, datos y evidencias?
¿Has escrito sensibilidad, plan de piloto y criterios de parada?
¿Tu contrato UX separa sugerencia, aprobación y ejecución?
¿La persona conserva control cuando la respuesta no basta?
¿El gate puede ejecutarse sin depender de opiniones?
¿Qué slice, coste, latencia o fallo de evidencia bloquearía el avance?
¿Qué traza enseñarías si alguien pregunta por qué el sistema hizo lo que hizo?
¿Puedes explicar el sistema completo a una persona curiosa sin esconder la técnica?

Si dudas en las preguntas 1, 3 o 8, vuelve a F11.01. Si dudas en 5 o 6, vuelve a F11.02. Si dudas en 7 o 9, vuelve a F06 y F09. No es retroceder: es cerrar bien.

Para saber más

Amershi, S., Weld, D., Vorvoreanu, M., Fourney, A., Nushi, B., Collisson, P., Suh, J., Iqbal, S., Bennett, P. N., Inkpen, K., Teevan, J., Kikin-Gil, R., & Horvitz, E. (2019). Guidelines for human-AI interaction. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. https://doi.org/10.1145/3290605.3300233
Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/
Gupta, S., Ulanova, L., Bhardwaj, S., Dmitriev, P., Raff, P., & Fabijan, A. (2018). The anatomy of a large-scale experimentation platform. 2018 IEEE International Conference on Software Architecture, 1-109. https://doi.org/10.1109/ICSA.2018.00009
International Organization for Standardization. (2019). ISO 9241-210:2019. Ergonomics of human-system interaction -- Human-centred design for interactive systems. https://www.iso.org/standard/77520.html
Kohavi, R., Longbotham, R., Sommerfield, D., & Henne, R. M. (2009). Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18(1), 140-181. https://doi.org/10.1007/s10618-008-0114-1
Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1

En resumen

Idea	Qué debes recordar
El cierre del libro es una decisión.	Todo lo aprendido sirve para decidir si un sistema merece existir.
El producto de IA es un sistema.	Modelo, datos, tools, UX, operación, evaluación y gobernanza viajan juntos.
El laboratorio final es entregable.	Produce informes, contratos, gates y un paquete que se puede revisar.
El piloto se diseña antes de publicar.	Alcance, duración, responsables y parada forman parte de la ingeniería.
El criterio se practica.	La mejor forma de entender IA es construir algo medible, limitado y defendible.

Notas

International Organization for Standardization. (2019). ISO 9241-210:2019. https://www.iso.org/standard/77520.html. Consultado el 7 de junio de 2026. ↩
Amershi, S. et al. (2019). Guidelines for human-AI interaction. Proceedings of CHI 2019, 1-13. https://doi.org/10.1145/3290605.3300233. ↩
Microsoft. (2026). Human-AI eXperience Toolkit. https://www.microsoft.com/en-us/haxtoolkit/. Consultado el 7 de junio de 2026. ↩
Google PAIR. (2026). People + AI Guidebook. https://pair.withgoogle.com/guidebook/. Consultado el 7 de junio de 2026. ↩
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1. Consultado el 7 de junio de 2026. ↩
Kohavi, R. et al. (2009). Controlled experiments on the web. Data Mining and Knowledge Discovery, 18(1), 140-181. https://doi.org/10.1007/s10618-008-0114-1. ↩
Gupta, S., Ulanova, L., Bhardwaj, S., Dmitriev, P., Raff, P., & Fabijan, A. (2018). The anatomy of a large-scale experimentation platform. 2018 IEEE International Conference on Software Architecture, 1-109. https://doi.org/10.1109/ICSA.2018.00009. ↩